MAC Experimentier- und Forschungscluster (Linux-Cluster)
Final Report Abstract
Der Cluster (nachfolgend „MAC-Cluster“ genannt) wurde im Kontext des 2008 gegründeten Munich Centre of Advanced Computing (MAC) beschafft. Im MAC arbeiteten bzw. arbeiten über 25 Arbeitsgruppen aus verschiedenen Fachrichtungen (Informatik, Mathematik, Ingenieur- und Naturwissenschaften) sowie von unterschiedlichen Einrichtungen des Forschungsstandorts München (TUM, LMU, LRZ, MPG) in zahlreichen interdisziplinären Projekten zusammen. Im Fokus stehen dabei Aspekte der methodenwissenschaftlichen HPC-Forschung – d.h., es sollen möglichst allgemein einsetzbare Verfahren im Bereich der Grundlagen des Advanced Computing (Architekturen, Algorithmen, Daten und I/O, Software) erforscht, entwickelt und an konkreten Anwendungsszenarien erprobt werden (im Sinne eines Co-Designs von Algorithmen und Anwendungen), um die Nutzbarkeit derzeitiger und zukünftiger paralleler Systeme sicherzustellen und die Effizienz deren Nutzung zu erhöhen. Im Unterschied zu den meisten anderen Beschaffungen von HPC-Clustern waren der Aufbau oder der Ausbau von Kapazität für Produktionsläufe aus den involvierten Anwendungsdomänen im vorliegenden Fall kein Ziel. Jener Bedarf wird über die allgemein zugänglichen Systeme der HPC-Pyramide (PRACE, Systeme des Gauß Centre for Supercomputing (lokal insbesondere SuperMUC am LRZ), Systeme der Gauß-Allianz (lokal insb. die Landesrechensysteme am LRZ) etc. gedeckt, und die am MAC beteiligten Anwendergruppen sind auf den genannten Systemen auch sehr aktiv als Nutzer unterwegs. Somit sind große Produktionsläufe auf dem MAC-Cluster nur für Ausnahmefälle vorgesehen. Auf dem MAC-System geht es vielmehr um Forschung „am und mit dem Parallelrechner“, also um die Erprobung neuer numerischer Algorithmen, um Vergleiche verschiedener numerischer Algorithmen, verschiedener Lastbalancierungsstrategien oder verschiedener Kommunikationsschemata; um Skalierbarkeitstests; um vorbereitende Studien zur Portierung von Simulationscodes auf neue Architekturen; sowie um Vergleiche der Leistungskennzahlen bestimmter Algorithmen oder Codes auf verschiedenen Architekturen. Derartige Aufgaben fallen in vielen Drittmittelprojekten der am MAC beteiligten Arbeitsgruppen an, sie sind jedoch typischerweise schwer zu realisieren, da einerseits Produktionssysteme zumeist Produktionsläufen vorbehalten sind, andererseits für Tests etc. verfügbare kleinere lokale Systeme die erforderlichen Skalierbarkeitsstudien nicht in die Größe ermöglichen und mittelgroße Systeme nur selten bewusst mit Prozessorfamilien verschiedener Hersteller desselben Zeitfensters bestückt sind, wie es im MAC-Cluster umgesetzt wurde. Demgemäß äußern sich die meisten erzielten Forschungsergebnisse auch nicht in neuen Erkenntnissen in bestimmten Anwendungsdomänen, sondern in signifikant verbesserten Herangehensweisen zur Nutzung moderner Many-Core-Systeme. Schließlich soll noch erwähnt werden, dass mit den Forschungsarbeiten auf dem MAC-Cluster mehrere Erfolge bei sehr kompetitiven internationalen Wettbewerben entscheidend befördert werden konnten: (1) PRACE ISC Award 2013 („591 TFLOPS Multi-Trillion Particles Simulation on SuperMUC“) – Weltrekord i.H.a. Teilchenzahl; Kooperation von TUM, LRZ, HLRS, U Paderborn, TU Kaiserslautern; beteiligte MAC-PI’s: A. Bode und H.-J. Bungartz (2) PRACE ISC Award 2014 („Sustained Petascale Performance of Seismic Simulations with SeisSol on SuperMUC“) – erste PFLOP-Nutzung durch Produktionscode auf SuperMUC; Kooperation von TUM, LMU, LRZ, Intel; beteiligte MAC-PI’s M. Bader, A. Bode, H.-J. Bungartz und H. Igel (3) Gordon-Bell- Finalist 2014 („Petascale High Order Dynamic Rupture Earthquake Simulations on Heterogeneous Supercomputers“); Kooperation von TUM, LMU, LRZ und Intel; beteiligte MAC-PI’s M. Bader, A. Bode, H. Igel (4) Supercomputing 2015, Student Cluster Competition – Erfolg des TUM-Teams TUMuchPHun (3. Platz Gesamtwertung, 1. Platz Linpack-Wertung); beteiligter MAC-PI M. Bader In allen vier Fällen fanden umfangreiche und intensive Vorbereitungsarbeiten auf dem MAC-Cluster statt – zur Optimierung auf den verschiedenen verfügbaren Prozessorfamilien.
Publications
- 591 TFLOPS multi-trillion particles simulation on SuperMUC. In Procs. Supercomputing – 28th Int’l Conf., ISC 2013, Leipzig, Germany, June 16-20, pp 1-12, Springer, Heidelberg, 2013
Eckhardt, W., Heinecke, A., Bader, R., Brehm, M., Hammer, N., Huber, H., Kleinhenz, H.G., Vrabec, J., Hasse, H., Horsch, M., Bernreuther, M., Glass C., Niethammer C, Bode A., and Bungartz, H.-J.
(See online at https://doi.org/10.1007/978-3-642-38750-0_1) - Petascale High Order Dynamic Rupture Earthquake Simulations on Heterogeneous Supercomputers. Proc. Int‘l Conf. for HPC, Networking, Storage and Analysis SC14, pp. 3–14. IEEE, New Orleans, LA, USA, 2014
A. Heinecke, A. Breuer, S. Rettenberger, M. Bader, A.-A. Gabriel, C. Pelties, A. Bode, W. Barth, X.-K. Liao, K. Vaidyanathan, M. Smelyanskiy and P. Dubey
(See online at https://doi.org/10.1109/SC.2014.6) - Sustained Petascale Performance of Seismic Simulations with SeisSol on SuperMUC. In J. Kunkel, T. Ludwig and H.W. Meuer (eds.), Supercomputing - 29th Int’l Conf., ISC 2014, LNCS 8488, pp. 1–18. Springer, Heidelberg, 2014
A. Breuer, A. Heinecke, S. Rettenberger, M. Bader, A.-A. Gabriel and C. Pelties
(See online at https://doi.org/10.1007/978-3-319-07518-1_1) - MaMiCo: Software Design for Parallel Molecular-Continuum Flow Simulations. Computer Physics Communications 200, pp. 324-335, 2016
P. Neumann, H. Flohr, R. Arora, P. Jarmatz, N. Tchipev, and H.-J. Bungartz
(See online at https://doi.org/10.1016/j.cpc.2015.10.029)