Prototyp-System für zukünftige Höchstleistungsrechner in der Multi-PetaFlop/s-Leistungsklasse
Zusammenfassung der Projektergebnisse
Im Europäischen Projekt PRACE-PP innerhalb des FP7 Programmes „Infrastructures INFRA-2007-2.2.2.1 - Preparatory Phase for 'Computer and Data Treatment' ESFRI Roadmap“ wurden verschiedenartige Technologien für den Einsatz in Multi-PFlop/s-Systemen analysiert und bewertet. Insgesamt wurden von PRACE zwölf Rechnerprototypen ausgewählt und von der Europäischen Kommission gefördert. Am LRZ wurde hierbei ein Prototyp zur Evaluierung hybrider Systemarchitekturen mit gemeinsamem Dateisystem installiert und mit DFG- und EU-Mitteln finanziert. Das Schwergewicht der Untersuchungen am LRZ lag in folgenden Bereichen: Untersuchung eines hybriden Systems bestehend aus Intel Nehalem-EP basierten dünnen Knoten und Nehalem-EX basierten dicken Knoten bestückt mit Akzeleratoren (Intel Larrabee, ClearSpeed Karten) in Hinblick auf die Beschaffung des europäischen Höchstleistungsrechners SuperMUC am LRZ. Performance- und Energieeffizienzmessungen. Untersuchung der Programmierbarkeit und Einsatzmöglichkeit des Prototypen für ein weitgefächertes Applikationsspektrum als General-Purpose Rechner. Evaluierung neuer Programmiersprachen und –paradigmen (RapidMind, UPC, Coarray Fortran). Verbesserung der Anwendungsleistungen durch geschickte Prozessplatzierung. Auf dem LRZ-Prototypsystem wurde insbesondere die Performance von Applikationen mit anderen Systemarchitekturen verglichen, sowie der Einfluss von „Topology-aware Scheduling“ auf die Performance von Applikationen untersucht. Auch die Intra-Node-Bandbreite und Inter-Node-Kommunikation, die I/O-Performance und die Energieeffizienz, sowie die System Management-Plattform wurden intensiv analysiert. Die Untersuchung der ClearSpeed Karten erfolgte innerhalb von PRACE in Zusammenarbeit mit CINES (Frankreich). In Kooperation mit dem Lehrstuhl Informatik 10 der TU München wurde die Programmierbarkeit von GPGPUs und Intels Larrabee Prototypen untersucht. Intel hat den ursprünglich für den Grafikbereich geplanten Larrabee-Chip allerdings nicht zur Marktreife weiterentwickelt, jedoch eine darauf aufbauende Architektur, die Intel Many Integrated Core (MIC) Architektur Xeon Phi, speziell für den HPC-Markt entwickelt. Als einer von wenigen Institutionen weltweit wurden dem LRZ hiervon verschiedene Generationen von Prozessoren als Ersatz zur Verfügung gestellt. Ein spezielles Non DisclosureAbkommen (NDA) erlaubte auch dem Regionalen Rechenzentrum Erlangen und dem Lehrstuhl Informatik 10 der TU München Zugang auf diese Prototyp-Systeme. Im Rahmen der Evaluierung der Intel MIC Architektur wurden am LRZ ausgewählte Benchmarks und Kernels der SuperMUC- und der EuroBen-Benchmark-Suite auf die Intel MIC Architektur portiert, sowie die unterschiedlichen Programmiermodelle (native mode, offload mode, MPI & OpenMP etc.) detailliert getestet. Das LRZ war federführend an der Erstellung eines Best Practice Guides für Intel Xeon Phi beteiligt und untersuchte im Rahmen von PRACE die Skalierbarkeit der geophysikalischen Applikation SeisSol. Ergebnisse der Untersuchungen wurden auf der Internationalen Supercomputing Conference SC’11, sowie Details unter striktem NDA auf einem von IBM organisierten Workshop in Montpellier präsentiert. Die Ergebnisse wurden auf einem vom LRZ veranstalteten Workshop “New Languages & Future Technology Prototypes” (http://www.prace-project.eu/PRACE-Workshop-New-Languages) präsentiert und sind in den PRACE Deliverables ausführlich dargestellt (siehe http://www.prace-project.eu/Public-Deliverables). Weiterhin sind die Ergebnisse in die Benchmarks, Verhandlungen und Vertragsgestaltung bei der Beschaffung des Höchstleistungsrechners SuperMUC eingeflossen. Aufbauend auf diesen Untersuchungen hat sich das LRZ auch entschlossen, einen Teil der Phase2 des Höchstleistungsrechners SuperMUC mit Intel MIC Akzeleratoren auszustatten. Die auf den Prototypen gewonnen Erkenntnisse und Erfahrungen werden im April 2014 in einem GPU & MIC Workshop am LRZ an potenzielle Nutzer des neuen Systems weitergegeben. Nach Abschluss der Untersuchungen wurden wesentliche Teile der beschafften Geräte einer Zweitnutzung zugeführt und hierzu in das Linux-Cluster des LRZ integriert. Aufgrund der sehr guten Betriebserfahrung wurde das System im Jahr 2011 mit Hilfe eines Großgerätesantrages von 256 auf 2080 Rechenkerne ausgebaut. Das Linux-Cluster am LRZ wird für Forschung und Lehre an der Ludwig-Maximilians-Universität München, der Technischen Universität München und anderen Hochschulen in Bayern eingesetzt. Haupteinsatzgebiete sind numerische Simulationsrechnungen in den Natur- und Ingenieurwissenschaften. Das Linux-Cluster dient zur Schließung der Lücke zwischen der an den Lehrstühlen zur Verfügung stehenden Rechenkapazität und der durch Höchstleistungsrechner wie SuperMUC erbrachten Rechenleistung.
Projektbezogene Publikationen (Auswahl)
- OMI4papps: Optimisation, Modelling and Implementation for Highly Parallel Applications. High Performance Computing in Science and Engineering Garching/Munich 2009, Springer,
Volker Weinberg, Matthias Brehm, and Iris Christadler (LRZ)
(Siehe online unter https://doi.org/10.1007/978-3-642-13872-0_5) - PRACE-PP Deliverable D6.6: Report on petascale software libraries and programming models
Giovanni Erbacci (CINECA), Carlo Cavazzoni (CINECA), Filippo Spiga (CINECA), Iris Christadler (lrz)
- (LRZ): RapidMind: Portability across Architectures and its Limitations. Facing the Multicore - Challenge I, Lecture Notes in Computer Science Volume 6310, 2010, S. 4-15
Iris Christadler, Volker Weinberg
(Siehe online unter https://doi.org/10.1007/978-3-642-16233-6_4) - Best Practice Guide - Intel Xeon Phi
Volker Weinberg (Editor) et al.
- Considering GPGPU for HPC Centers: Is It Worth the Effort? Facing the Multicore - Challenge I, Lecture Notes in Computer Science Volume 6310, 2010, S. 118-130, Springer
H. Hacker, C. Trinitis, J. Weidendorfer (TUM), M. Brehm (LRZ)
- First experiences with the Intel MIC architecture. inside Vol. 11 No. 2
Volker Weinberg, Momme Allalen
- Investigations of Intel’s many integrated core architecture at LRZ. inSiDE, Vol. 8 No. 2, Autumn 2010
O. Rivera
- Performance and Productivity of New Programming Languages. Facing the Multicore - Challenge II, Lecture Notes in Computer Science Volume 7174, 2012, S. 2435, Springer
Iris Christadler (LRZ), Giovanni Erbacci, Alan D. Simpson
- Porting existing cache-oblivious Linear Algebra HPC Modules to Larrabee Architecture. Proceedings of the 2010 ACM International Conference on Computing Frontiers, S. 91-92, ACM Digital Library, May 2010
A. Heinecke, C. Trinitis and J. Weidendorfer (TUM)
- PRACE-PP Deliverable D8.3.2: Final technical report and architecture proposal
Ramnath Sai Sagar (BSC), Jesus Labarta (BSC), Aad van der Steen (NCF), Iris Christadler (LRZ), Herbert Huber (LRZ)
- Making TifaMMy fit for Tomorrow: Towards Future Shared Memory Systems and Beyond. 2011 International Conference on High Performance Computing and Simulation (HPCS), S. 517-524. IEEE, Istanbul, Turkey, July 2011
A. Heinecke and C. Trinitis (TUM)