Prototypensystem mit innovativen Konzepten zur Steigerung der Energieeffizienz von Hochleistungsrechnern
Zusammenfassung der Projektergebnisse
Im Europäischen Projekt PRACE-1IP (http://www.prace-ri.eu/) innerhalb des FP7 Programmes „Infrastructures INFRA-2010-2.3.1 – First Implementation Phase of the European High Performance Computing (HPC) Service PRACE“ wurden neue Technologien zur Steigerung der Energieeffizienz von Multi-PFlop/s-Systemen analysiert und bewertet. Insgesamt wurden von PRACE 9 Rechnerprototypen ausgewählt und von der Europäischen Kommission gefördert. Am LRZ wurde hierbei ein Prototypsystem mit innovativen Konzepten zur Steigerung der Energieeffizienz von Hochleistungssystemen installiert. Das „direct water Cooled Linux Cluster MUniCh (CooLMUC)” wurde im ersten Halbjahr 2011 installiert. Das Schwergewicht der Arbeiten am LRZ lag in den letzten drei Jahren in folgenden Bereichen: • Die Entwicklung von Energiemonitoring- und Energieverwaltungs-Tools • Die Evaluation von „Energy-to-Solution“ für verschiedene System-Workloads • Einsatzmöglichkeiten von „Direkter Hochtemperaturwasserkühlung“ (Eingangstemperatur ≥ 40 °C) im HPC-Umfeld • Evaluation potentieller Energieeffizienzsteigerungen von Rechenzentren durch die Nutzung von Rechnerabwärme zur Gebäudeheizung (in der kalten Jahreszeit) sowie der Erzeugung von Prozesskälte mittels Adsorptionskältemaschinen (in der warmen Jahreszeit) Mit dem CooLMUC Prototypsystem wurde insbesondere der Einfluss von Wasservorlauftemperatur auf die Leckströme der CMOS-Komponenten und somit die Leistungsaufnahme der Compute-Knoten im Detail analysiert. Die Untersuchungen des Leckstromverhaltens von direkt-wassergekühlter IT-Hardware sowie des Einflusses von Hochtemperaturwasserkühlung auf die Zuverlässigkeit aller verwendeten Hardwarekomponenten wie z.B. Prozessoren, Hauptspeicher, und Chipsatz sowie Netzkomponenten erfolgten in enger Zusammenarbeit mit der Fakultät für Physik der Universität Regensburg. Im Rahmen des PRACE-1IP-Projektes wurden zusammen mit 25 europäischen Partnern Mechanismen zur effizienten Nutzung von modernen Multi-Core-Prozessoren und Beschleunigern wie beispielsweise CAPs hmpp, der PGI Accelerator Compiler Intel OpenMP und Intel Threading Building Blocks evaluiert. Die Ergebnisse dieser Arbeiten wurden auf mehreren internationalen Konferenzen präsentiert und sind in den PRACE Deliverables ausführlich dargestellt (siehe http://www.praceproject.eu/Public-Deliverables). Darüber hinaus sind die Betriebserfahrungen des LRZ mit dem CooLMUC-Prototypen direkt in den Betrieb des direkt-wassergekühlten Höchstleistungsrechners SuperMUC am LRZ eingeflossen. Um die Messwerte von unterschiedlichen Komponenten des CooLMUC Prototypensystems auszuwerten und diese dann auch den gelaufenen Programmen zuordnen zu können, wurde die Software PowerDAM (Power Data Aggregation Monitor) am LRZ entwickelt. PowerDAM ermöglichte es zum ersten Mal, den Energieverbrauch eines Programmes automatisch zu berechnen, und das Ergebnis dem Benutzer anzuzeigen. Im Rahmen einer Masterarbeit wurden ein Plug-In Framework für PowerDAM entwickelt, dass es erlaubt, andere Hochleistungsrechensysteme zu integrieren. PowerDAM wird momentan für das SIMOPEK2 Projekt weiter entwickelt, um auch Daten von der Rechenzentrumsinfrastruktur einzusammeln und verarbeiten zu können. Die modernen Prozessoren des CooLMUC verfügen über die Möglichkeit der dynamischen Frequenzskalierung, d.h. sie können ihre Taktfrequenz an den tatsächlichen Anwendungsbedarf anpassen. Auf der Basis der von PowerDAM zur Verfügung gestellten Energieverbrauchswerte konnte im Rahmen einer Masterarbeit die Variation der Prozessorfrequenz zur Verbesserung der „Energyto-Solution“ von wissenschaftlichen Anwendungen untersucht werden. Dies diente als Vorarbeit für die inzwischen am SuperMUC etablierte Funktionalität, Anwendungen automatisch zu analysieren um sie dann bei der unter Energieeffizienzaspekten optimalen Prozessorfrequenz auszuführen. Die am CooLMUC gesammelten Erfahrungen im Bereich der direkten Wasserkühlung und im System-Monitoring flossen unmittelbar in die Entwicklung des europäischen DEEP-Systems (Dynamical Exascale Entry Platform 1) ein, da hier das LRZ zusammen mit der Universität Regensburg das Arbeitspaket für Energieeffizienz leitet. So konnte unter anderem die notwendige Sensorik für das DEEP-System genauer spezifiziert werden. Das HPC-System ist seit seiner Inbetriebnahme in das Linux-Cluster des LRZ integriert. Das Linux-Cluster am LRZ wird für Forschung und Lehre an der Ludwig-Maximilians-Universität München, der Technischen Universität München und anderen Hochschulen in Bayern eingesetzt. Haupteinsatzgebiete sind numerische Simulationsrechnungen in den Natur- und Ingenieurwissenschaften. Das Linux-Cluster dient zur Schließung der Lücke zwischen der an den Lehrstühlen zur Verfügung stehenden Rechenkapazität und der durch Höchstleistungsrechner wie SuperMUC erbrachten Rechenleistung.
Projektbezogene Publikationen (Auswahl)
- Final Report on Prototypes Evaluation
Johnson L., Netzer G.
- Final Software Evaluation Report
Carlos J., Colin De Verdiere, Hautreux M., Koutsou G.
- Direct warm Water cooled Linux Cluster Munich. inSiDE Band 10, Heft 1, Juni 2012
Auweter A., Huber H.
- Green IT am Leibniz-Rechenzentrum. Akademie Aktuell, Heft 41, Ausgabe 02/2012, Juli 2012
Huber A., Auweter A.
- (2013). Monitoring Power Data: A first step towards a unified energy efficiency evaluation toolset for HPC data centers. Environmental Modelling & Software, Online, December 2013
Shoukourian, H., Wilde, T., Auweter, A., & Bode, A.
- (2013). The 4 Pillar Framework for energy efficient HPC data centers. Computer Science-Research and Development, Special Issue, July 2013, 1-11
Wilde, T., Auweter, A., & Shoukourian, H.
- A path to Energy Efficient HPC Datacenters. HPC-Wire, pp. 4 - 7, Oktober 2013
Shoukourian H., Wilde T., Auweter A., Bode A.
- Energy to solution: a new mission for parallel computing. Wolf F., Mohr B., Anmey D., (eds.): Euro-Par 2013 Parallel Processing, pp. 1 - 2, Springer Verlag Berlin, LNCS Vol. 8097, 2013
Bode A.
- SIMOPEK - Simulation and Optimization of Data Center. Inside, Vol. 11 No. 2, 2013
Wilde T., Cleese T.
- Towards a unified energy efficiency evaluation toolset: an approach and its implementation at Leibniz Supercomputing Centre (LRZ). Hilty L. M. et al. (eds), ICT4S 2013: Proceedings of the First International Conference on Information and Communication Technologies for Sustainability, pp. 276 - 281, Zürich, Februar 2013
Shoukourian H., Wilde T., Auweter A., Bode A., Piochacz P.
- “Energy Efficient HPC An Integrated View”. Building' Energy Efficient High Performance Computing: 4th Annual EE HPC WG Workshop, International Conference for High Performance Computing, Networking, Storage and Analysis, SC13, Denver U.S. Nov. 17 - 22, 2013, Proceedings
Huber, H.