Scheduling adaptiver HPC-Jobs zur Navigation durch die Dunkelflaute

Antragsteller Professor Dr. Felix Wolf

Fachliche Zuordnung Rechnerarchitektur, eingebettete und massiv parallele Systeme

Förderung Förderung seit 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545608190

Projektbeschreibung

Hochleistungsrechnen (HPC) ist für Wissenschaft und Technik von entscheidender Bedeutung, und der Bedarf ist mit dem Aufkommen der künstlichen Intelligenz (KI) sprunghaft angestiegen. Steigende Stromkosten und Klimawandel drohen jedoch, die Rechenressourcen weltweit einzuschränken. Die Volatilität erneuerbarer Energien mit Schwankungen im Stundenbereich kommt erschwerend hinzu. Infolgedessen können sich HPC-Anbieter genötigt sehen, die Systemkapazität auf der Basis von Kosten und Emissionen dynamisch anzupassen oder im Lichte von Versorgungsengpässen vorübergehend einzuschränken. Diese Elastizität macht HPC-Systeme formbar (engl. malleable) – eine Eigenschaft, die man bisher nur mit bestimmten Jobklassen assoziiert hat. Formbarkeit ermöglicht Jobs, ihre Ressourcen auf Anfrage des Schedulers dynamisch anzupassen, selbst bei konstanter Systemkapazität. Während Formbarkeit bei herkömmlichen HPC-Workloads mangels technischer Unterstützung nur schleppend vorankommt, bietet das Training von KI, für das Formbarkeit leicht umgesetzt werden kann, die Chance, diese Eigenschaft in größerem Umfang zu nutzen. Außerdem können sich die Ressourcenanforderungen von KI-Trainingsjobs im Verlauf ändern, was diese als evolvierend klassifiziert. Bei Anwendungen in der Computervision beispielsweise wächst die ideale Batchgröße oft mit dem Lernfortschritt, was auf eine Umverteilung der Ressourcen zugunsten von Jobs in späteren Trainingsphasen hindeutet. Adaptive Jobs, die Gesamtheit formbarer und evolvierender Jobs, bietet sich daher für den effizienten Betrieb von Systemen mit dynamischer Kapazität geradezu an. Dieses Projekt zielt auf die Entwicklung von Scheduling-Algorithmen für adaptive Workloads auf Systemen mit variabler Kapazität. Der erste Schritt ist eine Formalisierung des Problems, einschließlich Systemmodellierung und Definition von Zielfunktionen. Wir fassen zwei Klassen von Kriterien ins Auge: system-orientierte wie Energieeffizienz und benutzerorientierte wie Dienstqualität. Der Entwurf der Algorithmen wird mit Komplexitätsanalyse, Approximationsstudien sowie der Suche nach Ober- und Unterschranken unterfüttert. Die empirische Evaluation erfolgt durch Simulation mithilfe von ElastiSim, einem Simulator für adaptive Workloads, der hier für Systeme mit variabler Kapazität erweitert wird. Um unsere Ergebnisse in realistischen Szenarien zu verwerten, implementieren wir einen einfachen Overlay-Ressourcenmanager für verteiltes Deep-Learning. Dieser Manager nutzt vorhandene Ressourcenmanager, um eine Menge Einzelknotenjobs zu orchestrieren und bei Bedarf einzelnen Trainingsjobs eine Teilmenge davon zuzuweisen. Unser primärer Use Case ist die Entwicklung eines Algorithmus, der die Effizienz verteilten Deep-Learnings auf Systemen mit variabler Kapazität optimiert, indem er die Ressourcen einzelner Lernaufgaben anpasst und untereinander verschiebt.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Frankreich

Partnerorganisation Agence Nationale de la Recherche / The French National Research Agency

Kooperationspartnerinnen / Kooperationspartner Professorin Dr. Anne Benoit; Frédéric Vivien, Ph.D.

Mitverantwortlich Dr.-Ing. Arya Mazaheri

Servicenavigation

Hauptnavigation

Scheduling adaptiver HPC-Jobs zur Navigation durch die Dunkelflaute

Zusatzinformationen

Servicenavigation

Hauptnavigation

Scheduling adaptiver HPC-Jobs zur Navigation durch die Dunkelflaute

Zusatzinformationen

Textvergrößerung und Kontrastanpassung