Detailseite
Scheduling adaptiver HPC-Jobs zur Navigation durch die Dunkelflaute
Antragsteller
Professor Dr. Felix Wolf
Fachliche Zuordnung
Rechnerarchitektur, eingebettete und massiv parallele Systeme
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545608190
Hochleistungsrechnen (HPC) ist für Wissenschaft und Technik von entscheidender Bedeutung, und der Bedarf ist mit dem Aufkommen der künstlichen Intelligenz (KI) sprunghaft angestiegen. Steigende Stromkosten und Klimawandel drohen jedoch, die Rechenressourcen weltweit einzuschränken. Die Volatilität erneuerbarer Energien mit Schwankungen im Stundenbereich kommt erschwerend hinzu. Infolgedessen können sich HPC-Anbieter genötigt sehen, die Systemkapazität auf der Basis von Kosten und Emissionen dynamisch anzupassen oder im Lichte von Versorgungsengpässen vorübergehend einzuschränken. Diese Elastizität macht HPC-Systeme formbar (engl. malleable) – eine Eigenschaft, die man bisher nur mit bestimmten Jobklassen assoziiert hat. Formbarkeit ermöglicht Jobs, ihre Ressourcen auf Anfrage des Schedulers dynamisch anzupassen, selbst bei konstanter Systemkapazität. Während Formbarkeit bei herkömmlichen HPC-Workloads mangels technischer Unterstützung nur schleppend vorankommt, bietet das Training von KI, für das Formbarkeit leicht umgesetzt werden kann, die Chance, diese Eigenschaft in größerem Umfang zu nutzen. Außerdem können sich die Ressourcenanforderungen von KI-Trainingsjobs im Verlauf ändern, was diese als evolvierend klassifiziert. Bei Anwendungen in der Computervision beispielsweise wächst die ideale Batchgröße oft mit dem Lernfortschritt, was auf eine Umverteilung der Ressourcen zugunsten von Jobs in späteren Trainingsphasen hindeutet. Adaptive Jobs, die Gesamtheit formbarer und evolvierender Jobs, bietet sich daher für den effizienten Betrieb von Systemen mit dynamischer Kapazität geradezu an. Dieses Projekt zielt auf die Entwicklung von Scheduling-Algorithmen für adaptive Workloads auf Systemen mit variabler Kapazität. Der erste Schritt ist eine Formalisierung des Problems, einschließlich Systemmodellierung und Definition von Zielfunktionen. Wir fassen zwei Klassen von Kriterien ins Auge: system-orientierte wie Energieeffizienz und benutzerorientierte wie Dienstqualität. Der Entwurf der Algorithmen wird mit Komplexitätsanalyse, Approximationsstudien sowie der Suche nach Ober- und Unterschranken unterfüttert. Die empirische Evaluation erfolgt durch Simulation mithilfe von ElastiSim, einem Simulator für adaptive Workloads, der hier für Systeme mit variabler Kapazität erweitert wird. Um unsere Ergebnisse in realistischen Szenarien zu verwerten, implementieren wir einen einfachen Overlay-Ressourcenmanager für verteiltes Deep-Learning. Dieser Manager nutzt vorhandene Ressourcenmanager, um eine Menge Einzelknotenjobs zu orchestrieren und bei Bedarf einzelnen Trainingsjobs eine Teilmenge davon zuzuweisen. Unser primärer Use Case ist die Entwicklung eines Algorithmus, der die Effizienz verteilten Deep-Learnings auf Systemen mit variabler Kapazität optimiert, indem er die Ressourcen einzelner Lernaufgaben anpasst und untereinander verschiebt.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Frankreich
Partnerorganisation
Agence Nationale de la Recherche / The French National Research Agency
Kooperationspartnerinnen / Kooperationspartner
Professorin Dr. Anne Benoit; Frédéric Vivien, Ph.D.
Mitverantwortlich
Dr.-Ing. Arya Mazaheri