Detailseite
Transparente Ressourcenadaptivität für dynamische und irreguläre Task-basierte Applikationen auf HPC-Clustern
Antragsteller
Professor Dr. Jonas Posner
Fachliche Zuordnung
Rechnerarchitektur, eingebettete und massiv parallele Systeme
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 558599020
Das statische Ressourcenmanagement heutiger Supercomputer, bei dem Jobs eine feste Anzahl von Knoten anfordern und während der Ausführung beibehalten, hat erhebliche Einschränkungen. Ressourcenmanager sind unflexibel und Programme können die Anzahl der Knoten nicht anpassen. Dies führt zu einer reduzierten Performance von Supercomputern und Programmen, insbesondere bei dynamischen und irregulären Lasten mit unvorhersehbaren Ressourcenanforderungen. Ressourcenadaptivität kann diese Einschränkungen überwinden, indem Jobs zur Laufzeit Knoten hinzufügen oder entfernen können, entweder initiiert durch den Ressourcenmanager (malleable) oder durch die Jobs selbst (evolving). Jobs, die beides können, heißen adaptiv. Trotz dieses Potenzials wird Ressourcenadaptivität kaum genutzt, da die Programmierung deutlich komplexer ist. Zudem ist die Unterstützung durch weit verbreitete Ressourcenmanager wie Slurm und Programmiermodelle wie MPI sehr begrenzt. Die Asynchronous Many-Task (AMT) Programmierung ist eine vielversprechende Alternative zu MPI, da sie die Programmiererproduktivität steigert sowie dynamische und irreguläre Lasten automatisch balanciert. AMT teilt Berechnungen in Tasks auf, die vom Laufzeitsystem dynamisch Rechenressourcen zugewiesen werden. AMT's transparente Ressourcenverwaltung ist ideal für Adaptivität, da das Laufzeitsystem Tasks ohne zusätzlichen Programmieraufwand umverteilen kann. Allerdings fehlen AMT-Systeme mit integrierter Adaptivität. Dieses Projekt will das Potential der Adaptivität durch AMT realisieren. Wir werden Adaptivitätstechniken für ein AMT mit Balancierungsfähigkeiten entwickeln. Neue Programmkonstrukte ermöglichen explizite Ressourcenanforderungen. Neue Heuristiken ermöglichen es, rechenintensive Phasen zu erkennen, um zusätzliche Knoten anzufordern und Knoten in Phasen geringer Last freizugeben. Außerdem entwickeln wir Algorithmen zum Scheduling einer Mischung aus statischen und adaptiven Jobs, die fair sind und adaptive Jobs fördern. Der Ressourcenmanager trifft Entscheidungen basierend auf dem Gesamtsystemzustand und optimiert die Leistung des Supercomputers und der einzelnen Programme. Dazu melden die Jobs regelmäßig ihren Status (z.B. mögliche Auswirkungen von Knotenänderungen). Diese Algorithmen werden in realen Experimenten und Simulationen evaluiert, basierend auf Performancemodellen aus eigenen Experimenten und Supercomputerlogs. Schließlich ermöglichen wir die Kommunikation zwischen unserem adaptiven AMT und einem prototypischen Ressourcenmanager. Experimente mit realen Anwendungen validieren die Performance und Vorteile der Adaptivität. Methodisch umfasst das Projekt die Entwicklung innovativer Algorithmen, deren Implementierung in Prototypen sowie deren Evaluierung durch Experimente und Simulationen. Die gewonnenen Erkenntnisse könnten den Weg zur Ressourcenadaptivität ebnen und die Effizienz von Supercomputern deutlich steigern.
DFG-Verfahren
Sachbeihilfen
