Detailseite
Projekt Druckansicht

LEAP: Lokalitätsgesteuerte, leistungsstarke und energieeffiziente Grafikprozessoren in der Post-Dennard-Ära

Antragsteller Dr.-Ing. Sohan Lal
Fachliche Zuordnung Rechnerarchitektur, eingebettete und massiv parallele Systeme
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 553209396
 
Grafikprozessoren (GPUs) wurden ursprünglich für Grafikanwendungen entwickelt, aber ihre enorme Rechenleistung hat sie für allgemeine Rechenaufgaben wie wissenschaftliche Simulationen und maschinelles Lernen (ML) sehr effektiv gemacht. Heute sind GPU-beschleunigte Systeme ein wesentlicher Bestandteil vieler Fortschritte, einschließlich des Erfolgs der generativen KI. Während höhere Rechenleistung und bessere Energieeffizienz Entwicklungsziel für GPUs sind, steht die Halbleiterindustrie aufgrund des Endes der Dennard-Skalierung und der Verlangsamung des Mooreschen Gesetzes vor erheblichen Herausforderungen bei der Skalierung von Leistung und Energieeffizienz. Bis neue Technologien wie Quantencomputing praktikabel werden, müssen Systemarchitekten und Programmiererende jeden Aspekt der GPU-Leistung für nachhaltiges Rechnen optimieren. LEAP (Locality-driven high-pErformance And energy-efficient GPUs) verbessert die Leistung und Energieeffizienz von GPUs, indem die Speicherhierarchie optimiert wird, um die Lokalität der Daten besser auszunutzen, insbesondere die räumliche Lokalität, die der Schlüssel für den Zugriff auf Daten mit geringerer Latenz, weniger Energie und höherer Bandbreite ist. Caches sind ein wichtiger Teil der Speicherhierarchie moderner Prozessoren. Sie arbeiten nach dem Prinzip der Datenlokalität. Trotz ihrer Vorteile ist die Nutzung der Datenlokalität in GPUs aufgrund von Problemen wie Speicherdivergenz, die zu Overfetching und ineffizienter Cache-Nutzung führt, eine Herausforderung. Um Overfetching zu verringern, verwenden moderne GPUs Sektor-Caches, aber dieses konservative Design verpasst Chancen, eine höhere räumliche Lokalität zu nutzen. Unsere Vorstudien zeigen, dass es ein immenses Potenzial zur Verbesserung des Sektor-Cache-Designs durch den Einsatz eines ML-basierten räumlichen Lokalitätsprädiktors gibt. LEAP optimiert die Leistung und Energieeffizienz von GPUs durch die folgenden Ziele: 1) Integration klassischer Prädiktoren: Evaluierung der Durchführbarkeit der Erweiterung von Sektor-Caches von GPUs mit einem klassischen, verlaufsbasierten räumlichen Lokalitätsprädiktor, um Underfetching zu reduzieren. Dabei sind die besonderen Herausforderungen und Möglichkeiten zu berücksichtigen, die sich aus der massiven Parallelität von GPUs ergeben. 2) Entwurf eines ML-basierten Prädiktors: Entwicklung und Implementierung eines ML-basierten räumlichen Lokalitätsprädiktors für GPUs. Während GPUs die ML-Nutzung beschleunigen können, kann ML auch das GPU-Design verbessern. Unsere ersten Ergebnisse zeigen, dass ein ML-Prädiktor die Abrufgenauigkeit bis zu 74 % verbessern und die Ausführungszeit bis zu 28 % reduzieren kann. 3) Anpassung des Shared-L1-Cache: Evaluierung und Anpassung des Prädiktors für die räumliche Lokalität für Shared-L1-Caches und andere unabhängige Ansätze, um die Datenlokalität effektiver zu nutzen.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Griechenland
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung