Energieeffiziente Hardware-Beschleunigung von Transformer-Modellen unter Verwendung von Left-to-Right-Arithmetik

Antragsteller Dr. Muhammad Usman, Ph.D.

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren
Rechnerarchitektur, eingebettete und massiv parallele Systeme

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 573796083

Projektbeschreibung

Ziel dieses Projekts ist die Entwicklung energieeffizienter Techniken zur Beschleunigung von Vision-Transformer-Modellen (ViT) – einer neueren Klasse von neuronalen Netzen, die in Bereichen wie Objekterkennung, medizinischer Bildverarbeitung und autonomen Systemen eingesetzt werden. Obwohl ViT-Modelle eine hohe Genauigkeit bieten, erfordern sie enorme Rechenressourcen und Energie. Dies erschwert ihre Nutzung auf mobilen oder eingebetteten Geräten und wirft angesichts des zunehmenden Einsatzes von KI erhebliche Nachhaltigkeitsfragen auf. Das Projekt schlägt einen neuartigen Beschleunigungsansatz auf Hardwareebene vor, der auf Left-to-Right-Arithmetik (LR-Arithmetik) basiert. Diese rechnet schrittweise und kann die Berechnung abbrechen, sobald die gewünschte Genauigkeit erreicht ist. Durch diese Möglichkeit zur frühzeitigen Beendigung von Berechnungen kann der Energieverbrauch um bis zu 50 % gegenüber herkömmlichen vollpräzisen Methoden gesenkt werden. Dies trägt direkt zur ökologischen Nachhaltigkeit bei, indem unnötige Schaltvorgänge reduziert und Hardware-Ressourcen effizienter genutzt werden – insbesondere in energie- und speicherbeschränkten Cloud- und Edge-Umgebungen. Die LR-Arithmetik wird in zentrale Berechnungsblöcke der ViT-Architektur integriert, darunter Matrixmultiplikationseinheiten und Aktivierungsfunktionen wie ReLU, LayerNorm, Softmax und GELU. Ziel ist es, skalierbare und energieeffiziente Inferenz-Hardware mit geringer Latenz in Hardwarebeschreibungssprachen (z. B. Verilog HDL) zu entwickeln. Darüber hinaus werden moderne Modelloptimierungstechniken eingesetzt, etwa strukturierte Pruning-Methoden, Mixed-Precision-Arithmetik und ganzzahlige Approximationen nichtlinearer Funktionen. Diese reduzieren den Rechenaufwand und den Speicherbedarf, ohne die Modellgenauigkeit zu beeinträchtigen – ein entscheidender Faktor für den Einsatz in Echtzeitszenarien. Die vorgeschlagene Hardware wird auf feldprogrammierbare Gate-Arrays (FPGAs) implementiert und im Vergleich zu modernen CPU- und GPU-Plattformen getestet. Die Evaluierung berücksichtigt Metriken wie Latenz, Energieeffizienz, Durchsatz und Speicherverbrauch. Ziel ist es, die Überlegenheit der LR-basierten Beschleunigung in Bezug auf Geschwindigkeit und Energieeinsparung nachzuweisen. Zusätzlich werden speichereffiziente Architekturen und optimierte Datenflussstrategien erforscht, um den Datenverkehr zum externen Speicher zu minimieren und die Wiederverwendung von Daten auf dem Chip zu erhöhen. Dadurch wird die Gesamtleistung verbessert und der Energiebedarf weiter gesenkt. Abschließend soll gezeigt werden, dass die entwickelten Techniken auf verschiedene ViT-Modelle (z. B. DeiT, Swin) übertragbar sind und sich sowohl für Cloud- als auch Edge-Anwendungen eignen. Dieses Projekt verbindet technologische Innovation mit einem klaren Fokus auf Nachhaltigkeit – ein Schritt hin zu ressourcenschonender und zukunftsfähiger Künstlicher Intelligenz.

DFG-Verfahren Stelle

Servicenavigation

Hauptnavigation

Energieeffiziente Hardware-Beschleunigung von Transformer-Modellen unter Verwendung von Left-to-Right-Arithmetik

Zusatzinformationen

Servicenavigation

Hauptnavigation

Energieeffiziente Hardware-Beschleunigung von Transformer-Modellen unter Verwendung von Left-to-Right-Arithmetik

Zusatzinformationen

Textvergrößerung und Kontrastanpassung