Detailseite
Verständnis und Überwindung architektureller Beschränkungen neuronaler Sprachmodelle
Antragsteller
Professor Dr. Michael Hahn
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 560456343
Große Sprachmodelle (Large Language Models, LLMs) zeigen beachtliche Fähigkeiten im Verständnis von Sprache, und haben die maschinelle Sprachverarbeitung (NLP) revolutioniert. Gleichzeitig zeigen sie noch Fehler im logischen Denken (reasoning). Eine neuere Forschungsrichtung zeigt, dass die logischen Fähigkeiten von LLMs durch fundamentale Grenzen in den zugrundeliegenden maschinellen Lernarchitekturen, der Transformer-Architektur, beschränkt werden. Ziel dieses Projekts ist es, ein tieferes theoretisches Verständnis der Fähigkeiten und Grenzen dieser Architekturen zu entwickeln und darauf basierend neue Architekturen zu entwerfen, zu implementieren und zu evaluieren, die verbesserten Fähigkeiten im Bereich des logischen Denkens ermöglichen. In den Arbeitspaketen (WPs) 1-2 wird ein solides theoretisches Rahmenwerk entwickelt, um die Begrenzungen der logischen Fähigkeiten von Transformern und verwandten Architekturen rigoros zu analysieren. Dies beinhaltet die formale Charakterisierung der Arten von Denkaufgaben, die diese Modelle lösen können, sowie die Identifikation von architekturellen Merkmalen, die für diese Einschränkungen verantwortlich sind. In den Arbeitspaketen 3-5 bauen wir auf den Erkenntnissen aus WP 1-2 auf und entwerfen, implementieren und evaluieren neue neuronale Architekturen, die die identifizierten Begrenzungen überwinden. Zu den Innovationen gehören: 1) WP 3: Adaptive Positionskodierungen zur Verbesserung der Verarbeitung von längeren oder stärker strukturierten Eingabedaten. 2) WP 4: Neue Ansätze für Chain-of-Thought (CoT)-Reasoning, die auf dem theoretischen Rahmenwerk basieren und robusteres mehrstufiges logisches Denken ermöglichen. 3) WP 5: Architekturen, die dynamisch die Anzahl der für Berechnungen verwendeten Schichten an die Komplexität der Aufgaben anpassen, um flexibleres und effizienteres logisches Denken zu ermöglichen. Dieses Projekt wird grundlegende Beiträge sowohl zu den theoretischen als auch zu den praktischen Aspekten der Entwicklung von LLMs leisten. Die Ergebnisse werden nicht nur den Stand der Technik im Bereich der NLP voranbringen, sondern auch breitere Implikationen für die Künstliche Intelligenz haben.
DFG-Verfahren
Emmy Noether-Nachwuchsgruppen
Großgeräte
GPU-Server
