Strukturelle Generalisierung in transformer-basierten LLMs

Antragsteller Professor Dr. Michael Hahn; Professor Dr. Alexander Koller

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik
Künstliche Intelligenz und Maschinelle Lernverfahren

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579333431

Projektbeschreibung

Große Sprachmodelle (LLMs) basieren heute überwiegend auf der Transformer-Architektur. Im Gegensatz zu früheren neuronalen Sprachmodellen haben Transformer es ermöglicht, Trainingsdaten auf Billionen von Token zu skalieren. Dadurch sind LLMs in der Lage, sowohl bei realen Aufgaben als auch in vielen akademischen Evaluierungen äußerst gute Leistungen zu erbringen. Allgemein hat man den Eindruck, dass LLMs die Syntax von natürlichen Sprachen gemeistert haben, zumindest für gut digitalisierte Sprachen wie Englisch. Gleichzeitig mehren sich jedoch die Hinweise darauf, dass Transformer Schwierigkeiten mit struktureller Generalisierung haben: Sie lernen nicht zuverlässig, korrekte Vorhersagen für Testinstanzen zu treffen, die strukturell komplexer sind als die Trainingsdaten. Dieses Problem betrifft selbst stark vortrainierte LLMs und deckt sich mit ersten theoretischen Befunden zu den Lernfähigkeiten von Transformern. Für den Spezialfall der Längen-Generalisierung haben die Antragstellenden in Vorarbeiten bereits die Klasse von Problemen formal charakterisiert, bei denen Transformer in der Lage sind, von kürzeren Trainingsinstanzen korrekt auf längere Testinstanzen zu generalisieren. In diesem Projekt werden wir die Fähigkeit von Transformern untersuchen, strukturell zu generalisieren. Wir werden untersuchen, für welche Probleme Transformer aus endlichen Trainingsdaten lernen können, Vorhersagen für Testinstanzen von beliebiger struktureller Komplexität zu treffen. Für Probleme, bei denen sie es nicht können, werden wir untersuchen, warum strukturelle Generalisierung für Transformer so schwierig ist. Unser Fokus liegt dabei vor allem auf Problemen, die ein Verständnis von syntaktischen Strukturen erfordern, insbesondere der grammatischen Korrektheit (Akzeptabilität) und der Beantwortung einfacher Fragen zu einem Satz (Comprehension). Für diese Probleme ist strukturelle Generalisierung genau die Fähigkeit, die ein lernender Agent benötigt, um aus endlichen Beobachtungen linguistische Kompetenz zu erwerben. Unsere Ergebnisse werden daher unmittelbar zum Verständnis des Potenzials von Transformern als Modellen von linguistischer Kompetenz beitragen. Gleichzeitig ist strukturelle Generalisierung auch für viele andere komplexe Aufgaben zentral, die derzeit mit LLMs verfolgt werden. Unsere Ergebnisse sind daher auch über Grammatikalität hinaus dafür relevant, die Fähigkeiten von Transformern zu verstehen und zu verbessern.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 2556: Robuste Beurteilung und sichere Anwendung von Sprachmodellen: Grundlagen für ein neues Feld zwischen Sprachwissenschaft & -technologie (LaSTing)

Internationaler Bezug USA

Kooperationspartner Professor William Merrill, Ph.D.; Dr. Yuekun Yao

Servicenavigation

Hauptnavigation

Strukturelle Generalisierung in transformer-basierten LLMs

Zusatzinformationen

Servicenavigation

Hauptnavigation

Strukturelle Generalisierung in transformer-basierten LLMs

Zusatzinformationen

Textvergrößerung und Kontrastanpassung