Detailseite
Projekt Druckansicht

Der Status von linguistischen Beschränkungen (Constraints) in neuronalen Sprachmodellen

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579372518
 
Wir möchten untersuchen, inwieweit generative Sprachmodelle (LMs) in der Lage sind, abstraktes sprachliches Wissen zu erwerben, das über die in den Trainingsdaten enthaltenen Fakten hinausgeht. Unter abstraktem sprachlichem Wissen verstehen wir Kenntnisse über Sprachmechanismen und -muster, die LMs erwerben, ohne dafür explizit trainiert worden zu sein. Jüngste linguistische Studien deuten darauf hin, dass LMs solche Abstraktionsfähigkeiten in Bezug auf sprachliche Regeln aufweisen. Wir untersuchen, ob sich solche Abstraktionsfähigkeiten auch auf Sätze interagierender sprachlicher Beschränkungen in der Phonologie und Morphologie erstrecken, die miteinander in Konflikt stehen können und daher eine Konfliktlösung erfordern. Wir möchten untersuchen, inwieweit aktuelle LMs solche Beschränkungsinteraktionen bereits erfassen können. Konkret möchten wir die folgenden Forschungsfragen behandeln: 1) Sind transformerbasierte generative LMs in der Lage, sprachliche Beschränkungen aus den Trainingsdaten zu abstrahieren? 2) Wenn Abstraktionsfähigkeiten bestätigt werden, wie ähnlich sind die abstrahierten Beschränkungen den in der linguistischen Literatur etablierten Generalisierungen? 3) Wenn Abstraktionsfähigkeiten nicht bestätigt werden, wie verändert die explizite Einfügung von Beschränkungen in die Input Prompts die Modellgenerierungen? Mit der Beantwortung dieser Fragen möchten wir neue und innovative Beiträge zu den Forschungsfragen leisten, die unter den Rubriken LM-Fähigkeiten, Ontologischer Status und Erklärungspotenzial des SPPs zusammengefasst sind. Wir haben drei linguistische Phänomene ausgewählt, sodass die Komplexität des diese Phänomene bestimmenden Beschränkungsraums angemessen vielfältig ist. Die drei Phänomene lassen sich als Sequenz-zu-Sequenz-Aufgabe formalisieren, bei der aus einer Eingabesequenz die wahrscheinlichste Ausgabesequenz generiert wird. Damit eignen sie sich ideal für eine LM-Analyse. Die Untersuchung der Wechselwirkung der Beschränkungen für jedes dieser Phänomene mit LMs kann einen Hinweis auf die Abstraktionsfähigkeiten von LMs geben. Unsere Haupthypothese für diese Studie lautet: Transformer-basierte generative LMs abstrahieren und verallgemeinern linguistische Beschränkungen aus den Trainingsdaten. Darüber hinaus sagen wir eine negative Korrelation zwischen der Komplexität des Beschränkungsraums für ein Phänomen und dem Ausmaß voraus, in dem LMs diese Beschränkungen abstrahieren. Zur Überprüfung unserer Hypothesen werden wir eine Reihe von Methoden aus mechanistischen Interpretierbarkeitsstudien anwenden. Konkret werden wir 1) mögliche Ausgabevarianten erstellen, die sich aus verschiedenen Verstößen gegen Beschränkungen in der Eingabe ergeben; 2) die ihnen von LMs zugewiesenen Wahrscheinlichkeiten in verschiedenen Einstellungen untersuchen. Auf diese Weise können wir die Einflüsse von Faktenwissen minimieren und uns auf das von LMs erworbene abstrakte linguistische Wissen konzentrieren.
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung