Detailseite
Systemische Robustheitsanalysen von Sprachmodellen für die sprachvergleichende Forschung anhand von formal verwandten Strukture (FORESTS)
Antragstellerinnen
Professorin Dr. Jutta M. Hartmann; Dr. Anke Himmelreich; Professorin Dr. Sina Zarrieß
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579277669
Das zentrale Ziel des Projekts ist die Entwicklung eines neuen interdisziplinären Ansatzes, der Sprachmodelle (=LMs) als Werkzeuge für die sprachvergleichende Forschung und linguistische Theorien als Werkzeuge für systemische Robustheitsbewertungen von LMs nutzt. Dazu operationalisieren wir linguistische Theorien, um zu testen, wie robust das syntaktische Wissen eines LMs ist. Anstatt einzelne Phänomene in den Blick zu nehmen, verwenden wir dazu systemische Analysen von formal verwandten Strukturen (=FORESTs). Mit FORESTs bezeichnen wir Netzwerke abstrakter Strukturen, die tieferliegende syntaktische Eigenschaften teilen, innerhalb einer Sprache oder über Sprachen hinweg. Die Sätze `Who does Peter like _ best?' und `What do you think that Mary bought _?' haben beide einen Filler `Who/What' und eine Lücke (=Gap) (_), unterscheiden sich jedoch hinsichtlich der Einbettung. Wir nutzen solche häufigen und grammatischen Filler-Gap-Abhängigkeiten und vergleichen sie mit seltenen und ungrammatischen Insel-Konfigurationen sowie mit seltenen, aber grammatischen parasitären Lücken (PGs) wie in `Who did you kiss _ without knowing _?', wo eine Lücke in einer Insel aufgrund einer Lücke außerhalb der Insel wohlgeformt wird. Basierend auf theoretisch fundierten FORESTs entwickeln wir einen systemischen Analyseansatz, der das ``ganzheitliche'' syntaktische Wissen in einem LM testet. Wir entwickeln außerdem eine Robustheitsbewertung dieser Analysen für Modellfamilien, mit denen Vorhersagen von PG-Theorien getestet werden können. Aktuelle PG-Theorien machen unterschiedliche Vorhersagen, welche Strukturen mit PGs ein enges Netzwerk von FORESTs bilden. Diese Unterschiede nutzen wir, um menschliche Akzeptabilitätsurteile über PGs und verwandte Strukturen mit den Vorhersagen der LMs zu vergleichen, die mit unterschiedlichen FORESTs in den Trainingsdaten manipuliert wurden. Zunächst entwickeln wir dieses Verfahren für eine Reihe von theoretisch gut beschriebenen FORESTs und Sprachen. Unser Hauptziel ist dann, Analysen von LMs und innovative sprachvergleichende Forschung miteinander zu verbinden, wobei wir uns auf die theoretisch anspruchsvollen PGs konzentrieren. Das Projekt verbindet theoretisch-linguistische und komputationelle Expertise im Bereich von LMs und befasst sich mit verschiedenen Forschungsfragen des Schwerpunktprogramms LaSTing. Erstens trägt das Projekt zu robusten Analysen von LMs bei, indem es theoretisch fundierte Benchmarkmaterialien unter einer sprachvergleichenden Perspektive entwickelt. Zweitens ermöglichen Experimente, die Input, Modellgröße und Architektur der LMs variieren, ein besseres Verständnis der Grenzen des syntaktischen Lernens in LMs, sowie deren Übertragbarkeit auf andere Sprachen. Langfristig können diese Erkenntnisse dazu beitragen, LMs ressourceneffizienter und nachhaltiger zu gestalten. Schließlich betreibt das Projekt Grundlagenforschung zu Fragen der Erklärungskraft von Sprachmodellen für die linguistische Theoriebildung.
DFG-Verfahren
Schwerpunktprogramme
