Detailseite
Unüberwachtes Lernen von syntaktischer Struktur
Antragstellerin
Professorin Dr. Laura Kallmeyer
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545523981
Der Ausgangspunkt dieses Projekts ist die Beobachtung, dass (i) über verschiedene syntaktische Theorien, verschiedene Baumbankformate und verschiedene Sprachen hinweg eine große Vielfalt syntaktischer Strukturen vorgeschlagen wurde; und (ii) gezeigt wurde, dass selbstüberwachte kontextuelle Sprachmodelle (language models, LMs) syntaktische Informationen in einem gewissen Maße erfassen, obwohl unklar ist, ob und wie gut diese Modelle generalisieren. In diesem Projekt möchten wir neutral in Bezug auf die zugrunde liegende Theorie bleiben und syntaktische Konstituentenstrukturen auf unüberwachte Weise aus LMs induzieren. Wir werden mit verschiedenen Arten von neuronalen Netzwerkarchitekturen experimentieren, die unterschiedliche Annahmen bezüglich der Art von hierarchischer Struktur machen, die wir extrahieren. Unsere zentralen Forschungsfragen sind: Q1 Wie können wir syntaktische Struktur automatisch aus der Verarbeitung von unannotierten Textdaten lernen? Q2 Wie stehen die entstehenden Strukturen zu etablierten Kategorien aus der linguistischen Theorie? Q3 Wie nützlich sind die entstehenden Strukturen für Anwendungen im Bereich der automatischen natürlichen Sprachverarbeitung (NLP)? Um Q1 anzugehen, werden wir syntaktische Strukturen auf unüberwachte Weise aus unannotierten Daten lernen. Unser Hauptfokus liegt auf Gruppierungen von Token zu Phrasen und den Kategorien, die diese Phrasen haben, also auf Konstituentenstrukturen. Wir werden jedoch auch die Identifizierung der syntaktischen Köpfe von Konstituenten untersuchen, was es ermöglichen wird, auch eine Dependenzstruktur abzuleiten. Wir werden unsere Modelle für Syntax-Induktion auf eine Reihe von verschiedenen Sprachen anwenden. In Bezug auf Q2 werden wir unsere Ergebnisse mit einer Reihe von bestehenden syntaktischen Theorien und Annotationsformaten vergleichen. Auf diese Weise hoffen wir einerseits, empirische Beweise für bestimmte Annahmen in der syntaktischen Theorie zu finden, und andererseits eine Konstituentenstruktur zu identifizieren, die aus Textdaten entsteht und daher ein geeigneter Kandidat für syntaktisches Parsing und für Annotation sein könnte. Q3 zielt darauf ab, letzteres zu bewerten. Idealerweise sollte ein syntaktisches Annotationsformat ausreichend syntaktische Details enthalten, um wertvolle Informationen für nachgelagerte Aufgaben bereitzustellen, während es gleichzeitig ausreichend allgemein und erlernbar ist, um eine qualitativ hochwertige Annotation und gute Ergebnisse beim Parsing zu ermöglichen. Um die Nützlichkeit der entstehenden syntaktischen Strukturen in NLP-Kontexten zu bewerten, werden wir die Ergebnisse verschiedener Induktionsansätze in überwachte Parsing-Architekturen und in mehrere nachgelagerte Aufgaben integrieren.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Kanada
Kooperationspartner
Professor Dr. Hassan Sajjad