Unüberwachtes Lernen von syntaktischer Struktur

Antragstellerin Professorin Dr. Laura Kallmeyer

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik

Förderung Förderung seit 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 545523981

Projektbeschreibung

Der Ausgangspunkt dieses Projekts ist die Beobachtung, dass (i) über verschiedene syntaktische Theorien, verschiedene Baumbankformate und verschiedene Sprachen hinweg eine große Vielfalt syntaktischer Strukturen vorgeschlagen wurde; und (ii) gezeigt wurde, dass selbstüberwachte kontextuelle Sprachmodelle (language models, LMs) syntaktische Informationen in einem gewissen Maße erfassen, obwohl unklar ist, ob und wie gut diese Modelle generalisieren. In diesem Projekt möchten wir neutral in Bezug auf die zugrunde liegende Theorie bleiben und syntaktische Konstituentenstrukturen auf unüberwachte Weise aus LMs induzieren. Wir werden mit verschiedenen Arten von neuronalen Netzwerkarchitekturen experimentieren, die unterschiedliche Annahmen bezüglich der Art von hierarchischer Struktur machen, die wir extrahieren. Unsere zentralen Forschungsfragen sind: Q1 Wie können wir syntaktische Struktur automatisch aus der Verarbeitung von unannotierten Textdaten lernen? Q2 Wie stehen die entstehenden Strukturen zu etablierten Kategorien aus der linguistischen Theorie? Q3 Wie nützlich sind die entstehenden Strukturen für Anwendungen im Bereich der automatischen natürlichen Sprachverarbeitung (NLP)? Um Q1 anzugehen, werden wir syntaktische Strukturen auf unüberwachte Weise aus unannotierten Daten lernen. Unser Hauptfokus liegt auf Gruppierungen von Token zu Phrasen und den Kategorien, die diese Phrasen haben, also auf Konstituentenstrukturen. Wir werden jedoch auch die Identifizierung der syntaktischen Köpfe von Konstituenten untersuchen, was es ermöglichen wird, auch eine Dependenzstruktur abzuleiten. Wir werden unsere Modelle für Syntax-Induktion auf eine Reihe von verschiedenen Sprachen anwenden. In Bezug auf Q2 werden wir unsere Ergebnisse mit einer Reihe von bestehenden syntaktischen Theorien und Annotationsformaten vergleichen. Auf diese Weise hoffen wir einerseits, empirische Beweise für bestimmte Annahmen in der syntaktischen Theorie zu finden, und andererseits eine Konstituentenstruktur zu identifizieren, die aus Textdaten entsteht und daher ein geeigneter Kandidat für syntaktisches Parsing und für Annotation sein könnte. Q3 zielt darauf ab, letzteres zu bewerten. Idealerweise sollte ein syntaktisches Annotationsformat ausreichend syntaktische Details enthalten, um wertvolle Informationen für nachgelagerte Aufgaben bereitzustellen, während es gleichzeitig ausreichend allgemein und erlernbar ist, um eine qualitativ hochwertige Annotation und gute Ergebnisse beim Parsing zu ermöglichen. Um die Nützlichkeit der entstehenden syntaktischen Strukturen in NLP-Kontexten zu bewerten, werden wir die Ergebnisse verschiedener Induktionsansätze in überwachte Parsing-Architekturen und in mehrere nachgelagerte Aufgaben integrieren.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Kanada

Kooperationspartner Professor Dr. Hassan Sajjad

Servicenavigation

Hauptnavigation

Unüberwachtes Lernen von syntaktischer Struktur

Zusatzinformationen

Servicenavigation

Hauptnavigation

Unüberwachtes Lernen von syntaktischer Struktur

Zusatzinformationen

Textvergrößerung und Kontrastanpassung