Detailseite
Projekt Druckansicht

Effizientes statistisches Parsing und Übersetzen für expressive Grammatikformalismen mit Baumautomaten

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2014 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 252303250
 
Ziel dieses Projektes ist die Entwicklung von effizienten Algorithmen für expressive Grammatikformalismen. Solche Grammatikformalismen beschreiben Stringsprachen, die nicht unbedingt kontextfrei sein müssen; Sprachen von komplexeren Objekten, z.B. Bäumen und Graphen; sowie Relationen zwischen solchen Objekten. Sie können daher linguistische Repräsentation darstellen und linguistische Verallgemeinerungen erfassen, die über probabilistische kontextfreie Grammatiken (PCFGs) hinausgehen. Davon profitieren viele computerlinguistische Aufgaben, wie etwa das semantische Parsing von Strings in graphbasierte semantische Repräsentationen.Die Kernidee dieses Projekts ist es, eine Vielzahl von expressiven Grammatikformalismen in Interpretierte Reguläre Baumgrammatiken (IRTGs) zu übersetzen und Algorithmen allgemein für IRTGs zu definieren. Diese Algorithmen können dann direkt auf jeden spezielleren Formalismus angewendet werden. In der ersten Phase haben wir eine Reihe neuer Grammatikformalismen in IRTGs übersetzt, insbesondere Grammatiken für Sprachen von Graphen und Mengen. Wirhaben außerdem die Effizienz von Parsingalgorithmen für IRTGs drastisch verbessert: Parsing für PCFGs, die als IRTGs codiert wurden, ist jetzt 1000x schneller als zu Projektbeginn (und damit auf Augenhöhe mit spezialisierten PCFG-Parsern), und unser IRTG-basierter Parser für Graphgrammatiken ist über 1000x schneller als der vorher schnellste Graphparser. Auf einer theoretischen Ebene haben wir die formalen Zusammenhänge zwischen expressiven Grammatikformalismen weiter geklärt; und auf einer praktischen Ebene können Anwender dieser Formalismen direkt IRTG-Algorithmen und ihre open-source mplementierung, Alto, nutzen.In der zweiten Projektphase möchten wir Alto auf Korpora von realistischer Größe und Komplexität skalieren. Die theoretischen undalgorithmischen Fortschritte der ersten Phase haben es uns erlaubt, Alto auf zunehmend komplexe Domänen anzuwenden. Dabei traten eine Reihe von Herausforderungen zu Tage, die wir mit allen anderen grammatikbasierten Ansätzen teilen: wir müssen Grammatiken aus Korpora induzieren, in denen grammatische Strukturen nur partiell beobachtbar sind, und die Geschwindigkeit unserer Parsing- und Übersetzungsalgorithmen auf realistische Daten skalieren. Wir werden diese Herausforderungen allgemein für IRTGs angehen, indem wir neue Algorithmen entwickeln und existierende auf IRTGs verallgemeinern. Komplementär dazu werden wir diese grammatikbasierte Perspektive um neuronale Parsingmethoden ergänzen, indem wir diese mit IRTG-basierten Einsichten kombinieren.Endergebnis des Projekts soll ein End-to-End-System sein, bei dem der Benutzer nur einen expressiven Grammatikformalismus mit Hilfe von IRTGs spezifizieren und Trainingsdaten bereitstellen muss. Mithilfe unserer Algorithmen und ihrer Implementierungen kann er dann direkt eine statistische Grammatik induzieren und trainieren und sie für effizientes Parsing, Übersetzen und Generierung nutzen.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Australien
Kooperationspartner Professor Dr. Mark Johnson
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung