Detailseite
Methoden zur text-basierten Extraktion impliziter Relationen
Antragsteller
Professor Dr. Michael Roth
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2015 bis 2017
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 270126209
Das beabsichtigte Forschungsprojekt beschäftigt sich mit der Extraktion von Relationen zwischen Entitäten (z.B. x-arbeitetFuer-y, x-istTochterVon-z) aus natürlichsprachigen Texten. Methoden der Relationsextraktion (RE) sind von besonderer Bedeutung für Aufgaben der maschinellen Sprachverarbeitung, die ein automatisches Induzieren von Wissen erfordern. Ein Beispiel hierfür ist das automatische Erzeugen von großen Wissensdatenbanken auf Basis von Internetseiten. Die besten RE-Systeme heutzutage arbeiten, um einen hohen Grad an Genauigkeit und Generalisierung zu erreichen, lediglich auf der Ebene kleiner textueller Einheiten (z.B. einzelne Sätze). In der Praxis sind Informationen in einem Text jedoch häufig weiter verstreut, wodurch RE-Systeme viele und wichtige Relationen nicht erkennen können. Stellvertretend für dieses Problem betrachten wir im Folgenden Beispiel (1), in dem eine 'istTochterVon'-Relation über zwei Sätze hinweg realisiert wurde: (1) "Emile hat drei Kinder. Karine ist die älteste Tochter." Als Menschen besitzen wir die Fähigkeit, Informationen auch über Sätze hinweg zu erkennen und Zusammenhänge zwischen diesen präzise herzuleiten. Ziel dieses Projektes ist es, Methoden zu entwickeln, die ebendies auch maschinell ermöglichen. Fokus der beabsichtigten Arbeit liegt dabei auf der Vervollständigung von semantischen Prädikat-Argument-Strukturen, welche nur teilweise innerhalb eines Satzes realisiert wurden (z.B. die des zweistelligen Prädikatnomens "Tochter" in Beispiel 1). Die Aufgabe wird dabei in drei Arbeitspakete unterteilt: Teilziel des ersten Arbeitspaketes ist das Erstellen eines Basismodells, in dem ein bestehendes RE-System auf Daten angewendet werden soll, die automatisch mit nicht-lokalen Argumenten angereichert wurden; im zweiten Arbeitspaket sollen sprachspezifische Auslassungsphänomene genutzt werden, um weitere komplementäre Auslassungen mit Hilfe von Vergleichstexten in verschiedenen Sprachen zu füllen; Ziel des dritten Arbeitspaketes ist es schließlich, ein Modell zu entwickeln, das die Auflösung von nicht-lokalen Argumenten und Relationsextraktion vereint, um beide Aufgaben gleichzeitig zu lösen.Um die Ziele des beantragten Projektes zu erreichen, soll auf dem jeweils neusten Stand der Forschung aufgebaut werden. Hierzu wird ein bestehendes RE-System der Stanford University und ein semantisches Analysewerkzeug der Universität Stuttgart eingesetzt. Um automatisch nicht-lokale Argumente zu erkennen, wird ein von mir in meiner Dissertation entwickeltes Verfahren angewendet und erweitert, welches die präzise Auflösung von Auslassungen durch einen Abgleich mit (mono- und bilingualen) Vergleichstexten ermöglicht. Schließlich soll ein Constraint-basiertes Modell gelernt werden, welches die Auflösungsmethode und das RE-System vereint und dabei einen gegenseitigen Austausch von Informationen ermöglicht. Als Ergebnis werden Synergie-Effekte erwartet, die zu einer besseren Lösung beider Aufgaben beitragen.
DFG-Verfahren
Forschungsstipendien
Internationaler Bezug
Großbritannien, USA
Gastgeberinnen / Gastgeber
Professorin Mirella Lapata; Professor Dan Roth