Computerlinguistische Methoden zur Missverständnismodellierung für komplexe Anleitungstexte

Antragsteller Professor Dr. Michael Roth

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung von 2018 bis 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 411013080

Projektbeschreibung

Die geplante Emmy-Noether-Gruppe beschäftigt sich mit der systematischen Analyse und der computerlinguistischen Modellierung von Textpassagen, welche zu Missverständnissen führen können. Wir definieren hierbei als "Missverständnispotential" eine Auslassung oder semantische Mehrdeutigkeit, aufgrund derer ein Leser eines Textes zu einer Interpretation gelangen kann, welche in sich plausibel erscheint, aber vom Autor nicht beabsichtigt war. Nehmen wir als Beispiel den folgenden Satz aus einem Brettspielhandbuch: "Beginnend mit dem Startspieler führt in jeder Runde ein Spieler eine Aktion aus." Kann nun jeweils nur ein Spieler pro Runde eine Aktion ausführen, oder kommt jeder Spieler in jeder Runde an die Reihe? Und in welcher Reihenfolge kommen die Spieler an die Reihe? Die vom Autor intendierte Interpretation bleibt unklar, da relevante Bedeutungsaspekte nur mehrdeutig oder gar nicht explizit zum Ausdruck gebracht wurden.Die beantragte Nachwuchsgruppe wird computerlinguistische Mittel für die automatische Erkennung von missverständlichen Textpassagen entwickeln. Diese sollen Diagnosen dazu ermöglichen, ob beispielsweise eine Wegbeschreibung oder eine ärztliche Anweisung leicht falsch zu verstehen ist. Wir verfolgen damit drei Ziele. (1) Um eine systematische Analyse von Missverständnisursachen in der Schriftsprache zu ermöglichen, werden wir zunächst eine groß angelegte Datengrundlage schaffen. Diese soll uns Aufschluss darüber geben, welche semantischen Phänomene besonders häufig zu Missverständnissen führen. Wir werden die Datenbasis halbautomatisch erstellen, indem wir paarweise Versionen von Anleitungstexten abgleichen und gezielt nach Klarstellungen in der jeweils neueren Version suchen, die auf Missverständnispotentiale in der älteren Version zurückzuführen sind. (2) Auf Grundlage der gesammelten Daten werden wir statistische Methoden entwickeln, welche Missverständnispotentiale automatisch erkennen sollen. Um dieses Ziel zu erreichen, werden wir verschiedene computerlinguistische Ansätze entwickeln, die den Zusammenhang zwischen Auslassungen oder semantischer Mehrdeutigkeiten und dem Potential zum Missverständnis in einem gegebenen Kontext modellieren. Wir werden probabilistische und neuronale Modelle einsetzen, die auf jeweilige semantische Phänomene angepasst werden. Neben dem sprachlichen Kontext werden wir dabei auch den visuellen Kontext sowie in begrenztem Umfang relevantes Weltwissen miteinbeziehen. (3) Schließlich werden wir den praktischen Nutzen der entwickelten Methoden für die maschinelle Sprachverarbeitung testen. Konkret werden wir untersuchen, wie Vorhersagen über Missverständnispotentiale genutzt werden können, um (a) irreführende zielsprachliche Ausgaben maschineller Übersetzungssysteme zu vermeiden, (b) Nutzer von Schreibassistenzprogrammen auf unklare Formulierungen hinzuweisen, und (c) unsichere Vorhersagen semantischer Analysewerkzeuge zu erkennen.

DFG-Verfahren Emmy Noether-Gruppen

Servicenavigation

Hauptnavigation

Computerlinguistische Methoden zur Missverständnismodellierung für komplexe Anleitungstexte

Zusatzinformationen

Servicenavigation

Hauptnavigation

Computerlinguistische Methoden zur Missverständnismodellierung für komplexe Anleitungstexte

Zusatzinformationen

Textvergrößerung und Kontrastanpassung