Detailseite
Projekt Druckansicht

Semantische Methoden für computergestützte Schreibhilfen (SeMSch)

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 249088706
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Aufgrund der Produktivität von Sprache ist es nicht machbar, alle möglichen Ausdrucksweisen zur Darstellung eines Sachverhaltes oder zum Geben einer Anweisung erschöpfend aufzuzählen. Wenn Mensch-Maschine-Interaktion mit Hilfe natürlicher Sprache erfolgen soll, so ist die automatische Behandlung von Inhaltsäquivalenz als Schlüsseltechnologie von höchster Wichtigkeit. Hierbei ist darauf zu achten, dass ein derartiges Softwaresystem dazu befähigt wird, sich Änderungen im Sprachgebrauch anzupassen und aus den Interaktionen seiner Nutzer datengetrieben zu lernen. In diesem Projekt wurden computerlinguistische Methoden für semantische Schreibhilfen entwickelt. Diese ermöglichen die Unterstützung beim Verfassen oder beim Verständnis von Texten: im Texteditor werden sprachlich komplexe Begriffe hervorgehoben und können durch die Auswahl von Alternativen durch bedeutungsgleiche, jedoch einfacher verständliche Begriffe ersetzt werden. Ein besonderes Merkmal ist, dass hierbei die semantische Schreibhilfe auch von ihren Nutzern lernt und so das Modell zur Auswahl von Alternativen iterativ verbessert: dies stellt unseres Wissens den ersten wissenschaftlichen Beitrag zur kontinuierlichen Verbesserung sprachtechnologischer Komponenten durch Nutzung dar. Möglich wurde das durch Fortschritte in mehreren grundlegenden Bereichen. Zur automatischen Erkennung und Hervorhebung sprachlich komplexer Begriffe entwickelten wir eine Datensammlungsmethodik mit Crowdsourcing, also mit bezahlten kleinen Aufgaben im Web, und validierten diese auf vier Sprachen. Für das Anbieten bedeutungsgleicher Umformulierungen kombinierten wir verschiedene Quellen für Paraphrasen und nutzten maschinelles Lernen, um möglichst viele passende Alternativen im Kontext anzubieten. Die für maschinelles Lernen nötigen Charakterisierungen von Instanzen mit sogenannten „Features“ wurden gespeist durch Entwicklungen im unüberwachten, vorwissensfreien Verarbeiten von Sprache: wir entwickelten z.B. neue Methoden, um Komposita wie „Gartenhaus“ in die Einzelteile „Garten“ und „Haus“ zu zerlegen oder Begriffe wie „Pudels Kern“ als Mehrwortausdruck mit eigener Bedeutung zu identifizieren. Diese Verfahren werden lediglich durch große Textsammlungen gespeist und funktionieren gleichermaßen gut für viele Sprachen. Technische Herausforderungen beim Erstellen eines Prototypen des Online-Texteditors konnten gelöst werden, so dass es mit Hilfe von Crowdarbeitern als Nutzern gelang, erstmals den Nachweis zu führen, dass semantische sprachtechnologische Methoden nicht notwendigerweise statisch sind, sondern allein durch deren Nutzung verbessert und angepasst werden können. Dies kann zu weit anpassungsfähigeren und besser personalisierten Anwendungen der künstlichen Intelligenz führen, als sie heute existieren. Im Großen und Ganzen wurden die anvisierten Ziele erreicht und die Forschungshypothesen bestätigt. Die größte Abweichung vom geplanten Projektverlauf bestand in der Anpassung des Forschungsgegenstandes: während das Projekt mit der Funktionalität der allgemeinen, ungerichteten Paraphrasierung geplant war, führte dies zu Problemen, da die Anzahl möglicher Paraphrasierungen im Kontext sehr hoch ist. Um die nötigen statistischen Signale zu erhalten, hätten wir für diesen Gegenstand die Datensammlung für den Nachweis der nutzungsgetriebenen Verbesserung stark ausweiten müssen, ohne dass der Erfolg von vornherein klar gewesen wäre. Wir entschieden uns, für diesen Teil des Projektes stattdessen alternativ die Vereinfachung schwieriger Begriffe zu betrachten, welche bei Nichtmuttersprachlern Probleme verursachen. Dies ist ein verwandtes Problem, jedoch gibt es aufgrund der Richtung auf der Komplexitätsskala weniger Umformungsmöglichkeiten. Wir gehen davon aus, dass sich unsere Ergebnisse auf allgemeine Paraphrasen übertragen lassen, wenn die Nutzeranzahl entsprechend größer gewählt wird.

Projektbezogene Publikationen (Auswahl)

  • (2018) Using semantics for granularities of tokenization. Computational Linguistics, 44 (3) 483-524
    Riedl, Martin; Biemann, Chris
    (Siehe online unter https://dx.doi.org/10.1162/coli_a_00325)
  • (2015): Narrowing the Loop: Integration of Resources and Linguistic Dataset Development with Interactive Machine Learning. In: Proceedings of NAACL-HLT 2015 Student Research Workshop (SRW), pp. 88-95, Denver, CO, USA
    Yimam, S.M.
  • (2016): Language Transfer Learning for Supervised Lexical Substitution. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), pp. 118-129, Berlin, Germany
    Hintz, G., Biemann, C.
  • (2016): Learning Paraphrasing for Multiword Expressions. In: Proceedings of the 12th Workshop on Multiword Expressions (MWE 2016), co-located with ACL 2016, pp. 1-10, Berlin, Germany
    Yimam, S.M., Martínez Alonso, H., Riedl M., Biemann, C.
  • (2017): CWIG3G2 - Complex Word Identification Task across Three Text Genres and Two User Groups. In Proceedings of the 8th International Joint Conference on Natural Language Processing (IJCNLP 2017) Short papers, pp. 401-407,Taipei, Taiwan
    Yimam S.M, Štajner S., Riedl M., Biemann C.
  • (2017): Multilingual and Cross-Lingual Complex Word Identification. In Proceedings of The 2017 International Conference on Recent Advances in Natural Language Processing (RANLP 2017), pp. 813-822, Varna, Bulgaria
    Yimam S.M, Štajner S., Riedl M., Biemann C.
  • Par4Sim - Adaptive Paraphrasing for Text Simplification. Proceedings of the 27th International Conference on Computational Linguistics, 2018, 331–342
    Yimam, S.M. and Biemann, C.
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung