Lexikalische Semantik für sprachtechnologische Anwendungen: SALSA II - The Saarbrücken Lexical Semantics Acquisition Project
Zusammenfassung der Projektergebnisse
Motivation des SALSA-Projektes war der starke Bedarf an manuell kodiertem lexikalisch-semantischem Wissen für sprachtechnologische Anwendungen wie Frage-Beantwortung (Question Answering) und Informationsextraktion. Insbesondere galt dies für die Ebene der Prädikat-Argument-Struktur. Hier besteht die Aufgabe, syntaktische Alternationen ( “Die Deutsche Bank verkauft italienische Staatsanleihen” , “Italienische Staatsanleihen verkaufen sich zurzeit schleppend”) oder unterschiedliche lexikalische Realisierungen einer Relation ("kaufen”, “verkaufen”, “veräußern”, “Ankauf”, “Erwerb”, “Veräußerung”) auf einheitliche Repräsentationen fur Prädikat und semantische Rollen (wie Käufer, Verkäufer und Ware) abzubilden. Im Zentrum der ersten Phase stand die Entwicklung eines großen, mit Frame- und Rolleninformation hand-annotierten Korpus für das Deutsche - einerseits als Grundlage für eine lexikalisch-semantische Datenbank des Deutschen, andererseits als Trainingskorpus für flache semantische Analyseverfahren. Dabei hat sich gezeigt, dass zufriedenstellende Parsing-Resultate nur mit einem unverhältnismäßig hohen, durch rein manuelle Arbeit nicht realisierbaren Aufwand an Annotation erreichbar sind. Hauptziel der zweiten Projektphase war deshalb die Entwicklung von effizienteren Verfahren zur automatischen Akquisition von Frame- und Rolleninformation, die den Bedarf an manueller Annotation stark reduzieren. Wesentliche Ergebnisse im Einzelnen sind: • Eine Familie halbüberwachter Methoden zur Annotationsprojektion: Die crosslinguale Projektion von Frame-und Rollenannotationen von einem Korpus einer Sprache (konkret: Englisch) auf parallele Korpora anderer Sprachen (konkret: Deutsch und Französisch); die monolinguale Datemerweiterung durch Projektion von einem kleinen handannotierten Korpus (Berkeley FrameNet, SALSA) auf automaisch ausgewählte geeignete Instanzen eines sehr großen unannotierten Korpus; die Projektion entlang von morphologischen Ableitungsbeziehungen (von handannotierten Verb-Instanzen auf Nominalisierungen). Der Effekt ist in allen Fällen, dass eine neue bzw. größere Ressource als Trainingskorpus für einen flachen semantischen Parser zur Verfügung gestellt und damit die Parserperformanz ohne zusätzlichen menschlichen Annotationsaufwand verbessert wird. • Ein Werkzeug für Aktives Lernen für die Frame-Zuweisung: Das Lernsystem wählt gezielt informative neue Instanzen (Grenzfälle) aus und senkt damit die Kosten für die manuelle Annotation: Mit der gleichen Anzahl annotierter Instanzen lässt sich ein deutlich höherer Performanzeffekt erzielen. •Unüberwachte distributionelle Verfahren, einerseits zur Induktion neuer Frames für unbekannte Lexeme, andererseits zur Erkennung nicht-wörtlicher Verwendungen von frame-spezifischen Prädikaten. Zu den wichtigen Ertragen des SALSA-Projektes gehören außerdem frame-semantische Werkzeuge und Ressourcen, die von der Community intensiv genutzt werden, unter anderem: das deutschsprachige SALSA-Korpus mit insgesamt 40.000 annotierten Instanzen; das OWL-DL basierte SALSA-Lexikon, das eine flexible Abfrage der Korpusinformation ermoglicht; Shalmaneser, ein Frame-basierter statistischer semantischer Parser ( 1.700 Downloads); SALTO, ein Annotationswerkzeug für Frame-Strukturen (500 Downloads).
Projektbezogene Publikationen (Auswahl)
- Automatic induction of FrameNet lexical units. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), 2008
Marco Pennacchiotti, Danilo De Cao, Roberto Basili, and Michael Roth
- Formalising multi-layer corpora in OWL DL – lexicon modelling, querying and consistency control. In Proceedings of the 3rd International Joint Conference on Natural Language Processing (IJCNLP 2008), 2008
Dennis Spohr, Aljoscha Burchardt, Sebastia Padó, Anette Frank, and Ulrich Heid
- Semantic role assignment for event nominalisations by leveraging verbal data. In Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008), pages 665–672, 2008
Sebastian Padó , Marco Pennacchiotti, and Caroline Sporleder
- Assessing the impact of frame semantics on textual entailment. Natural Language Engineering, 15(04):527–550, 2009
Aljoscha Burchardt, Marco Pennacchiotti, Stefan Thater, and Manfred Pinkal
- Classifier combination for contextual idiom detection without labelled data. In Proceedings of the 2009 Conference on Empirical Natural Language Processing (EMNLP 2009), pages 315–323, 2009
Linlin Li and Caroline Sporleder
- Cross-lingual annotation projection for semantic roles. Journal of Artificial Intelligence Research, 36:307–340, 2009
Sebastian Padó and Mirella Lapata
- FrameNet for the semantic analysis of German: annotation, representation and automation. In Hans C. Boas, editor, Multilingual FrameNets in Computational Lexicography: Methods and Applications. Mouton de Guyter, 2009
Aljoscha Burchardt, Katrin Erk, Anette Frank, Andrea Kowalski, Sebastian Padó, and Manfred Pinkal
- Graph alignment for semi-supervised semantic role labeling. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP 2009), pages 11–20, 2009
Hagen Fürstenau and Mirella Lapata
- Semi-supervised semantic role labeling. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2009), pages 220–228, 2009
Hagen Fürstenau and Mirella Lapata
- Unsupervised recognition of literal and nonliteral use of idiomatic expressions. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2009), pages 754–762, 2009
Caroline Sporleder and Linlin Li
- Evaluating the impact of coder errors on active learning. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT 2011), pages 43–51, 2011
Ines Rehbein and Josef Ruppenhofer
- Semi-supervised semantic role labeling via structural alignment. Computational Linguistics, 38(1), 2012
Hagen Fürstenau and Mirella Lapata