Zusammenschluss von graphen-basierten und vektor-basierten Bedeutungsrepräsentationen für semantischen Informationszugang (JOIN-T 2)
Zusammenfassung der Projektergebnisse
In den 2010er-Jahren gelangen durch sprachtechnologische Forschungen Durchbrüche im automatischen Sprachverstehen. Lexikalische Semantik ist eine der Schlüsselbereiche in der Sprachtechnologie, was dazu führte, dass eine große Anzahl von Arbeiten sich mit der Repräsentation maschinenlesbaren Wissens beschäftigte, und zwar entlang orthogonaler Dimensionen wie manuelle gegenüber automatischer Akquise, lexikalischer gegenüber konzeptueller Ebene und dicht gegenüber dünn besetzter Vektoren und Matrizen. Dennoch bestand ein großer Forschungsbedarf bezüglich deren Kombination, um die individuellen Vorteile dieser Dimensionen in einem gemeinsamen Modell bzw. einer gemeinsamen Ressource zu vereinen, welche die bessere Bearbeitung von komplexen sprachtechnologischen Aufgaben ermöglicht. Wir erforschten Ansätze zur Bedeutungsrepräsentation, welche auf der Dualität von Graph und Vektor basieren und der Hypothese, dass sowohl graphenbasierte als auch vektorbasierte Repräsentationen für lexikalische Einheiten gleichermaßen und gleichzeitig genutzt werden sollten, um deren Bedeutung zu charakterisieren. Hierzu entwickelten wir Frameworks und Ressourcen, welche die oben genannten Dimensionen integrieren und insbesondere die Interpretierbarkeit händisch erstellter und dünn (sparse) repräsentierter Ressourcen mit der Genauigkeit und der hohen Abdeckung von dimensionsreduzierten neuralen Embeddings kombiniert. In der ersten Projektphase (JOIN-T1) erzielten wir bemerkenswerte Fortschritte im bereich der distributionellen Semantik, insbesondere: i) das Linken von distributionellen und ontologischen semantischen Repräsentationen ist mit hoher Genauigkeit möglich und ii) die Disambiguierung lexikalischer Einheiten in ihrem Kontext zu deren Bedeutungen ist mit Hilfe graphen-basierter Repräsentationen zwar mit hoher Genauigkeit möglich, jedoch nur mit hoher Berechnungskomplexität, welche deren Skalierung auf sehr große Korpora bisher verhindert. Aufbauend auf unseren Arbeiten zur Kombination von Ontologien mit graphen-basierter distributioneller Semantik in JOIN-T1 erweiterten wir unseren Fokus für JOIN-T2 auf i) das Verbinden mit dimensionsreduzierten neuralen Vektorrepräsentationen (Embeddings) aus Text und Wissensbasen in einem gemeinsamen Modell, ii) das Erweitern der Abdeckung auch auf niederfrequente und neu auftretende Entitäten durch das Verarbeiten von Korpora in der Größe des Internets und iii) das Nutzen der gemeinsamen Vorteile einer gleichzeitig lexikalischen, distributionellen und ontologischen Repräsentation für komplexe sprachtechnologische Aufgaben wie das entitätenund eventzentrierte Browsen von Dokumentkollektionen. Durch die rasanten Entwicklungen im Bereich kompositioneller Repräsentationen durch große, vor-trainierte Sprachmodelle passten wir unsere Forschungsrichtung entsprechend neuster Ansätze und Modelle an, und wichen deshalb von einzelnen, im Antrag definierten, Arbeitspaketen ab. Zusammengefasst konnten wir neue Einblicke im Bereich kontextualisierter Repräsentationen erreichen und erzielten Fortschritte insbesondere bei der Modellierung und kontextuellen Wiedererkennung der Bedeutung von Wörtern, semantischer Frames und Entitäten.
Projektbezogene Publikationen (Auswahl)
-
Making Sense of Word Embeddings. Proceedings of the 1st Workshop on Representation Learning for NLP.
Pelevina, Maria; Arefiev, Nikolay; Biemann, Chris & Panchenko, Alexander
-
Dual Tensor Model for Detecting Asymmetric Lexico-Semantic Relations. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 1757-1767.
Glavaš, Goran & Ponzetto, Simone Paolo
-
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction and Disambiguation. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, 86-98.
Panchenko, Alexander; Ruppert, Eugen; Faralli, Stefano; Ponzetto, Simone Paolo & Biemann, Chris
-
A framework for enriching lexical semantic resources with distributional semantics. Natural Language Engineering, 24(2), 265-312.
BIEMANN, CHRIS; FARALLI, STEFANO; PANCHENKO, ALEXANDER & PONZETTO, SIMONE PAOLO
-
Building a Web-Scale Dependency-Parsed Corpus from CommonCrawl. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation. Miyazaki, Japan
Alexander Panchenko; Eugen Ruppert; Stefano Faralli; Simone Paolo Ponzetto & Chris Biemann
-
Entity-Aspect Linking. Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries, 49-58.
Nanni, Federico; Ponzetto, Simone Paolo & Dietz, Laura
-
Unsupervised Semantic Frame Induction using Triclustering. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 55-62.
Ustalov, Dmitry; Panchenko, Alexander; Kutuzov, Andrey; Biemann, Chris & Ponzetto, Simone Paolo
-
2019. Does BERT Make Any Sense? Interpretable Word Sense Disambiguation with Contextualized Embeddings. In Proceedings of the 15th Conference on Natural Language Processing (KON- VENS), 161–170. Erlangen, Germany
Gregor Wiedemann; Steffen Remus; Avi Chawla & Chris Biemann
-
Every Child Should Have Parents: A Taxonomy Refinement Algorithm Based on Hyperbolic Term Embeddings. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4811-4817.
Aly, Rami; Acharya, Shantanu; Ossa, Alexander; Köhn, Arne; Biemann, Chris & Panchenko, Alexander
-
Neural entity linking: A survey of models based on deep learning. Semantic Web, 13(3), 527-570.
Sevgili, Özge; Shelmanov, Artem; Arkhipov, Mikhail; Panchenko, Alexander & Biemann, Chris
