Detailseite
Projekt Druckansicht

Zusammenschluss von graphen-basierten und vektor-basierten Bedeutungsrepräsentationen für semantischen Informationszugang (JOIN-T 2)

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 259256643
 
In den letzten Jahren gelangen durch sprachtechnologische Forschungen Durchbrüche im automatischen Sprachverstehen. Lexikalische Semantik ist eine der Schlüsselbereiche in der Sprachtechnologie, was dazu führte, dass eine große Anzahl von Arbeiten sich mit der Repräsentation maschinenlesbaren Wissens beschäftigte, und zwar entlang orthogonaler Dimensionen wie manuelle gegenüber automatischer Akquise, lexikalischer gegenüber konzeptueller Ebene und dicht gegenüber dünn besetzter Vektoren und Matrizen. Dennoch besteht ein großer Forschungsbedarf bezüglich deren Kombination, um die individuellen Vorteile dieser Dimensionen in einem gemeinsamen Modell bzw. einer gemeinsamen Ressource zu vereinen, welche die bessere Bearbeitung von komplexen sprachtechnologischen Aufgaben ermöglicht. Wir schlagen einen Ansatz zur Bedeutungsrepräsentation vor, welche auf der Dualität von Graph und Vektor basiert und der Hypothese, dass sowohl graphenbasierte als auch vektorbasierte Repräsentationen für lexikalische Einheiten gleichermaßen und gleichzeitig genutzt werden sollten, um deren Bedeutung zu charakterisieren. Hierzu schlagen wir ein Framework und eine Ressource vor, welche die oben genannten Dimensionen integriert und insbesondere die Interpretierbarkeit händisch erstellter und dünn (sparse) repräsentierter Ressourcen mit der Genauigkeit und der hohen Abdeckung von dimensionsreduzierten neuralen Embeddings kombiniert. Aufbauend auf unsere bisherigen Arbeiten zur Kombination von Ontologien mit graphen-basierter distributioneller Semantik erweitern wir unseren Fokus auf i) das Verbinden mit dimensionsreduzierten neuralen Vektorrepräsentationen (Embeddings) aus Text und Wissensbasen in einem gemeinsamen Modell, ii) das Erweitern der Abdeckung auch auf niederfrequente und neu auftretende Entitäten durch das Verarbeiten von Korpora in der Größe des Internets und iii) das Nutzen der gemeinsamen Vorteile einer gleichzeitig lexikalischen, distributionellen und ontologischen Repräsentation für komplexe sprachtechnologische Aufgaben wie das entitäten- und eventzentrierte Browsen von Dokumentkollektionen. Dies ist ein Antrag auf Weiterführung unseres bisherigen Projektes „JOIN-T“. Wir haben die meisten Arbeitspakete der ersten Projektphase erfolgreich bearbeitet und planen während der Begutachtungsphase die Fertigstellung der Übrigen. Die Wahl der Themen für diesen Folgeantrag wurde signifikant von den Lehren der ersten Projektphase beeinflusst, insbesondere: i) das Linken von distributionellen und ontologischen semantischen Repräsentationen ist mit hoher Genauigkeit möglich und ii) die Disambiguierung lexikalischer Einheiten in ihrem Kontext zu deren Bedeutungen ist mit Hilfe graphen-basierter Repräsentationen zwar mit hoher Genauigkeit möglich, jedoch nur mit hoher Berechnungskomplexität, welche deren Skalierung auf sehr große Korpora bisher verhindert.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung