Detailseite
Erschließung von linguistischem Wissen durch mehrsprachige Einbettungsräume und latente Informationen (B06)
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung seit 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 232722074
Einbettungen (ein- und mehrsprachige, statische oder kontextualisierte) sind die Arbeitspferde der modernen Sprachtechnologien. Sie erfassen semantische, grammatikalische, morphologische und andere Informationen. Mehrsprachige Einbettungen sind dabei besonders vielversprechend: Wort- und Satzübersetzungen liegen in mehrsprachigen Einbettungsräumen nahe beieinander, ermöglichen Feinabstimmung von Modellen, das few and zero-shot Lernen und stellen die Kerntechnologie dar, auf die sich unsere bisherigen Forschungen zu Translationese in B6 stützten. B6 konzentriert sich in Phase III auf (i) Informationsverteilungen in Einbettungsräumen, (ii) Translationese-Subspaces und (iii) die Extraktion von latentem Hintergrundwissen aus Übersetzungsdaten. Wir untersuchen insbesondere Situationen, in denen Isomorphie zwischen Räumen nicht gilt und auch nicht gelten sollte und die Auswirkungen von (i - iii) auf Informationsdichte und darauf basierende Ansätze zur Übersetzung.
DFG-Verfahren
Sonderforschungsbereiche
Teilprojekt zu
SFB 1102:
Informationsdichte und sprachliche Kodierung
Antragstellende Institution
Universität des Saarlandes
Teilprojektleiterinnen / Teilprojektleiter
Dr. Cristina España i Bonet; Professor Dr. Josef van Genabith; Dr. Raphael Rubino, bis 5/2019