Detailseite
Projekt Druckansicht

Maschinelle Übersetzung des Deutschen ohne Parallelkorpora

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2020 bis 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 433312382
 
Datengetriebene Methoden zur maschinellen Sprachverarbeitung stellen den Stand der Technik in der maschinellen Sprachverarbeitung dar und finden breiten Einsatz sowohl in der akademischen Forschung als auch in der industriellen Anwendung. Datengetriebene maschinelle Übersetzungsmethoden - wie etwa die Phrasen-basierte statistische maschinelle Übersetzung und die neuronale maschinelle Übersetzung - verlassen sich stark auf verfügbare Parallelkorpora (bestehend aus ganzen Texten und ihren Übersetzungen), aus denen parallele Sätze extrahiert werden. Das Training eines Übersetzungssystems wird als ein überwachtes Lernproblem behandelt, bei dem ein Klassifikator trainiert wird, der für einen gegebenen Eingabesatz aus der Quellsprache einen Satz aus der Zielsprache als Übersetzung generiert. Die Verfügbarkeit eines ausreichend großen Parallelkorpus bildet den größten Engpass.Wir werden neuronale Übersetzungssysteme konstruieren, die keine Parallelkorpora benutzen. Unser Ansatz dazu verwendet Abbildungen zwischen Worteinbettungsräumen. Einsprachige Worteinbettungen werden in der modernen Sprachverarbeitungsforschung häufig genutzt. Solche einsprachigen Worteinbettungsräume können entweder mit Hilfe einer kurzen Liste von Wörtern und deren Übersetzungen oder mit unüberwachten Lernverfahren aufeinander abgebildet ("aligniert") werden. Mit Hilfe einer solchen Abbildung können dann iterativ immer bessere pseudo-parallele Korpora generiert werden, die für die Übersetzung von Sprache L1 zu Sprache L2 und von L2 zu L1 nützlich sind.Bisher gibt es nur wenige Arbeiten zu diesem Forschungsgebiet und die vorhandenen Arbeiten enttäuschen in vier Punkten: (i) Die meisten Arbeiten fokussieren auf die anfängliche Verwendung von bilingualen Lexika, die mit Hilfe von bilingualen Worteinbettungen realisiert werden, welche nur 1-zu-1-Übersetzungen erlauben. Die beiden einzigen Arbeiten, die dieses Problem angehen, verwenden nur vordefinierte "interessante" Mehrwortausdrücke statt diese im Training zu lernen. (ii) Bisherige Methoden versuchen, dem System durch Training auf "verrauschten" Eingabedaten größere Robustheit gegenüber unerwarteten Eingaben anzutrainieren. Dies gelingt jedoch nur mit Einschränkungen, die im beantragten Projekt überwunden werden sollen. (iii) Bisherige Versuche, dafür die Phrasen-basierte maschinelle Übersetzung zu verwenden, litten darunter, dass nur wenige der Merkmalsfunktionen eines vollständigen Phrasen-basierten Übersetzungssystems verwendet wurden. (iv) Schließlich waren die bisherigen neuronalen Modelle, die verwendet wurden, um Endsysteme zu implementieren, allzu einfach und verzichteten darauf, Adäquatheit, Flüssigkeit und Vollständigkeit der Übersetzung mit geeigneten Zielfunktionen explizit zu modellieren. Unsere Systeme werden höher Übersetzungsqualität haben, als bei allen bisherigen unüberwachten Übersetzungssystemen.
DFG-Verfahren Sachbeihilfen
Mitverantwortlich Privatdozent Dr. Helmut Schmid
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung