Formale Modelle und Algorithmen zur syntaxbasierten maschinellen Übersetzung natürlicher Sprachen
Zusammenfassung der Projektergebnisse
Im Rahmen dieses Projektes haben wir ein Verfahren entwickelt, wie man mit Hilfe des Links- und Rechtsproduktes sowohl Parsing- als auch Dekodierungsalgorithmen in der statistischen maschinellen Übersetzung natürlicher Sprachen mit synchronous tree-adjoining grammars (STAG) formalisieren kann. Hierzu haben wir eine automatentheoretische Konstruktion mit Korrektheitsbeweis und einen Earley-ähnlichen Algorithmus mit Komplexitätsanalyse angegeben. Um die Komplexität des Links- und Rechtsproduktes zu senken, haben wir einen Binarisierungsalgorithmus entwickelt und die Menge der STAG, für welche dieser eine äquivalente binäre STAG liefert, charakterisiert. Wir haben in der Literatur publizierte count-basierte Trainingsalgorithmen für Grammatik-Formalismen analysiert und bewiesen, dass sie tatsächlich Instanzen des Expectation-Maximization Algorithmus sind.
Projektbezogene Publikationen (Auswahl)
- Tree Parsing with Synchronous Tree-Adjoining Gramu mars, in: Proc. 12th Intern. Conf. on Parsing Technologies (IWPT 2011), Dublin, Association for Computational Linguistics, pages 14–25
M. Büchse, M.-J. Nederhof, H. Vogler
- Unidirectional derivation semantics for synchronous treeadjoining grammars, in: Eds. Hsu-Chun Yen and Oscar H. Ibarra, Proc. 16th Int. Conf. Developments in Language Theory (DLT 2012), pages 368-379, volume 7410 of LNCS, Springer-Verlag, 2012
M. Büchse, A. Maletti, H. Vogler
- Generic binarization for parsing and translation, in: Proc. 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), pages 145–154, Association for Computational Linguistics, 2013
M. B¨chse, A. Koller, H. Vogler
- Tree Parsing for Tree-Adjoining Machine Translation, Journal of Logic and Computation 24(2), 351–373, 2014. First published online: Dec. 6, 2012
M. Büchse, M.-J. Nederhof, H. Vogler
(Siehe online unter https://doi.org/10.1093/logcom/exs050)