Detailseite
Projekt Druckansicht

Das Überwinden der Schranke zu ungeschriebenen Sprachen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 259117245
 
BULP bietet Unterstützung für die Dokumentation ungeschriebener Sprachen mit Hilfe automatischer Spracherkennung (ASR) und maschineller Übersetzung (MT). Wir behandeln beispielhaft die Dokumentation dreier ungeschriebener Sprachen der Bantufamilie in Afrika (Basaa, Myene und Embosi). Die wichtigsten Schritte des Projektes sind:1. Die Sammlung von Korpora zu verträglichen Kosten mit der Hilfe eines 3-Schritte-Plans nach S.Bird und M. Liberman:Sammlung großer Korpora (100h) Sprache in Gemeinschaften, inkl. Geschichten, Dialoge und Sendungen;Nachsprechen. Wegen der zu erwartenden, schlechten Tonqualität der Aufnahmen, z.B. durch spontansprachliche Effekte, Übersprechen und Rauschen, wird das Nachsprechen der Aufnahmen durch einen Referenzsprecher die phonetische Verschriftung verbessern, sowie zu phonetisch/phonologisch besser verwertbarem Material führen.Mündliche Übersetzung. Übersetzung ist eine natürliche Art der Dokumentation einer Sprache; münde. Übersetzung wird den Prozess beschleunigen. Die Bantudaten werden nach Französisch übersetzt, eine wichtige Sprache und Zweitsprache in der Region der Datensammlung.2. Die gesammelten, mündlichen Daten (Bantu und französische Übersetzung) enthalten die notwendigen Information zur Dokumentation der Sprachen. Die ASR wird automatische, zuverlässige Transkriptionen der Quell- und Zielsprachen erzeugen und die MT sinnvolle Alignments dazwischen, um die Hauptschritte der Dokumentation zu beschleunigen: Beschreibung und Analyse. Die wichtigsten, automatischen Verarbeitungsschritte sind:Phonetische Transkription der Bantu-Sprachen. Dazu werden sprachenunabhängige Phonemmodelle unüberwacht angepasst.Worttranskription der französischen Übersetzungen. Akustische und Sprachmodelle müssen dazu angepasst werden.Alignments zwischen der phonemischen Transkription der Bantu-Sprachen; wertvoll für großangelegte akustisch, phonetische Studien, phonologisches und prosodisches Datamining und Betrachtung dialektischer Variationen;Sprachübergreifende Alignments, die französischen Worte der Übersetzung mit den Phonemsequenzen verbinden. Diese sind wertvoll für morphologische Studien, sowie Vokabular- und Wörterbucherkundung.Der Erfolg des Projektes basiert auf der starken deutsch-französischen Zusammenarbeit zwischen Linguisten und Informatikern. Die Zusammenarbeit wird durch eine Serie von Kursen gefördert werden, von denen auch die allgemeine Wissenschaftsgemeinschaft profitieren wird. In den Kursen unterrichten Linguisten die Informatiker in Sprachendokumentation, einschließlich den Hauptschritten, und die Informatiker werden die entwickelten Methoden zur Verarbeitung einer neuen Sprache den Linguisten präsentieren, insbesondere die Verfahren zur phonetischen Verschriftung und Pseudowortgenerierung mit Hilfe der Alignments.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Frankreich
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung