Detailseite
Computergestützte Sprachdokumentation bis 2025
Antragstellerinnen / Antragsteller
Professor Dr.-Ing. Jan Niehues, seit 4/2022; Dr. Monika Rind-Pawlowski
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung seit 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 431440013
CLD2025 hat zum Hauptziel, die dringend notwendige Dokumentation bedrohter Sprachen durch computergestützte Methoden zu erleichtern. Die Fortschritte bei Machine-Learning-Tools (z.B. künstliche neuronale Netze, Bayesianische Modelle) machen bahnbrechende Entwicklungen möglich, so dass sie die linguistische Annotationsaufgaben durch automatische Audiotranskription, Textglossierung und Wortermittlung effektiv unterstützen können. Eine gründliche Dokumentation der weltweit schrumpfenden Sprachdiversität ist mit diesen Tools eher realisierbar als mit manuellem Workflow. So erfordert die manuelle Transkription von 50 St. gesprochener Sprache hunderte von Arbeitsstunden, was einen Flaschenhals im Workflow der Sprachdokumentation darstellt. Eine weitere wichtige Aufgabe, in der Linguistik als interlineare Glossierung bezeichnet (d.h. Übersetzung/Annotation Wort für Wort), ist noch zeitaufwändiger und manuell, mit dem nötigen Maß an Konsistenz, noch schwieriger durchzuführen. Machine-Learning-Modelle haben das Potential, gerade bei solchen zeitaufwändigen Aufgaben zu unterstützen. Jedoch wird Natural Language Processing (NLP) in der Sprachdokumentation kaum benutzt, weil z.B. die Technologie neu ist und sich schnell entwickelt, nutzerfreundliche Schnittstellen noch in der Entwicklungsphase sind und es nur wenige Fallstudien gibt, die den praktischen Nutzen bei Low-Resource-Sprachen aufzeigen. Ziel von CLD2025 ist, die mittelfristige Anwendung dieser Technologien (bis 2025) zu ermöglichen, indem Feldforscher und Computerlinguisten gemeinsam Modelle, Tools und Schnittstellen entwickeln, die die tatsächliche Verwendung durch Feldforscher ermöglichen. Wir knüpfen an die Ergebnissen des BULB-Projekts an, sowohl bezüglich der Korpora und Akquisitionsweisen, als auch bei der Entwilcklung von Transkriptions- und Segmentationsmodellen. Dabei konzentrieren uns ausschließlich auf die Nutzung bereits existierender Korpora. Wir gehen Probleme der automatischen Verarbeitung an (Phonem- und Tontranskription, Ermittlung von Einheiten, automatische Glossierung), indem wir sie an verschiedenartigen bedrohten Sprachen validieren: Bantu Mboshi C25, Mande Kakabe, eine Sino-Tibetische Sprache: Yongning Na, und 3 Nakh-Daghestanische Sprachen: Khinalug, Kryz, Budugh. Die Ergebnisse fließen direkt in die linguistische Arbeit ein, um phonetisch-phonologische Fragestellungen auf der segmentalen, supra-segmentalen und tonalen Ebene der Sprachen, die im Projekt bearbeitet werden, zu untersuchen. Von Beginn an soll der Fokus auf der Anwendbarkeit der entwickelten Tools und Modelle liegen. Hierdurch wird der zeigt deutlich den fundamental interdisziplinäre Aspekt der Arbeit deutlich, die von Computerlinguisten und Feldforschern gemeinsam geleistet werden soll. Zu diesem Zweck wird eine Feldforscherin in Vollzeit im Projekt arbeiten und mit ihrer Erfahrung und Expertise an der Definition, Entwicklung und Evaluation der verschiedenen im Projekt entwickelten Systeme teilnehmen.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Frankreich
Kooperationspartner
Dr. Gilles Adda
Ehemaliger Antragsteller
Dr.-Ing. Sebastian Stüker, bis 4/2022