Sprachvergleichende Phonetik und Morphologie mit einem zeit-alinierten Referenzkorpus aus Dokumentationen von 50 Sprachen: Big Data on Small Languages

Antragsteller Privatdozent Dr. Frank Seifart, seit 11/2019

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung von 2019 bis 2023

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 411066783

Sprechgeschwindigkeit und Pausen ermöglichen es, die kognitiv-neuronalen und physiologisch-artikulatorischen Grundlagen der menschlichen Sprachproduktion besser zu verstehen. Die Variation zwischen Sprachen ist dabei allerdings noch kaum erforscht worden. Das Projekt füllt diese Forschungslücke, indem es Spontansprache in einer diversen Stichprobe von 50 Sprachen untersucht. Zu diesem Zweck soll ein multilinguales Referenzkorpus von Sprachdokumentationsdaten ertellt werden, die aus Audioaufnahmen mit assoziierten Annotationen bestehen, z.B. aus The Language Archive (TLA), vorwiegend aus den DOBES-Sammlungen. DoReCo wird aus Daten zusammengestellt, die bereits auf der Äußerungsebene transkribiert und übersetzt sind. In dem vorgeschlagenen Projekt sollen diese Daten auf der Ebene von Phonemen zeitlich aliniert werden. Wir haben 50 Sprachen identifiziert, von denen Korpora von jeweils mindestens 10,000 Wörtern aufgenommen werden können, und eine Untergruppe von mindestens 30 werden zusätzlich nach Morphemgrenzen und Morphemglossen annotiert werden. Subkorpora und Annotationen werden dabei als zitierbare Publikationen bereitgestellt, mit einem permanenten Identifiaktor und einer CC BY 4.0-Lizens. Das DoReCo-Korpus wird einen nachhaltigen Einfluss über die spezifischen Forschungsziele hinaus haben, als eine Plattform, die leichten Zugang zu über einere Million Wörtern von zeitalinierten Korpusdaten zu Sprachdaten in 50 Sprachen bietet. Das stellt einen neuartigen Beitrag für die offene, reproduzierbare wissenschaftliche Erforschung des globalen linguistichen und kulturellen Erbes dar. Die beiden spezifischen Forschungszwecke von DoReCo beziehen sich auf die universellen Eigenschaften von menschlicher Sprache, die auf die artikulatorischen und kognitiven Beschränkungen zurückzuführen sind. Erstens untersuchen wir Muster der phonetischen Längung von Phonemen mit dem Ziel, universelle und sprachspezifische Regeln zu erkennen (z.B. der Längung von Vokalen vs. Konsonanten). Wir untersuchen insbesondere wort- und äußerungsfinale Längungen, welche auf kognitiven Beschränkungen der Äußerungsplanung und eventuell auf der Signalisierung von prosodischen Einheiten beruhen. Zweitens untersuchen wir universale und sprachspezifische Muter in der zeitlichen Verteilung von Morphemen im Hinblick auf die Informationsdichte (Morpheme pro Sekunde) und der Zahl der Morpheme in Sprecheinheiten zwischen Pausen, die beide von kognitiven Beschränkungen abhängen. Das Projekt wird durch ein interdisziplinäres Team ausgeführt, welches Expertise in der Sprachdokumentation, Phonetik, Sprachtypologie und quantitativen Linguistik zusammenbringt; es wird an zwei forschungsstarken Einrichtungen in Deutschland und Frankreich durchgeführt.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Frankreich

Partnerorganisation Agence Nationale de la Recherche / The French National Research Agency

Ehemaliger Antragsteller Professor Dr. Manfred Krifka, bis 11/2019

Servicenavigation

Hauptnavigation

Sprachvergleichende Phonetik und Morphologie mit einem zeit-alinierten Referenzkorpus aus Dokumentationen von 50 Sprachen: Big Data on Small Languages

Zusatzinformationen

Servicenavigation

Hauptnavigation

Sprachvergleichende Phonetik und Morphologie mit einem zeit-alinierten Referenzkorpus aus Dokumentationen von 50 Sprachen: Big Data on Small Languages

Zusatzinformationen

Textvergrößerung und Kontrastanpassung