Project Details
Projekt Print View

Information distribution and language structure - correlation of grammatical expressions of the noun/verb distinction and lexical information content in Tagalog, Indonesian and German

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term from 2020 to 2023
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 442315837
 
Final Report Year 2023

Final Report Abstract

Das Projekt zeigte, dass Informationsverläufe sprachspezifisch sind. Das TCM bewährte sich, indem es Unterschiede zwischen dem Deutschen, Indonesischen und Tagalog im Informationsfluss in Sätzen aufzeigte. Lexikales Feature war Semantisches Surprisal, und dieses ist, wie wir bilanzieren, ein guter Prädiktor der typologischen Unterschiede zwischen diesen drei Sprachen. Für eine maximale Performanz des TCM verfügten wir in diesem Projekt allerdings nicht über eine optimale Datenbasis. TCM benötigt nicht-lokale weite Kontexte, die in den Bibel-Parallelkorpora nicht vorhanden waren. Ein Desiderat für eine weitere Operationalisierung des TCM ist die Formalisierung weiterer satzübersteigender Kontexte, wie Struktur und Features im Diskurs sowie Weltwissen. TCM ist einsetzbar im Information/ Text Retrieval und auch in genuin linguistischen Studien. Bei der Berechnung von syntaktischem Surprisal musste in diesem Projekt die Einschränkung durch eine nicht-optimale Datenbasis hingenommen werden. Die Annotation einer Dependenz-Baumbank für Tagalog gestaltete sich aufwändiger als geplant und konnte erst zum Projektende fertiggestellt werden. Studien auf der Grundlage von Baumbanken in acht Sprachen – darunter mit Deutsch und Indonesisch zwei der drei Zielsprachen – legten jedoch nahe, dass es lohnend sein könnte, für die Berechnung von syntaktischem Surprisal tiefe Dependenzstrukturen, d.h. nicht nur auf der höchsten Hierarchiebene, miteinzubeziehen. Lokale N-Gramm-Kontexte als Kontexte waren für die Fragestellungen des Projekts nicht gewinnbringend. Wir fassen zusammen: (i) Semantisches Surprisal ist ein Prädiktor typologischer Sprachunterschiede im Deutschen, Indonesischen und Tagalog, (ii) Kontexte zur Ableitung von semantischem Surprisal sollten nicht lokal sein und außersprachliche Kontexte miteinbeziehen, (iii) syntaktisches Surprisal zeigt sprachübergreifend die Gültigkeit des UID-Prinzips, (iv) für die Berechnung syntaktischen Surprisals sollte die ganze Komplexität von Dependenzstrukturen genutzt werden.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung