Information distribution and language structure - correlation of grammatical expressions of the noun/verb distinction and lexical information content in Tagalog, Indonesian and German

Applicants Professor Dr. Gerhard Heyer; Professor Dr. Nikolaus Himmelmann

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages

Term from 2020 to 2023

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 442315837

Final Report Year 2023

Final Report Abstract

Das Projekt zeigte, dass Informationsverläufe sprachspezifisch sind. Das TCM bewährte sich, indem es Unterschiede zwischen dem Deutschen, Indonesischen und Tagalog im Informationsfluss in Sätzen aufzeigte. Lexikales Feature war Semantisches Surprisal, und dieses ist, wie wir bilanzieren, ein guter Prädiktor der typologischen Unterschiede zwischen diesen drei Sprachen. Für eine maximale Performanz des TCM verfügten wir in diesem Projekt allerdings nicht über eine optimale Datenbasis. TCM benötigt nicht-lokale weite Kontexte, die in den Bibel-Parallelkorpora nicht vorhanden waren. Ein Desiderat für eine weitere Operationalisierung des TCM ist die Formalisierung weiterer satzübersteigender Kontexte, wie Struktur und Features im Diskurs sowie Weltwissen. TCM ist einsetzbar im Information/ Text Retrieval und auch in genuin linguistischen Studien. Bei der Berechnung von syntaktischem Surprisal musste in diesem Projekt die Einschränkung durch eine nicht-optimale Datenbasis hingenommen werden. Die Annotation einer Dependenz-Baumbank für Tagalog gestaltete sich aufwändiger als geplant und konnte erst zum Projektende fertiggestellt werden. Studien auf der Grundlage von Baumbanken in acht Sprachen – darunter mit Deutsch und Indonesisch zwei der drei Zielsprachen – legten jedoch nahe, dass es lohnend sein könnte, für die Berechnung von syntaktischem Surprisal tiefe Dependenzstrukturen, d.h. nicht nur auf der höchsten Hierarchiebene, miteinzubeziehen. Lokale N-Gramm-Kontexte als Kontexte waren für die Fragestellungen des Projekts nicht gewinnbringend. Wir fassen zusammen: (i) Semantisches Surprisal ist ein Prädiktor typologischer Sprachunterschiede im Deutschen, Indonesischen und Tagalog, (ii) Kontexte zur Ableitung von semantischem Surprisal sollten nicht lokal sein und außersprachliche Kontexte miteinbeziehen, (iii) syntaktisches Surprisal zeigt sprachübergreifend die Gültigkeit des UID-Prinzips, (iv) für die Berechnung syntaktischen Surprisals sollte die ganze Komplexität von Dependenzstrukturen genutzt werden.

Publications

Ranking Dutch intensifiers: a usage-based approach. Language and Cognition, 12(2), 343-359.
RICHTER, MICHAEL & VAN, HOUT ROELAND
The Semantic Level of Shannon Information: Are Highly Informative Words Good Keywords? A Study on German. Studies in Computational Intelligence, 139-161. Springer International Publishing.
Kölbl, Max; Kyogoku, Yuki; Philipp, J. Nathanael; Richter, Michael; Rietdorf, Clemens & Yousef, Tariq
One Step Beyond: Keyword Extraction inGerman Utilising Surprisal fromTopic Contexts. Lecture Notes in Networks and Systems, 774-786. Springer International Publishing.
Philipp, J. Nathanael; Kölbl, Max; Kyogoku, Yuki; Yousef, Tariq & Richter, Michael
Uniform Density in Linguistic Information Derived from Dependency Structures. Proceedings of the 14th International Conference on Agents and Artificial Intelligence, 496-503. SCITEPRESS -Science and Technology Publications.
Richter, Michael; Bardají, I. Farré Maria; Kölbl, Max; Kyogoku, Yuki; Philipp, J.; Yousef, Tariq; Heyer, Gerhard & Himmelmann, Nikolaus
Tracing and classifying German intensifiers via information theory. Language Sciences, 96, 101535.
Scheffler, Tatjana; Richter, Michael & van, Hout Roeland

Servicenavigation

Hauptnavigation

Information distribution and language structure - correlation of grammatical expressions of the noun/verb distinction and lexical information content in Tagalog, Indonesian and German

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Information distribution and language structure - correlation of grammatical expressions of the noun/verb distinction and lexical information content in Tagalog, Indonesian and German

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung