Information distribution and language structure - correlation of grammatical expressions of the noun/verb distinction and lexical information content in Tagalog, Indonesian and German
Final Report Abstract
Das Projekt zeigte, dass Informationsverläufe sprachspezifisch sind. Das TCM bewährte sich, indem es Unterschiede zwischen dem Deutschen, Indonesischen und Tagalog im Informationsfluss in Sätzen aufzeigte. Lexikales Feature war Semantisches Surprisal, und dieses ist, wie wir bilanzieren, ein guter Prädiktor der typologischen Unterschiede zwischen diesen drei Sprachen. Für eine maximale Performanz des TCM verfügten wir in diesem Projekt allerdings nicht über eine optimale Datenbasis. TCM benötigt nicht-lokale weite Kontexte, die in den Bibel-Parallelkorpora nicht vorhanden waren. Ein Desiderat für eine weitere Operationalisierung des TCM ist die Formalisierung weiterer satzübersteigender Kontexte, wie Struktur und Features im Diskurs sowie Weltwissen. TCM ist einsetzbar im Information/ Text Retrieval und auch in genuin linguistischen Studien. Bei der Berechnung von syntaktischem Surprisal musste in diesem Projekt die Einschränkung durch eine nicht-optimale Datenbasis hingenommen werden. Die Annotation einer Dependenz-Baumbank für Tagalog gestaltete sich aufwändiger als geplant und konnte erst zum Projektende fertiggestellt werden. Studien auf der Grundlage von Baumbanken in acht Sprachen – darunter mit Deutsch und Indonesisch zwei der drei Zielsprachen – legten jedoch nahe, dass es lohnend sein könnte, für die Berechnung von syntaktischem Surprisal tiefe Dependenzstrukturen, d.h. nicht nur auf der höchsten Hierarchiebene, miteinzubeziehen. Lokale N-Gramm-Kontexte als Kontexte waren für die Fragestellungen des Projekts nicht gewinnbringend. Wir fassen zusammen: (i) Semantisches Surprisal ist ein Prädiktor typologischer Sprachunterschiede im Deutschen, Indonesischen und Tagalog, (ii) Kontexte zur Ableitung von semantischem Surprisal sollten nicht lokal sein und außersprachliche Kontexte miteinbeziehen, (iii) syntaktisches Surprisal zeigt sprachübergreifend die Gültigkeit des UID-Prinzips, (iv) für die Berechnung syntaktischen Surprisals sollte die ganze Komplexität von Dependenzstrukturen genutzt werden.
Publications
-
Ranking Dutch intensifiers: a usage-based approach. Language and Cognition, 12(2), 343-359.
RICHTER, MICHAEL & VAN, HOUT ROELAND
-
The Semantic Level of Shannon Information: Are Highly Informative Words Good Keywords? A Study on German. Studies in Computational Intelligence, 139-161. Springer International Publishing.
Kölbl, Max; Kyogoku, Yuki; Philipp, J. Nathanael; Richter, Michael; Rietdorf, Clemens & Yousef, Tariq
-
One Step Beyond: Keyword Extraction inGerman Utilising Surprisal fromTopic Contexts. Lecture Notes in Networks and Systems, 774-786. Springer International Publishing.
Philipp, J. Nathanael; Kölbl, Max; Kyogoku, Yuki; Yousef, Tariq & Richter, Michael
-
Uniform Density in Linguistic Information Derived from Dependency Structures. Proceedings of the 14th International Conference on Agents and Artificial Intelligence, 496-503. SCITEPRESS -Science and Technology Publications.
Richter, Michael; Bardají, I. Farré Maria; Kölbl, Max; Kyogoku, Yuki; Philipp, J.; Yousef, Tariq; Heyer, Gerhard & Himmelmann, Nikolaus
-
Tracing and classifying German intensifiers via information theory. Language Sciences, 96, 101535.
Scheffler, Tatjana; Richter, Michael & van, Hout Roeland
