Informationsverteilung und Sprachstruktur – Korrelation von grammatischen Ausprägungen der Nomen/Verb-Unterscheidung und lexikalischem Informationsgehalt im Tagalog, Indonesischen und Deutschen

Antragsteller Professor Dr. Gerhard Heyer; Professor Dr. Nikolaus Himmelmann

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung von 2020 bis 2023

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 442315837

Erstellungsjahr 2023

Zusammenfassung der Projektergebnisse

Das Projekt zeigte, dass Informationsverläufe sprachspezifisch sind. Das TCM bewährte sich, indem es Unterschiede zwischen dem Deutschen, Indonesischen und Tagalog im Informationsfluss in Sätzen aufzeigte. Lexikales Feature war Semantisches Surprisal, und dieses ist, wie wir bilanzieren, ein guter Prädiktor der typologischen Unterschiede zwischen diesen drei Sprachen. Für eine maximale Performanz des TCM verfügten wir in diesem Projekt allerdings nicht über eine optimale Datenbasis. TCM benötigt nicht-lokale weite Kontexte, die in den Bibel-Parallelkorpora nicht vorhanden waren. Ein Desiderat für eine weitere Operationalisierung des TCM ist die Formalisierung weiterer satzübersteigender Kontexte, wie Struktur und Features im Diskurs sowie Weltwissen. TCM ist einsetzbar im Information/ Text Retrieval und auch in genuin linguistischen Studien. Bei der Berechnung von syntaktischem Surprisal musste in diesem Projekt die Einschränkung durch eine nicht-optimale Datenbasis hingenommen werden. Die Annotation einer Dependenz-Baumbank für Tagalog gestaltete sich aufwändiger als geplant und konnte erst zum Projektende fertiggestellt werden. Studien auf der Grundlage von Baumbanken in acht Sprachen – darunter mit Deutsch und Indonesisch zwei der drei Zielsprachen – legten jedoch nahe, dass es lohnend sein könnte, für die Berechnung von syntaktischem Surprisal tiefe Dependenzstrukturen, d.h. nicht nur auf der höchsten Hierarchiebene, miteinzubeziehen. Lokale N-Gramm-Kontexte als Kontexte waren für die Fragestellungen des Projekts nicht gewinnbringend. Wir fassen zusammen: (i) Semantisches Surprisal ist ein Prädiktor typologischer Sprachunterschiede im Deutschen, Indonesischen und Tagalog, (ii) Kontexte zur Ableitung von semantischem Surprisal sollten nicht lokal sein und außersprachliche Kontexte miteinbeziehen, (iii) syntaktisches Surprisal zeigt sprachübergreifend die Gültigkeit des UID-Prinzips, (iv) für die Berechnung syntaktischen Surprisals sollte die ganze Komplexität von Dependenzstrukturen genutzt werden.

Projektbezogene Publikationen (Auswahl)

Ranking Dutch intensifiers: a usage-based approach. Language and Cognition, 12(2), 343-359.
RICHTER, MICHAEL & VAN, HOUT ROELAND
The Semantic Level of Shannon Information: Are Highly Informative Words Good Keywords? A Study on German. Studies in Computational Intelligence, 139-161. Springer International Publishing.
Kölbl, Max; Kyogoku, Yuki; Philipp, J. Nathanael; Richter, Michael; Rietdorf, Clemens & Yousef, Tariq
One Step Beyond: Keyword Extraction inGerman Utilising Surprisal fromTopic Contexts. Lecture Notes in Networks and Systems, 774-786. Springer International Publishing.
Philipp, J. Nathanael; Kölbl, Max; Kyogoku, Yuki; Yousef, Tariq & Richter, Michael
Uniform Density in Linguistic Information Derived from Dependency Structures. Proceedings of the 14th International Conference on Agents and Artificial Intelligence, 496-503. SCITEPRESS -Science and Technology Publications.
Richter, Michael; Bardají, I. Farré Maria; Kölbl, Max; Kyogoku, Yuki; Philipp, J.; Yousef, Tariq; Heyer, Gerhard & Himmelmann, Nikolaus
Tracing and classifying German intensifiers via information theory. Language Sciences, 96, 101535.
Scheffler, Tatjana; Richter, Michael & van, Hout Roeland

Servicenavigation

Hauptnavigation

Informationsverteilung und Sprachstruktur – Korrelation von grammatischen Ausprägungen der Nomen/Verb-Unterscheidung und lexikalischem Informationsgehalt im Tagalog, Indonesischen und Deutschen

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Informationsverteilung und Sprachstruktur – Korrelation von grammatischen Ausprägungen der Nomen/Verb-Unterscheidung und lexikalischem Informationsgehalt im Tagalog, Indonesischen und Deutschen

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung