Aktionalitätsklassen und crosslinguistische Kodierungstendenzen. Typologische Studien und Entwicklung einer linguistischen Analyse-Software
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Zusammenfassung der Projektergebnisse
Die Studien zu insgesamt 30 europäischen und außereuropäischen Sprachen liefern Evidenz für die Gültigkeit von Shannons Codierungstheorem und des Zipfschen Gesetzes in natürlichen Sprachen. Die Studien zeigen die Relevanz von lexikalischer Information für Verarbeitung, auch für das Verstehen, natürlicher Sprachen. Es besteht eine Interaktion von lexikalischer Information, Codierung und Form: Shannon Information ist ein lexikalisches Verb-Feature und (i) erklärt crosslinguistische Codierungsasymmetrien bei Verbaspekt und ist damit ein Prädiktor der Verbform, (ii) ist als semantisches Feature für Sprachverarbeitung relevant. Wenn ein Verb beispielsweise den Default-Aspekt „Perfektiv“ hat, werden seine Imperfektiv-Verbformen im Allgemeinen weniger lexikalische Information tragen und kürzer sein als die Imperfektiv-Formen, i.e., die Nicht-Default-Formen. Lexikalische Information eines sprachlichen Zeichens basiert auf seiner Wahrscheinlichkeit, entweder als Unigramm oder als Surprisal, i.e., der Wahrscheinlichkeit in einem Kontext. In diesem Projekt sind Kontexte eines Zeichens (i) satzintern, nicht-semantisch und bestehen aus terminalen Symbolen, i.e., n-Grammen von Wortformen, oder nicht-terminalen Symbole, i.e., Wortarten (POS-Tags), Lemmata, Dependenzrelationen, oder (ii) satzübergreifend, semantisch und bestehen aus Topiks. Überraschend zeigt sich, dass kleine n-Gramm-Kontexte (Uni-, Bi- und Trigramme) als Kontexte für die Fragestellungen des Projekts gewinnbringender als Dependenzrelationen sind. Vielversprechend ist das in diesem Projekt entwickelte Topic Context Model, das lexikalische Information aus satzübergreifenden semantischen Kontexten eines Zielworts berechnet. Semantische Kontexte für lexikalischer Information werden, so lautet die Vorhersage, insbesondere für Anwendungen des Information/ Text Retrieval eine wichtige Rolle spielen. Die Konkatenation der Kontexttypen in einem optimalen Kontextmodell ist eine Aufgabe künftiger Studien und Experimente. https://www.scientia.global/professor-gerhard-heyer-dr-michael-richter-models-for-understanding-language/
Projektbezogene Publikationen (Auswahl)
-
(2018). Aspect coding asymmetries of verbs: The case of Russian. In Adrien Barbaresi, Hanno Biber, Friedrich Neubarth, Rainer Osswald (eds.), KONVENS 2018. Proceedings of the 14th Conference on Natural Language Processing, 34 – 39
Giuseppe Celano, Michael Richter, Rebecca Voll, Gerhard Heyer
-
(2019). Aspectual coding asymmetries: predicting aspectual verb lengths by the effects frequency and information content. Topics in Linguistics (20) 2, 54 – 66
Michael Richter, Giuseppe Celano
-
(2019). Interaction of Information Content and Frequency as predictors of verbs' lengths. In Witold Abramowicz, Rafael Corchuelo (eds.), Business Information Systems. 22nd International Conference, BIS 2019, Seville, Spain, June 26–28, 2019, Proceedings, Part I, (=Lecture Notes in Business Information Processing 353). 271 – 282, Springer
Michael Richter, Yuki Kyogoku, Max Kölbl
-
(2019). Predicting default and non-default aspectual coding: Impact and density of information features. Proceedings of the 3rd Workshop on Natural Language for Artificial Intelligence co-located with the 18th International Conference of the Italian Association for Artificial Intelligence (AIIA 2019)
Michael Richter, Tariq Yousef
-
(2020) Information from topic contexts: the prediction of aspectual coding of verbs in Russian. Proceedings of the Second Workshop on Computational Research in Linguistic Typology. Association for Computational Linguistics Workshop at EMNLP 2020
Michael Richter, Tariq Yousef