Project Details
Projekt Print View

Actionality classes and cross-linguistic coding tendencies. Typological research and development of an analysis software tool

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term from 2017 to 2021
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 357550571
 
Final Report Year 2022

Final Report Abstract

Die Studien zu insgesamt 30 europäischen und außereuropäischen Sprachen liefern Evidenz für die Gültigkeit von Shannons Codierungstheorem und des Zipfschen Gesetzes in natürlichen Sprachen. Die Studien zeigen die Relevanz von lexikalischer Information für Verarbeitung, auch für das Verstehen, natürlicher Sprachen. Es besteht eine Interaktion von lexikalischer Information, Codierung und Form: Shannon Information ist ein lexikalisches Verb-Feature und (i) erklärt crosslinguistische Codierungsasymmetrien bei Verbaspekt und ist damit ein Prädiktor der Verbform, (ii) ist als semantisches Feature für Sprachverarbeitung relevant. Wenn ein Verb beispielsweise den Default-Aspekt „Perfektiv“ hat, werden seine Imperfektiv-Verbformen im Allgemeinen weniger lexikalische Information tragen und kürzer sein als die Imperfektiv-Formen, i.e., die Nicht-Default-Formen. Lexikalische Information eines sprachlichen Zeichens basiert auf seiner Wahrscheinlichkeit, entweder als Unigramm oder als Surprisal, i.e., der Wahrscheinlichkeit in einem Kontext. In diesem Projekt sind Kontexte eines Zeichens (i) satzintern, nicht-semantisch und bestehen aus terminalen Symbolen, i.e., n-Grammen von Wortformen, oder nicht-terminalen Symbole, i.e., Wortarten (POS-Tags), Lemmata, Dependenzrelationen, oder (ii) satzübergreifend, semantisch und bestehen aus Topiks. Überraschend zeigt sich, dass kleine n-Gramm-Kontexte (Uni-, Bi- und Trigramme) als Kontexte für die Fragestellungen des Projekts gewinnbringender als Dependenzrelationen sind. Vielversprechend ist das in diesem Projekt entwickelte Topic Context Model, das lexikalische Information aus satzübergreifenden semantischen Kontexten eines Zielworts berechnet. Semantische Kontexte für lexikalischer Information werden, so lautet die Vorhersage, insbesondere für Anwendungen des Information/ Text Retrieval eine wichtige Rolle spielen. Die Konkatenation der Kontexttypen in einem optimalen Kontextmodell ist eine Aufgabe künftiger Studien und Experimente. https://www.scientia.global/professor-gerhard-heyer-dr-michael-richter-models-for-understanding-language/

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung