Detailseite
Projekt Druckansicht

Aktionalitätsklassen und crosslinguistische Kodierungstendenzen. Typologische Studien und Entwicklung einer linguistischen Analyse-Software

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2017 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 357550571
 
Erstellungsjahr 2022

Zusammenfassung der Projektergebnisse

Die Studien zu insgesamt 30 europäischen und außereuropäischen Sprachen liefern Evidenz für die Gültigkeit von Shannons Codierungstheorem und des Zipfschen Gesetzes in natürlichen Sprachen. Die Studien zeigen die Relevanz von lexikalischer Information für Verarbeitung, auch für das Verstehen, natürlicher Sprachen. Es besteht eine Interaktion von lexikalischer Information, Codierung und Form: Shannon Information ist ein lexikalisches Verb-Feature und (i) erklärt crosslinguistische Codierungsasymmetrien bei Verbaspekt und ist damit ein Prädiktor der Verbform, (ii) ist als semantisches Feature für Sprachverarbeitung relevant. Wenn ein Verb beispielsweise den Default-Aspekt „Perfektiv“ hat, werden seine Imperfektiv-Verbformen im Allgemeinen weniger lexikalische Information tragen und kürzer sein als die Imperfektiv-Formen, i.e., die Nicht-Default-Formen. Lexikalische Information eines sprachlichen Zeichens basiert auf seiner Wahrscheinlichkeit, entweder als Unigramm oder als Surprisal, i.e., der Wahrscheinlichkeit in einem Kontext. In diesem Projekt sind Kontexte eines Zeichens (i) satzintern, nicht-semantisch und bestehen aus terminalen Symbolen, i.e., n-Grammen von Wortformen, oder nicht-terminalen Symbole, i.e., Wortarten (POS-Tags), Lemmata, Dependenzrelationen, oder (ii) satzübergreifend, semantisch und bestehen aus Topiks. Überraschend zeigt sich, dass kleine n-Gramm-Kontexte (Uni-, Bi- und Trigramme) als Kontexte für die Fragestellungen des Projekts gewinnbringender als Dependenzrelationen sind. Vielversprechend ist das in diesem Projekt entwickelte Topic Context Model, das lexikalische Information aus satzübergreifenden semantischen Kontexten eines Zielworts berechnet. Semantische Kontexte für lexikalischer Information werden, so lautet die Vorhersage, insbesondere für Anwendungen des Information/ Text Retrieval eine wichtige Rolle spielen. Die Konkatenation der Kontexttypen in einem optimalen Kontextmodell ist eine Aufgabe künftiger Studien und Experimente. https://www.scientia.global/professor-gerhard-heyer-dr-michael-richter-models-for-understanding-language/

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung