Detailseite
Computationelle Modelle für die Entstehung und den Diachronen Wandel der Bedeutungen von Nomen-Komposita und Partikelverben
Antragstellerin
Professorin Dr. Sabine Schulte im Walde
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 462212526
In der automatischen Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) werden Wortkombinationen als Mehrwortausdrücke bezeichnet (multi-word expressions, MWEs), wenn sie zu einem gewissen Grad semantisch opak sind, d.h. wenn die Bedeutung der Kombination auf Basis der Bedeutungen der Konstituenten nicht vollständig (oder gar nicht) vorhersagbar ist. MWEs umfassen eine Vielzahl von morpho-syntaktischen Typen einschließlich Nomen-Komposita (z.B. "Flohmarkt") und Partikelverben (z.B. "aufgeben"). Sie sind aus synchroner Perspektive interdisziplinär ausgiebig erforscht worden, aber es gibt bis heute keine umfassenden empirischen Modelle in Bezug auf die Entstehung und diachrone Entwicklungen von Komposita-Bedeutungen.Unser Projekt SemChangeMWE geht über das eingeschränkte synchrone Konzept von MWEs hinaus und bietet anhand vielfältiger computationeller Modellierungen von diachronen Eigenschaften neue Perspektiven auf Bedeutungsentstehung, Bedeutungsänderung und heutige Kompositionalität (Transparenz). Wir wählen zwei facettenreiche Typen von MWEs für unsere Studien aus: Nomen-Komposita und Partikelverben, die wir sprachübergreifend im Deutschen und Englischen untersuchen. Das Projekt bringt unsere Expertisen in Bezug auf (i) computationelle Modelle für MWE-Kompositionalität und MWE-Bedeutungsanalogien, (ii) computationelle Modelle zu diachronen Bedeutungsänderungen und zu Bedeutungsunterscheidungen in Sprachvariationen und (iii) die Erstellung von Datensätzen zu Bedeutungskomponenten zusammen, um dem Mangel an empirischen Modellierungen zu MWE Bedeutungen anhand von diachronen Modellen entgegenzuwirken.Methodisch werden wir sowohl qualitative als auch quantitative Ansätze verwenden (wie z.B. statistische Maße von Produktivität; distributionelle, informationstheoretische und Graph-basierte probabilistische Modelle; Visualisierung von Kollokationsstärke) sowie Vektor-Repräsentationen und Algorithmen optimieren, um (i) empirisch saliente synchrone Eigenschaften von MWEs zum Zeitpunkt ihrer Entstehung, (ii) diachrone Bedeutungsänderungen von MWEs, (iii) die Rolle von synchroner und diachroner Polysemie in MWE-Bedeutungsinnovation und -reduktion und (iv) Analogien von MWE-Bedeutungsentwicklungen hinsichtlich ihrer heutigen Kompositionalität zu identifizieren und zu beschreiben. Für eine umfassende Evaluation unserer Modelle werden wir unser empirisches Wissen und unsere computationellen Ansätze nicht nur auf allgemeine Benchmarks für semantische Bedeutungsänderungen und auf neu gesammelte MWE-spezifische Datensätze anwenden, sondern auch (i) anhand von Validierung gegen theoretisch motivierte Kategorisierungen von MWEs; (ii) durch Anwendung auf weitere Sprach-Variationen (Domänen-/Register- und Dialekt-spezifische Bedeutungsdivergenzen) und (iii) durch Integration in statistische maschinelle Übersetzung als externe NLP-Anwendung.
DFG-Verfahren
Sachbeihilfen