Computationelle Modelle für Sprach- und Sprecher-Bedeutungsvarianten von Nomen-Komposita und Partikelverben

Antragstellerin Privatdozentin Dr. Sabine Schulte im Walde

Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik

Förderung Förderung seit 2021

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 462212526

Projektbeschreibung

Mehrwortausdrücke (MWEs) sind über Sprachen hinweg allgegenwärtig. Allerdings unterscheiden sich Sprachen und Sprachvarietäten in der jeweiligen Ausprägung und Verteilung von MWE-Typen, und es fehlt an systematischen Mechanismen für Modellierungen und Schlussfolgerungen, da der Fokus auf eher breiten linguistischen Kategorien und Oberflächenmustern statt relevanter semantischer Kategorien liegt, und potentiell interagierende Faktoren wie geographische Zuordnung und Alter nicht ausreichend einbezogen werden. Ebenso unklar bleiben optimale Modellierungslösungen und variantenübergreifende Repräsentationen von MWEs in Sprachmodellen. Beobachtete Inkonsistenzen liegen möglicherweise in diesen bisher nicht einbezogenen Faktoren sowie Inhomogenität in der Gestaltung von entsprechenden monolingualen Datensätzen. Unsere Projektfortsetzung SemVarMWE schlägt ein vielschichtiges Programm hinsichtlich computationeller Modelle von semantischen Varianten von MWEs über Sprecher und Sprachen hinweg vor. Wir betrachten zwei sehr unterschiedliche Arten von MWEs, Nomen-Nomen-Komposita sowie Partikelverben, und schlagen drei Analyselevel über eine breite Auswahl von Zielsprachen über Sprachfamilien hinweg vor: Germanisch (Englisch, Deutsch), Romanisch (Französisch, Italienisch, Spanisch) und Slawisch (BCMS: Bosnisch, Kroatisch, Montenegrinisch, Serbisch): (i) sprachübergreifende Variation vergleicht den allgemeinen Sprachgebrauch; (ii) regionale Variation vergleicht Landesgebrauch von Sprachen (Englisch, Spanisch, BCMS); (iii) Variationen in soziodemografischen Variablen vergleichen feinkörnige Unterschiede im US-Englischen. Unser übergeordnetes Ziel ist es, Goldstandards und maschinelle Lernansätze zu entwickeln, die unsere Auswahl von MWEs sowohl für breitere als auch für spezifischere Sprachvarietäten erfassen und zur Quantifizierung von Unterschieden in der varietätenübergreifenden Prominenz eingesetzt werden können. Ein besonderer Fokus von SemVarMWE wird darauf liegen, gemeinsame Strategien für Sammlung und Harmonisierung von Korpora sowie für die Erstellung von Goldstandards über Sprachen und Varietäten hinweg zu entwickeln, einschließlich Analysen von Annotationen aus perspektivischer Sicht. Darüber hinaus werden wir traditionelle und aktuelle Maße für die Interpretierbarkeit von MWE-Bedeutungen spezifizieren, insbesondere um saliente Merkmale für Kompositionalität und Unterschiede bei Sprechergruppen zu identifizieren. Da unsere Auswahl an MWE-Typen sehr produktiv ist, werden wir anhand von selbst-generierten Neologismen die Kreativität und Generalisierung der Produktionsprozesse über Varietäten hinweg untersuchen. Um MWE-Bedeutungen und Polysemie in der Tiefe zu verstehen, werden wir Paraphrasengenerierungmodelle entwickeln, sowohl basierend auf einfachen systematischen Mustern als auch anhand spezieller maschineller Übersetzungs- und Rückübersetzungsvarianten einschließlich generativer Modelle.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Italien

Kooperationspartner Professor Dr. Dirk Hovy

Servicenavigation

Hauptnavigation

Computationelle Modelle für Sprach- und Sprecher-Bedeutungsvarianten von Nomen-Komposita und Partikelverben

Zusatzinformationen

Servicenavigation

Hauptnavigation

Computationelle Modelle für Sprach- und Sprecher-Bedeutungsvarianten von Nomen-Komposita und Partikelverben

Zusatzinformationen

Textvergrößerung und Kontrastanpassung