Detailseite
Computationelle Modelle für Sprach- und Sprecher-Bedeutungsvarianten von Nomen-Komposita und Partikelverben
Antragstellerin
Privatdozentin Dr. Sabine Schulte im Walde
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 462212526
Mehrwortausdrücke (MWEs) sind über Sprachen hinweg allgegenwärtig. Allerdings unterscheiden sich Sprachen und Sprachvarietäten in der jeweiligen Ausprägung und Verteilung von MWE-Typen, und es fehlt an systematischen Mechanismen für Modellierungen und Schlussfolgerungen, da der Fokus auf eher breiten linguistischen Kategorien und Oberflächenmustern statt relevanter semantischer Kategorien liegt, und potentiell interagierende Faktoren wie geographische Zuordnung und Alter nicht ausreichend einbezogen werden. Ebenso unklar bleiben optimale Modellierungslösungen und variantenübergreifende Repräsentationen von MWEs in Sprachmodellen. Beobachtete Inkonsistenzen liegen möglicherweise in diesen bisher nicht einbezogenen Faktoren sowie Inhomogenität in der Gestaltung von entsprechenden monolingualen Datensätzen. Unsere Projektfortsetzung SemVarMWE schlägt ein vielschichtiges Programm hinsichtlich computationeller Modelle von semantischen Varianten von MWEs über Sprecher und Sprachen hinweg vor. Wir betrachten zwei sehr unterschiedliche Arten von MWEs, Nomen-Nomen-Komposita sowie Partikelverben, und schlagen drei Analyselevel über eine breite Auswahl von Zielsprachen über Sprachfamilien hinweg vor: Germanisch (Englisch, Deutsch), Romanisch (Französisch, Italienisch, Spanisch) und Slawisch (BCMS: Bosnisch, Kroatisch, Montenegrinisch, Serbisch): (i) sprachübergreifende Variation vergleicht den allgemeinen Sprachgebrauch; (ii) regionale Variation vergleicht Landesgebrauch von Sprachen (Englisch, Spanisch, BCMS); (iii) Variationen in soziodemografischen Variablen vergleichen feinkörnige Unterschiede im US-Englischen. Unser übergeordnetes Ziel ist es, Goldstandards und maschinelle Lernansätze zu entwickeln, die unsere Auswahl von MWEs sowohl für breitere als auch für spezifischere Sprachvarietäten erfassen und zur Quantifizierung von Unterschieden in der varietätenübergreifenden Prominenz eingesetzt werden können. Ein besonderer Fokus von SemVarMWE wird darauf liegen, gemeinsame Strategien für Sammlung und Harmonisierung von Korpora sowie für die Erstellung von Goldstandards über Sprachen und Varietäten hinweg zu entwickeln, einschließlich Analysen von Annotationen aus perspektivischer Sicht. Darüber hinaus werden wir traditionelle und aktuelle Maße für die Interpretierbarkeit von MWE-Bedeutungen spezifizieren, insbesondere um saliente Merkmale für Kompositionalität und Unterschiede bei Sprechergruppen zu identifizieren. Da unsere Auswahl an MWE-Typen sehr produktiv ist, werden wir anhand von selbst-generierten Neologismen die Kreativität und Generalisierung der Produktionsprozesse über Varietäten hinweg untersuchen. Um MWE-Bedeutungen und Polysemie in der Tiefe zu verstehen, werden wir Paraphrasengenerierungmodelle entwickeln, sowohl basierend auf einfachen systematischen Mustern als auch anhand spezieller maschineller Übersetzungs- und Rückübersetzungsvarianten einschließlich generativer Modelle.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Italien
Kooperationspartner
Professor Dr. Dirk Hovy
