Die Repräsentationseinheit in multilingualen Sprachmodellen

Antragstellerin Professorin Dr. Lisa Beinborn

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung seit 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 550341764

Projektbeschreibung

Sprachtechnologie hat sich zu einem integralen Bestandteil unseres täglichen Lebens entwickelt. Dennoch bleibt der Zugang dazu für die verschiedenen Sprachen der Welt stark ungleich verteilt. Dies liegt daran, dass das Feld der natürlichen Sprachverarbeitung (NLP) historisch gesehen stark von Arbeiten dominiert wird, die sich hauptsächlich auf Englisch konzentrieren. Obwohl verstärkte Bemühungen unternommen werden, um Sprachtechnologie mehrsprachiger zu gestalten, bleibt Englisch die Sprache, für die Modelle primär entwickelt werden. Wenn diese Modelle unverändert auf andere Sprachen angewendet werden, führt dies oft deutlich schlechteren Ergebnissen. Eine grundlegende Modellierungsentscheidung ist der Tokenizer, der die zentralen Repräsentationseinheiten für die Sprachverarbeitung bestimmt. Obwohl diese Repräsentationseinheit mitbestimmt, was ein Modell lernen kann, bleiben alternative Repräsentationen weitgehend unerforscht, insbesondere im multilingualen Kontext. In diesem Projekt planen wir, systematisch verschiedene Optionen für die Repräsentationseinheit basierend auf Zeichen, Bytes, Pixeln und Phonemen für mehrsprachige Sprachmodelle an typologisch unterschiedlichen Sprachen zu vergleichen. Zunächst untersuchen wir die Interaktion zwischen den Einheiten, den typologischen Merkmalen der Sprachen und der Leistung des Modells. Basierend auf diesen Informationen entwickeln wir neue Ansätze für typologisch informierte mehrsprachige Modellierung, die modularer einsetzbar sind und die cross-linguale Fairness erhöhen.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Belgien

Kooperationspartnerin Dr. Miryam de Lhoneux

Servicenavigation

Hauptnavigation

Die Repräsentationseinheit in multilingualen Sprachmodellen

Zusatzinformationen

Servicenavigation

Hauptnavigation

Die Repräsentationseinheit in multilingualen Sprachmodellen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung