Detailseite
Die Repräsentationseinheit in multilingualen Sprachmodellen
Antragstellerin
Professorin Dr. Lisa Beinborn
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 550341764
Sprachtechnologie hat sich zu einem integralen Bestandteil unseres täglichen Lebens entwickelt. Dennoch bleibt der Zugang dazu für die verschiedenen Sprachen der Welt stark ungleich verteilt. Dies liegt daran, dass das Feld der natürlichen Sprachverarbeitung (NLP) historisch gesehen stark von Arbeiten dominiert wird, die sich hauptsächlich auf Englisch konzentrieren. Obwohl verstärkte Bemühungen unternommen werden, um Sprachtechnologie mehrsprachiger zu gestalten, bleibt Englisch die Sprache, für die Modelle primär entwickelt werden. Wenn diese Modelle unverändert auf andere Sprachen angewendet werden, führt dies oft deutlich schlechteren Ergebnissen. Eine grundlegende Modellierungsentscheidung ist der Tokenizer, der die zentralen Repräsentationseinheiten für die Sprachverarbeitung bestimmt. Obwohl diese Repräsentationseinheit mitbestimmt, was ein Modell lernen kann, bleiben alternative Repräsentationen weitgehend unerforscht, insbesondere im multilingualen Kontext. In diesem Projekt planen wir, systematisch verschiedene Optionen für die Repräsentationseinheit basierend auf Zeichen, Bytes, Pixeln und Phonemen für mehrsprachige Sprachmodelle an typologisch unterschiedlichen Sprachen zu vergleichen. Zunächst untersuchen wir die Interaktion zwischen den Einheiten, den typologischen Merkmalen der Sprachen und der Leistung des Modells. Basierend auf diesen Informationen entwickeln wir neue Ansätze für typologisch informierte mehrsprachige Modellierung, die modularer einsetzbar sind und die cross-linguale Fairness erhöhen.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Belgien
Kooperationspartnerin
Dr. Miryam de Lhoneux