Seq2Vec-LM: Transformer-basierte Sequence-to-Vector-Sprachmodelle

Antragsteller Professor Dr. Matthias Hagen

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 574835023

Projektbeschreibung

Im Rahmen des Projekts Seq2Vec-LM werden wir zu neuartigen Transformer-basierten Sprachmodellen forschen, welche nur einen einzigen Repräsentationsvektor für einen Eingabetext ausgeben. Im Gegensatz dazu arbeiten etablierte Transformer-basierte Sprachmodelle wie GPT oder BERT als Sequenz-zu-Sequenz-Modelle und geben für jedes Token einer Eingabe einen separaten Repräsentationsvektor aus. Solche Sequenz-zu-Sequenz-Modelle eignen sich gut für Aufgaben, bei denen auch eine Sequenz als Ausgabe erwartet wird, wie zum Beispiel Übersetzen, Fragebeantwortung oder Textzusammenfassung. Für Aufgaben wie Textklassifikation oder semantische Suche allerdings, bei denen für eine Eingabesequenz oft nur ein einziger Repräsentationsvektor zur Bestimmung der Ausgabe benötigt wird, ist die Sequenz-zu-Sequenz-Architektur aus mehreren Gründen nicht optimal. Zum einen wird in solchen Szenarien von den vielen berechneten Repräsentationsvektoren (für jedes Token ein Vektor) in der Regel am Ende doch nur einer genutzt (bspw. der des speziellen [CLS]-Tokens bei BERT) -- eine recht ineffiziente Vorgehensweise, da das Bestimmen der vielen anderen Vektoren rechenintensiv ist. Zum anderen werden Sequenz-zu-Sequenz-Modelle in der Regel auf die Vorhersage einzelner Tokens vortrainiert, so dass die Repräsentationsvektoren gar nicht für die Bestimmung eines einzelnen Vektors für einen längeren Text gedacht sind -- ein potenzielles Problem für die Effektivität in Nicht-Sequenz-zu-Sequenz-Szenarien. Um die geschilderten potenziellen Effizienz- und Effektivitätsprobleme von Sequenz-zu-Sequenz-Modellen zu umgehen, werden wir im Projekt Seq2Vec-LM an Sequenz-zu-Vektor-Modellen arbeiten, die direkt darauf optimiert sind, nur einen einzigen Repräsentationsvektor für einen Eingabetext auszugeben. In Vorarbeiten haben wir bereits gezeigt, dass ein Sequenz-zu-Vektor-Modell für semantische Suche genauso effektiv sein kann wie etablierte Sequenz-zu-Sequenz-Modelle, aber um ein Vielfaches effizienter. Im Projekt wollen wir die Effizienz und Effektivität von Sequenz-zu-Vektor-Modellen noch weiter steigern, indem wir verschiedene Architekturkonfigurationen, Tokenisierungsvarianten und Trainingsstrategien analysieren. Außerdem wollen wir die Anwendbarkeit von Sequenz-zu-Vektor-Modellen in weiteren Szenarien untersuchen, von generativen Aufgaben wie Textzusammenfassung und Fragebeantwortung bis hin zu extraktiven Aufgaben wie Named Entity Recognition und Textklassifikation.

DFG-Verfahren Sachbeihilfen

Servicenavigation

Hauptnavigation

Seq2Vec-LM: Transformer-basierte Sequence-to-Vector-Sprachmodelle

Zusatzinformationen

Servicenavigation

Hauptnavigation

Seq2Vec-LM: Transformer-basierte Sequence-to-Vector-Sprachmodelle

Zusatzinformationen

Textvergrößerung und Kontrastanpassung