Detailseite
Projekt Druckansicht

KIND-LM: Kognitive inspirierte Interationsdynamiken für datensparsame Sprachmodelle

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Entwicklungspsychologie und Pädagogische Psychologie
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579171395
 
Computergestützte Sprachmodelle können mittlerweile erstaunlich schlüssige Texte erzeugen, aber ihr Training erfordert immense Datenmengen und Rechenressourcen. Werden sie unter akademischen Ressourcenbeschränkungen trainiert, erreichen diese Modelle keine robuste linguistische Generalisierung und zeigen häufig Defizite bei der Anpassung an neue Kontexte. Im Gegensatz dazu erwerben menschliche Lernende Sprache aus deutlich kleineren Inputmengen und passen sich bereits früh flexibel an neue kommunikative Situationen an. Ein wesentlicher Unterschied liegt im Lernsignal: Während der menschliche Spracherwerb in variable soziale Interaktionen eingebettet ist, werden Sprachmodelle typischerweise für die eng gefasste Aufgabe der Vorhersage des nächsten Wortes optimiert. Wir entwickeln ein kognitiv fundiertes Modell interaktiven Sprachlernens, in dem ein Kind-Modell seine sprachlichen Fähigkeiten durch Austausch mit einem leistungsstärkeren Eltern-Modell erweitert. Dabei untersuchen wir insbesondere die Dynamik der Interaktion – wann Feedback gegeben wird, wie es sprachlich gestaltet ist und wer die Initiative ergreift. Auf Basis unseres Pilotmodells mit dem wir bei der sogenannten BabyLM-Challenge die Kategorie "Interaction" gewonnen haben, wollen wir kognitiv plausiblere Lernstrategien entwickeln. Unser Modell nutzt eine Methode des Reinforcement Learning und zeigt, dass selbst vereinfachte Feedback-Strategien die funktionale Sprachkompetenz steigern können, ohne die formale Genauigkeit zu beeinträchtigen. Mithilfe von Methoden der mechanistischen Interpretierbarkeit untersuchen wir, wie sich Interaktionsdynamiken auf die Repräsentationsstruktur des Modells und seine Fähigkeit zur Generalisierung – insbesondere auf seltene Wörter im „long tail“ des Vokabulars – auswirkt. Unser Projekt hat das Ziel durch kognitiv inspirierte Methoden daten-effizientere Sprachmodelle zu entwickeln. Es verbindet maschinelle Modellierungstechniken mit psycholinguistischen Erkenntnissen und sein interdisziplinärer Ansatz widmet sich einer zentralen Forschungsfragen des Schwerpunktprogramm LaSTin: wir nutzen Sprachtechnologie als Simulationsumgebung, um zentrale Mechanismen des menschlichen Spracherwerbs besser zu verstehen.
DFG-Verfahren Schwerpunktprogramme
Internationaler Bezug Niederlande
Kooperationspartnerin Professorin Arianna Bisazza
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung