KIND-LM: Kognitive inspirierte Interationsdynamiken für datensparsame Sprachmodelle

Antragstellerinnen Professorin Dr. Lisa Beinborn; Professorin Dr. Nivedita Mani

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Entwicklungspsychologie und Pädagogische Psychologie

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579171395

Projektbeschreibung

Computergestützte Sprachmodelle können mittlerweile erstaunlich schlüssige Texte erzeugen, aber ihr Training erfordert immense Datenmengen und Rechenressourcen. Werden sie unter akademischen Ressourcenbeschränkungen trainiert, erreichen diese Modelle keine robuste linguistische Generalisierung und zeigen häufig Defizite bei der Anpassung an neue Kontexte. Im Gegensatz dazu erwerben menschliche Lernende Sprache aus deutlich kleineren Inputmengen und passen sich bereits früh flexibel an neue kommunikative Situationen an. Ein wesentlicher Unterschied liegt im Lernsignal: Während der menschliche Spracherwerb in variable soziale Interaktionen eingebettet ist, werden Sprachmodelle typischerweise für die eng gefasste Aufgabe der Vorhersage des nächsten Wortes optimiert. Wir entwickeln ein kognitiv fundiertes Modell interaktiven Sprachlernens, in dem ein Kind-Modell seine sprachlichen Fähigkeiten durch Austausch mit einem leistungsstärkeren Eltern-Modell erweitert. Dabei untersuchen wir insbesondere die Dynamik der Interaktion – wann Feedback gegeben wird, wie es sprachlich gestaltet ist und wer die Initiative ergreift. Auf Basis unseres Pilotmodells mit dem wir bei der sogenannten BabyLM-Challenge die Kategorie "Interaction" gewonnen haben, wollen wir kognitiv plausiblere Lernstrategien entwickeln. Unser Modell nutzt eine Methode des Reinforcement Learning und zeigt, dass selbst vereinfachte Feedback-Strategien die funktionale Sprachkompetenz steigern können, ohne die formale Genauigkeit zu beeinträchtigen. Mithilfe von Methoden der mechanistischen Interpretierbarkeit untersuchen wir, wie sich Interaktionsdynamiken auf die Repräsentationsstruktur des Modells und seine Fähigkeit zur Generalisierung – insbesondere auf seltene Wörter im „long tail“ des Vokabulars – auswirkt. Unser Projekt hat das Ziel durch kognitiv inspirierte Methoden daten-effizientere Sprachmodelle zu entwickeln. Es verbindet maschinelle Modellierungstechniken mit psycholinguistischen Erkenntnissen und sein interdisziplinärer Ansatz widmet sich einer zentralen Forschungsfragen des Schwerpunktprogramm LaSTin: wir nutzen Sprachtechnologie als Simulationsumgebung, um zentrale Mechanismen des menschlichen Spracherwerbs besser zu verstehen.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 2556: Robuste Beurteilung und sichere Anwendung von Sprachmodellen: Grundlagen für ein neues Feld zwischen Sprachwissenschaft & -technologie (LaSTing)

Internationaler Bezug Niederlande

Mitverantwortliche Professor Dr. Julian Kunkel; Professorin Dr. Sina Zarrieß

Kooperationspartnerin Professorin Arianna Bisazza

Servicenavigation

Hauptnavigation

KIND-LM: Kognitive inspirierte Interationsdynamiken für datensparsame Sprachmodelle

Zusatzinformationen

Servicenavigation

Hauptnavigation

KIND-LM: Kognitive inspirierte Interationsdynamiken für datensparsame Sprachmodelle

Zusatzinformationen

Textvergrößerung und Kontrastanpassung