Detailseite
Projekt Druckansicht

Ein multidimensionaler adaptiver Test zur psychometrischen Diagnostik von LLM-Fähigkeiten

Fachliche Zuordnung Allgemeine, Kognitive und Mathematische Psychologie
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 578866898
 
Mit dem rapiden Aufstieg von Large Language Models (LLMs) werden in einem rasanten Tempo immer neue Modelle veröffentlicht. Dies geht einer mit der ebenso schnellen Veröffentlichung immer neuer Benchmark-Datensätze, die die Performanz dieser Modelle in den verschiedensten Bereichen feststellen sollen – von Sprachverarbeitung und Problemlösung bis hin zu spezialisierteren Fähigkeiten wie Emotionserkennung und Theory of Mind. In dieser dynamischen Umgebung ist die Bewertung der Leistung jedes neuen Modells anhand des gesamten Item-Pools jedes relevanten Benchmarks nicht nur eine technische Herausforderung, sondern wirft auch grundlegende Bedenken hinsichtlich der Skalierbarkeit, des Ressourcenbedarfs und der Nachhaltigkeit des gesamten Unterfangens auf. Im vorliegenden Projekt gehen wir diese Probleme an, indem wir theoretisch-fundierte Methoden aus der pychometrischen Diagnostik - speziell multidimensionale Item-Response-Theorie (mIRT) – auf LLM-Benchmarking anwenden. Im der IRT werden populationsinvariante und item-spezifische Schwierigkeits- und Diskriminationsparameter jedes einzelnen Items anhand der empirischen Leistung einer Normstichprobe geschätzt, was es uns ermöglicht, die informativsten Items zur Bewertung der latenten Fähigkeiten von LLMs zu identifizieren. mIRT erweitert dies auf mehrere unterschiedliche Fähigkeitsdimensionen. In diesem Projekt werden wir Antworten einer Normstichprobe von LLMs auf eine große, vielfältige Menge von Benchmark-Items aus den verschiedensten Bereichen sammeln, um anschließend Item-Parameter im Rahmen des mIRT-Ansatzes zu schätzen. Dadurch können wir die informativsten Items auswählen, um einen computergestützten adaptiven Test (CAT) für LLM-Fähigkeiten zu implementieren: Hier werden Items nacheinander präsentiert, bis die LLM-Fähigkeitsparameter mit ausreichender Genauigkeit geschätzt sind, was eine maximal effiziente Fähigkeitsbewertung ermöglicht. Diese Testinfrastruktur – die als zukunftssichere „lebendige Umgebung“ implementiert wird, in der neue Items hinzugefügt und solche, die im Laufe der Zeit uninformativ werden, entfernt werden können – wird in Form von lokalen Softwarepaketen sowie über eine Online-Schnittstelle verfügbar gemacht.
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung