Detailseite
Ein multidimensionaler adaptiver Test zur psychometrischen Diagnostik von LLM-Fähigkeiten
Antragsteller
Professor Dr. Fritz Günther
Fachliche Zuordnung
Allgemeine, Kognitive und Mathematische Psychologie
Angewandte Sprachwissenschaften, Computerlinguistik
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 578866898
Mit dem rapiden Aufstieg von Large Language Models (LLMs) werden in einem rasanten Tempo immer neue Modelle veröffentlicht. Dies geht einer mit der ebenso schnellen Veröffentlichung immer neuer Benchmark-Datensätze, die die Performanz dieser Modelle in den verschiedensten Bereichen feststellen sollen – von Sprachverarbeitung und Problemlösung bis hin zu spezialisierteren Fähigkeiten wie Emotionserkennung und Theory of Mind. In dieser dynamischen Umgebung ist die Bewertung der Leistung jedes neuen Modells anhand des gesamten Item-Pools jedes relevanten Benchmarks nicht nur eine technische Herausforderung, sondern wirft auch grundlegende Bedenken hinsichtlich der Skalierbarkeit, des Ressourcenbedarfs und der Nachhaltigkeit des gesamten Unterfangens auf. Im vorliegenden Projekt gehen wir diese Probleme an, indem wir theoretisch-fundierte Methoden aus der pychometrischen Diagnostik - speziell multidimensionale Item-Response-Theorie (mIRT) – auf LLM-Benchmarking anwenden. Im der IRT werden populationsinvariante und item-spezifische Schwierigkeits- und Diskriminationsparameter jedes einzelnen Items anhand der empirischen Leistung einer Normstichprobe geschätzt, was es uns ermöglicht, die informativsten Items zur Bewertung der latenten Fähigkeiten von LLMs zu identifizieren. mIRT erweitert dies auf mehrere unterschiedliche Fähigkeitsdimensionen. In diesem Projekt werden wir Antworten einer Normstichprobe von LLMs auf eine große, vielfältige Menge von Benchmark-Items aus den verschiedensten Bereichen sammeln, um anschließend Item-Parameter im Rahmen des mIRT-Ansatzes zu schätzen. Dadurch können wir die informativsten Items auswählen, um einen computergestützten adaptiven Test (CAT) für LLM-Fähigkeiten zu implementieren: Hier werden Items nacheinander präsentiert, bis die LLM-Fähigkeitsparameter mit ausreichender Genauigkeit geschätzt sind, was eine maximal effiziente Fähigkeitsbewertung ermöglicht. Diese Testinfrastruktur – die als zukunftssichere „lebendige Umgebung“ implementiert wird, in der neue Items hinzugefügt und solche, die im Laufe der Zeit uninformativ werden, entfernt werden können – wird in Form von lokalen Softwarepaketen sowie über eine Online-Schnittstelle verfügbar gemacht.
DFG-Verfahren
Schwerpunktprogramme
