Statistical and practical significance of item misfit in educational testing
Education Systems and Educational Institutions
Final Report Abstract
In Bildungsstudien stehen vielfach die Kompetenzen der Schüler*innen im Fokus der Forschungsinteressen. Zur Messung jener Kompetenzen werden zumeist Methoden der IRT herangezogen, für die eine Passung zwischen den erhobenen und den vom Modell erwarteten Daten essentiell für valide Aussagen ist. Zur Bestimmung der Passung werden Analysen des Item-Fits herangezogen. Diese können sich sowohl auf die statistische Passung als auch auf die praktischen Konsequenzen von Item-Misfit beziehen. Für die Analysen liegen bisher keine klaren Richtlinien zur Verwendung der Fit-Statistiken und deren Cut-Off Werte sowie Methoden zur Evaluation der praktischen Konsequenzen des Item-Misfits vor, was sich auch in der Praxis widerspiegelt. Dieses Projekt befasste sich daher damit, für Forscher*innen Richtlinien zur Verwendung von Item-Fit-Statistiken in Bezug auf deren Typ-I-Fehlerrate und Power zu erstellen sowie Kriterien zu entwickeln, anhand derer die praktische Bedeutsamkeit von Item-Misfit evaluiert werden kann. Zur Zielerreichung wurde untersucht, (1) welche Faktoren in den Daten die präzise Detektion von Item-Misfit verschiedener Item-Fit-Statistiken beeinflussen und welche Implikationen dies für die Festlegung von Cut-Off Werten hat. Hierzu wurden innerhalb der dafür durchgeführten Simulationsstudien die Stichprobengröße, die Interaktion zwischen dem Item-Misfit und den Itemparametern, die Art der Modellverletzung, die Größe des Item-Misfits, die Anzahl an misfitting Items, die Itemanzahl im Datensatz sowie die Testhomogenität für die Analysen einbezogen. Zudem wurde (2) untersucht, ob Effektstärken zur Bestimmung der Größe des Item-Misfits definiert werden können. Außerdem wurden (3) Methoden und Kriterien zur Evaluation der praktischen Bedeutsamkeit von Item-Misfit ausgearbeitet und auf empirische Daten exemplarisch angewendet. In Bezug auf Ziel (1) konnte gezeigt werden, dass die Item-Fit-Werte der von uns untersuchten Item-Fit-Statistiken von den Datensatzeigenschaften und der Stärke des Item-Misfits abhängen, was bedeutet, dass universelle Cut-Off Werte nicht allgemeingültig sind. Für eine Fit-Statistik wurde in Abhängigkeit verschiedener Datensatzeigenschaften und Größen des Misfits Cut-Off Werte berechnet. Sie können für Forscher*innen für unterschiedliche Datensatzeigenschaften und einer von ihnen festgelegten erlaubten Größe des Misfits eine Orientierung bieten und die Detektion von misfitting Items in ihren Studien verbessern. Für eine weitere Fit-Statistik wurde eine Modifikation der Berechnung der Item-Fit-Werte vorgenommen. Die Modifikation dieser Methode mit einem semiparametrischen Ansatz bewirkt unter bestimmten Datensatzvoraussetzungen eine Datensatzunabhängigkeit und kann bei großen Stichproben zufriedenstellende Ergebnisse in der Detektion von misfitting Items liefern. Ergebnisse zu (2) legen nahe, dass bei dem modifizierten Ansatz die berechneten Item-Fit Werte bei dem Vorliegen einer großen Anzahl an Items oder bei einer mittleren Anzahl an Items, die einen großen Item-Misfit aufweisen, unabhängig von den untersuchten Datensatzeigenschaften sind. In diesen Fällen können die Werte der Item-Fit-Statistik als Effektstärke fungieren. Dies erlaubt den Anwender*innen eine Quantifizierung der Größe des Item-Misfits, was Vorteile bei der Interpretation des Item-Fits liefert. Anwender*innen können so abschätzen, welche Items einen großen, mittleren oder kleinen Misfit aufweisen, und dies im Umgang mit dem misfitting Item berücksichtigen. Des Weiteren wurden im Rahmen von Ziel (3) auf Basis von theoretischen Überlegungen Kriterien zur Evaluation der praktischen Bedeutsamkeit von Item-Misfit auf das latente Merkmal für verschiedene Anwendungsszenarien zur Diskussion gestellt. Die Anwendung der Kriterien wurde exemplarisch an Feldtestdaten der deutschen Teilstichprobe der PISA Studie 2018 demonstriert. Diese Anwendung der Kriterien zeigte selten praktische Konsequenzen des Item-Misfits auf die Häufigkeiten in der Zuordnung von Personen auf Kompetenzstufen oder dem Zusammenhang des gemessenen Merkmals und einer anderen Variable. Ein Item-Misfit führt daher nicht zwingend auch zu einer Verzerrung in den Testergebnissen. Anwender*innen können entsprechend ihres Anwendungsfalls Kriterien auswählen und auf ihre Daten anwenden. Die in diesem Projekt demonstrierten Analysen können die Anwender*innen zum einen bei der Adaption ausgewählter Kriterien unterstützen. Zum anderen können die in den von den Anwender*innen durchgeführten Analysen ermittelten Ergebnisse für die Entscheidung zuträglich sein, ob ein Item im Datensatz bleiben oder ausgeschlossen werden sollte und welche praktischen Konsequenzen damit verbunden sind.
Publications
-
(2020). A bias-corrected RMSD item fit statistic: An evaluation and comparison to alternatives. Journal of Educational and Behavioral Statistics, 45(3), 251–273
Köhler, C., Robitzsch, A., & Hartig, J.
-
(2021). A semiparametric approach for item response function estimation to detect item misfit. British Journal of Mathematical and Statistical Psychology, 74, 157–175
Köhler, C., Robitzsch, A., Fährmann, K., von Davier, M., & Hartig, J.
-
(2021). Statistische und praktische Bedeutsamkeit von nicht modellkonformen Items in empirischen Bildungsstudien. Dissertationsschrift, Goethe Universität Frankfurt
Fährmann, K.