Entwicklung und Validierung eines Instruments zur Erfassung von Assessment Literacy bei Mathematiklehrkräften
Zusammenfassung der Projektergebnisse
Im durchgeführten Forschungsprojekt wurde ein Testinstrument entwickelt, welches die Fähigkeit misst, Daten aus Schulleistungstests zu beurteilen. Dieses Instrument unterscheidet sich von anderen bestehenden Instrumenten darin, dass nicht nur die Fähigkeit ermittelt wird, Tabellen und Abbildungen zu interpretieren, sondern auch Schlussfolgerungen für die pädagogische Arbeit der Lehrkräfte abzuleiten. Wichtige Impulse für die inhaltliche Gestaltung des Tests bildeten die Workshops, die zu Beginn des Forschungsprojektes zusammen mit den Fachdidaktikerinnen und Fachdidaktikern der Mathematik durchgeführt wurden. Im Rahmen der Workshops wurden verschiedene Konzeptionen zur Messung von Assessment Literacy diskutiert und gemeinsam Vorschläge für die Gestaltung von Aufgaben erarbeitet. Die Vorschläge fanden Eingang in das Pilotierungsinstrument welches in einer kleinen Stichprobe von Studierenden des Studiengangs Erziehungswissenschaft erprobt wurde. Die Ergebnisse dieser Pilotierung wurden genutzt, um die Schwierigkeit und Trennschärfe zu evaluieren und das Instrument auf Basis der statistischen Kennwerte weiterzuentwickeln. Darüber hinaus wurde auch nach der Pilotierung fachdidaktische Expertise eingeholt, um die inhaltliche Passung der entwickelten Aufgaben zu dem Konstrukt zu überprüfen. Im Anschluss an diese nochmalige Prüfung wurde das Testinstrument für die Haupterhebung zusammengestellt, an der knapp 100 Lehrkräfte aus dem gesamten Bundesgebiet teilnahmen. Die Teilnahme an der Untersuchung wurde dadurch unterstützt, indem Lehrkräfte einen Büchergutschein im Wert von 50 € für die Teilnahme an der Testung erhielten. Die Erfahrungen haben gezeigt, dass insbesondere die Incentivierung der Lehrkräfte einen wichtigen Anreiz darstellte, sich an der Untersuchung zu beteiligen. Die Ergebnisse, die im Laufe der Testentwicklung und -validierung entstanden sind, haben gezeigt, dass das theoretisch angenommene dreidimensionale Modell von Assessment Literacy (Noticing, Interpreting und Decision Making) mit Hilfe der entwickelten Items nicht in dieser Form abgebildet werden kann. Dennoch ließ sich zeigen, dass über alle Dimensionen hinweg ein verlässliches Instrument mit hinreichender Zuverlässigkeit erstellt werden konnte. Die Ergebnisse der Validierung weisen darauf hin, dass der Test in starkem Maße zwischen Lehrkräften mit niedriger und hoher Kompetenzausprägung unterscheidet. Überraschend war jedoch der Befund, dass theoretisch angenommene Unterschiede zwischen Lehrkräften des Faches Mathematik und Lehrkräften anderer Fächer nicht zufallskritisch abgesichert werden konnte. Lediglich Lehrkräfte aus dem Fächerverbund MINT (Mathematik, Physik Biologie, Chemie oder Informatik) weisen deutlich bessere Ergebnisse auf als Lehrkräfte der anderen Fächer. Durch die Ausweitung der Stichprobe war es ebenfalls möglich, Unterschiede zwischen Lehrkräften verschiedener Fächer und Altersstufen zu analysieren. Bei diesen Analysen zeigten sich keine Unterschiede zwischen Lehrkräften verschiedener Schulformen, jedoch konnte belegt werden, dass Lehrkräfte mit weniger Berufserfahrung (weniger als 5 Jahre) bessere Testleitungen erzielen als Lehrkräfte mit umfangreicherer Erfahrung (mehr als 5 Jahre). Die Prüfung der Kriteriumsvalidität hat deutlich gemacht, dass die Ergebnisse im Test mit Ergebnissen aus einem anderen verwandten Test zur Datenkompetenz und zum schlussfolgernden Denken in Beziehung stehen. Die Zusammenhänge fielen jedoch deutlich niedriger aus als dies auf Basis der Literatur vermutet werden konnte. Es bedarf deshalb weiterer qualitativer Analysen, die Auskunft darüber geben, welche Unterschiede in den Instrumenten zu den Unterschieden in den Testergebnissen beigetragen haben.