Leistungsbeurteilung

Bennen, definieren und erläutern Sie die drei Testgütekriterien (vgl. Bovet & Huwendiek 2014, S. 326-28). 

Als die drei wichtigsten Qualitätsnormen gelten die Objektivität, die Reliabilität (Zuverlässigkeit) und die Validität (oder Gültigkeit).
 
Objektivität: Ein Test ist dann objektiv, wenn das Testergebnis vom Beurteiler unabhängig ist, wenn also beispielsweise verschiedene Beurteiler beim gleichen Schüler unabhängig voneinander zum gleichen Ergebnis kommen. Je größer der Beurteilungsspielraum ist, den der Lehrer bei der Korrektur hat, desto geringer ist die Objektivität. Zur Einschränkung dieses Ermessensspielraums müssen bei Aufgabenstellungen mit frei zu formulierenden Antworten möglichst präzise Kriterien und Gewichtungen (beispielsweise bei Aufsätzen) oder Musterlösungen samt detaillierter Punkteverteilung („Erwartungshorizonte“) festgelegt werden. Natürlich gibt es auch Überprüfungsverfahren und Aufgabenarten, die in relativ hohem Maße objektiv auswertbar sind. So dürfte es beispielsweise bei der Korrektur eines Diktates oder einer Vokabelarbeit oder auch bei der Antwort auf die Frage etwa nach den Bestandteilen einer Tulpenblüte einen geringen Ermessensspielraum geben. Vollständig objektiv auswertbar schließlich sind alle gebundenen Aufgabenformen (beispielsweise Mehrfachwahl-Aufgaben). 
 
Reliabilität (Zuverlässigkeit): Die Reliabilität eines Tests gibt die Genauigkeit an, mit der gemessen wird, mit der man also dem „wahren“ Wert nahekommt. Allgemein gilt der Grundsatz: Je mehr voneinander unabhängige Einzelaufgaben zu einem Lernziel oder Lernbereich gestellt werden, desto zuverlässiger ist das Testergebnis. Ein etwas übertriebenes Beispiel soll das verdeutlichen: Wenn ein Lehrer überprüfen will, ob ein Schüler seine Vokabeln gelernt hat, wird er sich nicht mit dem Abfragen von ein oder zwei Wörtern begnügen. Er wird vielmehr erst zu einem einigermaßen zuverlässigen Urteil kommen, wenn er ihn zehn, besser noch zwanzig Vokabeln abgefragt hat. 
 
Validität (Gültigkeit): Ein Test ist dann valide, wenn er das, was er zu messen vorgibt, auch tatsächlich misst. Ein Beispiel aus der Schulpraxis für eingeschränkte Validität ist etwa ein Deutschdiktat in der Unterstufe, bei dem die Fehlerzahl nicht nur von den Orthografiekenntnissen einzelner Schüler, sondern auch von deren Schreibgeschwindigkeiten abhängt. Allgemeiner gesagt, wird die Validität von Klassenarbeiten oft durch eine zu große Zeitbeschränkung beeinträchtigt: Wenn die Bearbeitungszeit so knapp bemessen ist, dass ein erheblicher Teil der Schüler manche Aufgaben gar nicht mehr in Angriff nehmen kann, lassen die Testergebnisse natürlich keine Rückschlüsse auf den betreffenden Lernstand zu. Auch der unkontrollierte Einfluss von Handschrift, Rechtschreibung, Art der Darstellung etc. auf die Note gehört hierher. Ein valider Schulleistungstest misst demnach das, was laut Lehrplan zu lernen war. In der Praxis reicht der Bezug auf den Lehrplan aber keinesfalls aus. Um Lernergebnisse von Schülern valide überprüfen und beurteilen zu können, muss Klarheit darüber bestehen, was im konkreten Unterricht gelernt werden sollte. Es muss ein enger Zusammenhang zwischen dem konkreten Unterricht und seiner Überprüfung bestehen, der auch für die Schüler klar erkennbar ist. Nur dann ist die Überprüfung fair und nur dann kann sie zu validen Ergebnissen führen! 

Diskussion