"Although people are generally inaccurate in predicting
their performance...under certain conditions and for certain tasks,
people's prediction accuracy can be somewhat better than chance."
Hacker et al. 2000, S.160


 Leistungsabhängige Selbsteinschätzungen unmittelbar vor einer Klausur


Hinweis: Vorliegender Beitrag ist ein ausgelagerter Exkurs aus einer noch unveröffentlichten Studie zur Wirksamkeit von Probeklausuren auf Klausurleistung und Angst, bei der umfangreichere Angaben zu den untersuchten Stichproben und dem Vorgehen gemacht werden.


Unmittelbar vor der Klausur mussten die Studenten einschätzen, wie viel Prozent der Aufgaben sie vermutlich richtig lösen würden und welche Note in Form des Punktzahlsystems (0-15) sie zu erreichen glaubten. Diese subjektiven Einschätzungen sollen im folgenden etwas genauer mit den objektiven Ergebnissen in der Klausur verglichen werden. Da kaum Unterschiede zwischen den experimentellen Bedingungen "Probeklausur" bzw. "Alternativvorbereitung" bzgl. der hier untersuchten Aspekte festgestellt wurden, werden die Ergebnisse jeweils für alle Studierenden eines Seminars zusammengefasst.
Durchschnittsergebnisse objektiver und subjektiv eingeschätzter Klausurleistung 
Wie aus Tabelle 1 hervorgeht, deuten die Durchschnittsergebnisse im Seminar Statistik auf eine leichte, im Seminar Lehren und Lernen auf eine ungewöhnlich hohe Unterschätzung der eigenen Leistung in der Klausur hin.

Tabelle 1: Objektive Leistungen in der Klausur und subjektive eingeschätzte Leistungen unmittelbar vor der Klausur

Statistik

            Prozentsatz der 
            korrekten Lösungen                Punktzahl
           
            M      s                          M      s
  Klausur   63.1  12.5                        7.3   3.3   
                       t(46) = 2.1 p<.05                 t(51) = 0.75 ns 
Schätzung   58.9  11.3                        7.0   2.3


Lehren und Lernen

            Prozentsatz der 
            korrekten Lösungen                Punktzahl
           
            M      s                          M      s
  Klausur   70.6  13.4                        8.7   2.9   
                       t(40) = 7.7 p<.001                t(44) = 5.8 p<.001 
Schätzung   55.1  13.9                        6.4   1.9
Die generellen Unterschätzungen im Seminar "Lehren und Lernen" entsprechen beim Prozentsatz der korrekten Lösungen einer Effektstärke von d= 1.13 und bei der Punktzahl einer Effektstärke von d = .9.

Die höhere Unterschätzung im Seminar Lehren und Lernen im Vergleich zur Statistik wird zumindest teilweise durch die unterschiedliche Schwierigkeit der Klausuren verständlich, da mit sinkender Testschwierigkeit (=höhere objektive Erfolgswahrscheinlichkeit) Unterschätzungen wahrscheinlicher werden (Baron nach Lin & Zabrucky (S. 368)). Die Richtung des Schätzfehlers hängt entscheidend von der Schwierigkeit der Aufgaben ab (siehe genaueres dazu: Stone (2000, S.443. ff).

Die Durchschnittsschätzungen der Klausurergebnisse in beiden Seminaren weichen im übrigen nur unwesentlich vom tatsächlich erzielten Mittelwert der Probeklausuren ab (Statistik: 56.4 % bzw. Lehren und Lernen 52.2 %) und berücksichtigen kaum die objektiven Leistungszuwächse innerhalb der letzten Woche. Vergleicht man statt der subjektiven Einschätzung des erwarteten Leistungsergebnisses das Anspruchsniveau ("Punktzahl, die einen echt zufrieden stellen würde") mit dem objektiven Ergebnis in der Klausur, so findet man im Seminar Lehren und Lernen keinen signifikanten Unterschied mehr. Die angestrebte Note stimmt somit im Mittel mit dem objektiven Klausurergebnis überein, in Statistik fällt die angestrebte Punktzahl hingegen signifikant höher aus.

Die Mittelwertsbefunde, insbesondere der außergewöhnliche Pessimismus im Seminar Lehren und Lernen passen überhaupt nicht zu den bisher ermittelten Befunden in der Literatur, welche Garavalia & Gredler (2002) wie folgt zusammenfassen: "In general, the findings reveal a bias reflecting a positive illusion of performance or ability." bzw. Stone (2000, S. 443) "The prominent finding in the calibration literature is that individuals tend to be overconfident,". Desgleichen findet man in Durchschnittsergebnissen keine Bestätigung für das Resumee eines Reviews von Lin & Zabrucky (1998, S. 384) " overconfidence is a common phenomenon among young adult students..". Die Schlussfolgerung bezieht sich allerdings nicht auf echte Prüfungen, sondern mehr auf das Verstehen eines Textes. Bei einem unverbindlichen Textverständnistest ohne erkennbare Folgen mag es leichter sein, seine Kompetenzillusionen aufrecht zu erhalten als unmittelbar vor einer bedeutsamen Prüfung. Der Erklärungsversuch greift aber offenbar nicht immer, da auch in echten Prüfungen optimistischere Leistungsprognosen gefunden wurden. Grimes (2002) erfasste Leistungsschätzungen unmittelbar vor einem Midterm-Examen. Ein Vergleich mit den tatsächlichen Leistungsergebnissen ergab im Mittel ganz massive Überschätzungen von mindestens einer Effektstärke. (Geschätzte Leistung 83%, tatsächliche Leistung 70%). Balch (1992) fand in einem MC-Abschlussexamen im Mittel ebenfalls eher Überschätzungen, wenngleich diese mit ca. 4% deutlich geringer als bei Grimes ausfielen.  

Orientierung der subjektiven Einschätzung an der objektiven Leistungsfähigkeit
Die subjektiven Leistungseinschätzungen der Studierenden orientieren sich irgendwo an ihrer tatsächlichen Leistungsfähigkeit. Denn in beiden Seminaren korrelieren eingeschätzte Leistung unmittelbar vor der Klausur und die objektive Leistung in der Klausur meistens signifikant in erwarteter Richtung und schwanken je nach verwendeter Variablen Prozentsatz der korrekten Lösungen bzw. Punktzahl zwischen r=.34 und r=.64. Im Seminar Statistik beträgt der positive Zusammenhang zwischen subjektiver Punktzahlschätzung und objektiver Punktzahl r= .64. Die entsprechende Korrelation ist auch aus Abbildung 1 klar wahrzunehmen.
Differenzierte Analyse der leistungsabhängigen Selbsteinschätzungen in Statistik

Entspräche die subjektive Punktzahlschätzung einer erwartungstreuen Messung, so würde man erwarten, dass die subjektiven Einschätzungen für jede Leistungsstufe in vergleichbarer Form um die erzielte Punktzahl schwankten und im Mittel die erzielte Punktzahl ergäben, was aber offensichtlich nicht der Fall ist. 

Abbildung 1
Leistungsabhängige Über- und Unterschätzungen in der Statistikklausur

In beiden Seminaren zeigt sich eine sehr ausgeprägte Abhängigkeit zwischen objektivem Leistungsergebnis in der Klausur und den Abweichungen zu den subjektiven Leistungseinschätzungen vor der Klausur. In Abbildung 1 kann man diese Beziehung im Fach Statistik an den Einzeldaten der Extremgruppen sehr gut verfolgen, wenn man die Wertepaare der Leistungsschwächsten mit denen der Leistungsstärksten vergleicht. Leistungsfähige Studenten unterschätzen ihre Leistung, während leistungsschwache Studenten ihre Leistung eher überschätzen.

Der entsprechende Zusammenhang zwischen Anspruchsniveau und objektiver Leistung ähnelt dem in Abbildung 1, da die geschätzte Punktzahl .74 mit der angestrebten Punktzahl korreliert, wobei die Daten auf der X-Achse im Mittel um mindestens einen Punkt nach rechts verschoben wären. Dichotomisiert man die  Studierenden nach der erbrachten Leistung, so erreichten von der schwächeren Leistungshälfte  (Punktzahl<=7) tatsächlich nur 13% ihr Anspruchsniveau, während in der Gruppe der Leistungsstarken (Note>=8) 81% ihr Anspruchsniveau erzielten. Die Leistungsschwachen verfehlen ihr Anspruchsniveau im Durchschnitt um 2,7 Punkte, während die leistungsstarke Gruppe ihr Anspruchsniveau im Durchschnitt um 1,1 Punkte übertrifft. Dieser Unterschied entspricht einer Effektstärke von d=1.7. (Korrelation: erzielte Punktzahl  mit (Anspruchsniveau minus Punktzahl) = -.75 ).Diese Ergebnisse scheinen mir Beleg für eine früher geäußerte These zu sein, die offenbar für den schwächeren Teil der Studierenden gilt: "Erreichbares ist nicht erstrebenswert und was erstrebenswert ist, ist nicht erreichbar."

Abbildung 1b zeigt dieselben Daten für Statistik wie Abbildung 1, vertauscht dabei lediglich die Achsen und zeichnet die Regressionsgerade ein.

Abbildung 1b

Betrachtet man die erzielte Punktzahl in der Klausur als Prädiktor und die subjektive Schätzung unmittelbar vor der Klausur als Kriterium, so sieht man ganz deutlich die Überschätzungen und Unterschätzungen als Abweichung der Regressionsgrade von der Übereinstimmungslinie. Z.B. Wer in der Klausur 11 Punkte erzielte, dessen subjektiver Erwartungswert vor der Klausur liegt bei etwa 8.5 Punkten. 

Leistungsabhängige Schätzungen in beiden Seminaren
Im Seminar Lehren und Lernen ist die Unterschätzung der Leistung ganz ernorm ausgeprägt (siehe Tab 1), weswegen sich dort auch noch viele durchschnittlich Leistungsfähige unterschätzen, wenn auch nicht ganz so stark wie die Leistungsfähigen. Der Zusammenhang zwischen der objektiven Punktzahl in der Klausur und der Differenz  "subjektiv eingeschätzte Punktzahl unmittelbar vor der Klausur minus objektive Punktzahl in der Klausur" korreliert in beiden Seminaren sehr hoch negativ. (siehe Tabelle 2). Etwas geringere Zusammenhänge ergeben sich, wenn man statt der Punktzahl den objektiven bzw. subjektiven Prozentsatz der korrekten Lösungen verwendet. Mit wachsender objektiver Klausurleistung sinkt die Differenz "eingeschätzte minus objektive Leistung".

Tabelle 2: Korrelationen zwischen objektiver Leistung und ihrer Abweichung zur subjektiven Schätzung (N=41-47)

S =  subjektiv eingeschätzte Punktzahl (bzw. Prozentsatz korrekter Lösungen) vor der Klausur
O = objektive Punktzahl (bzw. Prozentsatz korrekter Lösungen) in der Klausur
S-O = Differenz zwischen subjektiver Schätzung und objektivem Ergebnis (=Calibration)

                                    Prozent  Punktzahl

   Statistik:   r O, S-O =    -.63         -.70
Lehr/Lern:   r O, S-O =    -.53         -.76

Im Seminar Lehren und Lernen bedeutet diese Beziehung inhaltlich: Mit wachsender objektiver Klausurleistung steigt die Unterschätzung. In Statistik wandelt sich mit wachsender Leistungsfähigkeit eine anfängliche Überschätzung in eine zunehmende Unterschätzung.

Bei der Interpretation des Zusammenhangs ist Vorsicht geboten, weil in beiden Variablen die objektive Klausurleistung enthalten ist, was zu rechnerischen Abhängigkeiten führen kann. Objektiv leistungsfähige Studenten haben subjektiv mehr Spielraum nach unten, während Leistungsschwache subjektiv mehr Spielraum nach oben haben, was irgendwie eine Regression zu Mitte provozieren könnte. Die Ausnutzung dieses Spieltraums ist aber nicht zwingend. Ceiling- oder Flooreffekte können meiner Meinung nach nicht für die Befunde verantwortlich gemacht werden [z.B. Ergebnisse für Lehren und Lernen: objektive Punktzahl (theoretisch 0 - 15):  M=8.5, s=2.9; min=3; max=13, siehe auch Abbildung 1].

Abbildung 2 komprimiert die Ergebnisse auf Gruppenniveau und soll die Beziehung zwischen objektivem Leistungsergebnis und ihrer Abweichung zur subjektiven Schätzung weiter veranschaulichen. Sowohl in Statistik, wie im Seminar Lehren und Lernen wurden die Studierenden auf der Basis ihrer Klausurergebnisse in drei etwa gleich große Leistungsgruppen trichotomisiert. Die Gruppengrößen für schwache, durchschnittliche und starke Leistungsergebnisse schwankt insgesamt zwischen 13 und 19 Studierende.

Abbildung 2
Leistungseinschätzungen in Abhängigkeit vom Leistungsniveau

Man sieht an Abbildung 2 sehr schön den ungerechtfertigten Pessimismus der leistungsstarken Studenten, weil das objektive Ergebnis deutlich besser ausfällt als die subjektive Schätzung. Im Gegensatz zur Differenz "subjektive minus objektive Punktzahl" misst die Ungenauigkeit den Betrag der entsprechenden Abweichung. Nur bei den Studenten des Seminars Lehren und Lernen lässt sich hier ein Zusammenhang zwischen objektiver Punktzahl und Ungenauigkeit von r = .59, p<.01 feststellen, der vorwiegend den großen Pessimismus der Leistungsstarken und die realistische Einschätzung der Leistungsschwachen widerspiegelt. Dies ist ein ungewöhnliches Ergebnis, weil man sonst in der Literatur davon ausgeht, dass derjenige, welcher über höhere objektive Kompetenz verfügt, sich auch zutreffender einschätzen kann (Krugar & Dunning  (1999)).  In Lehren und Lernen ist es aber gerade umgekehrt. Die Leistungsschwächsten schätzen sich im Mittel am genauesten ein.

Die entsprechende Korrelation zwischen Ungenauigkeit und Klausurpunktzahl in Statistik fällt mit r=.08 insignifikant aus und bedeutet letztlich, dass sich die Leistungsfähigen in etwa demselben Maße unterschätzen, wie sich die Leistungsschwachen überschätzen, während die durchschnittlich Leistungsfähigen sich hier am genauesten einschätzen. Die Überschätzung der schwachen Statistiker (siehe auch Abbildung 1) mag daher rühren, dass diese subjektiv wenigstens an das Bestehen der Klausur glauben müssen, wenn es Sinn machen sollte, an der Prüfung teilzunehmen.

Vergleichsergebnisse und weitere Erkenntnisse aus der Literatur
Hacker, Bol, Horgan & Rakow (2000) fanden ebenfalls beträchtliche Korrelationen zwischen objektiver Leistung und der Differenz "subjektive Einschätzung der Leistung zu Beginn der Klausur und objektive Leistung in der Klausur", welche in die gleiche Richtung weisen und den hier gefundenen Zusammenhängen von der Höhe her sehr ähnlich sind. Man könnte die Zusammenhange bei Hacker et al.(2000) inhaltlich vornehmlich so interpretieren, dass mit sinkender Leistungsfähigkeit die Überschätzung deutlich zunimmt. Denn im Gegensatz zu unseren Daten weisen die Ergebnisse von Hacker et al (2000) darauf hin, dass die Leistungsstarken - mit Ausnahme der Allerbesten, die sich etwas unterschätzen - relativ zutreffende Einschätzungen vornehmen, während sich Leistungsschwache gewaltig überschätzen. [Man stelle sich vor, die Punkte die Abbildung 2 wären vertikal deutlich weiter nach unten verschoben]. Leistungsstarke Studenten schätzen sich bei Hacker et al. (2000) demnach eindeutig genauer ein. Bol (2003) fand ebenfalls deutlich genauere Leistungseinschätzungen für leistungsstarke Studenten in mehreren Kurztests während des Seminars und im Abschlussexamen. Eine Studie von Bol und Hacker (2001) in 2 aufeinander folgenden realen Klausuren führte zu einem ähnlichen Resultat. Die Autoren kommen abschließend zu dem Ergebnis: "consistent finding was that high-achieving students were more accurate than low-achieving students in both their predictions and postdictions of performance on both exams. High-achieving students were much more accurate but were somewhat underconfident in their predictions. Low-achieving students were much less accurate and largely overconfident ".  Schließlich deuten auch Befunde von Balch (1992) in die gleiche Richtung. Das obere Leistungsdrittel schätzt die Examensleistung recht genau und unterschätzt sich gerinfügig, das mittlere Leistungsdrittel überschätzt sich bereits, aber in Maßen, während das untere Leistungsdrittel ganz massive Überschätzung erkennen lässt.

Diese Befunde stimmen nicht mit unseren Resultaten in Statistik überein und stehen in diametralem Gegensatz zu den Ergebnissen in Lehrern und Lernen, wenngleich die Abweichungsrichtungen - eher Überschätzungen der Leistungsschwachen und Unterschätzungen der Leistungsstarken - in allen Untersuchungen, wenn auch vom Ausmaß unterschiedlich, so doch in der Tendenz vergleichbar sind.

Pädagogische Bemühungen, die Schätzgenauigkeit zu verbessern

Mehrfache Testung mit Rückmeldung des Ergebnisses führte bei Hacker et. al (2000) zu einer etwas besseren Übereinstimmung zwischen objektiver und subjektiver Leistung, aber die deutliche Überschätzung der Leistungsschwachen (< 50 % Lernzielerreichung) war auch durch mehrfache Testung, welche objektiv die Leistungsschwäche meistens bestätigte, praktisch nicht aufzuheben. Denn obwohl die objektive Leistung im vorangegangenen Test ein guter Prädiktor für die objektive Leistung im nachfolgenden Test war (Korrelationen um r= .70), trugen die objektiven Leistungsergebnisse der vorherigen Tests, die den Studenten als Feedback zur Verfügung standen, wenig dazu bei, die subjektiven Einschätzungen für den folgenden Test entsprechend zu adjustieren. Sjostrom & Marks (1994) sowie Shaughnessy (1979) fanden keine Verbesserungen der Schätzgenauigkeit im Verlauf mehrfacher Testungen in einem Seminar. Auch die Studenten von Balch (1992) mussten im Verlauf des Seminars mehrmals Tests bearbeiten, die ähnliche Anforderungen stellten wie die Abschlussklausur. Die Resultate in diesen Tests bewirkten aber bei den schwachen Studenten keine genaueren (d.h. geringere) Einschätzungen im Abschlussexamen. Leider fehlen in allen Untersuchungen Kontrollgruppen ohne Tests, was die Aussagekraft natürlich einschränkt. Einschätzungen aus der Calibration-Laborforschung deuten in die Richtung, dass Tests mit Feedback die Genauigkeit der Selbsteinschätzung nur dann erhöhen, wenn nachfolgend vergleichbare Aufgabeninhalte und Anforderungen eingeschätzt und getestet werden. Im Verlaufe eines Seminars werden aber meist unterschiedliche Aufgaben behandelt, auch wenn deren Lösung auf einer gemeinsamen Fähigkeit basieren möge. In unseren Experimenten haben wir dafür gesorgt, dass die Probeklausur und die Klausur von den Anforderungen hoch vergleichbar waren. Aber nur in Statistik bewirkte die Probeklausur eine genauere Einschätzung der eigenen Leistung unmittelbar vor der Klausur.

Bol (2003) überprüfte in einem experimentellen Versuchsplan, ob ein Calibrationtraining (offenbar eine Art Calibration-practice) die Schätzgenauigkeit verbessert. Alle Studenten nahmen an insgesamt 6 Tests während des Seminars teil, wobei die EG im Gegensatz zur KG jeweils vor und nach den Tests ihre Leistung prognostizieren musste. Im Abschlussexamen konnten keine signifikanten Unterschiede in der Schätzgenauigkeit zwischen beiden Gruppen festgestellt werden.

Zeitpunkt der Leistungseinschätzung

In etlichen Studien (Hacker et. al (2000), Grimes (2002), Balch (1992), Bol (2003)) ist die Übereinstimmung der subjektiven Schätzung mit dem objektiven Klausurergebnis besser, wenn die subjektive Schätzung nicht vor der Klausur, sondern unmittelbar nach der Bearbeitung der Klausur abgegeben wird. Die ganz schwachen Lerner halten gelegentlich auch dann noch an ihrer Überschätzung fest. Schätzungen nach der erbrachten Leistung (Postdiction) sind vermutlich deshalb genauer als Prognosen vor der erbrachten Leistung (Prediction), weil die Anforderungen der Klausur dann völlig transparent sind, die Auseinandersetzung mit den Aufgaben ein internes Feedback hergeben und der Erfolg der Lösungsbemühungen realistischer eingeschätzt werden kann. Manche Untersuchungen ergaben, dass Überschätzungen mit wachsender Nähe zur Bekanntgabe der tatsächlich erzielten Leistung abnehmen, aber Unterschätzungen auch zunehmen können. Wie van Dijk, Zellenberg und van der Pligt (2003) aufzeigten, werden Leistungserwartungen gesenkt, wenn Selbstwert relevante Testergebnisse in naher Zukunft erwartet werden, um so das Enttäuschungspotential zu mindern.

Zusammenhänge zwischen Kompetenzen, Calibration und angstrelevanten Einschätzungen

Im folgenden soll die Beziehung zwischen objektiver Leistung in der Klausur, subjektiver Einschätzung dieser Leistung unmittelbar vor der Klausur, sowie der Diskrepanz zwischen objektiver und subjektiver Einschätzung mit einigen angstrelevanten Variablen verdeutlicht werden, da angenommen werden kann, dass Variablen, welche subjektive Erfolgs- oder Misserfolgserwartungen widerspiegeln in systematischer Weise mit Kompetenzeinschätzungen oder systematischen Über- bzw. Unterschätzungen einhergehen. Hierbei wurden Punktzahl und Prozentsatz der korrekten Lösungen jeweils zu einer Variablen zusammengefasst, um die Zuverlässigkeit der objektiven und subjektiven Kompetenzmaße zu erhöhen.

Tabelle 3: Korrelationen zwischen objektiver Kompetenz und subjektiven Einschätzungen

               objektive  subjektive  Misserfolgs- Mangelndes  aktuelle   
               Kompetenz  Kompetenz   befürchung   Vertrauen   Angst
objektive                    .49        -.14        -.52       -.21        
Kompetenz O                  .39        -.14        -.34        .06
subjektive        .49                   -.52        -.54       -.39           
Kompetenz S       .39                   -.47        -.80       -.04 

Calibration      -.71        .26        -.29        -.06       -.18
S - O            -.73        .35        -.18        -.26       -.27

objektive wie subjektive Kompetenz setzen sich zusammen aus Punktzahl und Prozentsatz korrekter Lösungen.
Die oberen Korrelationen beziehen sich auf Statistik (45<=N<=51), die unteren auf Lehren und Lernen (39<=N<=48).

Aus Tabelle 3 wird erneut erkennbar, dass objektive mit subjektiver Kompetenz zusammenhängt und die Beziehungen zwischen objektiver Kompetenz und Calibration hoch negativ korrelieren. Die Differenz aus subjektiver und objektiver Kompetenz (=Calibration), in welcher sich Über- bzw. Unterschätzungen verbergen, hängt deutlich stärker von der objektiven als der subjektiven Kompetenz ab. Erwartungsgemäß korrelieren die angstrelevanten Variablen deutlicher mit der subjektiven als der objektiven Kompetenz, wobei der fehlende Zusammenhang zwischen Angst und subjektiver Kompetenz im Seminar Lehren und Lernen den theoretischen Vorstellungen sowie allen bisherigen Erfahrungen widerspricht. Nur zum Teil könnte der fehlende Zusammenhang mit vermuteter Resignation einiger Studenten (sehr geringe Kompetenz und sehr hohe Misserfolgserwartung bei völliger Angstfreiheit) erklärt werden.

Die Korrelation der angstrelevanten Variablen mit der Calibration liegen in der erwarteten Richtung, sind aber recht gering ausgeprägt. Höhere subjektive Kompetenz scheint die Bereitschaft anzuzeigen, sich eher etwas optimistischer einzuschätzen. Die entsprechenden Zusammenhänge in beiden Seminaren unterschreiten einseitig das Signifikanzniveau auf dem 5 % Niveau. Die zunehmende Erwartung eines Misserfolgs ist tendenziell mit pessimistischeren Einschätzungen verbunden. Die relativ plausible Hypothese, die aktuell Ängstlichen würden ihre tatsächliche Leistung mehr unterschätzen, deutet sich ansatzweise an, kann aber nur im Seminar Lehren und Lernen bestätigt werden, da die Korrelation r= -.27 einseitig getestet auf dem 5% Niveau signifikant ausfällt. Auch wenn die Beziehungen der aktuellen Einschätzungen mit der Calibration insgesamt schwach ausfallen und nur teilweise statistisch bestätigt werden konnten, finde ich die Ergebnisse bedeutsam, da sie Beziehungen zu objektiven Leistungsdaten aufzeigen.

Diskussion

Die subjektiven Leistungseinschätzungen waren in vorliegender Untersuchung deshalb erhoben worden, weil sie als wesentliche Determinanten der aktuellen Angst angesehen wurden und letztlich auch eine brauchbare Erklärung dafür lieferten, warum Probeklausuren die Angst nicht wirksam abbauen konnten. Die hier angestrengte empirische Analyse entsprang überwiegend keinen theoretischen Vorüberlegungen, sondern entwickelte sich erst im Anschluss an intensives Datenschnüffeln, was letztlich die massiven leistungsabhängigen Selbsteinschätzungen zu Tage brachte. Im Nachhinein wurde ich dann eher zufällig auf eine entsprechende Forschung unter dem Schlagwort "Calibration" aufmerksam, die leider bis auf ganz wenige Ausnahmen empirische Labor- und zu wenig echte Feldforschung betreibt. Im krassen Gegensatz zu häufig berichteten Befunden der Laborforschung, aber auch im Vergleich zu etlichen Untersuchungen im realen Schulsetting wurde hier bei der Klausur "Lehren und Lernen" deutlich widerlegt, die Leistungsfähigsten müssten sich subjektiv besonders zutreffend einschätzen. Denn diese schätzen ihre Leistung mit der größten Ungenauigkeit ein. 

Ebenso passen die eher massiven Unterschätzungen der Leistungsstarken und die relativ milden Überschätzungen der Leistungsschwächsten nicht so einfach in das Bild der bisherigen Forschung.  In beiden Seminaren wird in der Abschlussklausur der Lehrstoff von ca.  4 Monaten geprüft. In Statistik basiert die Examensnote ausschließlich auf dem Ergebnis der Abschlussklausur, in Lehren und Lernen bestimmt das Klausurergebnis zu 75 % die Examensnote. Eine derartig starke Gewichtung des Abschlussexamens war in den sonstigen Untersuchungen zur gleichen Thematik nicht gegeben. Es macht zwar einen Unterschied, ob man schon hinreichende Erfahrung im geprüften Aufgabengebiet gesammelt hat und die untersuchte Leistung ganz bedeutsame Konsequenzen für das Individuum hat oder nicht, diese Bedingungen können die unterschiedlichen Befunde aber nicht hinreichend erklären.

Ich schätze die Ergebnisse in Statistik nicht zuletzt aufgrund der größeren Ähnlichkeit mit den Befunden aus der Literatur für typischer ein als den großen Pessimismus im Seminar Lehren und Lernen. Einige Daten scheinen auf ein bis jetzt nicht näher erklärbares Misstrauen hinzudeuten, was sich u. a. daran zeigte, dass viele Studenten in Lehren und Lernen nach der Klausur angaben, sie hätten nicht daran geglaubt, dass solche Aufgaben in der Klausur drankommen werden, wie sie angekündigt waren. Im Gegensatz zu den Mittelwertsabweichungen zwischen objektiver und subjektiver Kompetenz, sind die Beziehungen zwischen objektiver Leistung und Calibration in beiden Seminaren sehr gut vergleichbar und stimmten der Tendenz nach mit den meisten Befunden in der Literatur überein.

Erklärungsversuche

Es bieten sich mehrere Erklärungen für den massiven Zusammenhang zwischen Leistung und der Abweichung dieser Leistung zur subjektiver Einschätzung an und vermutlich ist ein Bündel von Faktoren dafür verantwortlich. Ich kann schwer einschätzen, wie stark methodische Artefakte bei diesem Zusammenhang beteiligt sind. Selbst Prognosen auf der Basis ausgereifter Tests sind mit Fehlern verbunden, wenngleich diese immerhin den Vorteil eines zufälligen Fehlers aufweisen. Subjektive Einschätzungen sind objektiv schwierig und nicht nur für den Betroffenen selbst relativ unsicher. Zwar gibt es Belege dafür, dass die Kompetenzeinschätzungen eine gewisse Zuverlässigkeit besitzen. Es fehlen aber Informationen darüber, mit welcher Zuversicht die Studierenden selbst an ihre eigene Schätzung glaubten. Schließlich mussten sie ja keine hohen Wetten darauf abschließen, dass ihre Prognosen zutreffen. In etlichen Laboruntersuchungen sind die subjektiven Schätzungen möglicherweise zuverlässiger, weil die Probanden bei jeder Aufgabe ihre subjektive Lösungswahrscheinlichkeit oder eine analoge Sicherheitseinschätzung angeben müssen. Manchmal werden korrekte Schätzungen belohnt. In einem relativ unsicheren Fall ist es jedenfalls nicht unvernünftig, die eigene Schätzung konservativ etwas mehr am Mittelwert zu orientieren, weil extreme Leistungen weniger zuverlässig sind.

Das praktizierte, sozialnormorientierte Bewertungssystem begünstigt einen großen Teil des Zusammenhangs, was dann aber weniger als methodisches Artefakt, sondern als soziales Faktum zu werten ist. Die Anforderungen der Klausur orientieren sich zwar an den Lehrzielen des Seminars und unterliegen so "theoretisch" einer sachlichen Bezugsnorm, diese Lehrziele setzen aber Anforderungen, welche letztlich dazu führen, dass diese für Leistungsfähige leichter und für Leistungsschwache schwerer zu erfüllen sind, wodurch sich die objektiven Leistungen im Endeffekt doch einer Normalverteilung annähern. Über -und Unterschätzungen hängen aber wesentlich von der individuellen Aufgabenschwierigkeit ab. Leichte Aufgaben begünstigen eher Unterschätzung, schwere Aufgaben führen eher zur Überschätzung (Stone 2000).

Da der Wert einer Leistung sich am Niveau der Bezugsgruppe orientiert und gute Leistungen erwünscht sowie schwache Leistungen unerwünscht sind, befindet sich der Leistungsstarke in einer günstigeren Bewertungsposition. Selbstwertdienliche Einschätzungen suggerieren dem Leistungsstarken als Schätzung eine eher untere Zielmarke, die er durchaus übertreffen kann und halten beim Leistungsschwachen die Hoffnung auf ein erträgliches Leistungsergebnis aufrecht. Leistungsschwache Studenten sehen sich möglicherweise dazu gezwungen, an unrealistisch gute Ergebnisse zu glauben, weil es vermutlich sehr schwer fällt, selbstbewusst zur Klausur anzutreten in der festen Überzeugung, man bekomme ein sehr schlechtes Ergebnis und falle höchstwahrscheinlich durch die Prüfung. Die subjektiv optimistische Selbstüberschätzung hätte somit eine psychologische Schutzfunktion. Nur sehr leistungsfähige Lerner können sich in Real-Live-Situationen eine Leistungseinschätzung in Form eines coolen Understatements leisten.

Bei einer konsequenten Leistungsbewertung unter individueller Bezugsnormorientierung, welche jegliche soziale Vergleichsprozesse verunmöglicht, die Aufgabenschwierigkeit an das individuelle Leistungsniveau anpasst und darüber hinaus genaue Schätzurteile belohnt, müsste der Zusammenhang zwischen objektiver Leistung und ihrer Differenz zur subjektiven Einschätzung deutlich abnehmen oder gar ganz verschwinden. Entsprechende Untersuchungen sind allerdings schwer im Schulsystem zu realisieren.

In diesem Beitrag wurden einige schwache Hinweise dafür gefunden, dass die Schätzgenauigkeit bzw. die Abweichungsrichtung auch mit angstrelevanten Variablen im erwarteten Sinne zusammenhängen. Misserfolgsantizipationen scheinen sich zum Teil in ungünstigeren Diskrepanzen zwischen subjektiver Einschätzung und objektiver Leistung nieder zu schlagen, welche in die Richtung Pessimismus hindeuten.

Vorteile zutreffender Einschätzungen

Die zutreffende Einschätzung der eigenen Leistungsfähigkeit bzw. des aktuellen Leistungsstands bringt Vorteile für das Selbstkontrollmanagement des einzelnen Lerners bzw. Prüfungskandidaten, da dann gezielte Vorbereitungsmaßnahmen das Lernen effizienter gestalten könnten. Die zutreffende Einschätzung des Lerners garantiert allerdings nicht zwingend die angemessene pädagogische Konsequenz. Zudem scheint eine korrekte Selbsteinschätzung die Affektbilanz eher zu optimieren als optimistische Überschätzungen (McGraw, Mellers & Ritow (2003).

Objektive Tests als Hilfen für eine zutreffende Einschätzung

Die Probeklausur in Statistik hat die Genauigkeit der Schätzung unmittelbar vor der Klausur etwas verbessert, die leistungsabhängige Selbsteinschätzung aber nicht verändert. Die Probeklausur in Lehren und Lernen hat die Schätzgenauigkeit nicht verbessert und die leistungsabhängige Selbsteinschätzung eher verstärkt. Pädagogische Tests erfassen meist nur das aktuelle Leistungsniveau, nicht aber die Leistungsentwicklung. In den beiden von uns untersuchten Seminaren korrelierte das Probeklausurergebnis signifikant negativ mit dem Lernzuwachs bis zur Klausur. Im Fach Statistik gab die Probeklausur zwar eine gute Prognose für die Rangreihe in der Klausur, aber eine falsche Prognose hinsichtlich hinsichtlich des Lernzuwachses bis zur Klausur.  Trotz der offensichtlichen Schätzfehler der Studenten, sind deren Klausurprognosen im Mittel diagnostisch beachtenswert. Die Schätzungen der Studenten weichen nämlich nicht mehr von den Klausurergebnissen ab als die objektiven Ergebnisse der Probeklausur.  

Mehrfache objektive Testungen bieten eine Möglichkeit, sich selbst besser einschätzen zu können, wenngleich Hacker et al. (2000) im Gefolge mehrfacher Testung nur bei relativ Leistungsfähigen Genauigkeitsgewinne finden konnte. Bol und Hacker (2001) zitieren indes mehrere Literaturquellen, welche genauere Selbsteinschätzungen durch vermehrte Testung nachweisen konnten. Lin, L., & Zabrucky (1998, S 373 ff) skizzieren eine komplexe Befundlage und gehen auf mehrere Bedingungen ein, die erfüllt sein müssen, damit Testungen die Schätzgenauigkeit verbessern. Mehrere Testungen mit Feedback, die auf hinreichend großen, repräsentativen Stichproben aus dem Universum der Lehrziele bestehen, müssten die Schätzgenauigkeit im Hinblick auf die so gesetzten Anforderungen verbessern - sofern in der Zwischenzeit kein deutlicher Lerngewinn oder ein Vergessen stattfand - , jedoch nicht notwendigerweise auf die Leistungseinschätzung bei neuen Wissensgebieten, die im Verlauf eines Seminars anstehen. Es scheint eher unwahrscheinlich, durch mehrfache Testung und Feedback die generelle "Calibrationfähigkeit" im Sinne einer allgemeinen Schätzgenauigkeit der eigenen Leistung zu erhöhen. Ein explizites Einschätzen und nachträgliches Vergleichen dieser Schätzung mit seinem Ergebnis führt nicht automatisch zu einer besseren Schätzgenauigkeit für ein zukünftigen Testergebnis, wenn bis dort hin noch Leistungsveränderungen möglich sind.

Maßnahmen im pädagogischen Umfeld, die tatsächliche Leistungsveränderungen nach sich ziehen, bleiben auf subjektiver Ebene wirkungslos, wenn sie nicht sensibel von zutreffenden Einschätzungen begleitet werden. Deshalb können meistens auch nur sehr massive, unübersehbare, im Schulsystem eher unrealistische Leistungsverbesserungen im Durchschnitt subjektive Kompetenzerhöhungen beflügeln, in deren Gefolge die Studenten deutlich weniger Angst vor Prüfungen bemerken würden. In unseren Untersuchungsstichproben sah die Lage eher so aus: Guten und teilweise auch durchschnittlichen Lernern gelang es nicht, mit hinreichender Sicherheit an ihr objektives Leistungsvermögen zu glauben, weil sie eine eher defensive Leistungseinschätzung vornahmen. Sank die Leistungsfähigkeit auf ein bestimmtes Maß ab, so könnte folgender Mechanismus eingesetzt haben: "Je schwächer die Leistung, desto mehr Kompetenzillusion musste der Kandidat aufbringen, weil die genaue Einschätzung des eigenen Leistungsstandes objektives Versagen signalisieren, das Selbstvertrauen schwächen und Resignation auslösen müsste.

Die sehr dezidierten Ausführungen zur Schätzgenauigkeit sollten nicht den Blick dafür verstellen, der Förderung des objektiven Lernerfolgs mehr Priorität einzuräumen als dem Bemühen um Erkenntnisse zum Verständnis subjektiver Leistungseinschätzungen, bei dem man insbesondere bei korrelativer Betrachtung leicht Gefahr läuft, sich im Metakognitiven zu verlieren. Ein Ansatz von Renner und Renner (2001) scheint in eine wünschenswertere Richtung zu weisen. Die Autoren setzten subjektive Schätzungen gezielt ein, um die Leistung zu steigern und die Schätzgenauigkeit zu fördern. Studenten mussten Testaufgaben bearbeiten und jeweils ihre Lösungswahrscheinlichkeit angeben. Als Rückmeldung erhielten sie neben sachlichem Feedback auch stets ihre subjektive Lösungswahrscheinlichkeit pro Aufgabe. Nach mehrfachen Testungen während eines Seminars erzielten diese Studenten bessere Leistungsergebnisse als eine Kontrollgruppe ohne entsprechende Aufforderungen zur Selbsteinschätzung. Anfängliche Überschätzungen wandelten sich zu Unterschätzungen, welche die Autoren jedoch pädagogisch als das geringere Übel der Fehldeutungen erachten und in diesem Zusammenhang einen Studenten zur Wort kommen lassen: "I like being underconfident, it makes me study more".  Replikationen des Ergebnisses erscheinen mit dringend notwendig, um die Zuverlässigkeit der Befunde nicht zu überschätzen.



Literatur:
Balch, W. 1992. Effect of class standing on students’ predictions of their final exam score. Teaching of Psychology 19 (3): 136–41.

Bol, L. (2003) The influence of practice and achievement level on calibration accuracy.
From Mnemonics to Self-Evaluation: Roaming the Learning Strategies RangeSIG:
Studying and Self-regulated Learning Session Type: Paper Discussion
http://www.tigersystem.net/aera2003/revviewproposaltext.asp?propid=5477 [3.9.2003]

Bol, L. & Hacker, D. J. (2001). A Comparison of the Effects of Practice Tests and Traditional Review on Performance and Calibration. Journal of Experimental Education ,69, 2, p 133-152

Garavalia, L.S.& Gredler, M. E. (2002) An Exploratory Study of Academic Goal Setting, Achievement Calibration and Self-Regulated Learning. Journal of Instructional Psychology, Vol. 29 (4),  p221-230

Grimes, P.W. (2002). The Overconfident Principles of Economics Student: An Examination of a Metacognitive SkillThe Journal of Economic Education, 33, 15-30. 

Hacker, D.J., Bol, L., Horgan, D. D.;Rakow E.A. (2000). Test prediction and performance in a classroom context. Journal of Educational Psychology, Vol 92(1).  160-170.

Krugar, J., & Dunning, D.  (1999).  Unskilled and unaware of it:  How difficulties in recognizing one’s incompetence lead to inflated self-assessments. Journal of Personality and Social Psychology, 77, No.  6, 1121-1134.

Lin, L., & Zabrucky, K. M. (1998). Calibration of comprehension: Research and implications for education and instruction. Contemporary Educational Psychology, 23, no 4. 345-391.

McGraw, A.P.; Mellers B.A & Ritov, I (2003). The Affective Costs of Overconfidence.
www.wws.princeton.edu/pmcgraw/mcgraw.mellers.ritov.pdf [8.9.2003]

Renner, C. H. & Renner, M. J. (2001). But I Thought I Knew That Using Confidence Estimation as a Debiasing Technique to Improve Classroom Performance. APPLIED COGNITIVE PSYCHOLOGY. 15, 23-32

Shaughnessy, J. J., (1979). Confidence-judgment accuracy as a predictor of test performance. Journal of
Research in Personality, 13, 505-514. (zitiert nach Sjostrom  & Marks, A. (1994))

Stone, N. J.  (2000) Exploring the Relationship between Calibration and Self-Regulated Learning. Educational Psychology Review, Vol. 12, No. 4, S.437-475.

Sjostrom, K. P.& Marks, A. (1994). Pretest and posttest confidence ratings in test performance by low-, medium-, and high-scoring Students. Teaching of psychology  Vol. 21 (1), p12-16

van Dijk, W.W. ,  Zeelenberg, M. & van der Pligt,J. (2003). Blessed are those who expect nothing: Lowering expectations as a way of avoiding disappointment. Journal of Economic Psychology 24 (4), 505–516


created 10.7.2003; last update 30.10.2003; Bernhard Jacobs, b.jacobs@mx.uni-saarland.de