zum Projekt:: Aufgaben stellen und Feedback geben.
Die Auswirkungen von Short-Answer- und Multiple Choice-Übungsaufgaben auf das Lernergebnis.

Für den Aufgabenkonstrukteur stellt sich häufig die Frage, mit welchem Aufgabenformat er ein Lehrziel erfassen soll bzw. welcher Aufgabentyp sich am besten für Übungszwecke eignet. Stellen wir uns vor, die Schüler lesen eine Biografie über Einstein. Um das Wissen einzuüben oder zu testen, lassen sich 2 klassische Aufgabenformate verwenden.

Multiple Choice
Short Answer
In welcher Stadt wurde Albert Einstein geboren?
1.) Berlin
2.) Bern
3.) Zürich
4.) Ulm
In welcher Stadt wurde Albert Einstein geboren?
 

 

Nach Rütter (1973) ist beim Multiple Choice-Aufgabentyp (MC) die korrekte Antwort in der Aufgabe enthalten. Der Lerner muss die zutreffende Alternative aus mehreren Optionen auswählen (=selected response task). Beim Short Answer Aufgabentyp (SA), deutsch kurze Freiantwortaufgabe, sieht der Lerner lediglich die Frage und hat die Antwort selbst herausfinden. Die Short Answer-Übungsaufgabe wird im Englischen gelegentlich auch cued recall study task genannt und gehört zur Klasse der constructed-response question. 

Mit beiden Aufgabentypen lassen sich eine Fülle unterschiedlich anspruchsvoller Lehrziele einüben und testen (z.B.: eine MC-Aufgabe mit sehr anspruchsvollem Lehrziel nach Kuechler & Simkin (2005). Generelle Aussagen über die Wirkung unterschiedlicher Aufgabenformate auf die kognitive Aufgabenanforderung, die zur Aufgabenlösung notwendigen geistigen Operationen, die erforderliche Bearbeitungszeit, Objektivität und Kosten der Auswertung sowie sonstige Aspekte sind hingegen schwerlich zu treffen. So gilt etwa die Behauptung, bei MC sei im wesentlichen Wiedererkennung angesagt, vielleicht für das Lehrziel Faktenwissen, wenn zuvor die entsprechenden Fakten genannt oder gelesen wurden (siehe oben). Wer aber kommt auf die Idee, die Bearbeitung von MC-Intelligenztestitems als ein Wiedererkennen der korrekten Alternativen anzusehen?  Die Frage: "Wie lautet der Artikel 1.1 des Grundgesetzes der BRD ?"  verursacht bei einer SA-Testung deutlich mehr Bearbeitungszeit und auch mehr Auswertungsprobleme als unter MC-Testung. Solche Unterschiede treten bei der Frage "Wie viel ist 5+12 ?" aber gar nicht in Erscheinung. Derartige Einschränkungen sollte man im Hinterkopf behalten, wenn im folgenden auf einige empirische Untersuchungen eingegangen wird, welche vor allem die Auswirkungen der beiden Testformate auf das Lernergebnis betreffen.

Um die Wirkung der Aufgabentypen in ihrer Funktion als Übungsaufgaben auf die Behaltensleistung möglichst gut abschätzen zu können, bietet sich das in Tabelle 1 dargestellte Untersuchungsvorgehen mit insgesamt 4 Bedingungen an:

Tabelle 1:  Untersuchungsszenario zur Überprüfung der Übungswirkung der Aufgabenformate MC und SA
            Nachtest- 
            aufgabenform 
              SA   MC 
Übungs-  SA   1    2 
variante MC   3    4

Es werden zunächst Übungsaufgaben entwickelt, die den gleichen Lerninhalt in einen SA- oder MC-Aufgabentyp kleiden. Sofern im Nachtest lediglich das Behalten der Information gemessen wird, hat man somit auch die Nachtestaufgaben konstruiert. Dies ist etwa beim Vokabellernen oder bei trivialem Faktenwissen die Regel. Ansonsten muss man neue Aufgaben entsprechend dem erwünschten Transferbereich entwickeln, die sowohl in der MC- wie auch Short-Answer-Variante dasselbe messen müssen. Meistens verwendet man nur 2 experimentelle Gruppen. Diese erhalten in der Übung unterschiedliche Aufgabentypen und müssen im Nachtest sowohl MC- wie auch SA-Aufgaben bearbeiten.

Vermutete Effekte des unterschiedlichen Aufgabenformats
Unter der Hypothese, der Aufgabentyp zeige überhaupt keine Wirkung, müssten für alle 4 Bedingungen gleiche Ergebnisse herauskommen. Plausibler erscheint die Annahme einer testspezifischen Wirkung. Die Information wird danach besser behalten, wenn sie in exakt dergleichen Art getestet wird wie sie auch eingeübt wurde. Dann würde der eingeübte Aufgabentyp mit dem verwendeten Nachtesttyp interagieren.(1>2; 4>3). Dieser testspezifische Effekt hat offenbar unterschiedliche Namen: Kontexteffekt nach Duchastel und Nungester (1982),  posttest matching hypothesis bei Clariana & Lee (2001), the transfer appropriate processing framework nach Kang et al. (2005).

Die MC-Aufgabe gibt die meisten Hinweise auf die korrekte Antwort, da diese letztlich in der Aufgabe enthalten ist. Dies erweckt den Anschein, die MC-Aufgabe wäre einfacher, was für Faktenwissen gemessen am empirischen Schwierigkeitsindex in der Regel auch zutrifft. Manche Autoren, z.B. Berg and Smith (1994) vermuten eine oberflächlichere Bearbeitung von MC-Aufgaben, die im Gegensatz zu SA ein intensiveres Durchdenken oder tiefes Verarbeiten eher limitiere. Short-Answer Aufgaben geben durch die Fragestellung zwar einen Hinweis, verlangen aber ein Selbstgenerieren bzw. eine aktive Suche im, sowie einen erfolgreichen Abruf aus dem Gedächtnis. Die Anforderung für einen "cued recall" ist daher aufwändiger und schwieriger als das Wiedererkennen der Information im Aufgabentyp MC (recognition). Der relativ umfassende Retrieval unter SA könnte unter bestimmten Bedingungen auch ein besseres Behalten bewirken. (Retrieval Hypothese nach Glover (1989)). Clariana & Lee (2001), sowie Clariana (2003,2004) erwähnen weitere theoretische Ansätze, die darauf hinauslaufen, bei der Bearbeitung der beiden Aufgabentypen würden unterschiedliche Verarbeitungsprozesse ablaufen, die im Endeffekt eher Behaltensvorteile für Short Answer vermuten ließen. Zu einem testspezifischen Effekt würde sich dann ein Vorteil für Short Answer-Übungen überlagern.

Abbildung 1 simuliert überspitzt idealtypische Erwartungen an die Daten für die beiden letzten Hypothesen. Als Ordinate wird der Behaltenserfolg als z-Wert gewählt, der die zu erwartenden Mittelwertsvorteile bei den MC-Nachtestaufgaben ausschalten soll. Denn der Prozentsatz korrekter Lösungen - nicht die Lehrzielerreichung - wird bei MC-Aufgaben häufig allein durch zufällig korrekt beantwortete Lösungen deutlich höher ausfallen als unter Short Answer und hier geht es ja mehr um den Vergleich der Lehrzielerreichung beider Aufgabentypen.

Abbildung 1

Mir sind nur wenige Untersuchungen bekannt, welche den oben skizzierten Untersuchungsansatz konsequent durchgehalten haben. Die dort ermittelten Ergebnisse folgen nicht exakt den idealtypischen Vorstellungen, weisen aber stellenweise Ähnlichkeiten auf.

Empirische Studien zum Vergleich der Aufgabentypen MC und Short Answer

Aufgabenstellungen ohne Feedback

Zunächst wird auf Studien eingegangen, die in der Übung reine Tests ohne jede Art von Rückmeldung analysierten. Die getesteten Probanden hatten somit von außen keinerlei Information über die Korrektheit ihrer Antwort, die zutreffende Lösung einer Aufgabe oder den Prozentsatz der richtig gelösten Aufgaben in der gesamten Übung. Die Lernwirksamkeit reiner Testung im Anschluss an eine Instruktion ist durch empirische Forschung häufig belegt worden (siehe z.B. Duchastel & Nungester (1982), weiter unten). Hier geht es darum, in Erfahrung zu bringen, ob das Testformat einen unterschiedlichen Einfluss auf das Behalten bewirkt. Hamaker (1986) zitiert Anderson & Biddle (1975), die von sehr deutlichen Vorteilen des Short Answer-Aufgabentyps gegenüber MC berichten. Hamaker (1986) selbst fasst in seiner Metaanalyse Daten aus einigen Aufgabenformatstudien zusammen (S. 227, table VII, postquestions), mahnt bei diesem Vergleich aber zur Vorsicht. Danach erzielten Short Answer- einschließlich Free-recall- Aufgaben im Durchschnitt einen signifikanten, ca. 5 % höheren Lernerfolg als MC-Aufgaben. Genauere Angaben, welche Studien dieser Analyse zugrunde liegen und wie diese Formatvergleiche im einzelnen aussahen, sind dem Artikel nicht zu entnehmen. 

Vorexperiment von Sax & Collet (1968)

Die älteste mir bekannte Untersuchung stammt von Sax & Collet (1968). An dem Vorexperiment nahmen 2 Klassen teil, welche an Einführungskursen aus dem Bereich Testen und Messen vom selben Dozenten denselben Unterricht erhielten und im Verlauf eines Seminars insgesamt 3 Übungsttests absolvierten. Die eine Klasse bearbeitete die drei Tests im Aufgabenformat Short Answer, die andere Klasse die inhaltsgleichen Aufgaben [identische Aufgabenstämme] im Format MC. "All items stressed the interpretation and application of principles rather than the rote memorization". Allen Probanden wurde gesagt, die Aufgaben in einem Abschlusstest (final examination) entsprächen dem Format der eingeübten Aufgaben. Tatsächlich wurde innerhalb jeder Klasse nach Zufall entschieden, in welchem Aufgabenformat der Abschlusstest zu absolvieren war. Die Aufgaben des Abschlusstests waren nicht identisch mit den Übungsaufgaben, sondern erforderten gewisse Transferleistungen, da als Lehrziel Anwendung zugrunde lag. Da die Klassen in einigen Variablen nicht exakt vergleichbar waren, adjustierten die Autoren die Posttestergebnisse mittels mehrerer Kovariaten. Dadurch kann die Schwäche des Versuchsplans vielleicht etwas gemildert werden, die Validitätsbedenken lassen sich so aber nicht ausräumen.  Tabelle 2 stellt den Prozentsatz der korrekten Lösungen für die einzelnen Aufgabenformate dar. Hierbei habe ich die Prozentsätze auf der Basis der mitgeteilten adjustierten Mittelwerte ermittelt. Die nicht kovarianzanalytisch adjustierten Mittelwerte fallen aber recht ähnlich aus.

Tabelle 2: Prozentsatz der korrekten Lösungen nach Sax und Collet (1968)
[N pro Zelle 43 bis 49; Die Mittelwerte wurden in Prozentsätze der korrekten Lösungen umgewandelt.
Die Standardabweichungen wurden auf der Basis des angegebenen  Standardfehler des Mittels und N berechnet.]

                       Posttest
                      SA       MC
                     M   s    M   s 
Übungsvarianten
Short Answer         56  16   59  14 
Multiple Choice      58  14   64   9 

Die MC-Übungsaufgaben erbrachten im MC-Posttest signifikant höhere Testwerte als die Short Answer Übungsaufgaben, während im Short Answer-Posttest keine Unterschiede zwischen den Aufgabenformaten in der Übung festzustellen waren. Die MC-Aufgaben im Abschlussexamen erscheinen absolut betrachtet im Mittel nur geringfügig leichter als die Short-Answer-Aufgaben, was gegen die These spricht, durch Raten könne man via MC-Aufgabenformat stets "deutlich höheren Lerngewinn" erzeugen. Die Ergebnisse widerlegen klar, Short Answer Aufgaben seien für Übungszwecke in jedem Fall günstiger und sprechen insgesamt eher für relativ mäßige Unterschiede der Übungswirkung zwischen den Aufgabentypen.

Experiment von Gay (1980

Gay (1980) kritisierte die Studie von Sax & Collet (1968) wegen des vorexperimentellen Versuchsplans und verwendete deshalb ein klassisches Randomisierungsexperiment, allerdings nur mit insgesamt 28 Probanden. Alle untersuchten Studenten nahmen am gleichen Seminar teil, erhielten folglich vom selben Dozenten denselben Unterricht zur gleichen Zeit und wurden nach Zufall den beiden experimentellen Bedingungen zugeteilt. 14 Studenten  bearbeiteten während des Semesters 6 kriteriumsorientierte Short-Answer-Tests, die übrigen 14 Studenten 6 vergleichbare Multiple Choice Tests. Die Aufgaben beider Testformate sollten in gleicher Weise Wissen, Verstehen und Anwendung erfassen. Am Ende des Seminars erhielten dann alle Studenten in einem ungekündigten Abschlusstest ("surpise final exam as retention test" = Posttest) insgesamt 15 SA sowie 19 MC- Testaufgaben. Diese Posttestaufgaben erfassten die gleichen Lehrziele wie die Aufgaben der vorausgegangenen Übungstests. Der Zufall entschied, welche Lehrziele mit MC und welche im SA-Format zu bearbeiten waren.

Tabelle 3: Prozentsatz der korrekten Lösungen nach Gay (1980)
[Die Standardabweichungen wurden auf der Basis der angegebenen  Daten in Prozentwerte umgerechnet.
N pro Treatmentgruppe = 14]

                     Posttest
                    SA       MC
                   M   s    M   s 
 Übungsvarianten
    Short Answer   80  24   83  29 
 Multiple Choice   63  49   83  35 

Die aus der Tabelle 3 ersichtliche, ordinale Wechselwirkung war auf dem 1 Prozentniveau signifikant und besagt inhaltlich, dass lediglich die Bearbeitung von SA-Übungsaufgaben im SA-Posttest höhere Erfolgsquoten und allen übrigen Vergleiche keine nennenswerten Auswirkungen erbrachten. Der Unterschied der Aufgabenübungsformate im SA-Posttest entspricht einer Effektstärke von d =.45 zugunsten von SA. Im Gegensatz zur Studie von Sax und Collet (1968) zeigte sich der Kontexteffekt somit nicht bei den MC-, sondern stattdessen bei den SA-Übungsaufgaben. Die Anzahl der Probanden fällt meiner Meinung etwas zu niedrig aus und lässt einige Zweifel an der statistische Effizienz und der Herstellung vergleichbarer Gruppen durch Randomisierung aufkommen.

Studie von  Duchastel und Nungester (1982)

Duchastel und Nungester (1982) überprüften die Lernwirksamkeit von Tests auf das längerfristige Behalten. Als Lerngrundlage diente der 1700 Worte umfassende historische Text "The Victorian Era". Er wird als relativ leicht verständlich beschrieben und vermittelt überwiegend Faktenwissen. Zum Text wurden 24 Fragen entwickelt. An der Untersuchung nahmen 125 High School Students teil, welche zunächst 15 Minuten lang die Lektüre bearbeiteten. Anschließend wurden alle students nach Zufall auf 3 Bedingungen aufgeteilt:
  1. Multiple Choice Test (z.B.: Prince Albert was originally  a) a German  b) a Russion  c) a Hungarian)
  2. Short Answer - Test  (z.B.: What nationality was Price Albert ?)
  3. Kontrollgruppe: Fragebogen zu Lerntechniken.
2 Wochen später folgte ein unangekündigter Nachtest. Der Posttest enthielt die gleichen Aufgaben wie der Übungstest. Allerdings setzte er sich aus 12 MC und 12 Short-Answer-Aufgaben zusammen. Den Studenten war somit die Hälfte aller Fragen aus dem früheren Test bekannt, der Rest der Aufgaben erfasste den bekannten Inhalt lediglich in einer anderen Testform  Die Abbildung 2 zeigt die Mittelwertsergebnisse für alle 3 Bedingungen im Nachtest:

Abbildung 2

Die getesteten Gruppen sind der Kontrollgruppe in beiden Nachtestformaten deutlich sowie hoch signifikant überlegen. Hierin zeigt sich die Wirkung der Testung [im Vergleich zu nichts bzw. einer unspezifischen Behandlung] auf das langfristige Behalten (consolidation nach Duchastel & Nungester). Die Unterschiede der Testgruppen untereinander deuten lediglich einen testspezifischen Effekt an, der sich auch in einer signifikanten Interaktion zwischen Übungstestform und Nachtestform manifestiert, aber Faktor spezifisch nur für den Nachtest Multiple Choice statistisch bestätigt werden kann. Ähnlich wie bei Sax & Collet (1982) ließ sich der Kontexteffekt somit nur bei MC-Aufgaben nachweisen.  Insgesamt belegt die Abbildung 2, der Effekt der Testung sei wesentlich bedeutender als die Auswirkung der Testmethode.

Eine Studie von Nungester & Duchastel (1982) am gleichen Lerninhalt belegt im übrigen, dass der Testeffekt nicht vom Aufgabentyp abhängt. Dabei wurden untersucht:

1. reine Testung (ohne Feedback) mit 6 MC- und 6 Short-Answer-Aufgaben
2. Textreview - (15 Minuten)
3. Fillertask (Kontrollgruppe)
Zwei Wochen später folgte der Nachtest, der die 12 Aufgaben des ersten Tests  (bekannte Aufgaben) und weitere 12 zuvor nicht getestete Items (neue Aufgaben) enthielt. Die aus der ersten Testung bekannten MC- und Short-.Answer-Aufgaben wurden den Probanden der Testgruppe im jeweils alternativen Testformat vorgelegt. D.h. Die  MC-Übungsaufgaben  mussten im Nachtest als Short-Answer-Version bearbeitet werden und umgekehrt  Bei den bekannten Aufgaben schnitt die Testgruppe signifikant und deutlich besser ab als die Review- und Kontrollgruppe. Dies galt für beide Aufgabentypen und unterstreicht auch hier das größere Gewicht des Testens gegenüber dem Testformat. Bei neuen Aufgaben gab es allerdings keine bedeutsamen Unterschiede zwischen allen Gruppen.
Experimente Nr. 4 von Glover (1989)
Glover (1989) führte in seinen Experimenten 4a bis 4c insgesamt 3 unabhängige Experimente mit jeweils 3 Testbedingungen und einer Kontrollgruppe durch. Zunächst bearbeiteten die Probanden 10 Minuten lang einen ca. 300 Worte umfassenden Text über die fiktive Nation Mala. Zwei Tage später fanden die Übungstests (ohne Feedback) statt. Als Testformate in allen Experimenten kamen SA, MC sowie free recall zum Einsatz. Free Recall gehört zur Klasse der Constructed-Response-Aufgaben, entspricht im Gegensatz zu SA aber einem sehr offenen Essay-Test-Konzept. Beim Free-Recall-Test sollten die Probanden so viele Informationen aufschreiben, wie sie vom gelesenen Text behalten hatten. Zwei Tage nach der Testung wurde der Posttest erhoben  In jedem der 3 Experimente kam jeweils ein bestimmtes Posttestformat zur Anwendung. Die drei Experimente waren somit von der UV identisch, variierten lediglich in der AV. Die Tabelle 4 beschränkt sich auf die Experimente 4b und 4c und gibt die Anzahl der korrekten Antworten im SA- sowie im MC-Posttest wieder.

Tabelle 4: Anzahl der korrekten Antworten für 4 Bedingungen im SA- und MC- Posttest (Mittelwerte)

                       Posttest
                      SA      MC
    Übungsvarianten
        Free recall   7,3    11,5     
       Short Answer   5,3     8,9
    Multiple Choice   4,1     8,1
          kein Test   2,9     6,1
Die freie Aufgabenform free recall erzielte in beiden Posttestformaten stets signifikant bessere Ergebnisse als alle übrigen Bedingungen. Ich habe allerdings Zweifel an der Fairness des Vergleich Free recall gegenüber den beiden anderen Testformaten, die im Mittelpunkt dieses Beitrags stehen. Die Daten zeigen konsistent numerische Vorteile für SA gegenüber MC- Übungsaufgaben, die im SA-Posttest einer Effektstärke von d = .6  und im MC-Nachtest einer Effektstärke von d =.34 entsprechen. Auch wenn diese Unterschiede zwischen SA und MC-Übungstests stets zu schwach ausfielen, um die strenge 1%-Signifikanzhürde zu nehmen, deuten die Befunde auf eine gewisse Überlegenheit des SA- gegenüber dem MC-Aufgabentyp hin.

Die Untersuchung von Proske (2000)

Die Autorin entwickelte zum Thema operante Konditionierung in sehr aufwändiger, anspruchsvoller und pädagogisch beispielhafter Weise 32 auf den Lehrtext abgestimmte, inhaltsvalide Aufgaben. Diese Aufgaben umfassten ein breites Spektrum an Lehrzielen und Lehrzielniveaus (Erinnern, Transformieren, Klassifizieren, Argumentieren) und waren sowohl im MC- wie im SA-Format konzipiert worden, wobei eine sehr hohe Vergleichbarkeit der Lehrzielerfassung beider Aufgabenformate zugrunde lag. 135 Studenten (überwiegend Lehramtsstudenten) bearbeiteten zunächst den für empirische Studien sehr umfangreichen, 12 Seiten umfassenden Lehrtext insgesamt 35 Minuten lang. Die eine Gruppe beantwortete die 32 Aufgaben im SA-Format, die andere parallele Aufgaben im MC-Format. Da die Gruppen zuvor jedoch nicht nach Zufall den Bedingungen zugeordnet worden waren, sollte ein Vortest die Vergleichbarkeit der Gruppen prüfen, um quasiexperimentelles Niveau zu erreichen. Dieser Vortest erbrachte leichte, signifikante Vorteile für die SA-Übungstestgruppe, weswegen zusätzliche Kontrollen an Hand vergleichbarer Teilstichproben eingeführt wurden.14 Tage später fand der den Studenten nicht explizit angekündigte Behaltenstest statt, der sich aus 16 MC- und 16 SA-Aufgaben zusammen setzte, welche auch im Übungstest Verwendung fanden.

           Tabelle 5: Prozentsatz der korrekten Lösungen im Quasiexperiment von Proske (2000)

                  Posttest
                  nach 2 Wochen
                   SA    MC
Übungsvarianten                     
   Short Answer    44    63   
Multiple Choice    44    63  

Wie die Tabelle 5 eindrucksvoll aufzeigt, hinterließ der Aufgabentyp der Übungstests in beiden Posttestformaten keinerlei unterschiedliche Wirkung. Für das langfristige Behalten spielte es demnach überhaupt keine Rolle, ob die Studenten unmittelbar nach dem Lehrtext am SA oder MC Übungstest teilnahmen. Obwohl die oben gezeigten Mittelwerte auf einem vorexperimentellen statistischen Gruppenvergleich basieren, sprechen die stets insignifikanten Gruppenunterschiede der entsprechenden Kovarianzanalysen mit der experimentellen Bedingung als UV und den Vortestwerten als Kovariablen sowie vergleichbare Ergebnisse Vortest homogener Teilstichproben der experimentellen Gruppen für eine gewisse interne Validität der Befunde. Die Lehrziele des bearbeiteten Lehrtextes hatten für viele Studenten echte Studienrelevanz, da sie zu den Prüfungsthemen der anstehenden Klausur gehörten, was nicht ausschließt, dass manche Studenten möglicherweise selbständig das Thema weiter vorbereiteten. Die Untersuchung überprüfte die Übungswirkung der Aufgabenformate sehr anwendungsnah bzw. in ökologisch valider Weise für reale, auch prüfungsrelevante Übungszwecke. Hinsichtlich der Behaltensleistung war das Aufgabenformat der Übungstests unter diesen Bedingungen bedeutungslos. Proske (2000) gibt als mögliche Erkärung an, die Übungsaufgaben hätten den Studenten die relevanten Anforderungen in beiden Formaten in vergleichbarer Weise expliziert. Das Aufgabenformat aber spiele keine Rolle, wenn es nur darauf ankomme, zu verdeutlichen, welche Lehrziele besonders wichtig seien und was man behalten solle.

Auf motivationaler Ebene ließ sich ein deutlicher signifikanter Unterschied nachweisen. So schätzte die MC-Gruppe nach dem Übungstest ihre Leistung signifikant höher ein als die SA-Gruppe. Gemessen am Prozentsatz der korrekten Lösungen in den Übungstests stimmen subjektive Einschätzungen und objektive Leistungen auch überein, da im MC-Übungstest signifikant sowie deutlich mehr Aufgaben richtig beantwortet wurden als im SA-Übungstest. Daraus lässt sich meiner Meinung nach nicht ableiten, die MC-Gruppe sei in der Übung der SA-Gruppe hinsichtlich der objektiven Lehrzielerreichung überlegen gewesen.

Die Studie von  Killoy (2001)

Die sehr interessante Studie von Killoy (2001) ist mir leider nur als Abstract zugänglich. Sie macht auf weitere Aspekte aufmerksam, die bei flüchtiger Betrachtung der beiden Aufgabentypen häufig aus dem Blickfeld geraten. Hierzu zählen etwa die Aufgabenbearbeitungszeit und die Präferenz der Lernenden. Killoy untersuchte im Rahmen eines Computer unterstütztem Unterrichts die Auswirkungen von MC- und SA-Practicetests in klassischer sowie verdeckter Form auf das Behalten in einem Abschlusstest, der sich hälftig aus 18 MC- sowie 18 Short Answer-Aufgaben zusammen setzte. Die Probanden wurden zufällig auf 4 Bedingungen aufgeteilt, die als Stufen eines zweifaktorielles Designs mit den Faktoren test form und test mode aufzufassen sind (siehe Tabelle 6).

Tabelle 6: Versuchsaufbau in der Untersuchung von Killoy (2001)

                            test form                  
                    Short Answer    Multiple Choice
             overt         1             2
test mode
            covert         3             4

Bei der verdeckten Testform beantworteten die Studenten die Fragen im Geiste. Bei dieser sehr ökonomischen Variante entfallen die Probleme der kontrollierten Aufgabeneingabe und Bestätigung sowie der objektiven Aufgabenauswertung. Dadurch wird insbesondere beim SA-Aufgabentyp Bearbeitungszeit eingespart. Da die Übungen selbst als practice conditions bezeichnet wurden und nirgendwo die Rede von Feedback ist, gehe ich davon aus, dass es sich bei den Übungen um reine Testung (ohne Feedback) handelt. Die wesentlichen Ergebnisse der Studie lassen sich wie folgt zusammenfassen:

Aufgabenstellungen mit Feedback

In nachfolgenden Studien bearbeiteten die Probanden in der Übung Aufgaben mit Rückmeldungen. Meistens wurden die Aufgaben Computer gestützt zur Beantwortung vorgelegt und Item spezifisches Feedback gegeben. Die sachorientierten Rückmeldungen beschränken sich meist auf die Mitteilung richtig/falsch und die Präsentation der korrekten Lösung (Knowledge of correct response KCR). Die Studien von Clariana beinhalten zusätzlich einen zweiten Lösungsversuch im Falle eines Fehlers, garantieren jedoch in jedem Falle KCR-Feedback. Aufgabenstellungen mit mindestens KCR-Feedback führen nachweislich zu höheren Lernleistungen als eine Testung ohne Rückmeldung. (z.B. Bangert-Drowns et al. (1991), Kluger & DeNisi (1996)). Neben der hier anstehenden Hauptfrage, welches Aufgabenformat einen höheren Lernerfolg bewirkt, wurde gelegentlich auch geprüft, ob eine Testung mit Feedback dem erneuten gezielten Studieren überlegen ist.

Studien von Clariana

Clariana (2003) untersuchte die Auswirkungen von MC und SA-Übungsaufgaben mit Feedback auf das Behalten von Definitionen. Im Rahmen eines Computer unterstützten Unterrichts wurden insgesamt 36, einem Einführungslehrbuch entnommene Definitionen aus dem Bereich des Instructional Designs verwendet. Während der Übung erhielten die Probanden nach der ersten Beantwortung einer Aufgabe die Rückmeldung richtig oder falsch. (=Knowledge of Response bzw. Knowledge of result (KOR)) Im Fehlerfalle musste die Frage erneut beantwortet werden. Es war sicher gestellt worden, dass der Proband spätestens im zweiten Beantwortungsversuch die korrekte Lösung erhielt, womit das Feedback letztlich ein "Knowledge of correct response" (KCR) garantiert. Die Studie basiert auf 2 Experimenten, die sich lediglich durch die unterschiedliche Itemanordnung bzw. Verwendung für die Aufgabenformate unterscheiden. Am Ende der beiden Lektionen folgte der unmittelbare Short-Answer-Posttest, dem sich dann direkt der MC-Posttest anschloss.

Tabelle 7: Prozentsatz der korrekten Lösungen im Posttest nach Clariana (2003) (Mittelwerte)
Die Daten stammen aus table 1, S. 399 und wurden in Prozentangaben transformiert.

                       unmittelbarer 
                       Posttest
                       SA     MC
    Übungsvarianten     
       Short Answer    51     83
    Multiple Choice    52     72

       Short Answer    63     89
    Multiple Choice    53     76
Wie man der Tabelle 7 entnimmt, führten Short-Answer-Übungsaufgaben insgesamt zu besseren unmittelbaren Behaltenswerten als Multiple-Choice-Übungsaufgaben. Diese Überlegenheit zeigt sich besonders deutlich im MC-Posttest, wo der Short Answer-Vorteil hochsignifikant ausfällt und insgesamt einer Effektstärke von d = .86 entspricht, während der Behaltensvorteil der SA-Übungsaufgaben im SA-Posttest insgesamt lediglich .22 beträgt (Clariana 2003, S.304). Das Ergebnis steht in gewissem Widerspruch zur These, man würde am meisten davon profitieren, wenn das Testformat in Übung und Posttest identisch wäre. Möglicherweise führte die Bearbeitung des SA-Posttests zu einer Behaltensstärkung der zuvor mit SA eingeübten Aufgaben, was dann Behaltensvorteile bei der Beantwortung des nachfolgenden MC-Posttests nach sich zöge.

Derartige Überlegungen hält Clariana jedoch für unwahrscheinlich und belegt dies auch in einer weiteren Untersuchung, bei welcher auch die Posttestformatfolge variiert wurde. In dieser Untersuchung  (Clariana 2004) am gleichem Lerninhalt wie zuvor, zeigten sich allerdings im MC-Posttest keinerlei Unterschiede zwischen den beiden Übungsvarianten. Im SA-Posttest deuteten sich allenfalls marginale Vorteile von SA-Übungsaufgaben an. "the constructed-response study task was a little more effective than the multiple-choice study task (e.s. = 0.19)". Das Ergebnis gleicht damit einem früheren Befund von Clariana und Lee (2001). Die Autoren erfassten den Lernerfolg verschiedener Übungsformate mit Feedback ebenfalls beim Lernen von Definitionen aus dem Bereich des Instruktionsdesigns. Sie verwendeten allerdings ausschließlich einen SA-Nachtest.  Short-Answer-Übungsaufgaben erwiesen sich im SA-Nachtest als etwas (d=.26 bzw. d=.14), aber nicht signifikant besser im Vergleich zur klassischen MC-Übung bzw. der Multiple Try Feedback-MC-Übung. Die mageren Vorteile der SA-Übungsaufgaben der beiden letztgenannten Studien, welche lediglich einen ganz schwachen, nur für das SA-Format testspezifischen Effekt erahnen lassen,  relativieren die klaren SA-Vorteile bei Clariana (2003) und sprechen allenfalls für geringe Vorteile für SA-Übungsaufgaben.

Die Studie von Kang, McDermott & Roediger (2006)
Während der Arbeit an diesem Thema wurde ich im Internet auf einen Beitrag aufmerksam, der mir freundlicherweise von Kang in Form eines Posters zugesandt wurde und mittlerweile als Artikel (Kang et al. (2006) vorliegt. Die Studie thematisiert und prüft exakt die oben genannten Hypothesen in einem Wiederholungsdesign. Nach der Lektüre eines wissenschaftlichen Textes (jeweils ca .2500 Worte, 15 Minuten Bearbeitungszeit) wurden als Übungsvarianten neben MC- und Short-Answer-Aufgaben sowie einer Kontroll-Filler-Variante auch die Bedingung Read Statements eingeführt. Bei der Read Statements Variante las der Student die bereits vorgegebenen beantworteten Aufgaben durch. In einem ersten Experiment schloss sich den Testaufgaben in der Übungsphase keinerlei Feedback an. Dort kamen also reine SA- bzw. MC-Tests zum Einsatz. In der Übungsphase des zweiten Experimentes folgte unter MC- und SA- Treatment das Feedback KCR (=Rückmeldung der korrekten Antwort) unmittelbar nach der Beantwortung eines Items. Ansonsten unterscheiden sich beide Experimente nicht voneinander.

Der nach 3 Tagen angesetzte Nachttest umfasste identische Aufgaben wie in der Übung, zum Teil im MC- und zum Teil im SA-Format. Die Autoren teilen die in Tabelle 8 dargestellten Prozentzahlen für den Nachtest mit:

Tabelle 8 : Prozentsatz der korrekten Lösungen im Posttest nach Kang, McDermott & Roediger (2006)
(Mittelwerte aus den Experimenten 1 und 2)

                    Tests in der Übungsphase
                    ohne       mit
                    Feedback   Feedback     
                    (Exp 1)     (Exp 2)   

                    Posttest   Posttest
                    SA   MC     SA   MC
 Übungsvarianten
     Short Answer   48   80     57   94     
  Multiple Choice   62   87     53   87          
  Read Statements   51   88     45   83     
 Kontrolle/Filler   32   74     27   69     
Die Ergebnisse verdeutlichen zunächst einmal für beide Experimente und beide Posttestaufgabenformate ganz eindeutig, dass alle Treatmentvarianten bessere Ergebnisse nach sich ziehen als eine Füllaufgabe, die nichts mit dem Lehrtext zu tun hat (=eindeutiger Übungseffekt).

Im ersten Experiment (ohne Feedback) erzielte die MC-Übung in beiden Posttestformaten signifikant bessere Ergebnisse als die SA-Übung. Besonders deutlich und interessant sind die höheren Behaltenswerte des MC-Übungstests im SA-Posttest, die gegen einen Kontexteffekt sprechen. Die besserem Posttestergebnisse der MC-Übung rühren vermutlich von den massiven Erfolgsquoten in der MC-Übung her. Denn in der Übungsphase waren die Erfolgsquoten unter MC-Aufgabenformat ca. 30 Prozent höher als unter SA-Aufgabenformat.  Die MC-Übung war im SA-Posttest auch der Read-Statement-Bedingung signifikant überlegen.

Im zweiten Experiment erwies sich die SA-Aufgabenform insgesamt als beste Übungsvariante und zwar in beiden Testformaten des Nachtests. Sie ist als Übungsvariante der Read Statement Bedingung stets signifikant überlegen, bewirkte allerdings nur im MC-Posttest einen signifikant (p<.05) höheren Behaltenserfolg als die MC-Übung.

Vorheriges Testen im Sinne der Aufforderung, selbst die Antwort zu produzieren, bevor ein Feedback erscheint, war in der SA-Übung der direkten Darbietung der korrekten Antwort überlegen, was als sehr strenger erfolgreicher Beleg für die Nützlichkeit des Testens mit Feedback zu werten ist. Die SA-Test-Übungsvariante profitiert mehr vom Feedback, weil unter SA deutlich mehr Fehler gemacht werden und der Haupteffekt des Feedbacks in der Korrektur von Fehlern liegt.

Die Verwendung einer Read Statement-Bedingung als ernst zu nehmende Kontrollbedingung für Aufgabenstellungen mit Feedback muss als außerordentlich aufhellend gewertet werden, da nur dieser Vergleich die Notwendigkeit einer Testung bzw. echten, d.h. selbst zu lösenden Aufgabenstellung belegen kann.

Ein Experiment von Jacobs (2006)

Jacobs (2006) überprüfte die Wirkung von wiederholtem Einprägen (Study only) sowie dreier Testübungsmethoden mit Feedback auf das langfristige Behalten. Als Lehrziel diente das Erlernen der Bundesstaaten der USA. Nach einer Lernaneignungsphase sah der Proband bei der Covert Short Answer-Übungsbedingung ein Fragezeichen im Bereich des zu erinnernden Staates, sollte sich daraufhin den Namen lediglich ins Gedächtnis rufen und konnte durch Mausklick den Namen des Staates als KCR-Feedback anfordern. Bei der klassischen Short Answer-Methode musste der Proband hingegen seine Antwort eintippen, bevor er KOR und KCR-Feedback erhielt. Die MC- Übungsmethode basiert auf dem Prinzip der clickable map und verlangte auf die Vorgabe eines Staatsnamens den Mausklick in das entsprechende Gebiet auf der Landkarte, wonach sich KOR- und KCR-Feedback anschloss. Die SA- und MC- Varianten umfassten ferner eine Flashcardbedingung sowie gesondertes Antwort abhängiges Feedback. Für jede Übungsmethode bis auf Short-Answer galten gleiche Übungszeiten. D.h. Es war nicht etwa ein Testdurchgang vorgeschrieben, sondern die Anzahl der bearbeiteten Items sowie die Anzahl der Testdurchgänge hing vom Bearbeitungstempo des Probanden in der verfügbaren Zeit ab.

Drei bis sieben Tage nach der Übung absolvierten die Probanden zunächst den MC- und unmittelbar danach den SA-Behaltensposttest (=Testung aller Bundesstaaten der USA).

Tabelle 9. Mittelwerte und Streuungen des Prozentsatzes der korrekten Lösungen im Posttest nach Jacobs (2006),
N=26-28 für jede Bedingung, da Wiederholungsdesign.

                      Behaltensposttest
                        SA        MC
                      M   s        s
    Übungsvarianten
       Short Answer   50  25     50  20
Covert Short Answer   47  18     50  23    
    Multiple Choice   42  25     46  24 
         Study Only   37  22     41  21
In Tabelle 9 fällt zunächst einmal auf, dass die Unterschiede zwischen den Testformaten SA und MC im Posttest ungewöhnlich gering ausfallen. Dies liegt unter anderem daran, dass der MC-Test 50 Alternativen umfasst und zufällig richtige Antworten dadurch recht unwahrscheinlich sind.

Covert Short Answer sowie Short Answer waren Study only jeweils in beiden Behaltenstests signifikant überlegen. Testen mit nachfolgendem Feedback führte demnach bei den Short-Answer-Versionen zu besserem Behalten als die bloße Darbietung der Information, und dies, obgleich insgesamt mehr Items zum wiederholten Einprägen angefordert wurden als zum Testen. Die hier entscheidenden Vergleiche der Testübungsmethoden untereinander deuten zwar teilweise in die erwartete Richtung - etwa bei MC vs. SA - , erbrachten allerdings keinerlei signifikante Unterschiede. Die Vergleiche mit der klassischen Short Answer-Methode sind darüber hinaus schwer interpretierbar, weil diese Methode infolge des Eintippens der Bundesstaaten deutlich mehr Übungszeit als die 3 anderen Übungsvarianten beanspruchte, dafür aber insgesamt weniger Itembearbeitungen aufwies. In der subjektiven Wirksamkeitseinschätzung durch die Probanden erzielte die MC-Übung hingegen signifikant höhere Bewertungen als alle anderen Übungsvarianten.

Weitere Literaturhinweise und Gesamtübersicht

Empirische Vergleichsstudien zur Lernwirkung unterschiedlicher Aufgabentypen sind nicht leicht zu finden. Ein vollständiger Überblick der Literatur zu diesem Thema konnte hier nicht geleistet werden. An dieser Stelle sollen lediglich noch einige Literaturhinweise aufgeführt werden, ohne all zu sehr in die Details zu gehen.  Foos & Fisher (1988) erfassten im Nachtest neue Lerninhalte. Die nach etlichen Faktoren differenzierten Ergebnisse sprechen im Mittel für etwas günstigere Behaltenswerte durch SA-Übungsaufgaben. White-Blackburn, Blackburn, & Lutzker (1980) setzen im Rahmen eines Personalized System of Instruction Kurses mehrmals MC- bzw. Short-Answer-Essay-Aufgaben als Mastery Tests ein und überprüften die Wirkung der Testformate durch einen späteren Review (Posttest) ebenfalls in beiden Testformaten. Bei insgesamt 8 möglichen Testvergleichen erzielten beide Testformate stets sehr hoch vergleichbare Posttestwerte. Die Befunde sind schwer mit den übrigen Experimenten vergleichbar, da die Lerner die Übungstests sooft wiederholen mussten bis sie das Leistungskriterium erreichten, MC-Tests dabei häufiger wiederholt wurden und insgesamt konsistent sehr hohe Erfolgsraten (meist über 80%) mögliche Ceiling-Effekte nicht auszuschließen.

Nicht immer finden die in der Übung eingesetzten Testformate auch im Posttest Verwendung, so dass z.B. nur ein Testformat die Übungsauswirkungen im Posttest erfasst. (siehe auch oben Clariana & Lee 2001). Proske (2000) referiert eine Studie von Duchastel (1981), bei der unter anderem in der Übungsphase MC- und SA-Aufgaben als experimentelle Bedingungen zugrunde lagen, der Posttest allerdings nur im SA-Format zur Bearbeitung anstand. Die SA-Übungsaufgaben erwiesen sich im SA-Posttest den MC-Übungsaufgaben als überlegen. Bing (1982) überprüfte die unmittelbare Lernwirkung beider Aufgabenformate bei Faktenwissen- und Transferaufgaben und konnte im ausschließlichen SA-Posttest keine Unterschiede zwischen SA- und MC-Übungsfragen feststellen.

Haynie (1994) verglich die Wirksamkeit von MC- und Short-Answer-Übungsaufgaben im Anschluss an die Lektüre eines umfangreichen Skriptes, erfasste den Lernerfolg im Nachtest allerdings nur mit MC-Aufgaben. Eine Gruppe bearbeitete in der Übung die MC-Aufgaben, die andere Gruppe beantwortete dieselben Items in einer Short Answer-Version. Haynie berichtet signifikante bessere Behaltenswerte für MC- gegenüber den Short-Answer-Übungsaufgaben für in Übung und Posttest identische Fragestellungen. Das war wegen des Kontexteffektes auch zu erwarten, weil nur die MC-Aufgaben-Gruppe in Übung und Posttest das gleiche Testformat erhielt. Das Ergebnis entspricht den Befunden von Sax & Collet (1968) sowie Duchastel und Nungester (1982).

McDaniel (2004) zeigt die Grafik einer Studie von McDaniel, Anderson & Morrisette (2004), die im MC-Posttest auf einen Vorteil für Übungen mit SA- gegenüber dem MC-Format hinweist und somit keinen testspezifischen Kontexteffekt erkennen lässt. Hierbei erwies sich eine SA-Testung mit Feedback auch wirkungsvoller als ein gezieltes Studium der bereits beantworteten Items. Angaben von Kang et al. (2006) zufolge, sind die entsprechenden Unterschiede nach McDaniel, Anderson, and Morrisette (2006) signifikant. Bei einem Teilaspekt der Untersuchung von Jacobs (2006) bearbeitete nur die Hälfte der Probanden einen reinen MC-Test in der Übung. Hier fehlt somit der SA-Übungstest. Die Unterschiede zwischen der getesteten und ungetesteten Gruppe 3 bis 7 Tage später zeigten sich im MC-Nachtest etwas deutlicher als im SA-Test.

Daraghmeh (1997) geht in seinem Literaturüberblick auf weitere Untersuchungen ein, die insgesamt auf leichte Vorteile des Short-Answer-Typs hindeuten, findet aber auch Untersuchungen, welche eine Überlegenheit für die MC-Aufgabenform vorweisen sowie solche, die keine Unterschiede feststellen konnten.

Tabelle 10 listet die Hauptergebnisse derjenigen Studien auf, die ich entweder im Original einsehen konnte oder die auf hinreichenden Informationen aus der Sekundärliteratur basieren.
 

Tabelle 10: Eine zusammenfassende Darstellung wichtiger Ergebnisse der hier
berichteten Studien zur Behaltenswirksamkeit von SA-und MC- Übungstests

Studie

Posttest-format Ergebnis:
Vorteil
Sax Collet 1968 MC MC
Sax Collet 1968 SA -
Gay (1980) MC -
Gay (1980 SA SA
Duchastel (1981) SA SA
Duchastel & Nungester (1982) MC MC
Duchastel & Nungester (1982) SA -
Bing (1982) SA -
Glover (1989) MC -
Glover (1989) SA SA
Haynie (1994) MC MC
Proske (2000) MC -
Proske (2000) SA -
Killoy (2001) SA SA
Clariana & Lee (2001) SA -
Clariana (2003) MC SA
Clariana (2003) SA -
Clariana (2004) MC -
Clariana (2004) SA -
Kang et al. (2006) Experiment 1 MC MC
Kang et al. (2006) Experiment 1 SA MC
Kang et al. (2006) Experiment 2 MC SA
Kang et al. (2006) Experiment 2 SA -
Jacobs (2006) MC -
Jacobs (2006) SA -
McDaniel, Anderson & Morrisette (2006) MC SA
- = keine signifikanten Unterschiede im Antwortformat.
Lesebeispiel: In der Untersuchung von Clariana (2003) führte eine SA-Übung im Vergleich zu einer MC-Übung zu höheren Behaltenswerten im MC Posttest. Im SA-Posttest konnten keine Unterschiede zwischen den Aufgaben-formaten der Übungstests festgestellt werden.

Meistens zeigen sich keine signifikanten Behaltensunterschiede zwischen den Übungsformatvarianten. Dort, wo Unterschiede im Posttest festzustellen sind, sprechen diese häufig für einen testspezifischen Kontexteffekt, weil der Posttest und die bessere Übungsvariante das gleiche Aufgabenformat aufweisen. In den Studien von Clariana (2003), Kang et al. (2006, Experiment 2) und McDaniel et al.(2006), wurde der Vorteil des SA-Übungsformats (nur) im MC-Nachtest statistisch gesichert. Bei diesen Studien folgte der Aufgabenbearbeitung stets ein KCR-Feedback.  Da keine der durchgeführten Studien in beiden Posttests eindeutige Vorteile für das SA-Übungsformat erzielte, sucht man vergebens nach einer Bestätigung für eine alles überragende Retrievalhypothese im Sinne von Glover.

Die durchgeführten Untersuchungen hinterlassen insgesamt hinsichtlich der Frage, welcher Übungsaufgabentyp bessere Lernergebnisse nach sich zieht - wie so häufig in der empirischen Forschung -  insgesamt ein inkonsistentes Bild. Dadurch ergibt sich die Notwendigkeit, nach näheren Bedingungen Ausschau zu halten, welche die unterschiedlichen Ergebnisse bewirkt haben könnten. Allerdings bleibt fraglich, ob sich dieser Aufwand angesichts der unterschiedlichen Untersuchungsbedingungen der durchgeführten Studien (z.B. hinsichtlich Lerninhalt, Lehrzielniveau, Versuchsplan,  Retentionsintervall, Prüfungsrelevanz, Bearbeitungszeiten usw.) überhaupt lohnt bzw. Aussicht auf Erfolg haben kann, zumal der Anteil der Studien mit ähnliche Lernwirkung beider Aufgabenformate überwiegt und man ganz einfach zum Ergebnis kommen könnte, das Aufgabenformat von Übungsaufgaben sei eine weniger wichtige Variable im Lernprozess.

Einige differenzierte Überlegungen

Ausschließliches Testen oder Testen mit Feedback

Das erwartete Ergebnis im Posttest hängt mit davon ab, ob die Übungen aus reinen Tests bestehen (z.B. Duchastel und Nungester (1982) ) oder itemspezifisches Feedback rückmelden (etwa KCR wie z.B. bei Clariana 2003)). Bei einer Übung durch ausschließliches Testen könnte der MC- insbesondere bei schwierigeren Items dem SA-Aufgabentyp überlegen sein, weil man in MC-Aufgaben mehr Information über die richtigen Antworten erhält und diese bei vorausgehender Unsicherheit dann eher erneut einprägen kann. Bei leichteren Aufgaben könnte es anders sein, weil dann mit SA durch den im Vergleich zu MC umfassenderen Retrieval-Prozesses nach Glover ein meist erfolgreicher Abruf das Behalten besser stärkt.

Wird Feedback gegeben, so kann vornehmlich aus Fehlern gelernt werden. Der SA-Aufgabentyp dürfte bei schwierigen Aufgaben vielleicht etwas mehr vom Feedback profitieren, weil unter SA mehr Fehler gemacht werden, die ein erneutes, verbessertes Enkodieren oder Einprägen anregen könnten. Die Daten von Clariana (2003, Figure 1, S. 402) deuten zumindest in diese Richtung. In den Experimenten von Kang et. al. (2006) beantworteten die Probanden in der Übungsphase ca. 55 % der SA- und ca. 85 % der MC-Aufgaben richtig. Diese unterschiedlichen Erfolgsquoten der Aufgabentypen könnten erklären, warum bei reiner Testung die MC-Übung den höchsten Behaltenserfolg bewirkte und die SA-Testung bei verfügbarem Feedback besonders viel Gewinn aus einer Korrektur von Fehlern zieht.

Auch der Zeitpunkt des Posttests kann eine Rolle spielen. So deuten einige theoretische Vorstellungen, etwa: "Lernerschwernis in der Übung erhöht die Behaltenswirksamkeit" sowie etliche Trainingsexperimente (z.B. Schmitt & Bjork (1992)) darauf hin, unterschiedliche Treatmentwirkungen seien vornehmlich bei einem längeren Retentionsintervall zu erwarten. Jacobs (2006) konnte z.B. nur im Behaltenstest 3 bis 7 Tage nach der Übung Unterschiede zwischen verschiedenen Übungsvarianten feststellen, aber keine im unmittelbaren Nachtest.

Lehrziel und Leistungsdiagnostik  
Das Lehrziel kann bereits so formuliert sein, dass es den Aufgabentyp im Posttest nahe legt. Wenn im Anschluss an die Vokabelübung z.B. spezielle Übersetzungen anstehen, die durch Wiedererkennen nicht vorgenommen werden können, so dürfte das sinnvolle Lehrziel beim Vokabellernen eher in der direkten freien Beantwortung und weniger im Wiedererkennen liegen. Folgerichtig sollte dann der Lernerfolg inhaltsvalide am besten mit dem Short Answer-Aufgabentyp überprüft werden. Es sei denn, ein MC-Test würde letztlich auf die gleiche Leistung hinweisen. Auch für Übungszwecke würde ich in diesem Falle Short Answer Aufgaben mit Feedback empfehlen. Der Einsatz eines weniger validen MC-Übungsaufgabentyps wäre nur dann zu rechtfertigen, wenn durch MC in kürzerer Zeit das gleiche Lernergebnis erzielt werden würde.

Für viele Forschungs- bzw. rein diagnostische Testzwecke messen beide Aufgabentypen in hohem Maße dasselbe Konstrukt. Martinez (1999) geht davon aus, MC-Tests seien in der Regel reliabler als Constructed-Response-Aufgaben. Es gibt aber auch gegenteilige Ansichten und Befunde. Wainer & Thissen (1993, S. 114) zeigen an 7 jeweils mit beiden Aufgabentypen konstruierten Testverfahren stets höhere Reliabilitäten für die MC-Tests auf. Die Korrelationen beider Testformate schwankten zwischen .47 bis .84. Rodriguez (2003) kommt nach einer Metaanalyse zum Zusammenhang zwischen MC und constructed response-Aufgabentypen zu dem Ergebnis:  "When items are constructed in both formats using the same stem (stem equivalent), the mean correlation between the two formats approaches unity". Ich fand bei vergleichbaren Reliabilitäten (Cronbachs Alpha: MC=.91, Alpha SA=.93) eine Korrelation von  r = .88 (N=54) zwischen dem Testformat MC und Short-Answer beim Testen von 50 Bundesstaaten der USA. Die entsprechende, minderungskorrigierte Korrelation der Aufgabenformate von r = .96 liegt in der Tat nicht mehr weit von 1 entfernt.

Allerdings erfordert eine SA-Testung deutlich mehr Bearbeitungszeit als eine MC-Testung. Wie Wainer & Thissen (1993, S. 110) an Hand einer Grafik aufzeigen, würde man für SA-Aufgaben mindestens die doppelte Testzeit benötigen, um vergleichbare Reliabilitäten zu erzielen. Meine Daten fallen nicht ganz so pessimistisch aus. Bei der Testung der Bundesstaaten der USA entsprach der Zeitnachteil für die SA-Testung einer Effektstärke von d = 1.4, was ca. 50 % mehr Bearbeitungszeit für die SA-Testung bedeutete (Jacobs 2006).  Lukhele, Thissen und Wainer (1994) kommen schließlich zu dem Ergebnis, mit MC-Tests könne in deutlich kürzerer Zeit dasselbe Konstrukt besser als mit Short Answer-Aufgaben erfasst werden. Für rein diagnostische Zwecke sind gut konstruierte MC-Testaufgaben daher in den meisten Fällen SA-Testaufgaben eindeutig überlegen.

Die Zeit intensivere Auswertung von Papier und Bleistift-Tests erbringt für Short-Answer sicher ökonomische Nachteile mit sich. Diese scheinen mir aber durch eine geeignete Antwortanalyse mit Computertestung zumindest bei der Erfassung präziser Fragestellungen, die eine prägnante Kurzantwort erfordern, hinreichend vermeidbar zu sein.

Aus der Sicht von Dozenten und Studenten lassen sich eine Reihe von Vorteilen für MC-Aufgaben vorbringen, wie die Auflistung von Simkin & Kuechler (2005) verdeutlicht. In der Regel werden MC-Aufgaben gegenüber freier Beantwortung von den Studenten präferiert (z.B. Killoy 2001). In dem Experiment von Jacobs (2006) schätzten die Lerner sogar die Lernwirksamkeit von MC-Übungsaufgaben signifikant höher ein als die aller sonstigen Übungsmethoden, obwohl die SA-Varianten objektiv zumindest numerisch den höchsten Behaltenserfolg erzielten. Die Lerner erfahren in einer MC-Übung meistens mehr unmittelbare Erfolge als in einer die gleichen Lehrziele erfassenden SA-Übung (siehe Proske (2000), Kang et al. (2006)), was einerseits die Testmotivation stärken, andererseits aber auch Kompetenzillusionen im Hinblick auf langfristiges Behalten begünstigen könnte.

Aufgabentyp und Übungszeit
Das Schreiben bzw. Eintippen der Antwort bei SA-Aufgaben erfordert im Durchschnitt meist deutlich mehr Zeit als das Ankreuzen bzw. Anklicken beim MC-Aufgabentyp (z.B. Kilroy 2001). Neben diesen eher technisch bedingten Nachteilen, die natürlich vom Umfang der Eingaben, dem Beantwortungsmodus (Tastatur, Handschriftliche Eingaben) sowie den Regelungen der Antwortbestätigung und des Feedbacks abhängen, könnten gelegentlich auch die geistigen Anforderungen beim SA-Aufgabentyp mehr Zeit beanspruchen. Wiedererkennen vollzieht sich beispielsweise meistens schneller als freies Erinnern. In der Studie von Clariana & Lee (2001) benötigten die Probanden zur Beantwortung der SA-Übungsitems fast doppelt so viel Zeit wie die Gruppen unter etlichen MC-Varianten. Die SA-Aufgabenstellung erlaubte beim ersten Fehler einen erneuten Beantwortungsversuch. Die Übungszeit betrug für SA insgesamt 1355 Sekunden. Die analoge MC-Variante mit Multiple-Try-Feedback erforderte dagegen lediglich 768 Sekunden. Da bei Clariana (2003) dasselbe Vorgehen zugrunde lag, sind die dort erzielten Vorteile für den SA-Übungstest mit erheblichen Zeitkosten erkauft worden. In der Studie von Jacobs (2006) führte die SA-Übung nicht zu deutlich besseren Ergebnissen als die MC-Übung, der für die SA-Test-Übung erforderliche Zeitbedarf lag jedoch um ca. 66% höher.

Höherer Lernerfolg bei ungleicher Übungszeit ist schwer interpretierbar, weil das Testformat mit der Übungszeit konfundiert ist. Als Ausweg bietet sich an, eine konstante Übungszeit festzulegen, in welcher der Lerner beliebig viele Aufgaben bzw. Wiederholungen bearbeiten kann. Dann würden unter MC-Übungsbedingungen mehr Aufgaben bearbeitet werden. ".. people generally answer multiple-choice items faster and so can answer more multiple-choice items per hour." (Bacon 2003). Unweigerlich wären dann Testformat und bearbeitete Itemmenge konfundiert. Sofern sich jedoch unter diesen Bedingungen Vorteile für die SA-Übung ergäben, könnte man behaupten, es käme auf die Übungsqualität und nicht auf die Übungsmenge an. Die verfügbare Übungszeit müsste hierbei so gewählt sein, dass möglichst alle Lerner mindestens einen Testdurchgang absolvieren könnten, was gewisse praktische Kalibrierungsprobleme nach sich zieht.

Schließlich könnte man auch die Itembearbeitungszeiten für beide Testformate konstant halten. Dies hätte aber den Nachteil, den Lerner unter Stress zu setzen und Übungszeiten vorzuschreiben, die zum einen in vielen Fällen nicht hinreichen oder zum andern gar nicht erforderlich sind, weswegen von einer derartigen Regelung im pädagogischen Normalbetrieb abgeraten wird. Cull (2000) wandte diese Methode aus experimentellen Gründen an, um gleiche Zeiten für das Studieren und das Testen von Items zu garantieren. Hierbei brach etwa die SA-Testung eines Items automatisch ab, wenn der Proband die Antwort nicht innerhalb von 8 Sekunden eingegeben hatte.

Abschließende Bemerkungen und Gesamteinschätzung
Die mir bekannten Studien deuten insgesamt tendenziell auf etwas günstigere Behaltenseffekte von Short-Answer-Übungsaufgaben hin. Da die meisten Untersuchungen beim Vergleich MC gegen SA-Übungsaufgaben eine Kontrolle der Übungszeit vermissen lassen, basiert der angenommene schwache Vorteil von SA meist auf einem unfairen Vergleich zu Ungunsten von MC. Meiner Einschätzung nach sind kaum praktisch bedeutsame Leistungsunterschiede durch das unterschiedliche Testübungsformat zu erwarten. Das Testen (mit Feedback) selbst bewirkt jedenfalls einen größeren Übungseffekt und erscheint wichtiger als das Testformat. Insofern wäre es empfehlenswert, die Qualität der Items innerhalb jedes Aufgabenformates zu verbessern und Item spezifische, lerneffiziente Rückmeldungen zu gestalten.

Zumindest die technischen Nachteile von SA würden deutlich abnehmen, wenn der Computer über hinlängliches Sprachverständnis verfügte. Dann könnte der Lerner die Antwort einfach aussprechen. Für reine Übungszwecke stellt Covert Short Answer (CSA), bei der die Antwort lediglich mental vorgenommen wird, eine echte Alternative zur formalen SA-Testung dar. Dies gilt insbesondere dann, wenn der Beantwortung KCR-Feedback folgt. Covert Short Answer fordert vom Lerner ähnliche Erinnerungsbemühungen bzw. Gedankenprozesse wie echtes Short Answer, ohne die zeitaufwändigen Beantwortungsnachteile und potentiellen Auswertungsprobleme von SA in Kauf nehmen zu müssen. Das Verfahren lässt sich in vielen Fällen sogar ohne Computer realisieren, etwa mit Karteikarten, die auf einer Seite die Frage und auf der Rückseite die Antwort präsentieren. 

Aufgabenbeispiel

Wie wird hier die Methode genannt, bei der eine kurze freie Beantwortung nur mental gegeben wird
und anschließend KCR angefordert werden kann ?

In der Studie von Jacobs (2006) bearbeiteten die Probanden unter CSA und MC vergleichbar viele Übungsaufgaben in exakt der gleichen Übungszeit mit annähernd vergleichbaren Behaltenseffekten im MC und SA-Posttest. Ob und unter welchen Bedingungen CSA echtes SA für Übungszwecke wirklich ersetzen kann, bedarf weiterer ausgiebiger empirischer Überprüfung, die im Falle einer Bestätigung deutliche ökonomische Vorteile für die Konzipierung von Übungen erbringen würde.


Literatur

Anderson, R. C., & Biddle, W. B. (1975) On asking people questions about what they are 
   reading. In G. Bower (Ed.), Psychology of Learning and Motivation, 9, 89-132.
   New York. Academic Press. (zitiert nach Hamaker (1986))
Bangert-Drowns, R.L., Kulik, C., Kulik, J.A., & Morgan, M.T. (1991). The instructional 
   effect of feedback in test-like events. Review of Educational Research, 61, 213-238. 
Bacon, D. R. (2003) Assessing Learning Outcomes: A Comparison of Multiple-Choice and 
   Short-Answer Questions in a Marketing Context. Journal of Marketing Education, 
   Vol. 25 No. 1, 31-36.
Berg, C. A., & Smith, S. (1994). Assessing students’ abilities to construct and interpret
  line graphs: Disparities between multiple-choice and free-response instruments. Science
   Education, 78(6), 527-554.  (zitiert nach Clariana (2003))
Bing, S. B. (1982). The role of adjunct questions and reading ability levels on rote 
   and conceptual learning from prose. Instructional Science, 11, 129-138. 
   (zitiert nach Proske (2000))
Clariana, R. B. (2003). The effectiveness of constructed-response and multiple-choice
   study tasks in computer aided learning.Journal of Educational Computing Research
   Volume 28,  4, 395 - 406.
Clariana, R. B. (2004). An interaction of screen colour and lesson task in CAL.
   British Journal of Educational Technology Vol 35 No 1 2004 35–43.
Clariana, R. B., & Lee, D. (2001). The effects of recognition and recall study tasks with
   feedback in a computer-based vocabulary lesson. Educational Technology Research and
   Development, 49, 12-20.
Cull, W. L. (2000). Untangling the Benefits of Multiple Study Opportunities and Repeated 
   Testing for Cued Recall. Applied Cognitive Psychology 14: 215-235
Daraghmeh, Rafi' Ahmad T.  (1997).
   The Effect of Question's Types and Levels on Students' Academic Achievement.  
   Chapter Two, Review of Literatur An-Najah University, Nablus:
   http://www.geocities.com/rafidr/Chapter%20Two.html [23.9.2005]
Duchastel, P. (1981). Retention of prose following testing with different types of tests. 
   Contemporary Educational Psychology, 6, 217-226.
   (zitiert nach Proske (2000))
Duchastel, P. C. and Nungester, R. J. (1982). Testing effects measured with alternative test 
   forms. Journal of Educational Research, vol. 75, no. 5, pp. 309 -313
Foos, P. W., and Fisher, R. P.(1988). Using tests as learning opportunities. 
   Journal of Educational Psychology,  80, no. 2, 179-183.
Gay, L.R. (1980). The comparative effects of multiple-choice versus short-answer tests on retention. 
   Journal of Educational Measurement, Vol 17(1), pp. 45-50.
Glover, J. A. (1989). The “testing” phenomenon: Not gone but nearly forgotten.
   Journal of Educational Psychology, 81, 392-399.
Hamaker, Ch. (1986). The Effects of Adjunct Questions on Prose Learning. Review
   of Educational Research, Vol.56, 2, Pp 212-242.
Haynie , W. J. (1994). Effects of Multiple-Choice and Short-Answer Tests on Delayed Retention Learning
   Journal of Technology Education   Volume 6, Number 1
   http://scholar.lib.vt.edu/ejournals/JTE/v6n1/haynie.jte-v6n1.html
   http://scholar.lib.vt.edu/ejournals/JTE/v6n1/pdf/haynie.pdf
Jacobs, B. (2006). Erneutes Studieren oder Testen mit Feedback beim Einüben von Faktenwissen 
   am Beispiel des Erlernens der Bundesstaaten der USA. 
   http://www.phil.uni-sb.de/~jakobs/wwwartikel/teststudy/index.html
   Eine leicht gekürzte Version findet man unter:
   URN: urn:nbn:de:bsz:291-psydok-5992
Kang, S. H. K., McDermott, K. B., & Roediger, H. L., III. (2005, May). Testing enhances 
   memory retention, but which test format is better? [Poster presented at the 17th American 
   Psychological Society Annual Convention, Los Angeles, CA.]
Kang, S. H. K., McDermott, K. B., & Roediger, H. L. (2006). Test format and
   corrective feedback modulate the effect of testing on memory retention.
   Manuscript submitted for publication.
Killoy, J. P. (2001). Processing mode and practice condition under differing ability levels 
   in computer-based instruction. Dissertation Abstracts International Section A: 
   Humanities & Social Sciences, Vol 61(10-A), May 2001. pp. 3890. 
   aus: http://weblinks1.epnet.com/citation.asp?tb=1&_ua=bt+TD++%22AGG%22+shn+1+db+pbhjnh+bo+B%5F+6B05&_ug=sid+F4A23A02%2DA5A7%2D4490%2D8856%2D6C36D2A370F6%40sessionmgr2+dbs+psyh%2Cpbh+cp+1+9020&_us=hd+False+hs+False+or+Date+fh+False+ss+SO+sm+ES+sl+%2D1+ri+KAAACBZD00099969+dstb+ES+mh+1+frn+1+E4A9&_uh=btn+N+6C9C&_uso=hd+False+tg%5B0+%2D+st%5B0+%2D%22multiple++choice%22++and++%22short++answer%22+db%5B1+%2Dpsyh+db%5B0+%2Dpbh+op%5B0+%2D+C241&fn=1&rn=17
   [19.9.2005]
Kluger, A. N. & DeNisi, A. (1996). The Effects of Feedback Interventions on Performance: 
   A Historical Review, a Meta-Analysis, and a Preliminary Feedback Intervention Theory. 
   Psychological Bulletin, Vol. 119, No. 2, pp. 254-284 
Lukhele, R., Thissen, D. & Wainer, H. (1994). On the relative value of multiple-choice, 
   constructed response, and examinee-selected items on two achievement tests. Journal of 
   Educational Measurement. 31(3), 234-250.
Martinez, M.E. (1999). Cognition and the question of test item format. Educational Psychologist. 
   34,4.  294-218.
McDaniel, M. A. (2004). Improving Student Learning: Moving from the Memory Laboratory to 
   the Classroom. Second National Conference: Integrating Research into Undergraduate Education:
   The Value Added Proceedings November 18-19, 2004 Washington, DC
   http://www.sunysb.edu/Reinventioncenter/Conference_04/McDaniel/Presentation.htm [14.1.2006]
McDaniel, M. A., Anderson, J. L., & Morrisette, N. (2006, Apr). Test-enhanced learning
   in the classroom. Paper presented at the Annual Meeting of the American
   Educational Research Association, San Francisco, CA.
   zitiert nach Kang et al. (2006).
Nungester, R. J. & Duchastel, P. C. (1982). Testing versus review: Effects on retention. 
   Journal of Educational Psychology, 74(1), 18-22.)
Proske, A. (2000). Behaltenseffekte von Lernaufgaben in Abhängigkeit vom Antwortformat.
   Unveröffentlichte Diplomarbeit, Technische Universität Dresden.
   siehe auch: Poster bzw. Folien
Rodriguez. M.C (2003). Construct equivalence of multiple-choice and constructed-response 
   items: A random effects synthesis of correlations. Journal of Educational Measurement, 
   Vol 40(2), Sum 2003. pp. 163-184.
   aus: http://weblinks3.epnet.com/citation.asp?tb=1&_ua=bt+TD++%22HB2%22+shn+1+db+pbhjnh+bo+B%5F+41A2&_ug=sid+DEF1E503%2DBAD7%2D4C06%2D933A%2D9DF07E46E880%40sessionmgr2+dbs+snh%2Csih%2Cbuh%2Cecn%2Cpsyh%2Cpbh+cp+1+D4DE&_us=frn+1+hd+False+hs+False+or+Date+fh+False+ss+SO+sm+ES+sl+%2D1+dstb+ES+mh+1+ri+KAAACB2D00048462+80E6&_uh=btn+N+6C9C&_uso=hd+False+tg%5B0+%2D+st%5B0+%2D%22constructed++response%22++and++%22multiple++choice%22+db%5B5+%2Dsnh+db%5B4+%2Dsih+db%5B3+%2Dpsyh+db%5B2+%2Dpbh+db%5B1+%2Decn+db%5B0+%2Dbuh+op%5B0+%2D+54DA&fn=1&rn=12
   [22.9.2005]
Rütter, Th. (1993) Formen der Testaufgabe. Eine Einführung für didaktische Zwecke. 
   Beck. München 1973
Sax, G. & Collet, L.S. (1968) AN EMPIRICAL COMPARISON OF THE EFFECTS OF RECALL AND 
   MULTIPLE-CHOICE TESTS ON STUDENT ACHIEVEMENT. Journal of Educational Measurement
   Vol 5 No 2 S. 169 - 173 
Simkin, M. G. & Kuechler, W. L. (2005) Multiple-Choice Tests and Student Understanding: 
   What Is the Connection?. Decision Sciences Journal of Innovative Education 3 (1), 73-98.
Schmidt, R. A., & Bjork, R. A. (1992). New conceptualizations of practice: Common principles
   in three paradigms suggest new concepts for training. Psychological Science, 3, 207-217.
Wainer, H. & Thissen, D. (1993) Combining multiple-choice and constructed-response test scores: 
   Toward a Marxist theory of test construction. Applied Measurement in Education 6(2), 103-118
White-Blackburn, G., Blackburn, T. C. & Lutzker, J. R. (1980). The effects of objective versus 
   subjective quiz items in a PSI course. Teaching of Psychology, Vol 7(3), Oct 1980. pp. 150-152.

zum Projekt:: Aufgaben stellen und Feedback geben.
created 13.1.2006; last update 4.4.2006; Bernhard Jacobs, b.jacobs@mx.uni-saarland.de