Archiv


Benotung durch künstliche Intelligenz

In einigen US-Bundesstaaten werden inzwischen Schulaufsätze automatisch benotet. Auch amerikanische Universitäten nutzen zunehmend Software, um beispielsweise ihre Aufnahmeprüfungen zu benoten. Doch der Einsatz dieser Technik ist umstritten.

Von Matthias Becker |
    "Welcome to Western!"

    Diese amerikanischen Studenten haben es geschafft. Die nächsten zwei Jahre werden sie an der Western Michigan University Betriebswirtschaftslehre studieren und zum Schluss hoffentlich ihren Abschluss machen. Wer in den USA einen MBA-Abschluss haben will, der kommt an einer der Aufnahmeprüfung nicht vorbei – und die ist nicht ganz einfach.

    Jedes Jahr werden eine Viertel Millionen Bewerber mit dem Graduate Management Admission Test geprüft. Ein wichtiger Bestandteil dieser standardisierten Aufnahmeprüfung ist ein freier Aufsatz – und dieser Aufsatz wird mit einem Computerprogramm benotet, dem E-Rater.

    Programme wie der E-Rater gehören zu den sogenannten intelligenten Tutorensystemen. Niels Pinkwart, ein Informatiker an der Berliner Humboldt-Universität, beschäftigt sich seit Langem mit dieser Art von Lernsoftware.

    "Intelligente Tutorensysteme sind seit 20 Jahren bestimmt in der Forschung und erobern eigentlich zunehmend den Markt – in Nordamerika sehr stark, in Asien sehr stark, und in Deutschland wird das vermutlich auch mehr an Bedeutung sicherlich gewinnen."

    "Intelligent" sind die Systeme insofern, als dass sie sich an die Lernenden anpassen. Sie sind adaptiv – das heißt, sie wählen Fragen und Hilfestellungen entsprechend der individuellen Fähigkeiten aus.

    Zu diesem Zweck müssen die Programme allerdings herausfinden, ob ein Schüler oder Student einen Lerninhalt verstanden hat oder nicht. Sie müssen beurteilen, ob eine Antwort richtig ist oder falsch. Kann das eine Maschine? Niels Pinkwart differenziert.

    "In den Fächern, die gut für intelligente Tutorensystem zu handhaben sind, und dazu gehören sicherlich zum Beispiel Physik, Mathematik, all die Sachen, wo man einen sehr, sehr formalen Zugang hat und wo der Computer es auch leicht hat, Lösungen zu interpretieren, dass man da eigentlich relativ gute Ergebnisse erzielen kann. Wohlgemerkt, diese Systeme sollen nie einen Lehrer ersetzen. Aber die reine Effizienz, wenn man auf die Lernvermittlung geht, ist in den klassischen Fächern durchaus nachgewiesen."

    Nun erlebt diese Technik einen gewaltigen Schub, weil Fernstudiengänge im Internet immer beliebter werden. Die sogenannten Massive Open Online Courses – abgekürzt MOOCs – bieten Kurse zu jedem erdenklichen Thema an. Schätzungen sprechen von mittlerweile vier Millionen Nutzern weltweit, und täglich werden es mehr.

    Eine erfolgreiche Plattform für MOOCs ist EdX, gegründet von der Universität Stanford und dem Massachusetts Institute of Technology. 1,2 Millionen Menschen sind in der Internet-Uni eingeschrieben, darunter 24.000 Deutsche. Johannes Heinlein von EdX berichtet, wie dort die automatisierte Bewertung eingesetzt wird.

    "Wir haben EdX gegründet, weil es mittlerweile ganz neue technische Mittel gibt. Deshalb werden die Massive-Open-Online-Kurse erfolgreicher sein als das Online-Lernen der Vergangenheit. Wir benutzen unter anderem künstliche Intelligenz, ein Programm, das automatisch Aufsätze bewertet. Mit dieser Technologie können Texte, die mehrere Seiten lang sind, beurteilt werden."

    Die automatisierte Bewertung beschränkt sich also längst nicht mehr auf simple Ja-Nein-Fragen. Immer längere und komplexere Texte werden mit Software analysiert. In der Regel werden die MOOC-Nutzer in Lerngruppen zusammengefasst, die ihre Aufsätze gegenseitig benoten. Erst wenn dann das Urteil der Menschen und das der Maschinen deutlich auseinanderklaffen, wird der Aufsatz an eine akademische Hilfskraft weitergeleitet, die ihn abschließend begutachtet.

    "In vielen unserer Kurse kommt eine Mischung zum Einsatz, also die Benotung durch Menschen und Benotung durch maschinelles Lernen. Es ist einfach so: In einigen Kursen haben wir über 100.000 Teilnehmerinnen. Wenn man so viele Studierende hat, ist eine Benotung in Handarbeit schlicht unmöglich."

    Auch die Aufsätze bei Uni-Aufnahmeprüfungen werden sowohl von dem Computerprogramm E-Rater als auch einem menschlichen Korrektor benotet. Der Durchschnitt ergibt die Endnote. Les Perelman, ein Literaturwissenschaftler am MIT, hat den E-Rater getestet. Die Software bewertet Aufsätze nicht nur nach Wortwahl und Ausdrucksweise, sondern auch nach dem Inhalt. Angeblich.

    "Ich fand heraus, dass die Länge des Textes den größten Einfluss auf die Note hat, viel mehr als alle anderen Faktoren. Je mehr man schreibt, desto besser die Note. Ich konnte wahllos Passagen von Gedichten oder Zitate aus Artikeln einfügen, und das machte meine Note besser, obwohl es nichts mit der Fragestellung zu tun hatte."

    Auch Fremdwörter trieben die Note nach oben. Les Perelman verfasste daraufhin einen Ratgeber für Studierende, in dem er ironisch empfiehlt, keine Zeit mit dem Inhalt zu verschwenden. Der Literaturwissenschaftler lehnt die maschinelle Bewertung ab, weil er sie für betrugsanfällig hält – und weil er befürchtet, dass durch ihren Einsatz das Bildungsniveau sinken wird.

    "In Amerika gibt es Überlegungen, diese Technik für wichtige Prüfungen in den weiterführenden Schulen einzusetzen. Aber es wäre möglich, den Schülern einfach eine Liste mit seltenen und komplizierten Worten zu geben und sie diese Worte in ihren Aufsätzen benutzen zu lassen. Es wäre nicht einmal nötig, ihnen zu sagen, was diese Worte bedeuten, aber es würde ihre Note deutlich verbessern. Und von diesen Testergebnissen hängt alles möglich ab: die Löhne der Lehrer, die Einkünfte der Schule und ihr Ansehen, die weitere Karriere der Schüler. Es wird ein gewaltiger Druck entstehen, den Schülern nicht mehr Argumentieren und Formulieren beizubringen. Stattdessen werden sie Wortlisten auswendig lernen und möglichst wortreich und hochgestochen formulieren."