Archiv

Internet
Hassreden werden von Algorithmen schlecht erkannt

Die Erkennung von Hate Speech im Internet ist noch lange nicht perfekt. Die Algorithmen, die Hassrede als solche einstufen sollen, lassen sich noch zu leicht austricksen. Wissenschaftler arbeiten deshalb an verbesserten Trainingsdatensätzen für Algorithmen.

Von Carina Fron |
    Computertaste mit der Aufschrift Hate speech, Hassreden in sozialen Netzwerken.
    Jetzt ist das Gesetz durch: Betreiber von Onlineplattformen müssen Regeln einhalten, wenn es um die Prüfung und Beseitigung strafrechtlich relevanter Inhalte geht. (imago / Christian Ohde)
    Wenn es darum geht, Algorithmen statt Menschen auf Hassreden im Netz anzusetzen, hat Tommi Gröndahl von der Aalto University in Finnland eine klare Überzeugung:
    "Ich denke, es ist ein Weg, Verantwortung zu umgehen. Man denkt 'Hate Speech ist ein schwieriges Problem, also sollen die Maschinen für uns damit umgehen'. Aber so läuft das nicht. Zuerst muss man wissen, wie man die Maschinen trainiert und das muss ein Mensch machen. Dieser Verantwortung kann man sich nicht entziehen."
    Deshalb hat der Computerwissenschaftler zusammen mit seinen Kollegen sieben bekannte Algorithmen für die Erkennung von Hate Speeches auf Herz und Nieren geprüft. Zum Verständnis: Ein Algorithmus begreift Hassrede nicht. Vielmehr lernt er im Training anhand von Hasskommentaren im Vergleich mit anderen Kommentaren die sprachlichen Charakteristika. Die sollte er im besten Fall dann auch in unbekanntem Material erkennen können.
    Die Algorithmen ließen sich leicht austricksen
    Deshalb bekamen die Test-Algorithmen von Gröndahl zunächst Hasskommentare aus den Trainingsdaten der jeweils anderen Algorithmen vorgesetzt. Im nächsten Schritt haben die Wissenschaftler die Trainingsdatensätze verändert - Wörter auseinandergezogen, Leerzeichen gelöscht, Verschreiber eingebaut oder die Positionen von Wörtern im Satz verändert. Das Wichtige: Bei allen Veränderungen war der Text für Menschen noch immer verständlich. Ein viel fundamentaleres Problem sehen Gröndahl und seine Kollegen aber in der Gewichtung der Wörter im Satz. Deshalb haben sie in einigen Fällen einfach nur positiv-anmutende Wörter hinzugefügt.
    "Was hier passiert ist, dass der Klassifizierer sich alle Wörter im Satz ansieht und desto mehr Wörter nicht zur Hasssprache gehören, um so eher gilt das nicht als Hate Speech. Wir haben das Wort 'Liebe' benutzt, aber man kann jedes positive Wort nehmen."
    Insgesamt waren Tommi Gröndahl und seine Kollegen von den Ergebnisse sehr enttäuscht. Die Algorithmen haben sich leicht austricksen lassen. Deshalb sei das Training mit ähnlich veränderten Datensätzen so wichtig, meinen die Forscher.
    "Ein Problem ist sicherlich, dass wir es mit einem sehr theoretischen Problem zu tun haben. Die Frage ist 'Stellt es sich dann wirklich in der Praxis, dass jemand zum Beispiel Love in einem Hate-Tweet einflechtet?' Ich glaube nicht."
    Sagt Sylvia Jaki. Gemeinsam mit Wissenschaftlern der Universität Antwerpen hat sie den Hate-Speech-Detektor für Twitter umgesetzt. Der spürt in Echtzeit hetzerische Wörter und Wortkombinationen in deutschsprachigen Tweets auf. Außerdem bezieht er auch Elemente wie Bilder und Emojis mit ein. Das mit einer Genauigkeit von rund 80 Prozent, meint die Medienlinguistin. Eine Zahl, die auch für andere Algorithmen zutrifft, sagt der KI-Experte Alexander Löser. Er arbeitet an der Beuth Hochschule für Technik in Berlin.
    "Eigentlich kriegen wir die Maschinen schon hoch, wenn wir der Maschine halt deutlich mehr Kontextinformationen geben und Variantenreichtum. Und ihr ein bisschen mehr Weltwissen beigeben."
    Noch sind die Verfahren nicht perfekt
    Heißt zum Beispiel: Um zu verstehen, dass man das Gesicht einer Frau nicht mit einem Pferd vergleichen darf, benötigt der Algorithmus unter anderem Wissen über Redewendungen und gesellschaftliche Konventionen. Hätte er das, wären auch Ironie und Metaphern kein Problem mehr bei der Erkennung, schreibt Löser zusammen mit Kollegen unter anderem in einer kürzlich erschienen Studie. Der Wirtschaftsinformatiker Uwe Bretschneider ist da vorsichtiger. Auch er hat einen Algorithmus entwickelt, der Hassrede im Deutschen und Englischen erkennen soll. Darin hat er versucht, eine Art Regelwerk für Hassrede-Erkennung einzubauen. Bretschneider schätzt den Stand der Forschung zurückhaltender ein und spricht von einer höchstens 70-prozentigen Erkennungsrate.

    "Also, was häufig nicht so hervorgehoben wird bei der Kommunikation ist, dass es wirklich sehr darauf ankommt, wie der Datensatz aussieht auf dem die Verfahren evaluiert wurden und ich glaube, da müsste man so ein bisschen das Verständnis noch schärfen, wie eigentlich das Prinzip der Auswertung solcher Verfahren funktioniert."
    Worin sich alle Wissenschaftler einig sind: Noch sind die Verfahren nicht perfekt und mit dafür verantwortlich sind die Trainingsdatensätze für die Algorithmen. Wie die allerdings verbessert werden könnten, da gehen die Meinungen auseinander. Noch kann also die Erkennung von Hassrede nicht allein den Algorithmen überlassen werden.