Archiv


Mit Algorithmen gegen Fakes

Beim Einkauf im Internet verlassen sich Kunden häufig auf Erfahrungsberichte anderer Onlinekäufer. Produktrezensionen und Händlerbewertungen bestimmen entscheidend mit, was und wo gekauft wird. Dementsprechend groß ist die Verlockung, hierbei zu täuschen. Amerikanische Wissenschaftler arbeiten daran, geschönte Bewertungen automatisch zu enttarnen.

Von Michael Gessat |
    "Ich muss meine vorige Rezension korrigieren: Das WeTab ist nicht gut, sondern sehr, sehr gut. Macht richtig Spaß jetzt. - Ich kann das Teil nur empfehlen!"

    Eine Kunden-Rezension beim Online-Händler Amazon, geschrieben am 23. September 2010. Der besprochene Artikel, ein Tablet-Computer, mit dem die deutsche Firma Neofonie damals den Markt tüchtig aufmischen wollte, konnte das Lob und die fünf Bewertungssterne ganz gut gebrauchen: Die Fachpresse und viele andere Käufer waren nämlich nicht so begeistert von dem Gerät. Ein paar Tage später trat der Gründer und Geschäftsführer von Neofonie, Helmut Hoffer von Ankershoffen, unter Hohn und Spott von seinem Posten zurück: Er selbst hatte die Lobeshymne unter einem falschen Namen erstellt und war dabei aufgeflogen.

    Gefälschte Produktbewertungen sind keine Ausnahme im Netz; dafür spricht schon der erste Augenschein, sagt Bing Liu, Informatikprofessor an der University of Illinois in Chicago:

    "Es ist schon sehr überraschend - bei Amazon zum Beispiel fallen 70 bis 80 Prozent der Rezensionen positiv aus, mit vier oder fünf Sternen. Die meisten Leute sagen aber, dass sie nur Rezensionen schreiben, wenn sie eine Beschwerde haben - sind sie zufrieden, tun sie nichts."

    Auch die sogenannten Toprezensenten bei Amazon, die besonders viele Artikel bewerten und deren Besprechungen von anderen Kunden als besonders "nützlich" eingestuft werden, kommen praktisch immer zu positiven Einschätzungen; das fand 2011 der Soziologe Trevor Pinch von der amerikanischen Cornell University heraus.

    Eines steht fest: Für einen menschlichen Leser sind einigermaßen gut geschriebene, gefälschte Rezensionen von authentischen praktisch nicht zu unterscheiden. Für ein Computerprogramm schon eher - Bing Liu arbeitet schon seit einigen Jahren an diesem Ansatz:

    "Wir nutzen zwei große Datensätze; einen mit annähernd sechs Millionen Rezensionen haben wir bei Amazon zusammengetragen, einen anderen bei der Bewertungsplattform RatingStar.com. Wohlgemerkt, das sind öffentlich zugängliche Daten, die jeder sehen und sammeln kann. Zu Beginn haben wir dann versucht, mit dem sogenannten Maschinellen Lernen einzelne Rezensionen als echt oder falsch klassifizieren zu lassen."

    Ein Ansatz für solche klassifizierende Computer-Algorithmen ist zum Beispiel, dass Fälscher oft bestimmte Formulierungen exakt oder sehr ähnlich mehrmals verwenden. Zudem, das hatten Computerlinguisten der Cornell University 2011 nachgewiesen, setzen sie überproportional stark auf emotional aufgeladene Worte. Mit solchen Vorgaben bzw. mit Testdatensätzen; einmal mit gefälschten, einmal mit authentischen Rezensionen, lässt sich ein Algorithmus trainieren - und erkennt anschließend Bewertungs-Spam schon recht gut.

    Bing Lius neuestes Verfahren - die Entwicklung wurde mit einem Forschungsstipendium von Google finanziell unterstützt - schneidet bei der automatischen Erkennung noch besser ab. Es setzt darauf, dass gefälschte Rezensionen selten isolierte Einzelaktionen sind, sondern in der Regel quasi professionell, als Auftragsarbeit geschrieben werden - von einer Person unter mehreren Identitäten, oder aber von tatsächlichen Gruppen. Lius Algorithmus funktioniert nach dem Data-Mining-Prinzip: Er sucht in dem gesammelten Datenmaterial nach Strukturen und Querbeziehungen.

    "Zum Beispiel schreiben ein paar Leute plötzlich nahezu zeitgleich eine Besprechung für ein Produkt, das bis dahin kaum oder gar nicht rezensiert worden war. Und sie geben ähnliche Bewertungsnoten. Und manche dieser Leute verwenden Formulierungen, die sie selbst schon einmal benutzt haben, und manche kopieren die von anderen."

    Ob das dann alles noch Zufall ist oder eben ein Zeichen von planmäßigem oder koordiniertem Handeln, das kann der Algorithmus in der Gesamtanalyse des Materials mathematisch-statistisch bewerten - wie sich zeigte, mit einer hohen Trefferquote.

    Der Praxistest für Lius Verfahren steht noch aus.

    Für wie gravierend Amazon selbst das Problem gefälschter Bewertungen hält, dazu gab es vom Unternehmen keine explizite Stellungnahme. Stattdessen teilte Pressesprecherin Kathrin Schmitz dem DLF per E-Mail mit:

    "Amazon [...] greift als Plattformbetreiber grundsätzlich nicht in die Meinungsäußerungen in Kundenrezensionen ein, sofern die geltenden Richtlinien eingehalten werden und kein offensichtlicher Rechtsverstoß besteht."

    Weiter heißt es in der Mail:

    "Sollten wir über einen Manipulationsverdacht [...] in Kenntnis gesetzt werden, so reagieren wir umgehend und entfernen solche Beiträge nach Prüfung."