Archiv

Texterkennung
Die Wortwolken der Geheimdienste

Mails überwachen und Blog-Beiträge auswerten, das gehört ja zu den Standardmethoden der Geheimdienste. Und allein deshalb mussten sie auf dem Chaos Communication Congress diskutiert werden. So geschehen in einem Vortrag von Joachim Scharloth von der Technischen Universität Dresden.

Von Peter Welchering |
    Es gibt nach wie vor sogenannte Signalworte, aber da hat Joachim Scharloth sehr eindeutig darauf hingewiesen, dass die Bedeutung dieser Überwachungsmethode inzwischen keine so große Rolle mehr spielt. Also nur "Bombe" und "Attentat" in eine Mail hineinzuschreiben, bringt einen noch nicht per se und zuverlässig auf die Überwachungsliste der NSA. Erst recht reichen solche Signalwortüberwachungen nicht aus, um die Gefährlichkeit von Autoren eines Blog-Beitrages oder von Absendern von Mails festzustellen. Das machen die wortgewandte Geheimdienstexperten mit der Analyse von Wortwolken.
    Zwischenfrage: Wie funktionierte diese Wortwolken-Analyse genau?
    Da werden benachbarte Wörter aufgelistet - Beispiel: zum Journalist kommt häufig unhöflich als Attribut hinzu, zu Buch dick, zu Farbe grell. Es geht also darum zu untersuchen, wo gehäuft solche benachbarten Wörter auftreten, ob die variiert werden, etwa mit Synonymen und ob die Attribute dann eher negativ oder positiv belegt sind. Experten sprechen hier von Begriffsdimensionen. Und diese Methode hat Joachim Scharloth gestern mal etwas genauer vorgeführt und damit viele Lacher geerntet. Also er hat das gemacht, was so ein Algorithmus für die automatische Textanalyse auf einem NSA-Rechner auch macht. Und diesen Algorithmus hat er auf Fefes Blog, also den Blog von Felix Leitner, der mitunter schöne verschwörungstheoretische Botschaften hat, die immer wieder von der Wirklichkeit überholt wurden in diesem Sommer losgelassen. Und auf den Blog von Don Alphonso auf "faz.net".
    Zwischenfrage: Und was hat der Algorithmus herausbekommen?
    Don Alphonso und Fefe sind gefährlicher als Salafisten und andere Extremisten. Gefährlichkeit wird dabei errechnet anhand von bestimmten Attributen und ihren Bezug zu Hauptwörtern, die nach ihrer Gefährlichkeit und ideologischen Ausrichtung bewertet werden. So schreibt Fefe ziemlich viel über die SPD, belegt sie aber mit abwertenden beziehungsweise negativen Begriffen wie zum Beispiel Verräterpartei. Und daraus errechnet sich ein Wert für die Gefährlichkeit dieses Autoren. Dieser Algorithmus soll also gefährliche Gedanken aus Texten ermitteln, indem Wortstatistiken aufgestellt werden. Er arbeitet also mit ähnlichen Ableitungen, wie die in der Verhaltensanalyse eingesetzte werden. Es geht letztlich um statistische Wahrscheinlichkeiten. Die Wortwolken, die ein jeder im Netz hinterlässt, werden also permanent von einem Algorithmus analysiert. Ein Kongress-Besucher meinte: ständige Überwachung, wie Telefonüberwachung früher in totalitären Systemen. Man weiß, dass überwacht wird, und verhält sich entsprechend vorsichtig. Blog - vorsichtiger formulieren.
    Zwischenfrage: Wozu raten die Netzaktivisten, wie sollen wir mit diesen Algorithmen für die Textanalyse umgehen?
    Mit ihnen spielen, sich absurde Wortwolken ausdenken, und so die Algorithmen völlig in die Irre führen. Dazu muss ich aber wissen, wie diese Algorithmen arbeiten. Wenn ich dann widersprüchliche Bewertungen von Auswertungsalgorithmen bekomme, läuft letztlich diese Überwachung ins Leere.