Was sich für uns gerade angehört hat wie ganz normale Musik, hat für Spracherkennungssysteme wie Alexa eine grundlegend andere Bedeutung. Denn ein Informatiker-Team in Bochum hat in der Audiodatei ein Signal versteckt, das nur der Computer versteht. Katharina Kohls war an der Codierung beteiligt.
"Was da jetzt versteckt war, als Satz, den wir in dem Rauschen mit reincodiert haben, war: Activate emergency break and lock all doors."
Sprachassistenten sind verwundbar
In einem Auto zu sitzen, das plötzlich heftig bremst und alle Türen verriegelt, ist keine schöne Vorstellung. Die Wissenschaftler in Bochum möchten mit ihrem Projekt zeigen, wie verwundbar Sprachassistenten sind. Denn die Computersysteme werden immer häufiger in Bereichen angewendet, in denen Fehlfunktionen gefährlich werden können. Beispiele dafür sind "Smart Home"-Systeme, die Türen öffnen können oder autonom fahrende Autos, die Bild- oder Audiosignalen gehorchen. Thorsten Holz ist Professor am Lehrstuhl für Systemsicherheit an der Ruhr-Universität Bochum. Er erklärt, wer durch Sicherheitslücken von Sprach-Erkennern durchschlüpfen könnte:
"Also die Grundidee ist, dass verschiedene Arten von Angreifern so etwas nutzen könnten. Sei es eben ein staatlich motivierter Angriff im Kontext von Cyber-War, wo es darum geht, zum Beispiel über das Radio oder einen Fernsehspot dafür zu sorgen, dass Chaos entsteht. Oder einfach jemand, der sowas aus, Anführungszeichen, Spaß machen will, um die Grenzen von technischen Systemen zu demonstrieren. Es gibt diverse Szenarien, wobei in der Praxis das Angriffspotenzial noch relativ gering ist."
Forscher tricksen Alexa aus
Um die Systeme sicherer zu machen, untersuchen die Bochumer zunächst, wie sich Alexa und Co. austricksen lassen. Dafür nutzten sie erstmals sogenannte psychoakustische Effekte – Besonderheiten des menschlichen Gehörs. Ähnlich wie unser Auge bei optischen Täuschungen lässt sich auch unser Gehör reinlegen. Wenn wir einen lauten Ton auf einer bestimmten Frequenz hören, ist das Gehirn danach so mit diesem Ton beschäftigt, dass wir etwa 200 Millisekunden auf dieser Frequenz taub sind. Und genau in diese Zeiträume verpacken die Bochumer die Botschaften an den Computer. Denn der wird nicht von dem lauten Ton abgelenkt. Um das Prinzip zu testen, veränderte Katharina Kohls ein Audiosignal:
"Man nimmt das Audiosignal, das man verändern möchte, und man steckt das im Prinzip in so ein großes Framework rein. Dann rattert das ne Weile. Man sieht da nicht viel, das System optimiert halt, in verschiedenen Iterationen, immer wieder den Output, versucht einerseits das gewünschte Ziel zu erreichen, dass der Spracherkenner unseren versteckten Satz erkennt, und andererseits, dass die Veränderungen aber für den Menschen nicht hörbar sind."
Wer genau hinhört, kann trotzdem ein leises Knarzen erkennen. Im Vergleich hören sich die beiden Audiodateien so an:
Beispielsatz: Anfang Original, Ende verändert. "Specifically the union said it was proposing to purchase all of the assets of the united airlines including planes, gates facilities and landing rights."
Die zweite Hälfte des Satzes stammte aus der codierten Version. Verdeckt von Musik, Geräuschen oder Sprache fällt die Veränderung kaum auf. Es würde vermutlich niemand auf die Idee kommen, dass es sich bei dem Knacken um einen Angriff auf ein Spracherkennungssystem handelt. Das Team in Bochum möchte mit den getesteten Sicherheitslücken aber natürlich keinen Schaden anrichten, sondern diese schließen.
Lernen, wie Menschen zu hören
"Ich denke, man muss auf jeden Fall auch zu Schwachstellen von Systemen forschen, um zu verstehen: Was sind die Grenzen von den digitalen Systemen, wie sind wir digital verwundbar - um dann auch im nächsten Schritt robustere Systeme entwickeln zu können. Dementsprechend ist für uns jetzt auch der nächste Schritt, zu schauen, wie kann man robustere Spracherkennungssysteme entwickeln, sodass dann solche Angriffe nicht mehr möglich sind."
Um sicherer zu werden, müssten die Computer lernen, wie Menschen hören. Zum Beispiel könnten die Systeme all die Geräusche ignorieren, die für Menschen sowieso unhörbar sind. Damit wäre zumindest die Sicherheitslücke geschlossen, die die Bochumer getestet haben.