Sie heißen Amazon Alexa, Apple Siri und Google Now. Und sie sollen das Leben einfacher machen. Ganz einfach auf Zuruf.
Nur: Die Sprachschnittstelle, so nennen wir sie hier einmal, ist keineswegs sicher. Das zeigte sich bereits im vergangenen Jahr, als ein Moderator im Fernsehen so ein Sprachassistenzsystem vorführte. Da reagierte nicht nur das Gerät vor ihm, sondern die Geräte der Zuschauer gleich mit. Eine Massenbestellung wurde ausgelöst. Das soll heute nicht mehr möglich sein – verspricht jedenfalls der Hersteller.
Eine weitere Schwachstelle von Siri und Co
Doch die Systeme zur Spracherkennung haben eine weitere Schwachstelle. Wissenschaftler und Ingenieure aus den USA und aus China haben bewiesen, dass die drei großen Spracherkennungssysteme auch reagieren, wenn Sprache im nicht hörbaren Bereich genutzt wird. Nachgewiesen hat das unter anderem Liwei Song, Elektrotechnik-Student an der Princeton University.
"Ich nutze ein Verfahren namens Amplitudenmanipulation. Das ist ein gängiges Verfahren in der Kommunikationstechnik. Die Grundidee ist, man multipliziert die Sprachaufnahme mit einem festen Faktor und verschiebt sie in einen anderen Frequenzbereich. Die normale Sprache wird so in den hochfrequenten Bereich verschoben. Ich habe in meinen Experimenten den Bereich um 30 kHz als Trägerfrequenz genutzt. Das hat geklappt und man hat nichts mehr gehört, weil Menschen oberhalb von 20 kHz Töne nicht mehr hören können. Ich kann also meinen Angriff unhörbar für den Menschen machen."
Kein großes Hexenwerk
Die Bearbeitung der Aufnahmen ist nicht allzu komplex. Ein paar Modulationen und Filterungen schon sind die gesprochenen Anweisungen für das menschliche Ohr nicht mehr hörbar. Für die Maschinen allerdings schon.
"Das wichtigste Gerät für meinen Angriff: Ich brauchte einen speziellen Lautsprecher, weil normale Lautsprecher die hohen Frequenzen nicht wiedergeben können. Also habe ich einen Ultraschall-Lautsprecher gekauft, der mit bis zu 40 kHz arbeitet."
Dann spielten die Forscher aus Princeton die bearbeiteten Aufnahmen verschiedenen Geräten vor. Dazu stellten sie den Ultraschalllautsprecher in einem ruhigen Raum in verschiedenen Abständen vor die Testgeräte.
"Zuerst habe ich ein Android-Telefon und einen Amazon Echo angegriffen. Das sind die Sprachassistenten Google Now und Amazon Alexa. Beide Angriffe waren erfolgreich. Ich habe auch Apple Siri erfolgreich angegriffen, das war im Paper noch nicht zu lesen."
Bisher schutzlos ausgeliefert
Alle Geräte reagierten und taten, was die unhörbare Stimme ihnen auftrug. Der Angriff klappte in einer Entfernung von bis zu dreieinhalb Metern. Auch mehr wäre machbar, so Liwei Song, dafür müsse man die Befehle einfach mit mehr Leistung, also lauter, abspielen. Bisher sind die Systeme dieser Art Angriff schutzlos ausgeliefert.
"Unsere Erkenntnisse gelten nicht nur für die getesteten Spracherkennungssysteme, weil: Wir greifen die Mikrofone an. Also ist jedes Spracherkennungssystem mit entsprechenden Mikrofonen anfällig für diese Art von Angriff."
Kein einfach zu lösendes Problem
Das Problem: Die reine Tonerfassung und Digitalisierung erfolgt auf Hardwareseite. Erst das digitalisierte Stück Sprache wird vom System verarbeitet. Deswegen können die Hersteller das Problem nicht einfach mit einem Software-Flicken lösen, so der angehende Ingenieur.
"Das ist derzeit ein wirklich großes Problem. Wir haben auch über Gegenmaßnahmen nachgedacht. Denkbar wäre, dass die Mikrofonhersteller versuchen, ihre Geräte so zu ändern, dass sie nicht sensibel sind für Ultraschall. Denn wenn sie Ultraschall nicht aufnehmen, klappt unser Angriff nicht mehr."
Die Hersteller entsprechender Geräte haben bereits reagiert und kündigen an, die vorgestellten Angriffe zu überprüfen. Bis dahin können Anwender sich vor solcherart Angriff nur dadurch schützen, dass sie ihre Systeme umstellen. Statt auf ein Signalwort zu hören, sind Amazon Alexa, Google Now und Apple Siri dann erst nach einem Tastendruck aktiv.