Archiv

Sprachassistenzsysteme
Lautloser Angriff auf Siri und Co

Sprachassistenten wie Apple Siri, Google Now und Amazon Alexa sollen dabei helfen, Abläufe zu vereinfachen. Ganz ungefährlich ist das nicht, wie jetzt Wissenschaftler in den USA und China gezeigt haben. Das Perfide: Der eigentliche Gerätebesitzer bekommt davon gar nichts mit.

Von Jan Rähm |
    Der Amazon Echo Dot ist ein Lautsprecher, der auf den Namen "Alexa" hört und als Sprach-Schnittstelle zu Amazon-Produkten fungiert. Über den Amazon Echo Dot lassen sich Waren bestellen und Geräte im Haushalt steuern.
    Mit diesem Lautsprecher, der auf den Namen Alexa hört, lassen sich Waren bestellen und Geräte steuern. (picture alliance/dpa/Markus C. Hurek)
    Sie heißen Amazon Alexa, Apple Siri und Google Now. Und sie sollen das Leben einfacher machen. Ganz einfach auf Zuruf.
    Nur: Die Sprachschnittstelle, so nennen wir sie hier einmal, ist keineswegs sicher. Das zeigte sich bereits im vergangenen Jahr, als ein Moderator im Fernsehen so ein Sprachassistenzsystem vorführte. Da reagierte nicht nur das Gerät vor ihm, sondern die Geräte der Zuschauer gleich mit. Eine Massenbestellung wurde ausgelöst. Das soll heute nicht mehr möglich sein – verspricht jedenfalls der Hersteller.
    Eine weitere Schwachstelle von Siri und Co
    Doch die Systeme zur Spracherkennung haben eine weitere Schwachstelle. Wissenschaftler und Ingenieure aus den USA und aus China haben bewiesen, dass die drei großen Spracherkennungssysteme auch reagieren, wenn Sprache im nicht hörbaren Bereich genutzt wird. Nachgewiesen hat das unter anderem Liwei Song, Elektrotechnik-Student an der Princeton University.
    "Ich nutze ein Verfahren namens Amplitudenmanipulation. Das ist ein gängiges Verfahren in der Kommunikationstechnik. Die Grundidee ist, man multipliziert die Sprachaufnahme mit einem festen Faktor und verschiebt sie in einen anderen Frequenzbereich. Die normale Sprache wird so in den hochfrequenten Bereich verschoben. Ich habe in meinen Experimenten den Bereich um 30 kHz als Trägerfrequenz genutzt. Das hat geklappt und man hat nichts mehr gehört, weil Menschen oberhalb von 20 kHz Töne nicht mehr hören können. Ich kann also meinen Angriff unhörbar für den Menschen machen."
    Kein großes Hexenwerk
    Die Bearbeitung der Aufnahmen ist nicht allzu komplex. Ein paar Modulationen und Filterungen schon sind die gesprochenen Anweisungen für das menschliche Ohr nicht mehr hörbar. Für die Maschinen allerdings schon.
    "Das wichtigste Gerät für meinen Angriff: Ich brauchte einen speziellen Lautsprecher, weil normale Lautsprecher die hohen Frequenzen nicht wiedergeben können. Also habe ich einen Ultraschall-Lautsprecher gekauft, der mit bis zu 40 kHz arbeitet."
    Dann spielten die Forscher aus Princeton die bearbeiteten Aufnahmen verschiedenen Geräten vor. Dazu stellten sie den Ultraschalllautsprecher in einem ruhigen Raum in verschiedenen Abständen vor die Testgeräte.
    "Zuerst habe ich ein Android-Telefon und einen Amazon Echo angegriffen. Das sind die Sprachassistenten Google Now und Amazon Alexa. Beide Angriffe waren erfolgreich. Ich habe auch Apple Siri erfolgreich angegriffen, das war im Paper noch nicht zu lesen."
    Bisher schutzlos ausgeliefert
    Alle Geräte reagierten und taten, was die unhörbare Stimme ihnen auftrug. Der Angriff klappte in einer Entfernung von bis zu dreieinhalb Metern. Auch mehr wäre machbar, so Liwei Song, dafür müsse man die Befehle einfach mit mehr Leistung, also lauter, abspielen. Bisher sind die Systeme dieser Art Angriff schutzlos ausgeliefert.
    "Unsere Erkenntnisse gelten nicht nur für die getesteten Spracherkennungssysteme, weil: Wir greifen die Mikrofone an. Also ist jedes Spracherkennungssystem mit entsprechenden Mikrofonen anfällig für diese Art von Angriff."
    Kein einfach zu lösendes Problem
    Das Problem: Die reine Tonerfassung und Digitalisierung erfolgt auf Hardwareseite. Erst das digitalisierte Stück Sprache wird vom System verarbeitet. Deswegen können die Hersteller das Problem nicht einfach mit einem Software-Flicken lösen, so der angehende Ingenieur.
    "Das ist derzeit ein wirklich großes Problem. Wir haben auch über Gegenmaßnahmen nachgedacht. Denkbar wäre, dass die Mikrofonhersteller versuchen, ihre Geräte so zu ändern, dass sie nicht sensibel sind für Ultraschall. Denn wenn sie Ultraschall nicht aufnehmen, klappt unser Angriff nicht mehr."
    Die Hersteller entsprechender Geräte haben bereits reagiert und kündigen an, die vorgestellten Angriffe zu überprüfen. Bis dahin können Anwender sich vor solcherart Angriff nur dadurch schützen, dass sie ihre Systeme umstellen. Statt auf ein Signalwort zu hören, sind Amazon Alexa, Google Now und Apple Siri dann erst nach einem Tastendruck aktiv.