Signalton: "Jürgen Will, Jürgen Will."
Arbeit: "iPhone oder mobil?"
Signalton: "iPhone! Anrufen: Jürgen Will, iPhone."
Beim iPhone funktioniert das Ganze schon ganz gut. Sprachwahl, das gehört zur normalen Ausstattung moderner Smartphones. Dagegen sind andere Anwendungen noch längst nicht soweit, denn inhaltlich zusammenhängende Sätze sind etwas anderes als einzelne Wörter. Spracherkennung und Übersetzungen sind schwieriger zu realisieren, weil die menschliche Sprache komplex ist. Verschiedene Tonhöhen, Sprechgeschwindigkeiten und auch Dialekte sowie undeutliche Aussprache bringen die Technik an ihre Grenzen. Entsprechend aufwendig sei auch die Forschung, so Sebastian Möller, Professor bei "T-Labs", einem gemeinsamen Forschungs- und Entwicklungsinstitut von Technischer Universität Berlin und Deutscher Telekom AG.
"Wir nehmen zunächst sehr, sehr große Korpora auf, von gesprochener Sprache, notieren sie von Hand, transkribieren sie und trainieren dann statistische Modelle damit, die wiederum dann in der Lage sind, Sprache zu erkennen. Bei der Übersetzung muss man was ähnliches tun, man muss dann große parallele Korpora haben von übersetzten Daten und die ebenfalls mit statistischen Methoden trainieren."
Eine Technik, der sich auch Google bedient. Der Suchmaschinengigant arbeitet derzeit intensiv an der Entwicklung von sprachgesteuerten Anwendungen. So gibt es seit kurzem eine neue Version von "Google Translate", die über die Tastatureingabe hinaus auch die Sprachein- und –ausgabe und das anschließende Übersetzen beherrscht, mehr oder weniger, wie T-Labs-Doktorant Tim Polzehl an seinem iPhone demonstriert.
"Bitte buchen Sie mir einen Zug um drei Uhr nach Hannover. - Please book a train by three clock at night yet."
Alles erkannt, nur "Hannover” nicht. Keine Überraschung für Tim Polzehl. Eigennamen seien ein großes Problem. Denn für sie gelten die Regeln der Standardsprache nicht immer.
Derzeit sind 23 von insgesamt 53 bei Google Translate verfügbaren Sprachen bereits per Stimme nutzbar. Besonders leistungsfähige Telefone braucht man nicht, die eigentliche Arbeit erfolgt nicht auf dem eigenen Gerät, sondern woanders.
"Was hier auf dem iPhone jetzt gerade in diesem Beispiel passiert, ist, dass die Sprache aufgenommen wird, über einen Server an große Rechner weitergeleitet wird. Dort wird versucht, die Sprache zu erkennen, in eine andere Sprache umzusetzen. Dann wird das File wieder zurückgeschickt, so dass man sie hier hören kann. Das funktioniert also keinesfalls auf dem Telefon an sich und auch keinesfalls, wenn man nicht im Netz ist, 3G-Connection hat."
3G, also eine schnelle mobile Internetverbindung per UMTS. Sie wird dann auch gebraucht, wenn Google es schafft, sein Übersetzungsprogramm fit für Telefonate zu machen. Es soll möglich sein, dass sich Menschen in unterschiedlichen Sprachen unterhalten. Der Google Voice Translator sorgt für eine direkte Übersetzung. Noch befindet sich das Projekt in einer frühen Phase, aber nach Unternehmensangaben funktioniert die Software bereits bei Englisch und Spanisch.
"For example: I’m speaking in English right now and when I press "Stop”, it will translate and speak back into Spanish. Por ejemplo…"
Allerdings glaubt T-Labs Professor Sebastian Möller nicht, dass es jemals möglich sein wird, wirklich simultan zu übersetzen. Und dafür könne Google nichts.
"Das wird nie hundertprozentig in Echtzeit funktionieren, weil ich zunächst immer mal das Ende eines Satzes abwarten muss, um ihn dann in eine andere Sprache zu übersetzen. Im Deutschen ist das Verb am Ende, im Englischen ist es irgendwo am Anfang und dann muss ich natürlich erst den Satz abwarten, das heißt, es wird immer eine Zeitverzögerung geben. Das liegt aber nicht an der Technik, sondern das liegt an der menschlichen Sprache."
Hinzu komme, dass Sprache dynamisch und spontan sei. Der Mensch spreche nicht immer komplette Sätze, er huste, er stoppe mitten im Satz, das mache es schwer, solche Anwendungen zu entwickeln, so Möller. Eine weitere Herausforderung wird es sein, solchen Systemen auch eine gewisse Natürlichkeit beizubringen. Denn Sprache ist nicht nur das gesprochene Wort. Der Ton macht die Musik, und das ist wichtig für ein Gespräch, auch beim Telefonat. Hier gebe es bereits gewisse Fortschritte, sagt Tim Polzehl.
"Man hat erste Erfolge bei der Ärgererkennung, wir wissen aber, dass freudige Sprecher fast genauso aufgeregt klingen. Wir als Menschen verstehen, dass die Aufregung aus der Freude kommt, ein Computer versteht es an der Stelle noch nicht."
Es wird noch eine Weile dauern, bis wir wirklich ohne fremde Sprachkenntnisse irgendwo im Ausland anrufen und uns, dank Google-Übersetzer, verständigen können.
Arbeit: "iPhone oder mobil?"
Signalton: "iPhone! Anrufen: Jürgen Will, iPhone."
Beim iPhone funktioniert das Ganze schon ganz gut. Sprachwahl, das gehört zur normalen Ausstattung moderner Smartphones. Dagegen sind andere Anwendungen noch längst nicht soweit, denn inhaltlich zusammenhängende Sätze sind etwas anderes als einzelne Wörter. Spracherkennung und Übersetzungen sind schwieriger zu realisieren, weil die menschliche Sprache komplex ist. Verschiedene Tonhöhen, Sprechgeschwindigkeiten und auch Dialekte sowie undeutliche Aussprache bringen die Technik an ihre Grenzen. Entsprechend aufwendig sei auch die Forschung, so Sebastian Möller, Professor bei "T-Labs", einem gemeinsamen Forschungs- und Entwicklungsinstitut von Technischer Universität Berlin und Deutscher Telekom AG.
"Wir nehmen zunächst sehr, sehr große Korpora auf, von gesprochener Sprache, notieren sie von Hand, transkribieren sie und trainieren dann statistische Modelle damit, die wiederum dann in der Lage sind, Sprache zu erkennen. Bei der Übersetzung muss man was ähnliches tun, man muss dann große parallele Korpora haben von übersetzten Daten und die ebenfalls mit statistischen Methoden trainieren."
Eine Technik, der sich auch Google bedient. Der Suchmaschinengigant arbeitet derzeit intensiv an der Entwicklung von sprachgesteuerten Anwendungen. So gibt es seit kurzem eine neue Version von "Google Translate", die über die Tastatureingabe hinaus auch die Sprachein- und –ausgabe und das anschließende Übersetzen beherrscht, mehr oder weniger, wie T-Labs-Doktorant Tim Polzehl an seinem iPhone demonstriert.
"Bitte buchen Sie mir einen Zug um drei Uhr nach Hannover. - Please book a train by three clock at night yet."
Alles erkannt, nur "Hannover” nicht. Keine Überraschung für Tim Polzehl. Eigennamen seien ein großes Problem. Denn für sie gelten die Regeln der Standardsprache nicht immer.
Derzeit sind 23 von insgesamt 53 bei Google Translate verfügbaren Sprachen bereits per Stimme nutzbar. Besonders leistungsfähige Telefone braucht man nicht, die eigentliche Arbeit erfolgt nicht auf dem eigenen Gerät, sondern woanders.
"Was hier auf dem iPhone jetzt gerade in diesem Beispiel passiert, ist, dass die Sprache aufgenommen wird, über einen Server an große Rechner weitergeleitet wird. Dort wird versucht, die Sprache zu erkennen, in eine andere Sprache umzusetzen. Dann wird das File wieder zurückgeschickt, so dass man sie hier hören kann. Das funktioniert also keinesfalls auf dem Telefon an sich und auch keinesfalls, wenn man nicht im Netz ist, 3G-Connection hat."
3G, also eine schnelle mobile Internetverbindung per UMTS. Sie wird dann auch gebraucht, wenn Google es schafft, sein Übersetzungsprogramm fit für Telefonate zu machen. Es soll möglich sein, dass sich Menschen in unterschiedlichen Sprachen unterhalten. Der Google Voice Translator sorgt für eine direkte Übersetzung. Noch befindet sich das Projekt in einer frühen Phase, aber nach Unternehmensangaben funktioniert die Software bereits bei Englisch und Spanisch.
"For example: I’m speaking in English right now and when I press "Stop”, it will translate and speak back into Spanish. Por ejemplo…"
Allerdings glaubt T-Labs Professor Sebastian Möller nicht, dass es jemals möglich sein wird, wirklich simultan zu übersetzen. Und dafür könne Google nichts.
"Das wird nie hundertprozentig in Echtzeit funktionieren, weil ich zunächst immer mal das Ende eines Satzes abwarten muss, um ihn dann in eine andere Sprache zu übersetzen. Im Deutschen ist das Verb am Ende, im Englischen ist es irgendwo am Anfang und dann muss ich natürlich erst den Satz abwarten, das heißt, es wird immer eine Zeitverzögerung geben. Das liegt aber nicht an der Technik, sondern das liegt an der menschlichen Sprache."
Hinzu komme, dass Sprache dynamisch und spontan sei. Der Mensch spreche nicht immer komplette Sätze, er huste, er stoppe mitten im Satz, das mache es schwer, solche Anwendungen zu entwickeln, so Möller. Eine weitere Herausforderung wird es sein, solchen Systemen auch eine gewisse Natürlichkeit beizubringen. Denn Sprache ist nicht nur das gesprochene Wort. Der Ton macht die Musik, und das ist wichtig für ein Gespräch, auch beim Telefonat. Hier gebe es bereits gewisse Fortschritte, sagt Tim Polzehl.
"Man hat erste Erfolge bei der Ärgererkennung, wir wissen aber, dass freudige Sprecher fast genauso aufgeregt klingen. Wir als Menschen verstehen, dass die Aufregung aus der Freude kommt, ein Computer versteht es an der Stelle noch nicht."
Es wird noch eine Weile dauern, bis wir wirklich ohne fremde Sprachkenntnisse irgendwo im Ausland anrufen und uns, dank Google-Übersetzer, verständigen können.