Schrift:
Ansicht Home:
DER SPIEGEL

DigitalisierungDialog mit der Dose

Amazon und Google wollen mit Sprachassistenten wie Alexa die Wohnzimmer erobern. Und das ist erst der Anfang: Die Schlacht um den Webzugang der Zukunft ist in vollem Gange. Verbraucherschützer warnen vor den Risiken.
Der Name der Schauspielerin soll geheim bleiben, und sogar das Projekt, dem sie ihre Stimme geliehen hat, trägt firmenintern noch immer seinen Codenamen: Silke. Die Sprecherin hat dafür in einem winzigen schallgedämpften Studio im polnischen Danzig scheinbar sinnlose deutsche Sätze von einem iPad abgelesen, unzählige, von morgens bis abends.
Mithilfe der Muttersprachlerin wurde hier, im Amazon Entwicklungszentrum Polen, dem aktuellen Star unter den digitalen Sprachdiensten Deutsch eingetrichtert: Silke ist der Deckname für die deutsche Ausgabe von Amazons Alexa.
Ein Linguist achtete im Nebenraum auf die richtige Aussprache. Immerhin soll Alexa auch in Deutschland möglichst viele Kunden für sich einnehmen, mit ihrem Timbre, ihrer Schlagfertigkeit – und mit ihrer "künstlichen Intelligenz". Schon heute hat sie Antworten auf viele Fragen und Wünsche. Und sie lernt ständig dazu.
Ihr Name ist, ganz analog, inspiriert von der Bibliothek von Alexandria. Auch das verrät sie auf Nachfrage selbst. Alles andere ist digital: Alexa besteht aus unzähligen Zeilen Computercode und existiert nur in der Cloud.
Die Technologie ist eine von Amazons wichtigsten Wetten auf die Zukunft. Mit ihrer Hilfe könnte es dem US-Konzern gelingen, seine fast unglaubliche Erfolgsgeschichte weiter fortzuschreiben – und zugleich die anderen großen Internetkonzerne abzuhängen.
Seit Jahrzehnten sind Tastatur und Maus die wichtigsten Hilfsmittel, um Computern Befehle zu erteilen. Künftig könnte es die menschliche Stimme sein. Und wenn es nach Amazon-Gründer Jeff Bezos geht, soll Alexa bei dieser Sprachsteuerung die Nummer eins werden.
Seit einigen Wochen können sich auch deutsche Kunden Alexa nach Hause holen, eingebaut in den Amazon-Lautsprecher Echo, einen Zylinder, der aussieht wie eine etwas dickere runde Chipspackung. Oder in die kleinere Variante namens Dot, die an einen Eishockey-Puck erinnert.
Mit der Anrede Alexa lässt sich das System starten. Ein blauer Diodenring auf dem Echo signalisiert, dass Alexa bereit ist und auf Fragen oder Befehle wartet. Wer dann etwa sagt: "Alexa, erzähl einen Witz", bekommt von der Frauenstimme made in Danzig beispielsweise folgende Antwort: "Warum mögen Fußballer Weihnachten? ... Sie stehen auf Stollen!"
Digitale Gesprächspartner wie Alexa sind weit mehr als ein netter Partygag oder intelligente Boxen, die auf Befehl Songs oder Radiosender spielen – sie sind der Beginn einer neuen Ära der Interaktion zwischen Mensch und Maschine.
Wenig ist simpler, als Fragen und Kommandos einfach auszusprechen, kaum eine andere Schnittstelle zwischen Mensch und Technik ist ähnlich intuitiv oder schnell. Eine Spracheingabe funktioniert etwa dreimal schneller als die Texteingabe. Branchenexperten halten den Plausch mit virtuellen Assistenten wie Alexa für das nächste große Ding der Techwelt, vergleichbar mit der Einführung des Smartphones vor zehn Jahren.
Schon heute können Nutzer per Sprachbefehl das Licht einschalten, Rollläden hochfahren oder die Raumtemperatur senken.
Und das ist erst der Anfang, die digitalen Assistenten werden nicht auf solche Boxen beschränkt bleiben. Volkswagen und Ford wollen Alexa in ihre Autos integrieren und Hersteller wie Huawei in Smartphones, auch Türschlösser und Backöfen sind schon per Sprache steuerbar.
Das Wettrennen um diesen Zukunftsmarkt hat längst begonnen. Apple ging 2011 mit seinem Sprachsystem Siri voran, ist aber zurückgefallen. Nutzer der aktuellen Windows-Versionen von Microsoft können mit Cortana plauschen. Samsungs Assistent Bixby bekam auf dem neuen Flaggschiff-Smartphone S8 einen eigenen Button.
Und im Herbst vorigen Jahres brachte Google die Lautsprecherbox Google Home auf den amerikanischen Markt, eine direkte Konkurrenz für Amazon. Beide liefern sich gerade einen heißen Kampf um strategische Partner: Daimler etwa hat sich unlängst für Google entschieden. Allerdings hat dessen Assistentin ihren Deutschkurs noch nicht abgeschlossen. Insider rechnen mit einem Start im Sommer.
Amazon liegt momentan also vorn. In den USA haben sich Echo und Dot bereits zu Verkaufsschlagern entwickelt, nach Branchenschätzungen dürften bereits deutlich mehr als zehn Millionen Geräte verkauft worden sein.
Durch den Einzug der digitalen Ansager in viele Haushalte werden neue Geschäftsmodelle entstehen – aber auch bestehende unter Druck geraten. Das gilt vor allem für einen der wichtigsten Wachstumstreiber vieler Silicon-Valley-Giganten und das Kerngeschäft von Google, Facebook und anderen: Werbung.
Sowohl Echo als auch Google Home haben keinen Bildschirm, um Werbung auszuspielen. Sollten sich die Boxen also zunehmend für die Suche im Internet durchsetzen, würde das vor allem dem bislang unangefochtenen Marktführer Google zu schaffen machen. Die naheliegendste Abhilfe wären Werbespots wie im Radio. Doch ob Nutzer es gut finden, wenn Alexa und Co. plötzlich Werbesprüche aufsagen?
Amazon nutzt Alexa als Schnittstelle zu seinen anderen Angeboten: Nutzer können über ihr Kundenkonto auf Zuruf einkaufen und tun das offenbar auch. Der Umsatz durch Alexa-Nutzer stieg nach ersten Erhebungen immerhin um zehn Prozent. Der eigene, kostenpflichtige Musikdienst ist als Standardeinstellung verknüpft. Und natürlich liest Alexa auf Wunsch auch aus Kindle-E-Books vor.
Zudem wirbt der Konzern aus Seattle um Entwickler, die Alexa neue Fertigkeiten beibringen sollen, sogenannte Skills. Das Prinzip orientiert sich erkennbar an Apples App Store. Die Strategie scheint aufzugehen: Insgesamt können Nutzer bereits aus mehr als 10 000 dieser Erweiterungen auswählen.
In deutscher Sprache sind es kurz nach dem offiziellen Verkaufsstart bereits mehrere Hundert: Über Nahverkehrsbetreiber wie die Berliner BVG kann man sich die schnellste Verbindung erklären lassen, Lieferdienste bringen Pizza auf Zuruf, Medien bieten Zusammenfassungen ihrer Inhalte, Kinos ihr Programm und Sportvereine wie der HSV die aktuelle Mannschaftsaufstellung sowie Spielberichte.
Auch wenn Alexa viele Anfragen noch gar nicht versteht ("Das gehört genau zu den Dingen, die ich nicht weiß"), manchmal Silben verschluckt oder englische Wörter deutsch ausspricht: Insgesamt funktioniert die Sprechmaschine schon erstaunlich gut. Es wird nur eine Frage der Zeit sein, bis man mit den Dosen auch einfache Dialoge führen kann.
Daran arbeitet in Danzig unter anderem Rafal Kuklinski. Mit seinen 38 Jahren gehört er schon zu den Urgesteinen des polnischen Start-ups Ivona, das Amazon 2013 übernommen und zu einem seiner wichtigsten Entwicklungszentren für Alexa gemacht hat. Auch die englischen Sprachversionen werden hier eingesprochen und "gebaut", wie der Entwickler das nennt.
Wichtig für die Akzeptanz von digitalen Assistenten sei es, ihnen eine eigene Persönlichkeit zu verleihen, sagt Kuklinski. Ein Amazon-Team habe Charaktereigenschaften für Alexa definiert: Freundlich sollte sie daherkommen, mitfühlend, warm und bescheiden. Stimmdesigner testeten unzählige Varianten, intern und vor Marktforschungsgruppen, bis die aktuelle Sprecherin sich durchsetzte.
Allen kann man es jedoch nicht recht machen: Einige Nutzer beschreiben Alexas Stimme als "sexy", andere kritisieren es als sexistisch, dass die digitale Dienstbotin nur als weibliche Variante verfügbar ist.
Technologisch ist Alexa höchst anspruchsvoll: Sieben hochempfindliche Mikrofone streamen die Spracheingabe in die Cloud. Dort wird sie in digitalen Text umgewandelt, Algorithmen entwickeln dann eine Hypothese über den Kontext des Gesagten und die Absicht des Sprechers. Daraus erarbeitet das System einen Antworttext, der schließlich über die hauseigene "Text to Speech"-Lösung wieder in eine möglichst natürlich und menschlich klingende Sprachausgabe verwandelt wird. Die in Danzig eingesprochenen Sätze werden dafür in ihre Bestandteile zerlegt und neu zusammengesetzt.
Das System Alexa besteht somit aus einer Kombination modernster Elemente der künstlichen Intelligenz: vom "Natural Language Understanding" über "Deep Learning" bis "Text to Speech".
Googles Konkurrenzprodukt Home ist etwas kleiner als Amazons Echo, die geschwungene Form erinnert an eine Vase. Die Nutzer kommunizieren darüber mit dem Google-Assistenten, der ebenfalls eine weibliche Stimme hat. Der Aufweckbefehl ist "Okay, Google", die Antwort kommt ebenfalls aus der Cloud. Das Ganze kommt dem Vorreiter sehr nah, nur nicht beim Preis: Der Angreifer ist günstiger als der Echo von Amazon.
Bei der Techmesse Mobile World Congress in Barcelona konnten Besucher vor Kurzem erleben, wie Google sich das Miteinander mit dem neuen digitalen Mitbewohner vorstellt. Dafür hatte der Konzern eine kleine Blockhütte in die spanische Frühlingssonne gestellt. Hostessen ließen die Google-Assistentin die nächsten Kalendereinträge vorlesen und das Hüttenlicht in Orange umdimmen. Auch YouTube-Videos auf dem Smart-TV starteten sie per Sprachbefehl – so wird neben der Tastatur die Fernbedienung überflüssig.
"Es ist ein völlig neuer Weg, dem Rechner meine Wünsche mitzuteilen", sagt Rick Osterloh, der als Senior Vice President für die Google-Hardware-Sparte, also auch für Google Home, zuständig ist. Wie viele der Boxen schon verkauft sind, will er nicht verraten, nur: "Wir sind sehr zufrieden." Er selbst nutze sein Gerät vor allem zum Musikhören, was er nun häufiger tue als früher.
"Der Google Assistant wird der wichtigste Weg, wie wir mit unterschiedlichsten Webangeboten interagieren", sagt der frühere Motorola-Chef, insofern biete Google Home da einen Vorgeschmack. Der spätere Start in Deutschland habe mit dem eigenen Qualitätsanspruch zu tun: "Wir perfektionieren den Assistenten gerade für den deutschen Markt."
Wie Amazon wird auch Google hier vor einer besonderen Herausforderung stehen. Denn die Assistenten haben eine Achillesferse: Die lauschenden Mitbewohner im Wohnzimmer oder in der Küche dringen weit in die Privatsphäre vor.
In kaum einem anderen Staat hat Datenschutz einen ähnlich hohen Stellenwert wie in Deutschland. Google weiß das aus eigener Erfahrung: Als der Konzern mit Kameraautos für seinen Street-View-Dienst Häuser und Vorgärten fotografierte, gab es massive Proteste und Klagen. Damals ging es um Fassaden, nun um hochempfindliche Mikrofone in der eigenen Wohnung. Man kann das durchaus auch als freiwillige Totalverwanzung sehen, als Einladung zum großen Lauschangriff.
Das Bundesverfassungsgericht hatte den Plänen deutscher Sicherheitsbehörden für die "akustische Wohnraumüberwachung" 2004 noch Grenzen aufgezeigt: Ein Kernbereich privater Lebensgestaltung müsse sakrosankt bleiben, die Unverletzlichkeit der Wohnung sei ein hohes Gut. Nun geben Millionen Kunden freudig Geld dafür aus, Aufnahmen aus ihren vier Wänden in die Clouds von US-Datenriesen zu schicken.
In den USA wollen Behörden diese Gunst bereits nutzen. Im US-Staat Arkansas forderte die Polizei Amazon auf, die Daten herauszurücken, die der Echo eines Mordverdächtigen womöglich rund um die Tatzeit aufgezeichnet hatte. Der Konzern weigerte sich monatelang und berief sich auf den ersten Verfassungszusatz. Als der Verdächtige schließlich selbst einwilligte, übergab Amazon die Daten Anfang März doch. Es ist absehbar, dass die Frage in anderen Fällen grundsätzlich juristisch entschieden werden muss.
Google und Amazon beteuern, sich für die Datenübertragung und Speicherung an hohe Sicherheitsstandards zu halten. Rafal Kuklinski erklärt, das Gerät sei zwar durchgehend angeschaltet und in Wartehaltung, um auf das Codewort reagieren zu können. Der Datenstream setze aber erst ein, nachdem Alexa damit geweckt worden sei. Zudem gebe es am Echo ja eine Taste, mit der sich die Mikros ausschalten ließen.
Auch die eigene Eingabehistorie und alle Aufnahmen ließen sich löschen, über die App, die für die Steuerung von Alexa notwendig ist. Tatsächlich zeigt diese unter "Verlauf" sämtliche Spracheingaben in Textform an und spielt sogar Audiomitschnitte davon ab. Wie der Suchverlauf im Browser ist es ein Protokoll der eigenen Wünsche – und nachträglich auf dem Smartphone abgehört ziemlich unheimlich.
Es wäre naiv anzunehmen, dass Hacker und Geheimdienste sich für die neue Technologie nicht längst brennend interessierten – vor Kurzem erst wurde bekannt, dass etwa die CIA Wege gefunden hat, Smart-TVs in Wanzen zu verwandeln.
Auch Verbraucherschützer sehen erhebliche Risiken: Amazon lasse sich von den Nutzern weitgehende Rechte an den Daten übertragen. Zudem seien möglicherweise Persönlichkeitsrechte von Gästen berührt.
Viele frühe Anwender scheint das alles nicht zu stören, offenbar überwiegt die Faszination am Dialog mit dem unsichtbaren Gegenüber. In den USA hat der Starhotelier Steve Wynn angekündigt, alle 4748 Zimmer seiner Hoteltürme in Las Vegas mit Echos auszurüsten.
Rafal Kuklinski macht sich deshalb wenig Sorgen, dass Datenschutzbedenken den Absatz von Echo und Dot in Deutschland bremsen könnten: "Die Leute tragen doch auch ihr Smartphone ständig mit sich herum, und das hat neben dem Mikrofon auch noch eine Kamera."
Mail: Marcel.Rosenbach@spiegel.de
Twitter: @marcelrosenbach

Über den Autor

Marcel Rosenbach arbeitet seit 2001 beim SPIEGEL. Er ist Koautor der SPIEGEL-Sachbuch-Bestseller "Staatsfeind Wikileaks" und "Der NSA-Komplex". Sie erreichen ihn unter marcel.rosenbach@spiegel.de und finden ihn bei Twitter unter @marcelrosenbach.
Von Marcel Rosenbach

DER SPIEGEL 15/2017
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung