Sprachassistenten mit Persönlichkeit – das klingt, als ob da viel schief gehen könnte. Denn sobald Alexa, Google und Co. sich im Dialog ungelenk verhalten, befremdet dies die Nutzer. «Wir bekamen häufig Beschwerden, weil Alexa nicht mit 'Gern geschehen' antwortete, wenn man sich bei ihr bedankte», sagte Dave Isbistki, Chief Evangelist von Alexa, kürzlich bei einer Veranstaltung am Gottlieb Duttweiler Institut in Rüschlikon.

Partner-Inhalte

Ob Sprachassistenten den richtigen Ton treffen – diese Frage wird relevanter, weil ihre Zahl schnell steigt. Es geht dabei längst nicht mehr nur um die bekanntesten Assistenten wie Amazons Alexa oder den Google Assistent. Für diese «grossen» Assistenten gibt es jeweils Anwendungen von Drittanbietern, ähnlich wie Apps auf dem Smartphone. Alexa bietet mittlerweile 40'000 solcher Anwendungen, sogenannte Skills. Viele von ihnen stehen den Nutzern allerdings nur im englischsprachigen Raum zur Verfügung.

Neue Stimmen auf dem Google Assistent

Während diese externen Dienste bei Amazon in der Sprache von Alexa wiedergegeben werden, hat Google eine andere Taktik. Dort funktionieren die Anwendungen von Drittanbietern wie eigene kleine Sprachassistenten: Häufig haben sie eine eigene Stimme und ein Vokabular, das sich vom Google Assistant unterscheidet.

Wenn sich beim Google Assistent ein Drittanbieter einschaltet – zum Beispiel ein Lieferdienst für Blumen – ist die neue Stimme ein Signal, dass sich ein neuer Ansprechpartner in den Dialog des Nutzers mit seinem Gerät einschaltet. Mehr als eine Million solcher Anwendungen von Google selbst und Externen enthält der Google Assistent bereits. Google profitiert hier sicherlich auch vom Android-Store Google Play mit der 3,3 Millionen Apps für das Smartphone.

Dass der Dialog zwischen Nutzern und diversen Sprachassistenten gelingt, ist der Job von Walter «Wally» Brill. Der ehemalige Musikproduzent ist der «Senior Persona Designer» des Google Assistant. Brill ist es, der dem Assistant eine Persönlichkeit und eine Stimme verleiht. Er unterstützt Firmen dabei, das Angebot ihres Unternehmens in eine Sprachanwendung für den Google Assistent zu übersetzen.

Wally Brill, mit welchem Sprachassistenten unterhalten Sie sich derzeit am liebsten?
Ich weiss nicht, ob ich das auf einen eingrenzen kann. Der Assistent von «Time Out», den man über den Google Assistent aufrufen kann, ist gut. «Time Out« ist der City Guide von London, der Empfehlungen gibt für Konzerte, Restaurants und alles, was in London los ist. Mich beeindruckt, wie gut die Persona dieses Assistenten designt ist.

Persona? Was heisst das?
Die Sprache des Assistenten ist sehr natürlich und dem Alter der Nutzer angepasst. Er klingt wie ein Millenial, verwendet souverän Alltagssprache. Er spricht mit dem Nutzer wie ein guter Freund, der weiss, was in London so abgeht.

Der Google Assistent hat kürzlich für Aufsehen gesorgt, weil er einen Telefonanruf beim Friseur gemeistert hat und menschliche Äusserungen geschickt imitierte. Ist das dann seine Persönlichkeit? Oder wie wird das definiert?
Die Persona oder der Charakter eines Sprachassistenten ergibt sich ein Stück weit aus den Werten des Unternehmens, das der Assistent vertritt. Ich verwende dafür gerne den Vergleich zwischen zwei Airlines. Sagen wir, eine ist eine seriöse, «wichtige» Airline, die andere dagegen richtet sich an Millenials. Bei der ersten könnte die Unternehmensbotschaft lauten: «Wir bringen Sie sicher ans Ziel.» Bei der zweiten dagegen: «Was für ein grossartiger Tag, um zu fliegen.» Die Aufgaben der Airlines sind die gleichen, aber sie sind mit völlig unterschiedlichen Botschaften verknüpft.

Und das hat Einfluss auf die Stimme eines digitalen Assistenten?
Aber sicher. Der erste digitale Assistent wird vielleicht eher klingen wie ein Butler – dienstbeflissen, seriös. Der zweite tönt eher wie ein guter Freund, mit dem man Abenteuer erleben kann.

Warum sollte sich ein Unternehmen überhaupt Gedanken machen, wie die Stimme eines Sprachassistenten klingt?
Dagegen gab es zunächst Widerstand. Viele fragten, wer braucht denn das? Aber der Punkt ist: Eine Stimme transportiert ein Bild. Es gibt eine Untersuchung, die Clifford Nass in einem Buch namens «Wired for speech» beschreibt. Er hat viele Studien dazu durchgeführt, was wir assoziieren, wenn wir eine Stimme hören. Da gab es Reaktionen, dass Leute über eine unbekannte Person am anderen Ende einer Telefonleitung sagten: «Sie ist rothaarig.» Woher kommt das? Derjenige, der die Stimme hört, kann das gar nicht wissen – aber eine Stimme weckt in uns diese Vorstellungskraft.

Der Google Assistent telefoniert selbstständig mit einem Friseur:

So wie in der Sitcom «The Big Bang Theory», in der sich einer der Protagonisten in die Stimme von Apples Siri verliebt.
Siri ist ein gutes Beispiel. Für mich ist Siri eine Frau in den Vierzigern. Deutlich älter als der Google Assistent, etwas konservativer.

Konservativer?
Sie versucht, manchmal hip zu sein. Verstehen Sie mich nicht falsch, Siri ist gut – sie funktioniert für die Nutzer, die sie verwenden. Der Google Assistent ist etwas jünger, proaktiver. Alexa dagegen ist ziemlich entspannt und lässig. Jeder der digitalen Assistenten hat eine eigene Identität.

Das klingt jetzt aber schon so, als würden wir den digitalen Assistenten ziemlich nahe kommen. Wo ist die Grenze der Beziehung zwischen Mensch und Maschine?
Es ist wichtig, hier zu unterscheiden. Ein digitaler Assistent soll uns nicht vortäuschen, menschlich zu sein. Er soll mit Empathie designt sein, aber nicht gefühlig werden. Wenn ich einen stressigen Tag hatte, will ich kein Mitleid vom Google Assistent. Aber ich finde es angenehm, wenn er nicht lärmig Witze reisst, wenn ich mich nach einem langen Tag gerade entspannen will. Mir ist aber jederzeit bewusst, dass ich mich mit einer Maschine unterhalte.

Viele Nutzer zögern, laut mit einem Gerät zu sprechen. Zu Hause und erst recht in der Öffentlichkeit. Gefährdet diese Hemmschwelle den Erfolg von Alexa, Siri und Co.?
Das Thema ist bekannt. Ich persönlich glaube, dass wir an Zurückhaltung verlieren werden. Es war ja auch mit dem Smartphone so. Heute ist es doch normal, jemanden mit Smartphone und Bluetooth-Kopfhörer auf der Strasse zu sehen, der telefoniert. Früher hätte man gedacht, das wäre ein Verrückter. Ausserdem müssen wir darüber nachdenken, was einen guten digitalen Assistenten ausmacht.

Was denn?
Kennen Sie die «Ironman»-Filme?

Ja.
Dann kennen Sie Pepper Potts, die zum Beispiel Flugtickets bucht, bevor Ironman weiss, dass er welche braucht. Sie ist eine exzellente Assistentin, kennt Ironman gut genug, um vorauszusagen, was er möchte. Das ist es, was ich von einem digitalen Assistenten möchte. Auch Details machen da etwas aus. Wenn ich bei United Airlines anrufe, nennt mich das Sprachsystem dort zum Beispiel beim Namen. Das gefällt mir.

Davon, vorausschauend wie Pepper Potts zu agieren, sind aber alle Assistenten noch weit entfernt. Eher kämpft der Nutzer damit, dass der Sprachbefehl limitiert ist und er doch wieder auf die Handytastatur umsteigen muss.
Sicher, die Nutzung muss je nach Gerät angepasst sein. Wenn ich mit Google Home zum Beispiel einen Flug suche und er mir dann eine lange Liste vorlesen muss, wird es kompliziert. Dann empfiehlt sich der Umstieg auf das Handy, um die Liste auf dem Display zu betrachten.

Viele Funktionen der digitalen Assistenten sind nett, aber bisher erscheint mir keine unentbehrlich. Was ist für Sie die Anwendung, mit der sich der Google Assistent durchsetzen kann?
Da gibt es viele, aber ich gebe Ihnen ein Beispiel. Wenn ich morgens aufstehe, gibt mir der Google Assistent einen Überblick über meine Termine für den Tag. Er gibt mir aber zum Beispiel auch eine Verkehrsübersicht und warnt mich, wenn es auf dem Arbeitsweg 20 Minuten Stau gibt und ich länger brauche als üblich. Das ist wirklich nützlich und eine Art der Interaktion mit einem Gerät, die es so vorher nicht gegeben hat.

Wally Brill erklärt, wie Firmen ihren digitalen Assistenten eine Stimme geben können:

«Für mich ist Siri eine Frau in den Vierzigern»

Neue Stimmen auf dem Google Assistent