Schon um 6:15 Uhr schlägt das Smartphone Alarm. Der Wecker war eigentlich auf 7 Uhr gestellt, aber die Software im Telefon hat sich anders entschieden.
Aus den E-Mails des Nutzers hat sie erkannt, dass er um 9 Uhr mit dem Zug fahren möchte. Da der Verkehr aber wegen einer gesperrten Strasse auf dem Weg zum Bahnhof nur zäh fliesst, hat der digitale Assistent im Smartphone eigenständig die Weckzeit um eine Dreiviertelstunde vorverlegt.
In Testversionen kann Assistentensoftware das schon. Bald wissen alle Smartphones so viel über uns, dass sie unser Alltagsleben fest im Griff haben.
Apple und Google aktualisieren mit iOS9 und Android Marshmallow gerade ihre mobilen Betriebssysteme. Dadurch landen neue Versionen von Siri und Google Now auf den Smartphones und Tablets – und damit eine neue Generation digitaler Assistenten.
Kein Entgehen
Sie bringen künstliche Intelligenz auf die Geräte, die in dieser hoch entwickelten Form bislang nur professionellen Anwendern zur Verfügung stand. Damit werden die Assistenten zum Big Brother im Hosentaschenformat, der das Alltagsleben seiner Nutzer in allen Details dokumentieren und deren Verhalten vorhersagen kann.
Und kaum jemand wird dem entgehen, zumal auch weitere Grössen der Branche sind dabei: Amazon rollt sein System Alexa gerade aus, und Microsoft optimiert stetig seinen Assistenten Cortana. Damit die digitalen Begleiter Fragen beantworten und ihren Nutzern Ratschläge geben können, bauen die Unternehmen riesige Datenbanken auf und setzen Rechensysteme ein, die wie ein menschliches Gehirn aufgebaut sind.
Google & Co bauen riesige Datenbanken auf
«Wer hat 'Krieg und Frieden' geschrieben?» oder «Zeige mir alle Fotos aus dem Sommerurlaub 2014» – Google Now und Siri liefern die Antworten und sortieren die Bilder nach Anweisung. Sie spielen den beliebtesten Musiktitel aus dem Jahr 1969 oder zeigen auf Befehl hin ein Video vom Reparieren eines Fahrrads. Mit den iPhones 6S oder den aktuellen Galaxy-Modellen ist das schon möglich.
Die Helfer von Apple, Microsoft und Google holen sich zahlreiche Informationen aus firmeneigenen Datenbanken. Googles «Knowledge Graph» deckt angeblich 600 Millionen Objekte ab und hat dazu fast 50 Milliarden Fakten gesammelt. Die meisten Informationen stammen aus Wikipedia, Google holt sich die Daten aber auch aus amtlichen Statistiken sowie von vielen Millionen Webseiten, Apple nutzt zudem Einträge auf dem Empfehlungsportal Yelp.
Neben Textinformationen liegen in den Tiefen der Datenbanken auch Bilder, Produktdaten und Auskünfte über Orte. Google kann zu mehr als einer Milliarde Orten der Welt genaue Angaben machen – zu welchen Tageszeiten sich dort besonders viele Menschen aufhalten und wann bestimmte Läden geöffnet sind.
Software überwacht ständig unser Verhalten
Vieles aber steht in keiner Datenbank. Daher suchen die Assistenten mithilfe von Big-Data-Software im Internet nach weiteren Daten. Netflix und YouTube kommen als Quelle ebenso infrage wie Wetterdienste und Nachrichtenseiten.
Um noch stärker auf den Nutzer und seine Situation eingehen zu können, brauchen die digitalen Assistenten zusätzlich Kontextwissen. Die Software im Smartphone oder Tablet ist dazu immer hellwach und beobachtet permanent das Verhalten des Nutzers.
Auch kann sie künftig Zusammenhänge besser erkennen: Hat jemand im Web Modeseiten angesteuert und fragt danach, wie alt Heidi sei, erhält er als Antwort «42 Jahre». So alt ist Heidi Klum. Die Antwort lautet also nicht «5 Jahre», das Alter, in dem Heidi aus dem Roman von Johanna Spyri zum Alpöhi in die Berge kommt.
Den Kontext beachten
Da die digitalen Assistenten künftig zusätzlich auf zahlreiche Apps Zugriff haben und deren Inhalte für ihre Analysen mit einbeziehen, können sie noch stärker als bisher den Kontext beachten. Microsofts Cortana kann mitteilen, wann das bestellte Paket geliefert wird, indem es die Informationen dazu aus Outlook holt, und Apples Siri merkt sich auf Zuruf das Thema, über das der Nutzer per iMessages gerade mit jemand anderem gesprochen hat.
Für Android stellt Google künftig die Funktion «Now on Tap» bereit. Unterhält sich der Nutzer in einem Chat über eine bestimmte Bar und drückt längere Zeit auf den Home-Button, erkennt die Software den Zusammenhang und zeigt Öffnungszeiten und die Getränkekarte dieser Bar an.
Digital-Assistenten kennen unsere Vorlieben
Eine weitere, wichtige Informationsquelle sind die Standortdaten des Nutzers. Die Informationen über den Aufenthaltsort bekommen die digitalen Assistenten per GPS oder indem sie die Mobilfunkzelle beziehungsweise den Funkbereich eines WLAN ermitteln, in dem der Nutzer angemeldet ist.
Liegen die Ortsinformationen vor, kann Apples Kartendienst künftig Bus- oder U-Bahn-Verbindungen vorschlagen. Steht der Nutzer in der Ludwig-Erhard-Strasse in Hamburg und fragt, welche Kirche das wohl sein mag, antwortet Google Now in etwa mit «Hauptkirche Sankt Michaelis, auch Michel genannt». Das funktioniert nur, weil die Software die Ortsdaten und die Frage in einen Zusammenhang bringt.
Ähnliches leistet Microsofts Cortana. Der Nutzer gibt ein, dass er noch Laufschuhe kaufen muss. Eine Woche später kommt er an einem Sportgeschäft vorbei. Sofort meldet sich Cortana, erinnert seinen Anwender an den Kaufwunsch und präsentiert Angebote des Sportgeschäfts.
Die künstlich-intelligente Software erfasst nach und nach die Gewohnheiten und Vorlieben ihres Nutzers. Hat der Assistent aus E-Mails, Postings und Chats mitbekommen, dass der Anwender Sushi mag und ist der gerade für einen Wochenendausflug in London, zeigt Cortana passende Restaurants an.
Alle Bilder werden nach Urlauben sortiert
Viele Anfragen und Befehle können Nutzer dem Smartphone per Alltagssprache mitteilen. Google gibt eine Trefferquote von mindestens 92 Prozent an – so viele Wörter werden verstanden, selbst wenn der Nutzer nuschelt oder mit Dialekt spricht. Cortana ist dem System mindestens ebenbürtig, das auch unter Windows 10 läuft.
Dazu muss der Assistent in der Regel mit dem Internet verbunden sein. Nur dann kann er auf die Cloud zugreifen, in der komplexe Spracherkennungssoftware arbeitet.
Mithilfe der Rechenkraft einer Cloud ist es ihnen ausserdem möglich zu erkennen, was auf einem Foto zu sehen ist, und nur dann können sie Bilder nach Gruppen – «Urlaub am Meer» oder «Hundefotos» – sortieren. Sie identifizieren auf einer Aufnahme eine Person, deren Gesicht gar nicht zu sehen ist, anhand von Körperhaltung und Kleidung.
Mehr als ein herkömmliches Rechenzentrum
Für gut funktionierende Spracherkennung und Bildanalyse braucht es als Cloud allerdings mehr als ein herkömmliches Rechenzentrum. Daher arbeiten Google & Co mit neuronalen Netzwerken und Deep-Learning-Systemen, die Maschinen lernfähig machen.
Wie die Nervenzellen im menschlichen Gehirn, so arbeiten viele Millionen einfache Prozessoren im neuronalen Netzwerk zusammen, das bei Googles System aus vielen Milliarden Verbindungen besteht. Jeder Chip kann Signale annehmen, verarbeiten und neue Signale an eine weitere Schicht weitergeben.
Unbekannte Algorithmen bestimmen unser Leben
Deutlich wird dies am Beispiel Mustererkennung: Die erste Schicht der Software-Neuronen macht einzelne Bildpunkte auf einem Foto aus, die zweite Schicht erkennt Formen wie Kreise, während die dritte schon mit komplexeren geometrischen Formen zurechtkommt. Die letzte Schicht schliesslich erfasst, was auf dem Bild zu sehen ist: ein Gänseblümchen, auf dem ein Marienkäfer sitzt.
Damit Software das kann, muss sie lernen, und dazu wiederum braucht sie möglichst viel Lernstoff, sprich: Daten. Die können Apple, Amazon, Google und Microsoft mit ihren gigantischen Datenbanken mittlerweile massenhaft zur Verfügung stellen. So gut trainiert, können die neuronalen Netzwerke in Echtzeit Gespräche in eine andere Sprache übersetzen oder mit Menschen regelrecht über Alltagsdinge plaudern.
So hilfreich das alles sein mag, so unheimlich ist es auch – wenn unsichtbare Helfer im Smartphone permanent den Nutzer beobachten, aus seinem Verhalten lernen und dazu zahlreiche Daten über ihn sammeln. Sie wissen, wann er etwas macht und wo er sich währenddessen aufhält.
Dabei haben Nutzer kaum eine Chance zu erkennen, woher die Daten eigentlich genau kommen und nach welchen Regeln unbekannte Algorithmen daraus ihre Schlüsse ziehen. Trotzdem wird das Programm für seinen Nutzer Entscheidungen treffen und ihm Ratschläge geben, in vertraulichem Plauderton, als wäre es ein guter Freund. Da die Smartphones als Computer wahrgenommen werden und da Menschen – wie wissenschaftliche Studien gezeigt haben – Computern oft mehr glauben als anderen Menschen, werden die Anwender ihren Telefonen vertrauen und deren Empfehlungen wohl tatsächlich folgen.
Die Kontributoren sind externe Autoren und wurden von bilanz.ch sorgfältig ausgewählt. Ihre Meinung muss nicht mit der Meinung der Redaktion übereinstimmen.