Der Status Quo von Voice Commerce

Wer in den letzten Jahren nicht komplett hinter dem Mond gelebt hat, dem sind die Begriffe „Voice Commerce“ und „Conversational Commerce“ sicher schon einmal begegnet. Am Amazon Prime Day 2018 und im Weihnachtsgeschäft waren die verschiedenen Echo-Geräte echte Bestseller: Mehr als 100 Millionen Smart Speaker-Geräte will Amazon verkauft haben. Google bietet mittlerweile über eine Milliarde Geräte mit Spracherkennung für seinen Assistant an. Schauen wir uns die Zahlen und mögliche Anwendungen von Voice Commerce mal genauer an.

Was ist Voice Commerce?

Bevor wir uns in das Thema stürzen sollten wir kurz festlegen, was Voice Commerce eigentlich ist. Meines Wissens gibt es keine wissenschaftliche Definition dafür, was also ist der allgemeine Konsens? Nun, die meisten Menschen würden so etwas sagen wie „Transaktionen, die ausschließlich durch einen Sprachservice zustande kommen, zum Beispiel über einen Smart Speaker oder eine mobile App.“ Diese Definition ist allerdings eine eher beschränkte Sichtweise, da sie sich ausschließlich auf die Transaktion als solche konzentriert. In der Welt des „klassischen“ Online-Handels entspräche das der Aussage, dass nur dann von E-Commerce die Rede ist, wenn Kunden ausschließlich online den Prozess bis zum Bezahlvorgang durchlaufen und in diesem Kanal auch Produkte bestellen.

Customer Journey

In Wirklichkeit ist den meisten allerdings klar, dass eine Customer Journey – also der Weg des Kunden zum Produkt – oft wesentlich komplexer ist und über unterschiedliche Kanäle bzw. Touchpoints verläuft. In folgendem Beispiel sieht eine Person das Bild eines Sonnenuntergangs in seinem Instagram-Stream und durchläuft verschiedene Stationen, bis sie endlich selbst ihren Sommerurlaub an genau dieser Stelle verbringen kann:

Eine erweiterte Definition von Voice Commerce – die ich auch für den Rest dieses Artikels verwenden möchte – geht davon aus, dass innerhalb der gesamten Customer Journey mindestens einmal ein Sprachservice verwendet wird.

Die vier Komponenten von Voice

Machen wir eine weitere Unterscheidung zwischen insgesamt vier Komponenten von Voice, die wichtig sind, um das Thema zu verstehen.

Voice-Hardware

Einfach gesagt braucht man für die Kommunikation über die Stimme eine Kombination aus Lautsprecher und Mikrofon, die mit dem Internet kommuniziert. Die sogenannten Smart Speaker sind genau das, in einem mehr oder weniger ästhetisch ansprechenden Gehäuse, das man sich gerne in die Wohnung stellt.

Aber auch ohne dediziertes Gerät können Nutzer sich in der Voice-Welt bewegen und einfach die entsprechenden Apps für Alexa oder Google Home auf ihre Smartphones zu laden. Tatsächlich nutzen laut einer Capgemini-Studie über 80% der Anwender diesen Weg:

App

A propos App: Mit einem Stück Hardware allein ist es natürlich nicht getan. Damit die Kommunikation zwischen Hardware und der eigentlichen Voice-Plattform gescheit funktioniert, braucht es eine Art Klebstoff. Und hier kommen die eben erwähnten Apps ins Spiel, die man sich auf sein Smartphone laden kann. Entweder nutzt man diese, um sich direkt dort mit Alexa oder Siri unterhalten kann, oder man konfiguriert seine Smart Speaker darüber.

Der Clou: die App ist der Einstieg zur eigenen, personalisierten Stimm-Welt. Tatsächlich lassen sich beliebig viele Geräte an das eigene Profil andocken und zentral verwalten. Für Amazon macht es also keinen Unterschied, ob die Stimme von einem Smart Speaker oder der Alexa-App auf dem Smartphone aufgenommen wird: Alle sind mit demselben Konto verbunden. Natürlich werden die Mikrofone die Stimme des Nutzers besser erkennen, je mehr Geräte er besitzt. Außerdem teilt er, indem die Geräte an verschiedenen Orten stehen – im Wohnzimmer, Kinderzimmer, Büro, Auto usw. – etwas sehr wichtiges mit: den Kontext. Normalerweise ändern sich die Gewohnheiten von Menschen je nach Standort, und Amazon kann diese Puzzlestücke dazu verwenden, die Interaktion zu verbessern und zu personalisieren. Letztendlich finden 95 % aller zwischenmenschlichen Interaktionen nonverbal statt; daher ist es hilfreich für Amazon, Google und all die anderen, sich einige Zusatzinformationen über die verbleibenden 5 % einzuholen.

Voice-Plattform

Der wichtigste Bestandteil von Voice-Kommunikation ist der eigentliche Cloud-Service, der Sprachbefehle interpretiert, die Ergebnisse im Hintergrund kalkuliert und dann eine Antwort unter Nutzung natürlicher Spracherzeugung (NLP) erstellt. Neben diesen Technologien stellen sie außerdem die Werkzeuge und Informationen zur Verfügung, um Dritten die Entwicklung und die Distribution individueller Funktionsbausteine zu ermöglichen. Willkommen bei den Skills und Actions.

Skills und Actions

Der “Skill” in der Amazon-Welt bzw. die “Action” in der Google-Welt nutzt die Möglichkeiten der jeweiligen Voice-Plattform, um individuelle Funktionen abzubilden. Beide sind demnach Erweiterungen, die Nutzer sich in ihr Voice-Profil laden und dann auf allen ihren Geräten bzw. in allen ihren Voice-Apps nutzen können.

Markteilnehmer und Zahlen

Der Markt für Sprachanwendungen ist ein Anbietermarkt. Unternehmen wie Amazon und Google investieren erheblich (etwa in Superbowl-Werbung), um Kunden von der Nützlichkeit ihrer Produkte zu überzeugen. Dies geschieht durch aufwändige Werbung und extreme Subventionierung ihrer Hardware. Werfen wir einen Blick auf vier Big Player.

Amazon

Nach einer geschlossenen Betaphase ausschließlich für Prime-Mitglieder hat Amazon sein erstes Echo-Gerät Mitte 2015 auf den US-Markt gebracht. Angeblich baut das Unternehmen diese Plattform seit 2010 auf und wendet seitdem erhebliche Ressourcen dafür auf. Amazon hat bestätigt, dass mittlerweile mehr als 10.000 Mitarbeiter mit der Voice-Technologie arbeiten, was selbst für Amazon-Maßstäbe eine beachtliche Menge ist. Es entstehen am laufenden Band neue Ideen für Geräte – z. B. Echo Show, das über einen integrierten Bildschirm verfügt, um sich Suchergebnisse ansehen zu können – denn ein Bild sagt bekanntlich mehr als tausend Worte. Aber das ist nur ein Beispiel. Amazon experimentiert auch damit, die Alexa-Technologie in alle möglichen Geräte wie Wanduhren und sogar Mikrowellengeräte zu stecken. Der Online-Händler mischt aber auch in anderen Branchen mit und entwickelt nun die Sprachtechnologie für die BMW-Group, in deren Fahrzeuge die Alexa-Technologie eingebaut wird.

Amazon hat den Smart-Speaker-Markt mit einem weltweiten Anteil von 65% fest im Griff. Diese Dominanz zeigt sich ebenfalls in Amazons Bemühungen, ihr Drittanbieter-Ökosystem zu fördern. Das Skill-Verzeichnis des Unternehmens umfasst nun über 80.000 Einträge. Außerdem arbeitet Amazon konstant daran, das Entwickeln von Voice-Skills zu vereinfachen, zum Beispiel durch Einführung der neuen Alexa Hosted Skills. Auch wenn es Skills für alle Lebenssituationen wie Nachrichten, Unterhaltung, Sport und Smart Home gibt, so werden nur etwa 200 Skills in der Kategorie Shopping genutzt. Und von diesen gibt es nur eine von 1-800 Flowers, mit der Kunden etwas bestellen können. Mit allen anderen Skills wie Best Buy und Dell können Kunden nur nach Sonderangeboten suchen oder Tracking-Information anfordern.

Was die Shopping-Funktionalität betrifft, kann nach Alexa-Produkten gefragt (gilt nur für Prime-Produke, außerdem gibt es in Bezug auf die Kategorien einige Einschränkungen) und mit einem simplen “Ja” die Bestellung bestätigt werden. Die Bezahlung erfolgt über den hauseigenen Payment-Service.

Google

Im Mai 2016 stellte Google seine Plattform Google Assistant als App für Android-Geräte vor, die später auch für iOS-Geräte verfügbar gemacht wurde. Zeitgleich wurde der Smart Speaker Google Home eingeführt, in dem wiederum der Google Assistant steckt. Nach diesem ersten Aufschlag auf dem Markt wurden noch einige andere wie Google Home Max, Google Home Mini oder der Google Home Hub vorgestellt. Letzterer verfügt genau wie Amazons Echo Show über einen Bildschirm. Und wie bei Amazon gibt es nun auch Smart Speaker von Drittanbietern, die mit der Google Assistant-Technologie ausgestattet sind, beispielsweise Bang & Olufsen und JBL.

Anstatt „Skills“ nennt Google seine Anwendungen „Actions“, und führt aktuell über 1 Million davon im Anwendungsverzeichnis. (Ich persönlich finde das sehr verwirrend und verwechsle die Actions, die Google selbst erstellt ab und an mit denjenigen von Drittanbietern.) Eine andere Quelle erwähnt ungefähr 2.000 Actions. (Wenn irgendjemand dazu etwas Licht ins Dunkel bringen kann, bitte kommentieren.) Entwickler nutzen Tutorials und Online-Services, um Actions zu erstellen und sie ins Google Assistant-Verzeichnis einzuspeisen.

Was die Shopping-Kategorie betrifft, konnte ich, ähnlich wie bei Amazon, keinen vollwertigen, ausschließlich sprachgesteuerten Bestellmechanismus finden, nur etwas wie einen Geschenkleitfaden für H&M Home, eine Action, um den Bestellstatus von Neiman Marcus aufzurufen, oder eine, die die besten Angebote von Office Depot anzeigt.

Es gibt allerdings auch die Möglichkeit, direkt über Google Home einzukaufen, zumindest, wenn man in den USA lebt. Dort hat Google nämlich mit Google Express einen Art digitalen Marktplatz aufgebaut, über den Händler ihre Produkte und Dienstleistungen anbieten können. Aktuell sind dies etwa BestBuy, CostCo und Target. Die Bestellung kann komplett über Voice aufgegeben werden, die Abrechnung erfolgt über Google Pay.

Apple

Der iPhone- und iPad-Gigant stellte bereits 2010 im Zuge der Einführung von iOS5 Siri als Sprachservice vor. Mittlerweile ist Siri integraler Bestandteil des Ökosystems von Apple und kann auf iPhones, iPads, iMacs und Apple Watches verwendet werden. Siri werden häufig deutliche Einschränkungen sowie ein Mangel an Qualität attestiert; am meisten wird der Dienst zur Einstellung von Geräten, für Weck- und Erinnerungsfunktionen und die Kalendersuche verwendet. 2018 hat Apple seinem Portfolio den HomePod hinzugefügt, einen Smart Speaker, über den Siri läuft.

Offiziell unterstützt Apple Apps von Drittanbietern für Siri durch das SiriKit, aber offensichtlich findet diese Plattform nicht wirklich Anklang. Ein Grund dafür könnte sein, dass Apples Geschäftsmodell im Gegensatz zu denen von Amazon und Google keine großen Mengen an Profildaten auf seinen Servern einbezieht, sondern stattdessen auf lokale, auf der Hardware der Nutzer gespeicherte Daten zurückgreifen muss, um seine Algorithmen zu trainieren.

Microsoft

Zu guter Letzt mischt auch Microsoft beim Spiel mit der Sprache mit. Der Service Cortana wurde 2014 als Komponente von Windows 10 eingeführt und kann Uhren stellen sowie Fragen aus der Bing-Suchmaschine beantworten. Microsoft hat zwar noch keine eigene Hardware auf dem Markt, Cortana ist aber in die Harman Kardon Invoke Smart Speakers integriert.

Fazit

Natürlich war das nur ein kurzer Überblick zum aktuellen Stand der Voice-Branche. Zu den hier genannten Unternehmen könnte noch so viel mehr gesagt werden, aber auch zu anderen, wie Samsung mit seinem Bixby Service oder Tencent mit Tingting. Wenn es um den Nutzen der Voice-Technologie für den Handel geht, müssen wir uns mehr mit der Frage beschäftigen, wie Voice den Kaufprozess des Kunden unterstützt. Denn nur mit einem Bruchteil der Apps können tatsächlich Produkte bestellt werden und also ein nahtloses, ausschließlich sprachgesteuertes Einkaufserlebnis bieten. Die große Mehrheit der Skills und Actions bezieht sich auf das Entdecken von (neuen) Produkten, Inspiration und Ratschläge.

Ein natives Voice-Einkaufserlebnis bieten derzeit nur Amazon und Google. Wollen Händler dort „stattfinden“ und ihre Produkte verkaufen, müssen sie die jeweiligen digitalen Marktplätze nutzen – einen direkten Kundenkontakt erhalten sie in diesem Fall aber nicht.

(Dieser Beitrag wurde ursprünglich im Business-Blog von commercetools veröffentlicht.)

(Bild: pexels.com)

Entdecke mehr von ShopTechBlog

Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.