Im ersten Teil der Serie über das Gelingen von Conversational AIs – also von Benutzungsschnittstellen auf Basis von Sprach-Assistenten und Chatbots – haben wir uns mit der ersten Heuristik „Sichtbarkeit des Systemstatus“ der Nielsen Heuristiken beschäftigt. Im zweiten Teil geht es nun um die Bedeutung der Heuristik „Übereinstimmung zwischen System und Wirklichkeit (Match between system and the real world)“ für Conversational AIs.
Übereinstimmung zwischen System und Wirklichkeit
Konversation in textbasierter Form oder als gesprochene Sprache suggeriert dem Nutzer Natürlichkeit. Gerade deshalb muss eine Conversational AI die Sprache des Benutzers sprechen, in einer Form, mit der der Benutzer vertraut ist und nicht mit ungewöhnlichen Begriffen und Satzkonstruktionen. Sprich: Verwenden Sie ein einfaches bzw. der Zielgruppe angepasstes Vokabular und vermeiden Sie systemorientierte und technische Begriffe. Auch erscheinen ein hoher Detailgrad und viele Feinheiten schnell formell und distanziert. Eine schlichte und einfache Sprache ist für Menschen mit unterschiedlichem Hintergrund zugänglicher.
Dies beschränkt sich jedoch nicht nur auf die Ausgabe, sondern umfasst auch die Eingabe. Benutzer sprechen mit einer Vielzahl von Dialekten und Akzenten. Deshalb sollte unbedingt mit verschiedenen Akzenten getestet werden. Dies umfasst bei textbasierten Systemen auch den Umgang mit gängigen Rechtschreib- und Tippfehlern. Die richtige Auswahl von Schlüsselwörtern und Synonymen stellt sicher, dass Befehle korrekt interpretiert werden (es gibt beispielsweise mehr als hundert Synonyme und Phrasen für Regen im Englischen). Nutzer formulieren ihre Absichten (Intents) in einer Konversation sehr unterschiedlich: Manche bevorzugen Befehlssätze („Bring mir ein Bier“), andere Fragesätze („Kannst du mir ein Bier bringen“) und wieder andere Appellsätze („Jetzt ein Bier wäre schön“). Und das sind nur einige Aussagen (Utterances) mit denen ein Bot trainiert werden muss. Nur so können die Benutzer bequem mit der Sprachschnittstelle interagieren.
Informationen sollten außerdem in natürlicher und logischer Reihenfolge erfragt bzw. dargestellt werden (z. B. Startzeit vor Endzeit). Dies kann aber im Einzelfall je nach Nutzer gerade auch bei der Eingabe variieren und muss dementsprechend flexibel gehandhabt werden: Gibt der Nutzer z. B. erst die Farbe oder zuerst die Größe an? Bei der Datenerfassung sollten auch bekannte Aspekte nicht erneut erfragt, sondern aus dem Kontext, dem Nutzerprofil und anderen verfügbaren Datenquelle erschlossen werden. Und so wie in der natürlichen Konversation die Sender sich in Wort und Schrift auf vielfältige Weise an den jeweiligen Empfänger anpassen, sollte dies auch ein Sprachassistent oder Chatbot machen. Zum Beispiel kann die Detailstufe durch Anpassung an den Wissensstand variiert werden. Außerdem sollte der Konversationsfluss nicht zwingend einen Pfad vorgeben, sondern sich am Benutzer orientieren.
Variiere Sie Inhalte so wie es eine Person tun würde. Bestätigungen sollten zum Beispiel nicht immer gleich, sondern mit einer Vielzahl an Alternativen wie „Ja“, „Okay“, „Klar“, „Roger“, „Oki Doki“, „Sicher“ usw. erfolgen. Denn anders als bei einem visuellen Design für die Augen wirken solche festen Muster für die Ohren schnell langweilig, ermüdend und unnatürlich.
Bedenken Sie außerdem, dass sich Sprachassistenten und textbasierte Chatbots durchaus unterscheiden. Ein Satz kann geschrieben gut wirken, für die gesprochene Unterhaltung möglicherweise aber ungeeignet sein.