Aus dem Kurs: Conversation Design: Tipps, Tricks, Techniken

Was ist Conversational AI?

Was ist eigentlich Conversational AI? Was bedeutet Artificial Intelligence, also Künstliche Intelligenz, im Zusammenhang mit Konversation? Das Ziel von Conversational AI, kurz und knapp, ist eine möglichst natürliche sprachbasierte Interaktion, also eine Art der Konversation, üblicherweise zwischen Mensch und Maschine, die ab einer gewissen Komplexität überhaupt erst durch künstliche Intelligenz ermöglicht wird. Und ganz, ganz wichtig ist hier, dass uns klar ist, dass Künstliche Intelligenz und Daten in Kombination mit Gesprächen nicht die Lösung sind. Es ist viel mehr, mit dem wir uns beschäftigen müssen, viel mehr als einfach nur KI und Daten. Und das ist eine der größten Herausforderungen, denn viele der Kunden -- und damit meine ich sowohl die Anwender und Anwenderinnen, die mit einem Bot sprechen, als auch die Kunden, die Unternehmen -- haben eine ganz andere Erwartungshaltung. Die gehen davon aus, wenn man irgendwelche Daten nimmt, das mit KI kombiniert und dann noch einen hübschen Chatbot oder Sprachassistenten davor packt, würde das schon für eine Lösung ausreichen. Doch leider sind die Daten oft schlecht strukturiert und nur weil wir das mit KI kombinieren, heißt das noch lange nicht, dass die Daten dann gut werden, und die Daten sind in den seltensten Fällen für Gespräche, für Konversationen, aufbereitet. Das heißt, wenn wir zum Beispiel die Suchergebnisse aus einer Datenbank nehmen, wenn wir vorbereitete FAQs, also häufig gestellte Fragen und deren Antworten, nehmen, dann passen die überhaupt gar nicht in so einen Gesprächsverlauf hinein; die sind oft viel zu lang, zu technisch formuliert, gegebenenfalls wechseln wir da zwischen du und Sie. Es gibt eine ganze Reihe von Herausforderungen, die es erfordern, dass wir die Daten für Konversationen extra aufbereiten müssen. Und KI ist nicht die alleinige Lösung dafür. KI unterstützt uns dabei, aber KI ist im Wesentlichen eigentlich nur Mathematik, nur Wahrscheinlichkeit. Das heißt also, wenn die Nutzerinnen oder der Nutzer irgendetwas beabsichtigen, dann hilft uns die KI dabei, zu erkennen, was diese möglicherweise wirklich wollen. Und wir brauchen hier dank Künstlicher Intelligenz und die Form davon, die wir nutzen, nennt sich Maschinelles Lernen, dank dessen brauchen wir dafür keine Regeln mehr zu definieren, sondern wir geben der Maschine Beispiele und die Maschine generiert dann aus diesen Beispielen die Regeln automatisch. Und das ist die Magie, die da drin steckt, denn diese generierten Regeln, die sind nur schwer erklärbar. Das wird ja von der Maschine von ganz alleine gemacht. Das ist die große Herausforderung. Das ist quasi die Blackbox, die wir hier verwenden. Wenn ich dann mit Kunden spreche, dann muss ich ja diese Schnittstelle zwischen Mensch und Maschine irgendwo in eine Welt transportieren, die der Kunde versteht, damit wir so dann zur Diskussion über Lösungen kommen, über Anwendungsfälle kommen. Und es hilft, wenn man Conversational AI mit einer klassischen App, mit einer HTML-Webseite vergleicht, denn Conversational AI ist, wie gesagt, ja nichts anderes als eine Schnittstelle zwischen Mensch und Maschine, und im besten Fall ist sie einfach natürlicher, sie ist zugänglicher, einfacher barrierefreier und schneller. Wenn ich jetzt also eine HTML-Seite betrachte, die beispielsweise verschiedene Geschäfte darstellt, und der Nutzer kann diese Geschäfte jetzt virtuell erkunden, auswählen, Öffnungszeiten abfragen, dann ist das bei einer klassischen HTML-Seite oder bei einer mobilen App in den meisten Fällen so, dass der Nutzer oder die Nutzerin dafür auf Schaltflächen klicken kann und darüber dann über diese Interaktion dann seine Absicht formuliert. Und diese formulierte Absicht wird dann als Anfrage an einen Dienst geschickt, an einen Server geschickt, der daraus dann eine Antwort generiert, die zurücksendet und dazu führt, dass dann die Anzeige sich verändert, die neuen Inhalte dargestellt werden. Das gestaltet sich bei Conversational AI ein kleines bisschen anders, denn bei Conversational AI, da sagt oder schreibt der Nutzer oder die Nutzerin einfach das, was sie will. Wenn sie es sagt, wird es transkribiert, also verschriftlicht, und wenn sie es schreibt, dann haben wir eh schon diesen Text. Und anders als bei einer App oder HTML-Seite fehlt uns ja hier der Button, die Schaltfläche, das Bedienelement, das bedeutungsvolle Element, also das Artefakt, was ja schon die Absicht des Nutzers beschreibt. Wir kriegen einfach nur einen Text und müssen daraus jetzt diese Nutzerabsicht ermitteln. Und das können wir machen, indem wir einfach Regeln benutzen, also auf Schlüsselwörter z.B. lauschen, oder indem wir Maschinelles Lernen als eine Form der Künstlichen Intelligenz einsetzen und das sogenannte Natural Language Understanding nutzen, also das Natürliche-Sprache-Verstehen. Und das kann dann aus diesem Text die Absicht der Nutzerin oder des Nutzers ermitteln. Das nennt man dann ein Intent und der wird dann, genauso wie der Button-Klick, an den Dienst geschickt und der wiederum generiert eine Antwort, die dann vom Gerät ausgegeben wird. Und diese Antwort muss nicht einfach nur hässlicher langweiliger Text sein, wir können das, wie gesagt, ja auch mit Sprachausgabe kombinieren, wir können das multimodal gestalten, indem wir Medien einbetten, vielleicht Galerien anzeigen, Grafiken nutzen. Da haben wir unzählige Möglichkeiten, um mithilfe von Conversation Design und auch ganz normalem Grafikdesign die Anwendung hübscher zu gestalten, abwechslungsreicher zu gestalten, denn wenn wir mit Konversation arbeiten, dann verhält sich das schon ein Stück weit anders, als wenn wir beispielsweise eine normale App machen, die ja in erster Linie für das Auge designt wurde. Das Auge erwartet Struktur, dort müssen Elemente möglichst immer an den gleichen Stellen sein, damit der Nutzer weiß, wo er was findet. Wenn wir etwas für das Ohr gestalten oder zum Lesen gestalten, dann brauchen wir Variation, denn wenn so ein Bot immer nur OK, OK, OK antworten würde, dann klingt das schnell eintönig, stumpfsinnig. Und da wechseln wir dann zu Variation, wir nutzen dann unterschiedliche Antworten, sagen manchmal "Okidoki", "Roger", "Alles klar", "Okay", "Na gut"; es gibt viele Möglichkeiten, das zu machen, genauso wie wir das im richtigen Leben ja auch machen. Wenn wir mit jemandem sprechen, benutzen wir ja auch als Zuhörgeräusche, als Bestätigungsantwort nicht immer genau die gleiche Formulierung, sondern wir variieren, um es spannender, interessanter zu gestalten und auch um das Verständnis zu erhöhen. Variationen, also das sogenannte Rephrasing, das Umformulieren hilft ja auch dabei, das dann besser zu erfassen, weil man dadurch ja auch zusätzliche Elemente, zusätzliche Inhalte vermittelt. Und genau das ist die Herausforderung. Wenn wir also fürs Auge gestalten, haben wir andere Methoden, haben wir andere Möglichkeiten als für das Ohr. Ein weiterer Aspekt ist, dass fürs Auge gestaltete Inhalte mehr Informationsdichte haben. Ich kann auf einem Bildschirm einfach zehn oder mehr Ergebnisse darstellen; wenn ich die wiederum in einem Fließtext oder, noch viel schlimmer, vorgelesen präsentieren würde, dann wird das sehr mühsam, das zu erfassen, kann sehr, sehr lange dauern. Und hier kommt dann Multimodalität zum Einsatz, aber, wie gesagt, das sind nur kleine Ausschnitte aus dem Bereich des Conversation Designs, und der Bereich des Conversation Designs ist ganz, ganz essenziell für gute Bots und für erfolgreiche Anwendungsfälle von Conversational AI.

Inhalt