Einen Text zu generieren anhand einiger Stichworte, beeindruckt wenn man dieses Phänomen zum ersten Mal erlebt. Doch tatsächlich sei es relativ einfach, einen Artikel zu erstellen über ein Thema, das im Internet bereits in Textform vorliege, sagt Jörg Rebell von Spitch, einem Entwickler von Sprach- und Textdialogsystemen. “Um ein Vielfaches schwieriger ist es jedoch zu verstehen, was ein Mensch sagt und vor allem, was er damit meint.”

Beeindruckende Texte, aber teilweise falsch

Jörg Rebell erklärt den Unterschied an einem Beispiel: “ChatGPT liefert auf die Anfrage ‘Schreibe einen Artikel über Marbella aus der Sicht eines Touristen’ einen ziemlich guten Text, der verblüfft, weil man so etwas zuvor nicht gewohnt war. Doch wenn man genauer darüber nachdenkt, wird schnell klar, wie einfach das im Grunde ist. Das Ergebnis ist kaum mehr als ein gekürzter Wikipedia-Artikel. Bei der Frage ‘Welche jüngsten Entdeckungen des James Webb Space Teleskops kann ich meinem neunjährigen Kind erzählen?’ patzt die Google-KI Bard bereits: Das Ergebnis liest sich plausibel, ist aber teilweise schlichtweg falsch – obgleich auch diese Anfrage vergleichsweise einfach ist.

Schwierig wird es erst, wenn beispielsweise jemand bei einer Versicherung anruft und erzählt, dass seine Katze auf das Sofa des Nachbarn gesprungen ist und dieses zerkratzt hat. Der Anrufer will nämlich weder über Katzen noch über Sofas und auch nicht über seinen Nachbarn sprechen, sondern er will einen Schadensfall melden, den seiner Meinung nach seine Haftpflichtversicherung begleichen soll. Das Sprachdialogsystem von Spitch versteht das. Der Unterschied ist offensichtlich: Bei ChatGPT und Bard fallen alle relevanten Begriffe wie ‘Marbella, Tourist, James Webb Space Teleskop, neunjähriges Kind’, aber bei Spitch gehen alle vom Anrufer verwendeten Worte an dem vorbei, was er meint, obgleich er es gar nicht ausspricht. Anhand dieser Beispiele wird deutlich, warum die von Spitch verwendete Künstliche Intelligenz viel weiter reichen muss als bei ChatGPT oder Bard.”

Sprachdialogsystem ergänzt textbasiertes Dialogsystem

Jörg Rebell sieht aus diesem Grund Sprachdialogsysteme als Ergänzung zu ChatGPT und Bard. Spitch könne viele, wenn auch nicht alle Anrufe verstehen. Dabei steht ein Sprachdialogsystem vor der Herausforderung, die Absicht – den sogenannten “Intend” – zu erkennen, also aus “Katze”, “Sofa” und “Nachbar” zu folgern, dass es um eine Haftpflichtversicherung geht.

Einige Sprachdialogsysteme schaffen diese Intend-Erkennung mit einer Quote von über 85 Prozent. Dazu müssen sie allerdings vor dem Einsatz in einem bestimmten Unternehmen auf diese Firma hin trainiert werden. Dazu gehört die Aufnahme des in der jeweiligen Branche und im Betrieb üblichen Fachvokabulars. Hinzu kommt die Analyse Tausender von Anrufen, um herauszufiltern, was Anrufer typischerweise wollen und mit welchen Worten oder Sätzen sie dies ausdrücken.

Jörg Rebell: “Entscheidend ist für Sprachdialogsysteme ist der erste Schritt, nämlich den Anrufer zu verstehen und zu begreifen, worum es ihm geht. Darin liegt ein Alleinstellungsmerkmal gegenüber allen generativen KI-Systemen. Wir sprechen in diesem Zusammenhang von Conversational AI, also von Konversations-KI.”