Software-Testen: Selbstlernende KI-Systeme überprüfen

Entwickler erkennen das Potenzial generativer KI-Systeme. Doch wie lässt sich kontrollieren, was die Systeme tatsächlich lernen, fragt David Colwell von Tricentis.

Als Sam Altman, CEO von OpenAI, die jüngste Version von ChatGPT vorstellte und gleichzeitig die Preise für Entwickler senkte, dehnte er den Spielraum für kreative KI-Anwendungen aus. Die reduzierten Kosten sind dabei nicht allein ausschlaggebend – das System kann jetzt auch erheblich längere Anfragen bearbeiten, was die Flexibilität für die Software-Entwickler enorm erweitert.

Generative KI bezieht sich speziell auf KI-Systeme, die in der Lage sind, neue Daten oder Inhalte zu generieren, die denen ähneln, die sie während ihres Trainings gesehen haben. Ihr Vorteil besteht darin, dass man in natürlicher Sprache mit ihr interagieren kann. Ähnlich wie bereits beim Low-Code/No-Code-Ansatz erweitert sich dadurch der Anwenderkreis, weil die Einstiegshürde sinkt. Auch Mitarbeiter, die keine oder nur wenig Programmierkenntnisse haben, können dann Entwicklungs- und Testing-Aufgaben übernehmen – vorausgesetzt, sie wissen, wie man die KI richtig einsetzt.

Trotz dieser Zugänglichkeit liegt die wahre Herausforderung darin, die KI effektiv zu steuern und anzuleiten, um die gewünschten Ergebnisse zu erzielen. Das bedeutet nicht mehr, den Code von Grund auf zu schreiben, sondern ihn gemeinsam mit der KI zu gestalten – ein Prozess, der klare Anweisungen und kontinuierliches Feedback erfordert, um die angestrebten Ziele zu erreichen.

Nur wer dokumentiert, erreicht, was er will

Dass die KI lernen kann, was sie soll, hängt maßgeblich davon ab, wie präzise Entwickler die inneren Prozesse beschreiben können, die beim Codieren in ihren Köpfen ablaufen. Für viele ist dies ungewohnt – es erfordert, die Fähigkeit zu reflektieren und das Vorgehen so zu dokumentieren, als würde man es einer anderen Person erklären. Das gilt auch für die Testautomatisierung.

Qualitätssicherungsingenieure müssen detailliert festhalten, welche Schritte ein Test ausführt und welche Entscheidungen er trifft. Eine klare und verständliche Dokumentation ermöglicht es dem System, rasch zu lernen, worauf es achten muss. Mit dem richtigen Training kann die KI beispielsweise Testfälle für bestimmte Anwendungsfälle vorschlagen und eigenständig Tests generieren. Entwickler, die sich Tipparbeit ersparen möchten, können sich unterstützen lassen. Ein Prompt genügt, nämlich: „Fasse zusammen, was ich gerade getan habe.“

ChatGPT und das Coding-Dilemma

In der Natur selbstlernender Systeme liegt es, sich ständig zu verändern, abhängig von den Trainingsdaten. Ein Beispiel hierfür ist ChatGPT selbst, das darauf getrimmt wurde, mit Menschen zu plaudern. Interessanterweise hat das jedoch zu einer unerwarteten Verschlechterung der Coding-Fähigkeiten geführt, wie Wissenschaftler der Stanford University in einer Studie enthüllten. Das bedeutet für die Unternehmen, die eigene Anwendungen entwickeln wollen: Sie können nie sicher sein, dass eine KI im Produktiveinsatz so reagiert, wie sie es erwarten. Das Paradoxe daran: Wir setzen mit generativer KI eine Technologie ein, um Rätsel zu lösen, doch die Lösung selbst ist uns unbekannt. Wie also testen, ob die Antworten der KI korrekt sind?

Szenario-basiertes Testen: simulieren, überwachen, prüfen

Es gilt traditionelle Teststrategien neu zu denken. Anstatt zu prüfen, ob eine Anwendung die erwartete Antwort liefert, wird ein Ansatz verfolgt, der auf Vergangenheitsdaten basiert und bewährte Ergebnisse berücksichtigt. Das Ziel ist es, Abweichungen im Verhalten der KI zu erkennen und deren potenzielle Auswirkungen auf die eigenen Applikationen und Systeme zu verstehen. Hierfür ist ein kontinuierliches Testen erforderlich, das eher einem fortlaufenden Monitoring gleicht.

Qualitätsingenieure sollten zuerst zwei Arten von Tests identifizieren: kritische Szenarien, bei denen Veränderungen der KI höchstwahrscheinlich zu erheblichen Störungen führen, und wichtige Szenarien, bei denen möglicherweise Störungen auftreten könnten. Um Abweichungen zu erkennen, wird wie bei einem Boot ein metaphorischer Anker geworfen, indem Ein- und Ausgaben erfasst werden. Hierfür eignen sich Tools wie IRIS, die den Datenverkehr passiv aufzeichnen, ohne dass eine Aktualisierung der Codebasis erforderlich ist. Anschließend können Qualitätssicherer die Szenarien mithilfe von API-Testing-Tools wie Tricentis Tosca oder Tricentis Testim fortlaufend überwachen. Es ist ratsam, sämtliche Veränderungen zu protokollieren und diese in regelmäßigen Abständen von erfahrenen Anwendern prüfen zu lassen.

Für kritische Szenarien ist es zusätzlich wichtig, den Ernstfall zu simulieren. Was passiert beispielsweise, wenn die KI plötzlich fehlerhaft reagiert? Um dies zu testen, wird die KI-Umgebung simuliert, indem die aufgezeichneten IRIS-Szenarien in virtuelle Dienste umgewandelt werden. Danach können Qualitätsingenieure die Antworten der simulierten KI ändern, um zu überprüfen, wie das nachgelagerte System darauf reagiert.

Auf die Datenhygiene kommt es an

Grundlegend ist immer die Qualität der Daten, mit der die KI lernt. Sie kann selbst nichts Neues erfinden, sondern reproduziert im Grunde nur das, was sie kennt und lernt. Doch Daten, die einmal in das Modell eingeflossen sind, lassen sich nicht mehr so einfach extrahieren. Dies wird besonders problematisch, wenn die KI mit den Eingaben der Anwender trainiert wird. Die Fragen nach dem Eigentum der Daten und die Umsetzung des in der DSGVO verankerten „Rechts auf Vergessenwerden“ gewinnen hier an Bedeutung. Unternehmen, die KI-Modelle in ihren Anwendungen einsetzen, sollten daher auf eine sorgfältige Datenhygiene achten. Im B2B-Bereich ist es zielführend, für jeden Kunden ein separates Modell zu verwenden, um sicherzustellen, dass das System nicht mit Daten verschiedener Kunden trainiert wird. Auf diese Weise lässt sich verhindern, dass unbefugte Nutzer Informationen extrahieren, auf die sie keinen Zugriff haben sollten. Außerdem lassen sich bei Bedarf alle Daten vollständig löschen.

Ein Modell pro Kunde: vorschriftsmäßig und trotzdem innovativ

Womit Unternehmen rechnen müssen? Mit Überraschungen. Deshalb ist ein Modell pro Kunde zu nutzen, die vielversprechendste Teststrategie, um den Compliance-Vorschriften zu entsprechen. In den kommenden Jahren wird sich zwar noch einiges in der Gesetzgebung ändern, doch KI-basierte Anwendungen sind im Kommen. Entscheidend wird es sein, die richtige Balance zwischen Regulierung und Innovation zu finden. Firmen, die auf eine sorgfältige Datenhygiene setzen und ihre Teststrategie anpassen, sind gut gerüstet. Selbst wenn die KI halluziniert.

 

David Colwell
 
ist Vice President of Artificial Intelligence and Machine Learning bei Tricentis.