KI-Training mit personenbezogenen Daten – DSGVO-konform dank GAN-Methoden

CloudVirtualisierung
Künstliche Intelligenz (Bild: Shutterstock)

Die Anwendung von Generative Adversarial Neural Networks (GANs) hat bereits die Kunstwelt ins Staunen versetzt. Wie Machine Learning Reply diese KI-basierte Methode nun für Business Cases einsetzen möchte, zeigen die Data-Science-Spezialisten anhand eines sehr realen Use Cases: der DSGVO.

Künstliche Intelligenz wird zum Künstler

YouTube-Feeds sind heute genau auf den User zugeschnitten. Smartphones werden per einwandfrei funktionierender Gesichtserkennung freigeschaltet und Siri versteht uns manchmal sogar besser als unser Partner – kurz gesagt: Künstliche Intelligenz ist Realität. Aber wie weit können Computer wirklich gehen? Werden sie beispielsweise einmal in der Lage sein, wirklich kreativ zu sein?

Bewiesen, dass KI zumindest über eine gewisse eigene Art der Kreativität verfügt, hat vor kurzem ein Algorithmus, der aus 15.000 eingespeisten Portraits aus dem 14. bis 20. Jahrhundert ein Portrait generiert hat, das den fiktiven Adligen „Edmond de Belamy“ zeigt. Dieses Bild wurde von der Kunstwelt als so wertvoll eingeschätzt, dass das Auktionshaus Christie’s es im Herbst 2018 für 430.000 US-Dollar versteigern konnte. Eine Methode, Künstliche Intelligenz als Künstler arbeiten zu lassen, ist der Einsatz von Generative Adversarial Neural Networks (GANs). Damit können Bilder wie das des Edmond de Belamy oder auch fotorealistische Bilder aus handgemalten Skizzen erstellt werden.

Wie macht der Computer das? Er lässt zwei künstliche Intelligenzen gegeneinander „spielen“. Zunächst lernen beide die echten Daten. Das können strukturierte Daten oder wie im oben genannten Beispiel unstrukturierte Daten wie Kunstwerke sein. Im zweiten Schritt versucht die eine KI, ein neues Bild (oder einen neuen Datenpunkt) zu generieren, und die andere, zu erkennen, ob es sich dabei um ein synthetisches oder ein ursprüngliches Bild handelt. So trainieren sich die beiden Teile eines GANs gegenseitig und die synthetisierten Daten werden immer realistischer. Die Experten von Machine Learning Reply haben sich nun die Frage gestellt, wie die hier angewandte Methodik der Generative Adversarial Neural Networks für breiter anwendbare Business Cases genutzt werden kann. Eines der Felder, das die KI-Spezialisten identifiziert haben, ist der seit dem Inkrafttreten der Datenschutzgrundverordnung (DSGVO) herausfordernder gewordene Spagat zwischen Datenschutz und dem Nutzen personenbezogener Daten für Data-Science-Studien.

Business Use Case: Personenbezogene Daten nutzen trotz DSGVO

Die DSGVO schützt Verbraucher davor, dass ihre personenbezogenen Daten von Unternehmen missbraucht werden. Jedoch bedeutet die Verordnung auch, dass Produktentwicklungen und -tests in vielen Fällen ohne die Nutzung von sehr aussagekräftigen Daten durchgeführt werden müssen – obwohl sich durch die neuesten Entwicklungen im Bereich KI und Machine Learning eigentlich extrem viele Möglichkeiten für verbesserte Produkte und Dienstleistungen ergeben. Damit birgt die DSGVO nicht nur Hürden für Unternehmen, sondern macht es beispielsweise auch Forschern unmöglich, Daten untereinander zu teilen oder sie externen Dienstleistern zur Verfügung zu stellen.

Die dabei bestehenden Herausforderungen können wie folgt zusammengefasst werden:

• Es muss ein Kompromiss zwischen notwendigem Schutz der personenbezogenen Daten und unerwünschter Hemmung des Fortschritts gefunden werden, der anhand einer großen Datenbasis und modernen Big-Data- und Analytics-Tools erreicht werden könnte.
• Statistisches Samplen von Daten erfasst Wechselwirkungen in den Attributen nicht und bildet sie daher nicht in der für moderne Methoden nötigen Komplexität ab. Dimensionsreduzierende Verfahren büßen meist an Verständlichkeit der Daten ein.
• Wir brauchen realistische Daten, die aber keinen Rückschluss auf ihren Ursprung erlauben.
• Wie kann man den Kompromiss zwischen verdeckten persönlichen Informationen (sicherer Austausch von Entitäten ohne Duplikate) und der Generierung realistischer Daten quantifizieren und dann optimieren?

Ein Ansatz, das Datenschutz-Dilemma zu umgehen, können KI-basierte Methoden sein, um synthetische Daten zu generieren. Die Idee synthetischer Daten ist es, die statistischen Eigenschaften eines realen Datensatzes nachzuahmen, ohne einzelne Einheiten aufzudecken, sondern vielmehr, sie gegen synthetische auszutauschen. Über alle Branchen hinweg ist eine solche Herangehensweise aufgrund der zunehmenden Datenschutzbedenken und der DSGVO sehr gefragt.

Es gibt verschiedene Ansätze zur Erzeugung synthetischer Daten wie PCA, Autoencoder und generative Modelle. Machine Learning Reply hat die Leistung der beiden generativen Modelle – Variable Autoencoder (VAE) und Wasserstein GAN (WGAN-GP) – miteinander verglichen. Dabei galt es zu bewerten, wie erfolgreich die durch die jeweiligen Methoden erzeugten Daten als Input dienen können, um sowohl überwachte und als auch unbeaufsichtigte Modelle in Bezug auf die realen Daten zu trainieren.

Darüber hinaus hat Machine Learning Reply den KNN-Algorithmus angewandt, um die Ähnlichkeit zwischen synthetischen und realen Daten zu untersuchen und so zu bestimmen, welcher Algorithmus Entitäten erzeugt, die sicherer exponiert werden können.

Die große Herausforderung bestand darin, die statistischen Eigenschaften korrekt darzustellen und gleichzeitig die Generierung von (Beinahe-)Duplikaten zu vermeiden. Nur dann kann dieses Verfahren sicher angewendet werden, da letztere geschützte Informationen preisgeben würden.

Ergebnis

Für Machine Learning Reply hat sich für diesen Use Case die Wasserstein GANs-Methode als vielversprechend herausgestellt. Sie eignet sich sehr gut dazu, Korrelationen innerhalb realer Datensäte zu reproduzieren, da größere Überschneidungen zwischen den synthetischen und den realen Daten festgestellt werden konnten als mit der VAE-Methode, bei der die nachgestellten Entitäten Bereiche nicht abgedeckt haben, die durchaus in den realen Daten zu finden waren.

Autor
Erfahren Sie mehr 
Johannes Oberreuter arbeitet als Data Scientist bei Machine Learning Reply und leitet die Innovationsgruppe Quantencomputing der Reply AG in Deutschland. Er hat Physik in München, Heidelberg und Cambridge studiert und an den Universitäten von Amsterdam, Göttingen und der TU München zu Quanteneffekten vom frühen Universum bis zu Experimenten mit kalten Gasen geforscht.
Erfahren Sie mehr