KI schlägt Mensch

Forscher der ETH Zürich entwickeln KI-Roboter, der in nur 6 Stunden lernt, ein beliebtes Geschicklichkeitsspiel in Rekordzeit auszuführen.

Es ist seit langem bekannt, dass KI in verschiedenen Spielen ein höheres Leistungsniveau als der Mensch erreichen kann – aber bis jetzt blieb die physikalische Geschicklichkeit dem Menschen vorbehalten. Dies ist nun nicht mehr der Fall. Die KI-Technik “Deep Reinforcement Learning” hat die Grenzen verschoben, die mit autonomen Systemen und KI erreicht werden kann. 

Labyrinth-Spiel mit Murmel

Forscher der ETH Zürich haben einen KI-Roboter namens CyberRunner entwickelt, dessen Aufgabe es ist, zu lernen, wie man das beliebte Labyrinth-Murmelspiel spielt. Das Labyrinth ist ein Geschicklichkeitsspiel, bei dem es darum geht, eine Murmel von einem vorgegebenen Startpunkt zum Endpunkt zu lenken. Dabei muss der Spieler verhindern, dass die Kugel in eines der Löcher fällt, die sich auf dem Labyrinthbrett befinden.

Die Bewegung der Kugel kann indirekt durch zwei Knöpfe gesteuert werden, die die Ausrichtung des Brettes verändern. Obwohl es sich um ein relativ einfaches Spiel handelt, erfordert es feinmotorische Fähigkeiten und räumliches Vorstellungsvermögen, und erfahrungsgemäß brauchen Menschen viel Übung, um das Spiel zu beherrschen.

CyberRunner wendet die jüngsten Fortschritte im Bereich des “Deep Reinforcement Learning” auf die physische Welt an und nutzt seine Fähigkeit, fundierte Entscheidungen über potenziell erfolgreiche Verhaltensweisen zu treffen, indem er reale Entscheidungen und Aktionen in die Zukunft plant.

Roboter lernt durch Erfahrung

Genau wie wir Menschen lernt auch der Roboter durch Erfahrung. Während er das Spiel spielt, nimmt er Beobachtungen auf und erhält Belohnungen auf der Grundlage seiner Leistung, alles durch die “Augen” einer Kamera, die auf das Labyrinth hinunterschaut. Die gesammelten Erfahrungen werden in einem Speicher abgelegt. Anhand dieses Speichers lernt der auf Deep Reinforcement Learning basierende Algorithmus, wie sich das System verhält. So erlernt der Roboter, welche Strategien und Verhaltensweisen erfolgversprechender sind. Folglich wird die Art und Weise, wie der Roboter die beiden Motoren – seine “Hände” – zum Spielen einsetzt, kontinuierlich verbessert. Wichtig ist, dass der Roboter nicht aufhört zu spielen, um zu lernen; der Algorithmus läuft gleichzeitig mit dem Roboter, der das Spiel spielt. Infolgedessen wird der Roboter von Durchlauf zu Durchlauf besser.

Das Lernen im realen Labyrinth wurde in knapp über 6 Stunden durchgeführt und umfasste 1,2 Millionen Zeitschritte bei einer Kontrollrate von 55 Samples pro Sekunde. Der KI-Roboter übertrifft die bisher schnellste Zeit, die von einem extrem erfahrenen menschlichen Spieler erzielt wurde, um mehr als 6 Prozent.

Roboter kann mogelnd

Interessanterweise entdeckte CyberRunner während des Lernprozesses auf natürliche Weise Abkürzungen. Er fand Wege, bestimmte Teile des Labyrinths zu überspringen. Die leitenden Forscher mussten eingreifen und ihn ausdrücklich anweisen, keine dieser Abkürzungen zu nehmen.

Die Forscher der ETH Zürich werden das Projekt als Open Source veröffentlichen und auf der Website zugänglich machen.