Künstliche Intelligenz soll Microsofts Bilderkennung besser machen

Microsoft Cybersecurity (Grafik: MIcrosoft)

“Wie viele Hunde sitzen in diesem Korb” – Fragen wie diese soll künftig Microsofts Bilderkennung beantworten können. Das System soll auf menschliche Fragen Antworten finden.

Das automatisierte Auswerten und Kategorisieren von Bildern ist für viele Hersteller derzeit ein Thema. IBM führt dafür Watson ins Feld, das damit unter anderem Tool für die Analyse von Röngten-Bildern bereit stellt. HP bietet mit “Idol” ebenfalls ein Tool an, das über künstliche Intelligenz unter anderem auch Gesichtserkennung liefert. Nun entwickelt Microsoft Research zusammen mit Wissenschaftlern der Carnegie Mellon University ein System, das es Maschinen erlaubt, Bilder zu untersuchen. Das System soll dann in der Lage sein, Fragen in der Syntax natürlicher Sprache zu beantworten. Auch Microsoft will das neue System in der Praxis einsetzen, nennt aber noch keinen Zeitrahmen.

Wie Microsoft Research in einem Blog erklärt, kommen dabei Bilderkennung, Deep Learning und auch Funktionen für die Spracherkennung zu Einsatz, um Bilder und Fragen zu analysieren. Als Beispiel nennen die Forscher ein Foto, das zwei Hunde zeigt, die in einem Fahrradkorb sitzen. Dazu könne die Frage lauten: “Was sitzt im Fahrradkorb”.

Mit Hilfe von maschinellem Lernen, Sprach- und Bilderkennung will Microsoft ein System entwickeln, das auf menschliche Fragen antwortet. (Bild: Microsoft)
Mit Hilfe von maschinellem Lernen, Sprach- und Bilderkennung will Microsoft ein System entwickeln, das auf menschliche Fragen antwortet. (Bild: Microsoft)

“Zuerst würde man in der ersten Informationsschicht die spezifischen Details erfassen – das Fahrrad, den Korb und was in dem Korb ist”, heißt es in dem Blog. “Dann würde eine zweite Schicht die fraglichen Schlüsselbereiche genau bestimmen – den Korb – und analysieren, was darin ist. Die Antwort: Hunde.”

Als Mensch konzentriere man sich auf das, was für die Beantwortung einer Frage notwendig sei. Das künstliche System hingegen muss mithilfe eines neuralen Netzwerks erfassen, welche Region für die Frage wichtig sei, und blendet irrelevanten Informationen aus. Das System erfasse Informationen, ähnlich wie menschliche Augen und das Gehirn. Das System analysiere die Darstellung und stellt dann Beziehungen zwischen verschiedenen Objekten her.

Deep Learning hingegen helfe, um visuelle Informationen zu extrahieren, die Bedeutung der Frage in natürlicher Sprache zu erkennen und in zwei Schritten die Regionen des Bildes einzuengen, um die richtige Antwort zu finden. “Das ist die Technik, die man sich vor wenigen Jahren nicht hätte vorstellen können: menschliches Verhalten zum Vorbild nehmen, um Probleme zu lösen”, ergänzte Li Deng, Forscher am Deep Learning Technology Center von Microsoft Research.

Microsoft geht davon aus, dass sich das System auch in der Praxis einsetzen lässt, beispielsweise für neue Applikationen, die Empfehlungen in Echtzeit abgeben oder gar menschliche Bedürfnisse voraussagen. Konkret nennt das Unternehmen ein Warnsystem für Fahrradfahrer, das dessen Umgebung mit einer Kamera erfasst. “Das System würde sich selbst fragen ‘Was ist links neben oder hinter mir’ oder ‘Überholen mich andere Fahrräder auf der linken Seite’ oder ‘Sind irgendwelche Jogger in meiner Nähe, die ich vielleicht nicht sehe’. “Die Antworten könnten dann automatisch in Richtungsanweisungen übersetzt werden, um Unfälle zu verhindern.

[mit Material von Stefan Beiersmann, ZDNet.com]

Tipp: Was wissen sie über Microsoft? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.