IBM macht Maschinen Lernen Open Source

IBM Logo (Bild: IBM)

Nach Google und Facebook will auch IBM mit SystemML, dem System für maschinelles Lernen, in der Open Source Community Fuß fassen.

IBMs SystemML, die Technologie für Maschinen Lernen, wurde jetzt von der Apache Foundation als Incubator-Projekt angenommen. Bereits im Juni hatte IBM diese Technologie als Open Source frei gegeben.

Apache Incubator ist sozusagen die Vorstufe für ein Projekt bei der Apache Software Foundation. Die Grundidee dieses Verfahrens ist sicherzustellen, dass der übermittelte Code den rechtlichen Ansprüchen der Foundation genügt und dass die Community den entsprechenden Leitlinien folgt.

ibm_watson_mergeSomit heißt die Technologie nicht mehr SystemML sondern Apache SystemML. Damit lassen sich branchenspezifische maschinenlern-Algorithmen für Analyse von Unternehmensdaten erstellen. IBM hatte diese Technologie mit der Idee entwickelt, eine Codebasis zu erstellen, die sich dann eigenständig an die Bedürfnisse der verschiedenen Branchen und Plattformen anpasst.

SystemML liefert ein deklaratives, hochskalierbares Maschinen Lernen (ML), das sich auf die flexible Spezifikation von ML-Algorithmen und die automatische Generierung von Runtime-Plans richtet. Die Technologie könne laut IBM auf Einwegeservern, In-Memroy und auch in verteilten Umgebungen auf Hadoop und Spark eingesetzt werden. Die entsprechenden Algorithmen werden in R oder Python verfasst.

Das erleichtere das Arbeiten mit der Technologie und sorge für eine gewisse Unabhängigkeit bei den Eingabeformaten und den physischen Daten-Repräsentationen. Zudem automatisiere SystemML die Optimierung von Daten-Charakteristika bezüglich Distribution, Disk-Datei-System und Verteilung und auch die Verarbeitung in einem verteilten System, wie es in einer Definition des neuen Apache-Projektes heißt.

Apache SystemML enthält nun mehr als 320 Patches für APIs, Data Ingestion, Dokumentaion und mehr als 90 Contributions für Apache Spark. Etwa 15 weitere Organisationen werden für die SystemML-Engine Beiträge leisten.

Für IBM stellt die Öffnung des Systems eine Möglichkeit dar, über ein erfolgreiches quelloffenes Projekt nachgelagerte kommerzielle analytische Produkte in den Markt zu bringen. So verfolgt IBM derzeit mit viel Engagement, einer neuen Beratungseinheit und Zukäufen die Entwicklung der KI-Lösung Watson.

IBM ist darüber hinaus nicht das erste Unternehmen, das den Schritt wagt, eine Maschinen-Lernen-Technologie zu öffnen: So hat Google erst vor wenigen Wochen das KI-Tool TensorFlow unter die Apache 2.0-Lizenz gestellt. Facebook hat ein entsprechendes Werkzeug an das Open Source Projekt Torch gespendet.

Für Anwender bedeutet dieser Trend deutlich mehr Auswahl bei Maschinen-Lern-Tools. Durch die Öffnung könnte sich auch die Entwicklung der Technologien beschleunigen, was dann zu besseren Tools führt. Beispiele wie MapReduce oder Hadoop, die heute aus der Big-Data-Branche nicht mehr wegzudenken sind, haben ihren Ursprung ebenfalls als Open Source Tools.