Gratis-Google-Tool räumt Daten auf

Mit der Version 2.0 von ‘Refine’ überarbeitet Google seinen quelloffenes Tool für Datenreinigung und -sortierung.

Refine, das aus Gridworks hervorgegangen ist, sortiert, analysiert und transformiert Datenquellen und fügt durcheinandergewürfelte Informationen zusammen. Refine ist eine Toolsammlung für den Desktop, mit der sich inkonsistente Daten zähmen lassen. Die Ergebnisse können in JSON (JavaScript Object Notation) exportiert und wieder in HTML-Tabellen umgeformt werden.

Laut Google kann Refine jetzt Daten aus unterschiedlichen Datenbanken zusammenführen. Außerdem sind neue Befehle für die Analyse der Daten hinzugekommen. So stellt das Tool eine Sprache zur Verfügung, über die sich Daten auswerten lassen. Zudem kann es bestimmte Daten isolieren und diese dann mit weiteren Filtern nachbearbeiten.

Refine durchsucht zum Beispiel eine Datenbank nach falsch geschriebenen Begriffen und tauscht diese gegen die richtige Buchstabierung aus. Dabei spricht man von Normalisierung, was im Grunde genommen nichts Aufregendes ist. Der Vorteil von Refine ist aber, dass der Anwender nicht für jedes Daten-Set neue Befehle und Code schreiben muss – es muss überhaupt kein Code mehr geschrieben werden. Und die Ergebnisse lassen sich einfach portieren.