IBM präsentiert Suchtechnologie für unstrukturierte Daten

Die ‘Unstructured Information Management Architechture’ soll Textdokumente, Mails, Webseiten und Bilder besser verstehen.

IBM hat jetzt eine Technologie veröffentlicht, die Suche und Textanalyse in unstrukturierten Daten ermöglicht. Die Spezifikation ‘Unstructured Information Management Architechture’ (UIMA) will IBM zudem als Open Source veröffentlichen. Die Architektur stöbert Trends, Fakten und Verbindungen in Mails, Webseiten, Bildern, Textdokumenten sowie Multimedia-Inhalten auf. Über die Entwicklerseiten von Sourceforge wird der Code voraussichtlich gegen Ende des Jahres verfügbar sein, teilt IBM mit. 

Anders als die meisten anderen Suchmaschinen, beschränkt sich UIMA nicht nur auf die Suche anhand von Schlagworten, um verschiedene Bedeutungen zu unterscheiden. Das erklärte Nelson Mattos, Vice President of Information Integration bei IBM, im Rahmen der Veröffentlichung auf der LinuxWorld in San Francisco.

Mit der Offenlegung des Codes wolle IBM “eine breite Akzeptanz auf dem Markt” schaffen, erklärte Mattos. Unternehmen, Regierungen und Universitäten sowie unabhängige Softwarehersteller würden dadurch einfacher Anwendungen oder Erweiterungen rund um UIMA entwickeln können.

Das erste kommerzielle Produkt mit UIMA ist mit ‘Information Integrator OmniFind Edition’, einem Teil der WebSphere-Suite, ab sofort erhältlich. Bis andere ISVs (Independent Software Vendors) ihre Anwendungen mit der offenen Architektur kompatibel gemacht haben, werde wohl noch einige Zeit verstreichen, wie einige Analysten vorhersagen.

Bei der etwa vierjährigen Entwicklung waren neben der DARPA Advanced Research Projects Agency des US-Verteidigungsministeriums auch Universitäten und private Forschungseinrichtungen beteiligt. Die Universitäten Carnegie Mellon, Columbia und Massachusetts haben mitentwickelt und setzen nun die Architektur für Forschungszwecke ein. Erst vor wenigen Wochen gab IBM eine Suchtechnologie bekannt, die auch Inhalte in dynamischen Webseiten ausfindig machen kann.

Das Analysieren unstrukturierter Informationen ist so etwas wie der Heilige Gral der Suchtechnologien. Etwa 85 Prozent aller Unternehmensdaten schwirren unstrukturiert außerhalb von Datenbanken herum, schätzen Analysten. Etwa ein Drittel ihrer Zeit verschwenden folglich Angestellte damit, relevante Informationen in der immer größer werdenden Datenflut zu suchen, heißt es von IBM.

“Die Grenze zwischen den strukturierten und den unstrukturierten ‘Welten’ ist noch immer eine der großen Herausforderungen der IT-Industrie. Business Intelligence und Wissensmanagement haben sich jeweils beinahe isoliert von einander entwickelt, und doch haben sie die gleiche Aufgabe – eine klare und verwertbare Sicht auf Datenbestände”, meint Ian Charlesworth, Senior Analyst beim Marktforschungsunternehmen Ovum. In IBMs Technologie sieht er eine Basis, auf welcher der Brückenschlag zwischen den beiden Welten gelingen könnte.