Ein höherer IQ für das Web

Das ‘Semantic Web’ soll das herkömmliche Web intelligenter machen. Die Webdaten werden mit zusätzlichen Informationen angefüttert und sind so leichter auffindbar.

Sie suchen auf ihrem Windows-Rechner eine Datei. Wie gehen Sie vor? Eine Möglichkeit: Sie öffnen den Windows-Explorer und klicken sich von oben nach unten durch die Verzeichnisstruktur. Die ist hierarchisch aufgebaut, so dass Sie die Datei schnell finden können – wenn Sie den Standort kennen.

Wenn Sie nicht ahnen, wo die Datei liegt, wird die Sache schwieriger. Denn der ‘Windows-Baum’ kennt als hierarchisches System nur wenige Beziehungen zwischen den Objekten. Das eine ist oben, das andere unten.

Erinnern sich Menschen dagegen an ein bestimmtes Ereignis, gehen sie anders vor. Wissenschaftler sagen, dass Informationen (Objekte) im Gehirn in einer netzartigen Struktur repräsentiert sind. Und dass zwischen den Objekten nicht nur zwei, sondern eine Vielzahl von Beziehungen herstellbar sind.

So könnte es eine gute Idee sein, das Netzmodell auch auf den Computer und das Web zu übertragen. Problem dabei: Wie sind die Objekte auffindbar, wenn sie nicht mehr hierarchisch gespeichert sind? Menschen erinnern sich um so deutlicher an Sachverhalte, je mehr Bedeutung sie für die Person besitzen.

Diese Bedeutung wollen die Anhänger der Idee des ‘Semantic Web’ (Semantik: Lehre von der Bedeutung) auch den Objekten auf Rechnern und im Internet verleihen. Das geschieht mit Hilfe der so genannten Metadaten (Daten über Daten), die jedem Objekt zugewiesen werden.

Die Idee geht auf den WWW-Vater Tim Berners-Lee zurück. Dieser veröffentlichte 1998 einen Plan für die Einführung des Semantic Web. Acht Jahre später findet die Idee in Forschungsinstituten und in Unternehmen immer mehr Befürworter.

Informationen aus unstrukturierten Daten

Zu diesen gehört Dieter Schieber, Leiter Information Integration and Business Intelligence im Böblinger IBM-Entwicklungslabor. Schieber entwickelt mit seinem Team die Suchlösung OmniFind und die Architektur UIMA (Unstructured Information Manager Architecture). Derzeit haben die Firmen mit einem steigenden Zeitaufwand für die Recherche nach relevanten Daten zu kämpfen, sagt er. Die Informationen lägen in den Unternehmen in verschiedenen Systemen vor und müssten erst in Beziehung gesetzt werden.

“Das Problem ist dabei nicht die Menge, sondern die Form, in der die Daten vorliegen.” Nur 15 Prozent aller Daten im Unternehmen und im Internet seien strukturiert. Eine strukturierte Information ist etwa eine E-Mail-Adresse. Der Text der E-Mail ist dagegen unstrukturiert – und kann dennoch wichtige Informationen liefern. “Diese Daten werden oft nicht gefunden.”

Hier könne die semantische Suche Abhilfe schaffen. Die herkömmliche Suche – etwa über Google – sei in vielen Teilen eine Stichwortsuche. Dabei werde ein Suchwort mit den Worten auf einer Internetseite verglichen. Dagegen greife die semantischen Suche auf die mitgespeicherte Bedeutung des Wortes zu. Die semantische Suche könne so Sinnzusammenhänge berücksichtigen und präzisere Ergebnisse liefern.