Google dicht auf den Fersen: Freie Suchmaschinen

Während Google mit dem Börsengang beschäftigt ist, sägen freie Entwickler am Stuhl des Such-Primus. Sie wollen eine Suchtechnik, die der ganzen Welt gehört.

Google beherrscht den Markt für die Internet-Suche – noch. Denn die Rivalen Microsoft und Yahoo arbeiten fieberhaft an verbesserten Suchtechniken. Doch nicht nur das: Jetzt wollen freie Entwickler mit der Open-Source-Software Nutch und dem Peer-to-Peer-Netz Grub die Internet-Suche umkrempeln.
“Alle herkömmlichen Suchmaschinen entscheiden nach geheimen Methoden, welche Dokumente einer Suchanfrage am besten entsprechen”, sagt Nutch-Begründer Doug Cutting. Die Menschen hätten jedoch ein Recht darauf zu erfahren, wie eine Suchmaschine funktioniere. Behörden und Werbekunden sollten weniger Einfluss auf die Suchergebnisse erhalten.

So liefert das Projekt Nutch die Suchergebnisse mit etwas Neuem aus: dem Link ‘Explain’. Klickt ein Anwender darauf, kann er nachlesen, nach welchen Formeln die Suchergebnisse bestimmt wurden.

Damit erleichtert Nutch den Suchmaschinen-Spammern (Search Engine Optimizer, SEOs) die Arbeit, kritisiert Danny Sullivan, Betreiber der Site Searchenginewatch. Cutting wiegelt jedoch ab. Es komme darauf an, Suchformeln zu entwickeln, die auch funktionierten, obwohl ihre Funktionsweise bekannt sei. Außerdem habe die Geheimhaltung im Kampf gegen die SEOs bisher nicht viel genutzt.

Seit 2002 arbeitet Cutting mit einem kleinen Team von Festangestellten und Hunderten freien Entwicklern an Nutch. Cutting ist seit etwa 15 Jahren im Geschäft, war unter anderem bei Excite beschäftigt und schrieb 1998 die Open-Source-Search-Library Lucene. Diese ist heute Teil des ‘Apache Jakarta Pojektes’.

Nutch ist gegenwärtig mehr ein Programm als eine webbasierte Suchmaschine. Interessenten können es herunterladen und in ihre Seiten einbauen. Cutting hofft, dass Unternehmen oder Universitäten die Software dazu nutzen, um eine webbasierte Suche anzubieten. Im Moment erfasst Nutch bis zu einer Milliarde Seiten und durchsucht sowohl das Intranet als auch das Web. Zum Vergleich: Google indexiert gegenwärtig vier Milliarden Seiten.

Die Nutch-Entwickler haben jetzt eine grafische Oberfläche geschrieben, die dem Layout von Google ähnelt. “Diese Oberfläche bauen wir bald in das System ein”, so Cutting. Er hofft, dass noch mehr Entwickler an Nutch mitarbeiten. “Da draußen gibt es eine Menge kluge Leute, die Google nicht alle einstellen kann,” sagte er dem Magazin Business2.0.

Ein Großunternehmen hat Nutch bereits eingebunden: die Yahoo Research Labs. Laut Cutting ist Nutch unabhängig und nicht gewinnorientiert. Spenden sind jedoch willkommen. So ist Yahoo vermutlich der größte Nutch-Sponsor.

Welcher Betrag in Nutch fließt, wollte Yahoo nicht mitteilen. Yahoo habe ihm die Unterstützung angeboten, sagte Cutting dem Branchendienst Google Blogoscoped. Er habe auch Google-Gründer Larry Page um eine Förderung gebeten. Page habe das jedoch mit der Begründung abgelehnt, seinen Konkurrenten nicht helfen zu wollen.

Page ist nicht der einzige IT-Promi, zu dem Cutting einen Draht hat. Im Vorstand von Nutch sitzen Mitch Kapor, Lotus-Gründer und Mitbegründer der Electronic Frontier Foundation, und Tim O’Reilly, Chef des gleichnamigen Fachverlages. Auch Brewster Kahle, der Gründer des Internet Archive, unterstützt das Projekt.

Derweil sucht Cutting ständig nach neuen Sponsoren. Diese sollen Hardware für Testläufe finanzieren. “Genau das ist das Problem – die Finanzierung”, sagte Stefan Karzauninkat, Director Quality Managment bei der Suchmaschine Seekport, gegenüber silicon.de. Eine General-Interest-Suche in hoher Qualität bereitzustellen, verschlinge einen sechs- oder siebenstelligen Betrag. “Das Konzept von Nutch ist sicher interessant”, so Karzauninkat. Es könne erfolgreich sein, wenn sich die Open-Source-Entwickler auf die Suche in einem begrenzten Datenbestand beschränkten.

Zudem dürfe man das Problem des Spam nicht unterschätzen. “Wer schon einmal mit den Spam-Mengen und der Energie der Search Engine Optimizer zu tun hatte, merkt schnell, dass eine General-Interest-Suchmaschine nicht nur mit technischen und akademischen Problemen konfrontiert ist, sondern sich auch inhaltlichen Grundsatzfragen stellen muss”, so Karzauninkat.

“Nutch verfügt nicht über die Hardware, die eine Suchmaschine braucht, um so groß wie Google zu werden”, meinte auch Brian Piccolo, Analyst des US-Marktforschungsunternehmens Pixel Brigde. Einige kommerzielle Nischenanbieter könnten mit der Nutch-Technik jedoch erfolgreich sein.

Mit den Finanznöten von Nutch könnte das Peer-to-Peer-Netz Grub Schluss machen, glaubt Andre Stechert, Grub’s Director of Technology. Der Grund: Grub greift auf ungenutzte Leitungs- und Rechenkapazitäten  vieler Privatanwender zurück. Wie beim Projekt seti@home bietet Grub einen Bildschirmschoner zum freien Download an. Installiert ein Anwender den Screensaver, ruft Grub die freien Kapazitäten ab, um etwa zehn Milliarden Webseiten zu durchsuchen und zu indexieren. Grub gehört dem US-Unternehmen Looksmart, das unter anderem die Suchmaschine Wisenut betreibt.

Nutch-Architekt Cutting zweifelt jedoch, dass Grub eine Hilfe für Nutch sein könnte. So dauert es einige Sekunden, bis die Grub-Suchergebisse vorliegen. Und das auch dann, wenn die Rechner über Breitbandleitungen verbunden sind. Außerdem ist nur der Grub-Client Open-Source-Software, nicht aber der Grub-Server. Auch Seekport-Manager Karzauninkat ist skeptisch: “Bei Grub bleiben die Kosten bei den Privatanwendern hängen.”

Cutting arbeitet derweil weiter daran, der Linus Torvalds der Internet-Suche zu werden. Die Suche sei für viele Menschen das Wichtigste im Internet – jedoch gebe es immer weniger Alternativen, sagt Cutting. Und: “Wäre es nicht schön, wenn es eine Suchtechnik gebe, die der ganzen Welt gehört?”