Google digitalisiert eine Million deutsche Bücher

EnterpriseSoftware

Google und die Bayerische Staatsbibliothek (BSB) haben eine mehrjährige Kooperation vereinbart.

Google wird alle Bücher der Bibliothek digitalisieren, die nicht mehr dem Urheberschutz unterliegen und sie in die Google-Buchsuche integrieren. Nach deutschem Recht erlischt der Urheberschutz 70 Jahre nach dem Tod des Autors.

Nach Angaben von Jens Redmer, EMEA-Direktor der Google-Buchsuche, wollen die BSB und Google etwa eine Million Bücher digitalisieren. Digitalisierung bedeutet, dass die Werke zunächst gescannt werden. Eine OCR-Software (Optical Character Recognition) extrahiert dann die Texte – die indexiert und somit durchsuchbar werden.

Die digitalisierten Bücher werden auf hochverfügbaren Servern von Google gespeichert. Die BSB erhält Kopien der Werke. Damit stünden die Bücher auch unabhängig vom Unternehmen Google zur Verfügung, so Redmer.

Google trägt die vollen Kosten, die laut Redmer “im Millionenbereich” liegen. Das Unternehmen wolle mit der Digitalisierung der BSB-Bücher die Qualität seiner Suche verbessern und die Loyalität seiner Nutzer erhöhen – so dass sich das Projekt langfristig lohne.

Die Werke werden sowohl über die Google-Buchsuche als auch die BSB-Webseite zur Verfügung gestellt. Wann die ersten Bestände online sind, stehe noch nicht fest. “Die operativen Faktoren müssen noch definiert werden.” Der Start erfolge so schnell wie möglich.

Digitalisierungsprojekte solchen Ausmaßes seien nur unter immensen Kosten zu bewältigen und bedürften einer anspruchsvollen Logistik, sagte Thomas Goppel, Bayerns Wissenschaftsminister. Der Brand der Anna-Amalia-Bibliothek in Weimar habe gezeigt, wie gefährdet wertvolle Bücher sind. Die Digitalisierung könne Wissen bewahren und zugleich besser zugänglich machen.

Die BSB ist die erste deutsche Bibliothek, die an Googles Bibliotheksprojekt teilnimmt. Bisher verwenden in Europa nur Bibliotheken in Barcelona, Madrid und Oxford die Google-Buchsuche. US-Teilnehmer sind etwa die Universitätsbibliotheken von Harvard, Princeton und Stanford. Google arbeitet zudem mit der US Library of Congress in einem Pilotprojekt zur Digitalisierung zusammen.

Google verfolgt das ehrgeizige Programm, das gesamte gedruckte Wissen im Internet auffindbar zu machen. Die Buchsuche speist sich dabei aus zwei Quellen: dem Verlagsprogramm und dem Bibliotheksprojekt.

Im Verlagsprogramm sehen die Nutzer eine begrenzte Anzahl von Seiten, die für ihre Suchanfrage relevant sind. Bei Interesse kann sich der Anwender zur Webseite des Verlages oder eines Online-Händlers durchklicken und das Buch kaufen. Google bekommt nach eigenen Angaben keine Vermittlungsprovision, wenn Nutzer Bücher kaufen.

Die Verlage entscheiden demnach selbst, ob sie auf diesen Seiten Anzeigen zulassen. Falls sie Werbung schalten, leitet Google einen Teil des Erlöses an den Verlag weiter. Wenn Verlage oder Autoren nicht möchten, dass ihre Bücher digitalisiert werden, können sie Google informieren. Man schließe sie dann aus der Suche aus, hieß es.

Ein Bibliotheksbuch wird dagegen vollständig gezeigt, sofern der Urheberschutz abgelaufen ist. Wenn Bücher geschützt sind, werden nur Daten wie Buchtitel und Name des Autors geliefert – sowie zwei oder drei Textauszüge, so genannte Snippets. Gegebenenfalls wird auf Bibliotheken verwiesen, die das Buch im Bestand haben – oder auf Händler, die es zum Kauf anbieten.