Google findet jetzt auch Gescanntes

Zahlreicher Suchmaschinen zum Trotz behielt das Web viele wertvolle Informationen für sich. Und zwar in Form von PDF-Dateien, die gescannte Dokumente enthalten.

Nun hat Google dem ein Ende gesetzt. Das Suchportal sei nun in der Lage in PDF-Dokumenten eine Optical Character Recognition (OCR) durchzuführen. OCR liest Zeichen und Buchstaben aus den Bilddateien aus und indexiert so die Inhalte. Damit können Anwender nun auch innerhalb von Scans nach bestimmten Schlagworten und Begriffen suchen.

Egal ob in Behörden oder Forschungsberichte – täglich wandern Tausende solcher PDF-Dokumente ins Web. Diese Dokumente enthalten aber meist keinen Text, sondern Bilder eines Textes. “Daher waren solche Dokumente in der Vergangenheit selten in den Suchergebnissen enthalten, weil wir über den Inhalt keine genauen Angaben hatten”, heißt es in einem Google-Blog dazu.

Die Suchmaschine konnte bisher nur über externe Verweise auf das Dokument Rückschlüsse über den Inhalt treffen. Wurden bei einer Anfrage solche Dokumente gelistet, spuckte das Portal nur einen Titel aus, jedoch keine Inhaltszusammenfassung.

Diese neue Form der Indexierung bietet technisch einige Herausforderungen. Denn solche Scans haben ja nicht nur Bilder von Buchstaben, sondern beinhalten auch andere Informationen, wie zum Beispiel Ringe von abgestellten Kaffetassen, kleine Verunreinigungen, die die Software vielleicht als Punkt interpretieren könnte, oder andere Beeinträchtigungen.

Für den menschlichen Leser ist es selten ein Problem, zwischen einem Kaffefleck und einem O zu unterscheiden, anders aber für den Rechner. Wie zwei Beispiele zeigen, haben die Entwickler bei Google jedoch diese Herausforderung gemeistert:

Beispiel 1: ‘Repairing Aluminum Wiring’

Beispiel 2: ‘The performance of spin lock alternatives’