Google findet jetzt auch Gescanntes

Nun hat Google dem ein Ende gesetzt. Das Suchportal sei nun in der Lage in PDF-Dokumenten eine Optical Character Recognition (OCR) durchzuführen. OCR liest Zeichen und Buchstaben aus den Bilddateien aus und indexiert so die Inhalte. Damit können Anwender nun auch innerhalb von Scans nach bestimmten Schlagworten und Begriffen suchen.

Egal ob in Behörden oder Forschungsberichte – täglich wandern Tausende solcher PDF-Dokumente ins Web. Diese Dokumente enthalten aber meist keinen Text, sondern Bilder eines Textes. “Daher waren solche Dokumente in der Vergangenheit selten in den Suchergebnissen enthalten, weil wir über den Inhalt keine genauen Angaben hatten”, heißt es in einem Google-Blog dazu.

Die Suchmaschine konnte bisher nur über externe Verweise auf das Dokument Rückschlüsse über den Inhalt treffen. Wurden bei einer Anfrage solche Dokumente gelistet, spuckte das Portal nur einen Titel aus, jedoch keine Inhaltszusammenfassung.

Diese neue Form der Indexierung bietet technisch einige Herausforderungen. Denn solche Scans haben ja nicht nur Bilder von Buchstaben, sondern beinhalten auch andere Informationen, wie zum Beispiel Ringe von abgestellten Kaffetassen, kleine Verunreinigungen, die die Software vielleicht als Punkt interpretieren könnte, oder andere Beeinträchtigungen.

Für den menschlichen Leser ist es selten ein Problem, zwischen einem Kaffefleck und einem O zu unterscheiden, anders aber für den Rechner. Wie zwei Beispiele zeigen, haben die Entwickler bei Google jedoch diese Herausforderung gemeistert:

Beispiel 1: ‘Repairing Aluminum Wiring’

Beispiel 2: ‘The performance of spin lock alternatives’

Silicon-Redaktion

Recent Posts

HPE knackt mit Supercomputer Aurora erneut die Exascale-Schwelle

„Aurora“ läuft beim Argonne National Laboratory des US-Energieministeriums und hat auf 87 Prozent des Systems…

7 Stunden ago

Exascale-Supercomputer JUPITER setzt Maßstäbe für Energieeffizienz

Europäischer Supercomputer JEDI kommt auf den ersten Platz in der Green500-Liste der energieeffizientesten Supercomputer.

7 Stunden ago

Papierhersteller der digitalen Ära

Data Awakening: Huawei präsentierte beim Innovative Data Infrastructure Forum 2024 in Berlin neue, auf KI…

2 Tagen ago

Cyberangriffe bedrohen die Demokratie

Um ihre Verteidigung zu stärken, müssen Staaten und Unternehmen sicherstellen, dass KRITIS-Betreiber nicht nur die…

4 Tagen ago

Kritische Infrastruktur: BSI-Zahlen zur Robustheit

Reichen die Sicherheitsvorkehrungen der KRITIS-Betreiber bereits aus? Das BSI liefert dazu Kennzahlen auf einer neuen…

5 Tagen ago

Automotive: Phishing-Angriffe auf jedes zweite Unternehmen

Laut Kaspersky ist Schadsoftware die zweithäufigste Bedrohung. Angriffe auf vernetzte Fahrzeuge folgen erst mit Abstand.

5 Tagen ago