Google findet jetzt auch Gescanntes

Nun hat Google dem ein Ende gesetzt. Das Suchportal sei nun in der Lage in PDF-Dokumenten eine Optical Character Recognition (OCR) durchzuführen. OCR liest Zeichen und Buchstaben aus den Bilddateien aus und indexiert so die Inhalte. Damit können Anwender nun auch innerhalb von Scans nach bestimmten Schlagworten und Begriffen suchen.

Egal ob in Behörden oder Forschungsberichte – täglich wandern Tausende solcher PDF-Dokumente ins Web. Diese Dokumente enthalten aber meist keinen Text, sondern Bilder eines Textes. “Daher waren solche Dokumente in der Vergangenheit selten in den Suchergebnissen enthalten, weil wir über den Inhalt keine genauen Angaben hatten”, heißt es in einem Google-Blog dazu.

Die Suchmaschine konnte bisher nur über externe Verweise auf das Dokument Rückschlüsse über den Inhalt treffen. Wurden bei einer Anfrage solche Dokumente gelistet, spuckte das Portal nur einen Titel aus, jedoch keine Inhaltszusammenfassung.

Diese neue Form der Indexierung bietet technisch einige Herausforderungen. Denn solche Scans haben ja nicht nur Bilder von Buchstaben, sondern beinhalten auch andere Informationen, wie zum Beispiel Ringe von abgestellten Kaffetassen, kleine Verunreinigungen, die die Software vielleicht als Punkt interpretieren könnte, oder andere Beeinträchtigungen.

Für den menschlichen Leser ist es selten ein Problem, zwischen einem Kaffefleck und einem O zu unterscheiden, anders aber für den Rechner. Wie zwei Beispiele zeigen, haben die Entwickler bei Google jedoch diese Herausforderung gemeistert:

Beispiel 1: ‘Repairing Aluminum Wiring’

Beispiel 2: ‘The performance of spin lock alternatives’

Silicon-Redaktion

Recent Posts

Podcast: Zero Trust zum Schutz von IT- und OT-Infrastruktur

"Das Grundprinzip der Zero Trust Architektur hat sich bis heute nicht geändert, ist aber relevanter…

3 Tagen ago

Malware April 2024: Aufstieg des Multi-Plattform-Trojaners „Androxgh0st“

Androxgh0st zielt auf Windows-, Mac- und Linux-Plattformen ab und breitet sich rasant aus. In Deutschland…

4 Tagen ago

Selbstangriff ist die beste Verteidigung

Mit autonomen Pentests aus der Cloud lassen sich eigene Schwachstelle identifizieren.

4 Tagen ago

Prozessautomatisierung im Distributionslager

Die Drogeriekette Rossmann wird ihr neues Zentrallager in Ungarn mit Software von PSI steuern.

5 Tagen ago

Wie autonome Fahrzeuge durch Quantencomputing sicherer werden können

Automobilhersteller planen, Quantentechnologie zunehmend auch bei fortschrittlichen Fahrerassistenzsystemen (ADAS) einzusetzen.

5 Tagen ago

Heineken plant Bedarfe mit KI-Lösung von Blue Yonder

Blue Yonder soll mehr Nachhaltigkeit entlang der Lieferkette der internationale Brauerei ermöglichen.

5 Tagen ago