Nun hat Google dem ein Ende gesetzt. Das Suchportal sei nun in der Lage in PDF-Dokumenten eine Optical Character Recognition (OCR) durchzuführen. OCR liest Zeichen und Buchstaben aus den Bilddateien aus und indexiert so die Inhalte. Damit können Anwender nun auch innerhalb von Scans nach bestimmten Schlagworten und Begriffen suchen.
Egal ob in Behörden oder Forschungsberichte – täglich wandern Tausende solcher PDF-Dokumente ins Web. Diese Dokumente enthalten aber meist keinen Text, sondern Bilder eines Textes. “Daher waren solche Dokumente in der Vergangenheit selten in den Suchergebnissen enthalten, weil wir über den Inhalt keine genauen Angaben hatten”, heißt es in einem Google-Blog dazu.
Die Suchmaschine konnte bisher nur über externe Verweise auf das Dokument Rückschlüsse über den Inhalt treffen. Wurden bei einer Anfrage solche Dokumente gelistet, spuckte das Portal nur einen Titel aus, jedoch keine Inhaltszusammenfassung.
Diese neue Form der Indexierung bietet technisch einige Herausforderungen. Denn solche Scans haben ja nicht nur Bilder von Buchstaben, sondern beinhalten auch andere Informationen, wie zum Beispiel Ringe von abgestellten Kaffetassen, kleine Verunreinigungen, die die Software vielleicht als Punkt interpretieren könnte, oder andere Beeinträchtigungen.
Für den menschlichen Leser ist es selten ein Problem, zwischen einem Kaffefleck und einem O zu unterscheiden, anders aber für den Rechner. Wie zwei Beispiele zeigen, haben die Entwickler bei Google jedoch diese Herausforderung gemeistert:
Beispiel 1: ‘Repairing Aluminum Wiring’
Beispiel 2: ‘The performance of spin lock alternatives’
„Aurora“ läuft beim Argonne National Laboratory des US-Energieministeriums und hat auf 87 Prozent des Systems…
Europäischer Supercomputer JEDI kommt auf den ersten Platz in der Green500-Liste der energieeffizientesten Supercomputer.
Data Awakening: Huawei präsentierte beim Innovative Data Infrastructure Forum 2024 in Berlin neue, auf KI…
Um ihre Verteidigung zu stärken, müssen Staaten und Unternehmen sicherstellen, dass KRITIS-Betreiber nicht nur die…
Reichen die Sicherheitsvorkehrungen der KRITIS-Betreiber bereits aus? Das BSI liefert dazu Kennzahlen auf einer neuen…
Laut Kaspersky ist Schadsoftware die zweithäufigste Bedrohung. Angriffe auf vernetzte Fahrzeuge folgen erst mit Abstand.