Zensus: “Daten im Petabyte-Bereich”

Big DataData & StorageE-GovernmentEnterpriseManagementProjekteRechtRegulierungSicherheitSoftwareSoftware-Hersteller

Seit dem 9. Mai werden im Zensus 2011 enorme Datenmengen bewegt und integriert. silicon.de befragte dazu Otto Neuer, Managing Director Central Europe bei Informatica. Das Unternehmen bietet Software für die Datenintegration an und hat mit Daten-Projekten in Wirtschaft und Verwaltung Erfahrung.

silicon.de: Der größte Teil der Zensus 2011 findet in den Rechnern der Verwaltungen statt. Können Sie schätzen, wie viele Datensätze insgesamt bewegt werden?

Otto Neuer, Bild: Informatica
Otto Neuer, Bild: Informatica

Neuer: Bei rund 80 Millionen Deutschen handelt es sich um eine sehr große Datenmenge. Ich schätze, dass beim Zensus Daten im Petabyte-Bereich bewegt werden. Allerdings ist dies wirklich nur eine Schätzung.

silicon.de: Die Volkszählung 1987 ist schon eine Weile her. Haben die jetzt Zuständigen – Statistisches Bundesamt, Statistische Landesämter und Kommunen – überhaupt das technologische Know-how?

Neuer: Das Know-how ist vorhanden. Projekte dieser Größenordnung werden bereits in der Wirtschaft durchgeführt.

silicon.de: Was wird der Zensus kosten?

Neuer: Die statistischen Ämter haben die Kosten im Vorfeld kalkuliert: Die gesamten Kosten sollen sich demnach auf rund 710 Millionen Euro belaufen. Ob es bei dieser Summe bleiben wird, lässt sich vorab noch nicht sagen.

silicon.de: Stichtag der Datenerhebung war der 9. Mai, mit Ergebnissen ist jedoch erst Ende 2012 zu rechnen. Warum dauert dies so lange?

Neuer: Die Daten müssen aufbereitet und auf ihre Richtigkeit und Vollständigkeit überprüft werden, bevor man sie zusammenführen kann. Es besteht beispielsweise die Gefahr, dass Personen aufgrund falscher Namensschreibung doppelt erfasst werden. Dies muss sorgfältig kontrolliert und gegebenenfalls korrigiert werden. Nur wenn die Datenqualität stimmt, erhält man verwertbare Ergebnisse.

silicon.de: Die Volkszählung wird nach einer gemischten Methode durchgeführt, bei der mehrere Datenquellen – zum Beispiel Melde-Register, Bundesagentur für Arbeit – sowie Daten aus den Interviews zum Einsatz kommen. Erhöht diese Vielzahl an Quellen nicht die Fehlerrate?

Neuer: Selbstverständlich. Je mehr Daten und unterschiedliche Datenformate im Spiel sind, umso größer ist das Risiko, dass etwas schief gehen kann. Aber das muss nicht sein. Wenn das Projekt ordentlich aufgesetzt ist, lassen sich Pannen vermeiden. Bei der letzten Volkszählung wurde zum Beispiel zu spät bemerkt, dass ein Teil der Daten nicht eingereicht wurde. Solche Pannen lassen sich durch eine regelmäßige Synchronisierung der Daten vermeiden. Es können beispielsweise Alarmfunktionen eingerichtet werden, die melden, wenn Daten fehlen.

silicon.de: Was muss berücksichtigt werden, wenn so viele Daten zusammengeführt werden?

Neuer: Die Integration beziehungsweise Zusammenführung großer Datenmengen, die aus unterschiedlichen Datenquellen stammen und unterschiedliche Datenformate aufweisen, ist eine große Herausforderung. Bei der Programmierung der Software für diese Aufgabe muss größte Sorgfalt angewendet werden. Denn bei der Integration der Daten werden diese erfasst, indem in der Software alle für sie relevanten Kategorien aufgeführt werden. Wird eine Kategorie vergessen, kann dies das ganze Ergebnis verzerren. Da die Datenintegration mehrfach, sowohl auf Landes- als auch auf Bundesebene erfolgt, liegt hier eine Gefahr, dass sich Fehler einschleichen.

Ein weiterer wichtiger Aspekt ist die Datensäuberung und das Herausfiltern von Dubletten. Auch der Sicherstellung des Datenschutzes, insbesondere durch die Maskierung der Daten, kommt eine hohe Bedeutung bei. Neben den Kernaufgaben – der Zusammenführung und Säuberung der Daten – sind es auch die Einhaltung der geplanten Deadlines und der damit verbunden Kosten, die Schwierigkeiten bereiten können. Mitunter sind Datenprojekte komplexer, als anfangs vom Kunden dargestellt und demzufolge zeit- und kostenintensiver als ursprünglich geplant. Gute Projektvorbereitung im Vorfeld ist das A und O, um solche Probleme zu vermeiden.

silicon.de: Der Vorsitzende der Zensuskommission, Professor Dr. Gert G. Wagner, hat den BigBrotherAward 2011 in der Kategorie ‘Behörden und Verwaltung’ erhalten. Können Sie die Bedenken von Datenschützern nachvollziehen, wie sie sich auf der Seite zensus11.de äußern?

Neuer: Die Sorge um eine wirksame Anonymisierung der Daten ist durchaus verständlich, immerhin geht es ja um ganz persönliche Informationen. Eine wirklich wirksame Methode zu entwickeln ist schwierig, wir kennen diese Problematik aus verschiedenen Situationen.

silicon.de: Eine EU-Verordnung sieht vor, dass künftig alle zehn Jahre eine Volkszählung stattfinden soll. Stehen Aufwand und Nutzen hier in der richtigen Relation?

Neuer: Der Zensus liefert wichtige Informationen mit weitreichenden Konsequenzen für die Bürger: Die Daten sind beispielsweise relevant für den Länderfinanzausgleich, die Einteilung der Bundestagswahlkreise oder für die Berechnung des jährlichen Bruttoinlandsprodukts. Insofern ist es wichtig, dass man mit präzisen und korrekten Werten arbeitet. Mit der einfachen Hochrechnung der Ergebnisse alter Volkszählungen erhält man diese Präzision nicht. Die neue Register-basierte Methode wurde gewählt, um Kosten und Aufwand im Vergleich zur herkömmlichen Methode zu reduzieren. Ob die Methode sich bewährt und was besser gemacht werden kann, wird sich jetzt zeigen.