silicon.de: Der größte Teil der Zensus 2011 findet in den Rechnern der Verwaltungen statt. Können Sie schätzen, wie viele Datensätze insgesamt bewegt werden?


Otto Neuer, Bild: Informatica

Neuer: Bei rund 80 Millionen Deutschen handelt es sich um eine sehr große Datenmenge. Ich schätze, dass beim Zensus Daten im Petabyte-Bereich bewegt werden. Allerdings ist dies wirklich nur eine Schätzung.

silicon.de: Die Volkszählung 1987 ist schon eine Weile her. Haben die jetzt Zuständigen – Statistisches Bundesamt, Statistische Landesämter und Kommunen – überhaupt das technologische Know-how?

Neuer: Das Know-how ist vorhanden. Projekte dieser Größenordnung werden bereits in der Wirtschaft durchgeführt.

silicon.de: Was wird der Zensus kosten?

Neuer: Die statistischen Ämter haben die Kosten im Vorfeld kalkuliert: Die gesamten Kosten sollen sich demnach auf rund 710 Millionen Euro belaufen. Ob es bei dieser Summe bleiben wird, lässt sich vorab noch nicht sagen.

silicon.de: Stichtag der Datenerhebung war der 9. Mai, mit Ergebnissen ist jedoch erst Ende 2012 zu rechnen. Warum dauert dies so lange?

Neuer: Die Daten müssen aufbereitet und auf ihre Richtigkeit und Vollständigkeit überprüft werden, bevor man sie zusammenführen kann. Es besteht beispielsweise die Gefahr, dass Personen aufgrund falscher Namensschreibung doppelt erfasst werden. Dies muss sorgfältig kontrolliert und gegebenenfalls korrigiert werden. Nur wenn die Datenqualität stimmt, erhält man verwertbare Ergebnisse.

silicon.de: Die Volkszählung wird nach einer gemischten Methode durchgeführt, bei der mehrere Datenquellen – zum Beispiel Melde-Register, Bundesagentur für Arbeit – sowie Daten aus den Interviews zum Einsatz kommen. Erhöht diese Vielzahl an Quellen nicht die Fehlerrate?

Neuer: Selbstverständlich. Je mehr Daten und unterschiedliche Datenformate im Spiel sind, umso größer ist das Risiko, dass etwas schief gehen kann. Aber das muss nicht sein. Wenn das Projekt ordentlich aufgesetzt ist, lassen sich Pannen vermeiden. Bei der letzten Volkszählung wurde zum Beispiel zu spät bemerkt, dass ein Teil der Daten nicht eingereicht wurde. Solche Pannen lassen sich durch eine regelmäßige Synchronisierung der Daten vermeiden. Es können beispielsweise Alarmfunktionen eingerichtet werden, die melden, wenn Daten fehlen.

silicon.de: Was muss berücksichtigt werden, wenn so viele Daten zusammengeführt werden?

Neuer: Die Integration beziehungsweise Zusammenführung großer Datenmengen, die aus unterschiedlichen Datenquellen stammen und unterschiedliche Datenformate aufweisen, ist eine große Herausforderung. Bei der Programmierung der Software für diese Aufgabe muss größte Sorgfalt angewendet werden. Denn bei der Integration der Daten werden diese erfasst, indem in der Software alle für sie relevanten Kategorien aufgeführt werden. Wird eine Kategorie vergessen, kann dies das ganze Ergebnis verzerren. Da die Datenintegration mehrfach, sowohl auf Landes- als auch auf Bundesebene erfolgt, liegt hier eine Gefahr, dass sich Fehler einschleichen.

Ein weiterer wichtiger Aspekt ist die Datensäuberung und das Herausfiltern von Dubletten. Auch der Sicherstellung des Datenschutzes, insbesondere durch die Maskierung der Daten, kommt eine hohe Bedeutung bei. Neben den Kernaufgaben – der Zusammenführung und Säuberung der Daten – sind es auch die Einhaltung der geplanten Deadlines und der damit verbunden Kosten, die Schwierigkeiten bereiten können. Mitunter sind Datenprojekte komplexer, als anfangs vom Kunden dargestellt und demzufolge zeit- und kostenintensiver als ursprünglich geplant. Gute Projektvorbereitung im Vorfeld ist das A und O, um solche Probleme zu vermeiden.

silicon.de: Der Vorsitzende der Zensuskommission, Professor Dr. Gert G. Wagner, hat den BigBrotherAward 2011 in der Kategorie ‘Behörden und Verwaltung’ erhalten. Können Sie die Bedenken von Datenschützern nachvollziehen, wie sie sich auf der Seite zensus11.de äußern?

Neuer: Die Sorge um eine wirksame Anonymisierung der Daten ist durchaus verständlich, immerhin geht es ja um ganz persönliche Informationen. Eine wirklich wirksame Methode zu entwickeln ist schwierig, wir kennen diese Problematik aus verschiedenen Situationen.

silicon.de: Eine EU-Verordnung sieht vor, dass künftig alle zehn Jahre eine Volkszählung stattfinden soll. Stehen Aufwand und Nutzen hier in der richtigen Relation?

Neuer: Der Zensus liefert wichtige Informationen mit weitreichenden Konsequenzen für die Bürger: Die Daten sind beispielsweise relevant für den Länderfinanzausgleich, die Einteilung der Bundestagswahlkreise oder für die Berechnung des jährlichen Bruttoinlandsprodukts. Insofern ist es wichtig, dass man mit präzisen und korrekten Werten arbeitet. Mit der einfachen Hochrechnung der Ergebnisse alter Volkszählungen erhält man diese Präzision nicht. Die neue Register-basierte Methode wurde gewählt, um Kosten und Aufwand im Vergleich zur herkömmlichen Methode zu reduzieren. Ob die Methode sich bewährt und was besser gemacht werden kann, wird sich jetzt zeigen.

Silicon-Redaktion

View Comments

  • Petabyte
    Wenn wirklich alle 80 Mio. Einwohner Deutschlands befragt würden und dabei 1 Petabyte Daten zusammen kämen, dann wären die Fragebogenergebnisse 13 MB groß je Einwohner. In 13 MB lassen sich 10 hochauflösende Fotos oder 6,5 Mio. Zeichen Text ablegen. Das ist eine sehr uneffiziente Speicherung. Außerdem werden nicht alle 80 Mio. Einwohner befragt, sondern lediglich eine repräsentative Gruppe (was auch immer das bedeutet).
    Ich glaube Herr Neuer übertreibt ein wenig.

Recent Posts

Kubernetes in Cloud-Umgebungen

Ein elementarer Bestandteil einer effektiven Cloud-Strategie ist nach erfolgter Implementierung die künftige Verwaltung des Dienstes.

22 Stunden ago

Aras erweitert seine PLM-Plattform

Die Neuerungen sollen den Digital Thread, die Low-Code-Entwicklung, die Visualisierung komplexer Baugruppen und das Lieferantenmanagement…

24 Stunden ago

Manufacturing-X: Zurückhaltung überwiegt

Eine Bitkom-Umfrage attestiert der Datenraum-Initiative des Bundes hohe Bekanntheit in der Industrie. Doch noch ist…

1 Tag ago

Ransomware „Marke Eigenbau“

Ransomware-as-a-Service ist ein lukratives Geschäft und in den Händen professionell organisierter Gruppen. Jetzt können Kriminelle…

2 Tagen ago

Bad Bots: Risikofaktor mit hohen Folgekosten

Bad Bots richten nicht nur wirtschaftlichen Schaden an. Laut dem Bad Bot Report von Imperva…

3 Tagen ago

IT-Verantwortliche setzen auf KI-Hosting in Europa

Studie von OVHcloud verdeutlicht Stellenwert von Datenresidenz und Datensouveränität bei KI-Anwendungen.

4 Tagen ago