State of the art Datenaufbereitung bei der Strukturerhebung der Volkszählung Jean-Paul Kauthen, Eric Pearmund SAS-Forum, 15. Mai 1012
Traktanden Das BFS in Kürze Die neue Volkszählung Die Strukturerhebung der Volkszählung Der statistische Datenaufbereitungsprozess Die Systemintegration Die Validierungsprozesse Die Systemlandschaft Lessons learned 2
Das BFS in Kürze Gegründet im Jahr 1860 mit Sitz in Neuenburg seit 1998 Departement des Innern 633 FTE-Stellen (746 Mitarbeitende) (Stamm- und drittmittelfinanziertes Personal, Jahresdurchschnitt 2011) Rund 350 Publikationen pro Jahr Budget: 168 Mio. Franken ca. 400 SAS-User 3
Aufgaben des BFS Das Bundesamt für Statistik ist die zentrale Statistikstelle des Bundes. Es koordiniert die Bundesstatistik Es liefert statistische Informationen für die demokratische Entscheidungsfindung Es erstellt einheitliche Grundlagen im Interesse der nationalen und internationalen Vergleichbarkeit Beispiele von Statistiken: Güterverkehr, Kriminalität, Vornamen 4
Rechtliche Grundlagen der Volkszählung (VZ) Schweizerische Bundesverfassung (Art. 65, Abs. 2) Bundesgesetz über die Registerharmonisierung (23.6.2006) Bundesgesetz über die eidgenössische Volkszählung (22.6.2007) Bundesstatistikgesetz (9.10.1992) 5
Die Grundprinzipien der neuen VZ Die traditionelle Vollerhebung alle zehn Jahre wird durch ein rollendes jährliches VZ-Erhebungssystem abgelöst. Die neue Volkszählung stützt sich in erster Linie auf Register und Verwaltungsdaten (Kantonale und kommunale Einwohnerregister, Bundespersonenregister, eidg. Gebäude- und Wohnungsregister) ab. Zusätzlicher Informationsbedarf wird mittels ergänzender Stichprobenerhebungen abgedeckt (Strukturerhebung, thematische Erhebungen, Omnibus). Die ganze Statistikproduktion (von der Erhebung bis zum Output) wird in einem Gesamtsystem Haushalts- und Personenstatistiken integriert und koordiniert (Programm SHAPE) und im Rahmen von SIS@BFS abgewickelt. 6
Die VZ als Teil eines Gesamtsystems Neue Erhebungen im Rahmen der Volkszählung ab 2010 Registererhebungen Personenregister, Gebäude- und Wohnungsregister Strukturerhebung (jährliche grosse Stichprobe der Nichtregistermerkmale) Thematische Erhebungen Mobilität, Bildung, Gesundheit, Familien, Sprache, Religion und Kultur CH-Omnibus Heute bestehende Erhebungen Schweiz. Arbeitskräfteerhebung (SAKE) Einkommen und Lebensbedingungen (SILC) Haushaltsbudgeterhebung (HABE) 7
Das Produktionssystem umfasst verschiedenste Quellen und entsprechend viele Verarbeitungsschritte Basisstatistiken Gebäude- und Wohnungsregister Strukturstatistiken DWH Einwohnerregister Datenaufbereitung Auswertung Analyse Bundespersonenregister Inputdaten Aufbereitung Output Stichprobensystem thematische Statistiken Strukturerhebung Thematische Erhebungen und Omnibus 8
Die Statistiken können rasch aktualisiert und wiederkehrend erzeugt werden Basisstatistiken Gebäude- und Wohnungsregister Strukturstatistiken DWH Einwohnerregister Datenaufbereitung Auswertung Analyse Bundespersonenregister Inputdaten Aufbereitung Output Stichprobensystem thematische Statistiken Strukturerhebung Thematische Erhebungen und Omnibus 9
Strukturerhebung (SE) Jährliche Stichprobenerhebung bei 200 000 Personen (netto) Auskunftspflicht der Erhebung gemäss Volkszählungsgesetz (Art. 10) Gleichmässige Stichprobenverteilung, ca. 2.7% pro Gemeinde Durchführung als schriftlicher Erhebung oder per Internet Die Kantone können die Stichprobe des Bundes aufstocken, i.d.r. bis auf maximal 440 000 Personen, Bestellungen für 2011: ca. 277 000 (Nettostichprobe) Resultate: Indikatoren zu: Bevölkerung, Haushalt und Wohnung / Arbeit / Mobilität / Bildung / Sprache, Religion und Kultur / Familie 10
Personen- und Haushaltsfragebogen 11
Statistischer Datenaufbereitungsprozess (SDAP) Initialdatenaufbereitung Mikrodatenaufbereitung Makrodatenaufbereitung 12
MIA Workflow Eidgenössisches Departement des Innern EDI Initialdatenaufbereitung ETL-Prozess (Kanäle Papier und Internet) Automatische Kodierungen (Nomenklaturen und Listen) Automatische Validierungen (ca. 100 Regeln) Rollenzuteilungen Temporäre: Nachbearbeitung, Kodierung Call Center: Telefonische Rückfragen Projektteam: Spezialfälle Manuelle Nachbearbeitung, manuelle Kodierung, Behandlung von Spezialfällen, telefonische Rückfragen mit eigens hierfür entwickelter Manuellen Initialdatenaufbereitungs (MIA) - Applikation 13
14
Systemintegration Validation Scanning DSM DSMI Workflow IA MIA Mikro Makro ETL REG WAM esurvey Delivery Management IDP WAM DB sas MIA DB Initialdatenaufbereitung sas Mikro/Makro DWH externe Systeme 15
Workflow IA Validation (Workflow) sas MIA DB Der wichtigste Workflow ist der Lieferungs-Workflow für die Verarbeitung einer Lieferung vom Scanning Center oder von esurvey. Es werden vom Workflow 9 SAS Programme über SAS IOM aufgerufen: 1. Initialisierung (Anlegen der Verzeichnisse für SAS, Kopie der Files, ) 2. Technische Validierung (Prüfung der PageCodes, Identifiers, ) 3. Extract & Transformation der csv Files in eine SAS Datei 4. Load (Laden der Daten in die MIA DB) 5. Coding (Approx. Matching; Kodierungen/Abgleiche mit Nomenklaturen, Listen und Register (UPI, BUR)) 6. Sample (Abgleich mit Stichprobendatei, Laden der einzelnen Variabeln in die DB) 7. Validierungsprozess des Fragenbogens (Kontroll- und Einsetzungsregeln) 8. Rollenzuweisung (für die weitere Bearbeitung) 9. Create Call Center Report (Fehlermeldungen für die Rückfragen) 16
Validation (MIA) IA sas MIA MIA DB Die Validierung anhand von ca. 100 vordefinierten Regeln macht Konsistenz- Prüfungen auf den Dateninhalt eines Fragebogens und ist mit SAS-Macros realisiert. Die SAS-Schnittstelle Integrated Object Model (IOM) Bridge wird zur Integration für den Aufruf der Validierung aus der MIA benutzt. Anzahl concurrent User ca. 70 Der Benutzer triggert die manuelle Validierung von der Webapplikation aus: %_runruleset(questionaryinstance_oid=0123456789, RULESET_OID=ABCDEFGHIJKLMNOPQRSTUVWXYZ, RUNTRIGGER=MIA, SECTIONINSTANCE_OID=98765431); Ursprüngliche Gründe für die Validierung mit SAS: Viele BFS Mitarbeitende haben SAS Know How Flexibilität bei der selbständigen Änderung der Regeln 17
Systemlandschaft Webserver Informatica MS SQL.NET, Java Pgm Oracle SAS Mgmt console SAS 9.2 TS2M3 ODBC Ora SAS Metadata SAS Foundation SAS Access ODBC SAS Access Oracle Solaris 10 Patrol Jre 1.5 SEG 4.2 SAS Integr. Tech SPI Server ExpanDrive Entwicklung Referenz Abnahme Produktion Client Application OS & Data SAS Server 18
Nutzen des Systems, Erhebung 2011 (Stand 03.05.2012) 277 000 Fragebögen wurden validiert (Workflow) 48 000 telefonische Rückfragen 150 000 manuelle Kodierungen und Nachkontrollen 19
Kritischer Rückblick und lessons learned Sehr komplexes System Instabilitäten, Bugs Issues konnten nicht immer in nützlicher Frist gelöst werden Gute SAS-Entwickler sind rar (und teilweise kostenintensiv) Stärken von SAS im Offline/Batch-Modus, Schwächen im interaktiven/online-modus Performance Issues bei der MIA Anwendung Tuning Massnahmen wurden implementiert Gemeinsame Plattform mit beschränkten Ressourcen für mehrere Anwendungen Nutzung der Plattform wurde optimiert 20
www.statistik.admin.ch Zeichnung: Magi Wechsler für das BFS 21