Wolf Heinrich Reuter, B. A. Aufbau einer Infrastruktur für den Fernzugriff auf Mikrodaten bei Eurostat Im November 2011 konnte das Statistische Bundesamt im Rahmen des Gerhard-Fürst-Preises insgesamt drei hervorragende Arbeiten mit einem engen Bezug zur amtlichen Statistik auszeichnen. Die von Herrn Professor Dr. Ullrich Heilemann (Universität Leipzig), dem Vorsitzenden des unabhängigen Gutachtergremiums, vorgetragenen Laudationes wurden in der Ausgabe 12/2011 dieser Zeitschrift veröffentlicht. In den Ausgaben Februar und März 2012 haben bereits zwei der drei Preisträger des Jahres 2011 ihre Arbeiten in eigenen Beiträgen näher erläutert. Die Reihe über die im Jahr 2011 ausgezeichneten Arbeiten wird mit dem folgenden Beitrag von Herrn Wolf Heinrich Reuter abgeschlossen. Die an der Wirtschaftsuniversität Wien entstandene Bachelorarbeit Establishing an Infrastructure for Remote Access to Microdata at Eurostat von Herrn Wolf Heinrich Reuter wurde mit einem Förderpreis in der Kategorie Diplom-/Magisterarbeiten ausgezeichnet. 1 Einführung Politische Entscheidungsträger benötigen Informationen, um den Erfolg staatlicher Programme und Maßnahmen beurteilen zu können wie auch um neue Entscheidungen zu optimieren. Statistiken bieten der Wissenschaft die Datengrundlagen dafür, die politischen Entscheidungsträger bei dieser Aufgabe zu beraten und zu unterstützen. Dabei werden von den Wissenschaftlerinnen und Wissenschaftlern immer häufiger Mikrodaten, zum Beispiel über Haushalte, Unternehmen oder Personen, nachgefragt, um ihre Forschungsvorhaben durchzuführen. Für eine Nutzung solcher, unter dem Vertraulichkeitsschutz gesammelter Daten müssen zukunftsweisende Zugangswege geschaffen werden, die eine Wahrung der statistischen Geheimhaltung weiterhin gewährleisten, aber eine schnellere Analyse der Daten als bisher ermöglichen. Das Statistische Amt der Europäischen Gemeinschaften (Eurostat) sieht die Bereitstellung von Mikrodaten für die wissenschaftliche Nutzung als eine seiner Kernaufgaben an. Derzeit gibt es auf der europäischen Ebene im Rahmen der Verordnung (EG) Nr. 831/2002 1 zwei Möglichkeiten, Zugang zu solchen vertraulichen Daten zu erhalten: anonymisiert und teilweise aggregiert auf CD-ROM oder fast unbearbeitet bei Besuch eines sogenannten safe centre. Wegen des hohen zeitlichen und finanziellen Aufwands für den Besuch eines safe centre (das einzige safe centre für europäische Mikrodaten ist bei Eurostat in Luxemburg angesiedelt und für Daten der Mitgliedstaaten steht das safe centre häufig in den jeweiligen Hauptstädten) bleibt diese Möglichkeit fast ungenutzt. Damit bekommt nur eine sehr kleine Gruppe von Forschern und Forscherinnen Zugang zu den aufwendig erhobenen Mikrodaten, mit denen eine Vielzahl empirischer Fragestellungen untersucht werden könnte. Neue Entwicklungen in der Informationstechnologie (IT) und neue Methoden der Statistik bieten nun die Möglichkeit, Wissenschaftlerinnen und Wissenschaftlern einen Fernzugang ( Remote Access ) zu vertraulichen Daten zu gewähren, ohne die Vertraulichkeit zu verletzen beziehungsweise 1 Verordnung (EG) Nr. 831/2002 der Kommission vom 17. Mai 2002 zur Durchführung der Verordnung (EG) Nr. 322/97 des Rates über die Gemeinschaftsstatistiken Regelung des Zugangs zu vertraulichen Daten für wissenschaftliche Zwecke (Amtsblatt der EG Nr. L 133, Seite 7). 366 Statistisches Bundesamt, Wirtschaft und Statistik, April 2012
die Daten physisch zu transferieren. Durch einen solchen Datenfernzugang könnte den Forschenden zum Beispiel ein langer Aufenthalt in Luxemburg oder am jeweiligen Standort des safe centre erspart und die Nutzung der Daten weitaus attraktiver gemacht werden. Dieser Beitrag bietet einen umfangreichen Überblick sowie konkrete Handlungsempfehlungen, wie ein solcher Fernzugriff auf vertrauliche Daten gestaltet werden könnte. Einige nationale statistische Ämter haben bereits verschiedene Remote-Access- Lösungen implementiert, um die Wissenschaftlerinnen und Wissenschaftler mit entsprechenden Daten zu versorgen. Diese Best-Practise-Beispiele werden in Kapitel 2 im Detail analysiert und präsentiert. Der Fernzugriff auf Mikrodaten (Remote Access) wird wie folgt definiert: Eine genau identifizierte Person kann am eigenen Computer mit Mikrodaten arbeiten, die im Idealfall ausschließlich formal anonymisiert sind, bei denen also alle direkten Identifikatoren entfernt wurden. Während des gesamten Prozesses bleiben die Mikrodaten selbst auf den Servern im safe centre (beziehungsweise in den geschützten Räumen der amtlichen Statistik). Die physikalische Sicherheit der Daten und das Risiko einer Datenschutzverletzung werden durch strenge IT-Vorkehrungen und -Nutzungsbedingungen während des ganzen Prozesses gewährleistet. Eurostat hat bereits mit der Einführung eines solchen Remote-Access-Systems begonnen; es soll in verschiedenen zeitlichen Stufen und für eine Vielzahl an statistischen Anwendungen umgesetzt werden. Parallel dazu arbeitet eine Task Force der statistischen Ämter der EU-Mitgliedstaaten an der Überarbeitung der rechtlichen Grundlage [Verordnung (EG) Nr. 831/2002] für den Zugriff auf vertrauliche Daten. Des Weiteren entwickeln diese Institutionen gemeinsam in europäischen ESSnet-Projekten Lösungen für organisatorische und administrative Fragestellungen im Zusammenhang mit der Einführung eines Fernzugriffsystems. Als langfristige Lösung wird im Rahmen eines Forschungsprojekts der EU-Kommission ( European Social Data Archives and remote access to Official Statistics ) über Möglichkeiten einer Zusammenarbeit der statistischen Ämter mit den nationalen Datenarchiven diskutiert. Kapitel 3 dieses Beitrags befasst sich mit der Implementierung eines Remote- Access-Systems im Europäischen Statistischen System (bei Eurostat). Langfristig ist auch ein dezentralisiertes System, bei welchem die Daten bei den nationalen Statistikämtern gespeichert werden und die Wissenschaftler/-innen dort darauf zugreifen können, vorstellbar. Damit wären auch Synergieeffekte bei der Zusammenarbeit mit den verschiedenen nationalen Datenarchiven, welche sich auf Dienstleistungen rund um die Bereitstellung von vertraulichen Daten spezialisiert haben, möglich. 2 Best Practise Basierend auf persönlichen Gesprächen und Besuchen in den jeweiligen statistischen Ämtern sowie von Präsentationen und Workshops werden in der diesem Beitrag zugrunde liegenden Bachelorarbeit die Gemeinsamkeiten und Unterschiede der bereits existierenden Fernzugriffslösungen auf geschützte Mikrodaten in Australien, Dänemark, Frankreich, Luxemburg, den Niederlanden und Schweden dargestellt. Es kann dabei grundsätzlich zwischen drei verschiedenen Systemen unterschieden werden: > Terminal Server: durch spezielle Software werden nur Bilder des Bildschirms des Computers im Rechenzentrum der statistischen Behörde an den Computer des Wissenschaftlers/der Wissenschaftlerin übertragen (eingesetzt unter anderem in den Niederlanden, Dänemark und Schweden), > Distance Network: das Server-Rechenzentrum übernimmt zusätzlich auch die Kontrolle über den Client Computer (eingesetzt zum Beispiel in Frankreich) und > Submission System: statistischer Batch Code wird von Mitarbeitern der statistischen Behörde stellvertretend für den Wissenschaftler/die Wissenschaftlerin ausgeführt (eingesetzt unter anderem in Luxemburg und Australien). Dieser Beitrag konzentriert sich auf die ersten beiden Varianten, bei welchen die Wissenschaftler/-innen einen direkten Zugriff auf die Daten erhalten. Nachdem sich die Benutzer mit dem System verbunden haben, verhält es sich, als ob sie vor dem Computer im Rechenzentrum des statistischen Amtes sitzen würden, die Daten verlassen dieses Rechenzentrum jedoch nie, nur eine Bildschirmansicht wird übertragen. IT-Infrastruktur Alle Lösungen benötigen auf der Serverseite (im statistischen Amt) eine sehr ähnliche Basisinfrastruktur (bestehend aus diversen Servertypen) und ein ähnliches System von Netzwerk- und Sicherheitsprotokollen. Schaubild 1 auf Seite 368 stellt diese Umgebung beispielhaft dar: (1) ein Web-/Proxyserver, welcher als Gateway/Zugangsportal agiert und den Datenverkehr zur Remote-Access-Umgebung durch einen Tunnel weiterleitet; (2) ein zentrales Benutzerverzeichnis, welches alle Zugriffsrechte und Benutzerdaten enthält; (3) ein Domänenkontroller; (4) ein Dateiserver, welcher die Arbeitsdateien der Benutzer und die Datenbanken bereitstellt, und (5) eine Serverfarm, welche die Terminal-Service- Zugriffe und die statistischen Programme abarbeitet. Einige oder alle dieser verschiedenen Servertypen können auch lediglich virtuell bereitgestellt werden, was den Bedarf an physischen Servern reduziert. Die Remote-Access-Umgebung ist immer strikt von der Produktionsumgebung getrennt und ein Datenaustausch findet nur über spezielle SecureFTP(File Transfer Protocol)- Verbindungen und -Prozeduren oder manuell statt. Alle Systeme verwenden automatische Back-up-Lösungen (disk-todisk oder Band), welche sowohl die Arbeits- als auch die Managementdateien schützen. Den Wissenschaftlerinnen und Wissenschaftlern werden in der Serverfarm diverse Statistikprogramme (zum Beispiel SAS, SPSS, STATA), Mathematikprogramme (zum Beispiel R, GAMS, GAUSS) und Textbearbeitungsprogramme zur Verfügung gestellt. Dadurch, dass Anwendungen bei Terminal-Service-Systemen unabhängig vom Client (Nutzer) am Server laufen, können Wissenschaftlerinnen und Wissenschaftler eine Berechnung starten, die Verbindung zum Statistisches Bundesamt, Wirtschaft und Statistik, April 2012 367
Schaubild 1 Beispielhafte IT-Infrastruktur eines Fernzugriffsystems aufmikrodatenbei Eurostat Nutzer im "safe centre" Nutzer mitfernzugriff Internet Eurostat Firewall Webserver Gateway Server Firewall Serverfarm, verwaltet Zugriffe und arbeitet Programme ab Domänenkontroller AAA Server (Zentrales Benutzerverzeichnis) Dateiserver Mikrodaten 2012-01 - 0296 Server wieder trennen (die Berechnungen laufen am Server weiter) und sich erst nach einiger Zeit wieder verbinden, um die Ergebnisse abzurufen. Clientseite Auf der Clientseite (beim Wissenschaftler/bei der Wissenschaftlerin) gibt es unterschiedliche Anforderungen: In Dänemark und Schweden zum Beispiel werden die Installation der benötigten Software und die Umgebung des Computers nicht kontrolliert, in den Niederlanden besuchen Mitarbeiter/-innen des statistischen Amtes die jeweiligen Arbeitsplätze der Wissenschaftler/-innen und kontrollieren vor Installation der notwendigen Software sowohl Umgebung als auch Computer, und in Frankreich wird zusätzlich auch die Computer-Hardware vom statistischen Amt vorgegeben und installiert. Für das niederländische System werden sowohl auf der Software-Seite (Remote-Client-Anwendung, Server-Stammzertifikat) als auch auf der Hardware-Seite (Smartcard- und Fingerabdruck-Lesegerät) spezielle Installationen vorgenommen. Auf das französische System kann nur mit einer sogenannten SD-Box zugegriffen werden. Im Prinzip ist die SD-Box eine herkömmliche Arbeitsstation (zusammengesetzt aus Standardkomponenten), welche jedoch in ihrer Funktionalität sowohl durch Hard- als auch Software eingeschränkt ist. Die diesem Beitrag zugrunde liegende Bachelorarbeit bietet einen detaillierten Vergleich der verschiedenen Netzwerkstrukturen, Hardwareausstattungen, technischen Details sowie Beschaffungsmärkte. Authentifizierung Bevor ein Wissenschaftler beziehungsweise eine Wissenschaftlerin Zugang zu den Fernzugriffssystemen erhält, müssen die Forschungsinstitution sowie jedes Forschungsprojekt vom jeweiligen statistischen Amt genehmigt werden. Die Entscheidungsgrundlage bieten dabei zum einen Gesetze (beispielsweise in den Niederlanden, in Schweden 368 Statistisches Bundesamt, Wirtschaft und Statistik, April 2012
und in Dänemark) und zum anderen Komitees (beispielsweise in Frankreich). Die Bandbreite der zugelassenen Projekte geht dabei von nur auf wissenschaftliche Zwecke ausgerichteten Projekten von gelisteten öffentlichen Institutionen, welche ihre Ergebnisse nach Abschluss öffentlich verfügbar machen müssen (zum Beispiel in Frankreich), bis hin zu unbeschränkten Projekten und auch der Genehmigung privater Organisationen (zum Beispiel in Schweden). Während in den Niederlanden die Benutzerdaten und Anmeldeinformationen während des Besuchs der Mitarbeiter/ -innen des statistischen Amtes angelegt werden, müssen Benutzer in Frankreich dafür zum nächstgelegenen statistischen Amt reisen. Die verlangten Anmeldeinformationen reichen dabei von einer normalen Benutzername-Passwort- Kombination über die Verwendung von RSA Tokens bis hin zu einer Kombination aus biometrischen Merkmalen (Fingerabdruck) und Smart-Card-Authentifizierung. Geheimhaltungskontrolle Generell verhindern alle Systeme die Übertragung von Mikrodaten vom Server zum Client lediglich Ansichten der Daten werden übertragen. Benutzer bekommen also keine Daten aus dem System, weder durch Drucken noch durch Kopieren noch durch Übertragung. Außerdem werden alle wichtigen Aktivitäten in detaillierten Log-Dateien festgehalten. Nach Abschluss der Arbeit möchte der Wissenschaftler/die Wissenschaftlerin jedoch seine/ihre Ergebnisse exportieren. Die Kontrolle, ob bei diesen Ergebnissen die Geheimhaltung gewahrt ist, wird in Frankreich und den Niederlanden durch Mitarbeiter/-innen der statistischen Ämter für jede einzelne Ausgabedatei vorgenommen, bevor diese an den Wissenschaftler/die Wissenschaftlerin gesendet wird, in Dänemark und Schweden erfolgt sie nur stichprobenweise, nachdem die Ausgabedatei bereits übertragen wurde. Die diesem Beitrag zugrunde liegende Bachelorarbeit vergleicht im Detail die verschiedenen Arbeitsabläufe und Anforderungen der statistischen Ämter sowie die gesetzlichen Rahmenbedingungen. Die Strafen für eine Datenschutzverletzung sind jedoch sehr unterschiedlich, sie reichen von einer Sperre für die ganze Institution (Niederlande) bis hin zu Gefängnisstrafen (Dänemark). 3 Umsetzung für das Europäische Statistische System Bei Eurostat wird die Einführung des Fernzugriffsystems in drei Stufen vorbereitet: Die diesem Beitrag zugrunde liegende Bachelorarbeit beschreibt die einzuführenden Arbeitsabläufe, die aufzubauende IT-Infrastruktur und damit verbundene Herausforderungen für die jeweiligen zeitlichen Abschnitte. Die Infrastrukturkosten für die erste Phase sind davon abhängig, welche Authentifizierung und welche Konfiguration für das System gewählt werden. Je nachdem werden etwa 300 000 bis 400 000 Euro an Fixkosten anfallen. Der jährliche Aufwand für Wartung, Präparation der Daten und methodologische Weiterentwicklung wird auf zusätzlich etwa 50 000 Euro geschätzt. Für jedes Forschungsprojekt, welches das System nutzt, werden zusätzliche variable Kosten von etwa 2 000 Euro entstehen. All diese Zahlen beziehen sich auf die Kosten für das gesamte Europäische Statistische System, das heißt sowohl auf die nationalen statistischen Ämter als auch auf Eurostat. Die Aufteilung der Kosten zwischen Eurostat und den nationalen statistischen Ämtern hängt dann davon ab, wie die Arbeitsabläufe und die Infrastruktur aufgeschlüsselt werden. 4 Zusammenfassung und Ausblick Um Wissenschaftlerinnen und Wissenschaftlern den Zugang zu Mikrodaten zu erleichtern, plant Eurostat die Einführung eines Fernzugriffsystems. Die genaue Ausgestaltung und der genaue Zeitplan hängen von Entscheidungen und Diskussionen auf verschiedenen Ebenen bei Eurostat, von Anpassungen der rechtlichen Rahmenbedingungen und Diskussionen mit den EU-Mitgliedstaaten ab. Erste Entscheidungen wurden bereits getroffen und erste Schritte zur Implementierung umgesetzt. Bis Ende 2012 sollen die Neugestaltung der rechtlichen Grundlage abgeschlossen werden sowie die Ergebnisse der parallel laufenden Projekte mit den EU-Mitgliedstaaten vorliegen. In der Zwischenzeit werden neue technologische und methodologische Möglichkeiten entstehen. Zum Beispiel wurde in einer Remote-Access-Lösung in Australien bereits ein automatisches Tool zur Prüfung der Resultate auf Geheimhaltung eingesetzt, welches die manuelle Prüfung unterstützt beziehungsweise ersetzt. Nur unklare oder schwierige Fälle werden dem Personal des statistischen Amtes vorgelegt. Ein anderes Beispiel ist eine neue statistische Software, welche nur noch direkt im Webbrowser abläuft und den Zugriff auf die Daten ohne zusätzliche Softoder Hardware ermöglicht. > Zuerst soll den Wissenschaftlerinnen und Wissenschaftlern ermöglicht werden, von den safe centre ihres Landes aus auf den Servern von Eurostat in Luxemburg zu arbeiten, > mittelfristig sollen Wissenschaftler/-innen auch die Möglichkeit bekommen, diese Verbindung von ihrem Arbeitsplatz aus herzustellen, und > langfristig sollen die Server bei Eurostat dezentralisiert werden, sodass die Daten bei den jeweiligen nationalen statistischen Ämtern verbleiben. Statistisches Bundesamt, Wirtschaft und Statistik, April 2012 369
370 Statistisches Bundesamt, Wirtschaft und Statistik, April 2012
IMPRESSUM Auszug aus Wirtschaft und Statistik Herausgeber Statistisches Bundesamt, Wiesbaden www.destatis.de Schriftleitung Roderich Egeler, Präsident des Statistischen Bundesamtes Brigitte Reimann (verantwortlich für den Inhalt) Telefon: + 49 (0) 6 11 / 75 20 86 Ihr Kontakt zu uns www.destatis.de/kontakt Statistischer Informationsservice Telefon: + 49 (0) 6 11 / 75 24 05 Telefax: + 49 (0) 6 11 / 75 33 30 Abkürzungen WiSta = Wirtschaft und Statistik MD = Monatsdurchschnitt VjD = Vierteljahresdurchschnitt HjD = Halbjahresdurchschnitt JD = Jahresdurchschnitt D = Durchschnitt (bei nicht addierfähigen Größen) Vj = Vierteljahr Hj = Halbjahr a. n. g. = anderweitig nicht genannt o. a. S. = ohne ausgeprägten Schwerpunkt St = Stück Mill. = Million Mrd. = Milliarde Zeichenerklärung p = vorläufige Zahl r = berichtigte Zahl s = geschätzte Zahl = nichts vorhanden 0 = weniger als die Hälfte von 1 in der letzten besetzten Stelle, jedoch mehr als nichts. = Zahlenwert unbekannt oder geheim zu halten... = Angabe fällt später an X = Tabellenfach gesperrt, weil Aussage nicht sinnvoll I oder = grundsätzliche Änderung innerhalb einer Reihe, die den zeitlichen Vergleich beeinträchtigt / = keine Angaben, da Zahlenwert nicht sicher genug ( ) = Aussagewert eingeschränkt, da der Zahlenwert statistisch relativ unsicher ist Abweichungen in den Summen ergeben sich durch Runden der Zahlen. Statistisches Bundesamt, Wiesbaden 2012 Vervielfältigung und Verbreitung, auch auszugsweise, mit Quellenangabe gestattet.