Das Projekt BASiD Biografiedaten ausgewählter Sozialversicherungsträger. aktueller Stand der Arbeiten und Analysemöglichkeiten



Ähnliche Dokumente
Versicherte nach Versicherungsart in der Rentenversicherung

Wege in die Rente: Erwerbsminderung und ihre charakteristischen Erwerbsverläufe

Übergänge in den Ruhestand und Strukturen der Alterseinkommen in Deutschland

Stand 15. Oktober Fragen und Antworten

Arbeitslosengeld II II

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

Was ist neu bei der Rente? Informationen zum Rentenpaket Alois Karl, MdB Wahlkreisabgeordneter für Amberg-Sulzbach-Neumarkt

BASiD: Biografiedaten ausgewählter Sozialversicherungsträger in Deutschland

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 6/ Wahlperiode

Berechnung der Erhöhung der Durchschnittsprämien

Rentenarten in der gesetzlichen Rentenversicherung + VBL-Rente

QM: Prüfen -1- KN

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Die UV-Jahresmeldung ist jeweils bis zum des Folgejahres zusätzlich zu den Entgeltmeldungen

Thüringer Landtag 5. Wahlperiode

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Vorstand Sozialpolitik. Anerkennung von Erziehungszeiten. Mütterrente.

Was ist neu bei der Rente? Informationen zum Rentenpaket 2014

Qualifikationsspezifische Arbeitslosenquoten

Umgang mit Schaubildern am Beispiel Deutschland surft

Diese Broschüre fasst die wichtigsten Informationen zusammen, damit Sie einen Entscheid treffen können.

104 WebUntis -Dokumentation

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Befragung zum Migrationshintergrund

Mandant in den einzelnen Anwendungen löschen

Bereich METIS (Texte im Internet) Zählmarkenrecherche

Inventur. Bemerkung. / Inventur

Die gesamtfiskalischen Kosten der Arbeitslosigkeit

Soziale Sicherung der Pflegeperson

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Fragen und Antworten zum Sozialversicherungsausweis

Merkblatt Existenzgründung im Nebenerwerb

mehrmals mehrmals mehrmals alle seltener nie mindestens **) in der im Monat im Jahr 1 bis 2 alle 1 bis 2 Woche Jahre Jahre % % % % % % %

Statistische Materialien zu Existenzgründung und Selbstständigkeit der Wohnbevölkerung mit Migrationshintergrund

Erfahrungen mit Hartz IV- Empfängern

LANDTAG MECKLENBURG-VORPOMMERN Drucksache 6/ Wahlperiode Entwicklung der Callcenter-Branche in Mecklenburg-Vorpommern

Information zum Prüfungswesen Geprüfte(r) Logistikmeister(in) Handlungsspezifische Qualifikationen

Matthias W. Birkwald Mitglied des Deutschen Bundestages Parlamentarischer Geschäftsführer Rentenpolitischer Sprecher Bundestagsfraktion DIE LINKE

Bürokaufmann/Bürokauffrau

Whitepaper. Produkt: combit factura manager. Mehrwertsteuererhöhung durchführen. combit GmbH Untere Laube Konstanz

Informationen zur Prüfung Geprüfter Handelsfachwirt (IHK)/Geprüfte Handelsfachwirtin (IHK)

Validierung der Bildungsangaben in der VSKT mit Befragungsdaten aus SHARE

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Erweiterungen Webportal

Dienstanweisung Gleitzone (Gültig ab )

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Jahreswechsel 2015 to 2016 V1.0

Personal der Frankfurter Pflegeeinrichtungen 2005

Insiderwissen Hintergrund

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Meinungen zum Sterben Emnid-Umfrage 2001

Familien in Deutschland

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Inhalt Vorwort Wofür Buchführung? Wie Sie von der Inventur über die Bilanz zum Konto kommen Wie Sie richtig buchen

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

Qualifizierter Meldedialog

Nutzung dieser Internetseite

Drei Fragen zum Datenschutz im. Nico Reiners

Zulagenquote bei der Riesterrente

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

Erfassen der persönlichen Weiterbildung auf dem Online-Portal von EXPERTsuisse

Steuern. Die elektronische Lohnsteuerkarte

Urheberrecht in der Schule Was Lehrer, Eltern, Schüler, Medienzentren und Schulbehörden vom Urheberrecht wissen sollten

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Fremdwährungsanteil bei Tilgungsträgerkrediten bei 86 % eine Analyse der Fremdwährungskreditstatistik 1

Zur Prüfung und Durchführung des Sozialausgleiches durch die Krankenkassen wird das Meldeverfahren zum erweitert.

Transfermaßnahmen und Transfergesellschaften

MERKBLATT Zuschuss zu den Versicherungsbeiträgen der Kranken- und Pflegeversicherung zur Vermeidung von Hilfebedürftigkeit ( 26 SGB II)

Versorgungswerk der Psychotherapeutenkammer. Nordrhein-Westfalen? Körperschaft des öffentlichen Rechts

SEPA-Umstellungsanleitung Profi cash

Integrierte Dienstleistungen regionaler Netzwerke für Lebenslanges Lernen zur Vertiefung des Programms. Lernende Regionen Förderung von Netzwerken

Deutschland-Check Nr. 34

Datenübernahme in ein Produkt der Lexware premium, professional oder plus line

Protokoll: Fragen und Antworten zu Förderungen der betrieblichen Lehre von AMS und WKW

Das Glück wird mehr. Die Sicherheit bleibt. ELTERNZEIT. BVK Bayerische. V ersorgungskammer

Sekundärnutzung qualitativer Befragungsstudien in der Betriebs- und Organisationsforschung

Rechtswidrige Abschiebepraxis in Bremen? Umgehung amtsärztlicher Krankschreibungen mit Hilfe externer Mediziner

Hinweise zur Datensicherung für die - Prüfmittelverwaltung - Inhalt

Sonderrundschreiben. Arbeitshilfe zu den Pflichtangaben in Immobilienanzeigen bei alten Energieausweisen

Südbaden-Cup. Ausstieg Champions

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

So wird s gemacht - Nr. 24

Markus Demary / Michael Voigtländer

Lohnbuchhaltung. Änderungen TOPIX Informationssysteme AG. Stand 06/2011

Ein Vorwort, das Sie lesen müssen!

Carsten G. Ullrich (Universität Mannheim): Die Reichweite der Solidarität Die soziale Akzeptanz der Arbeitslosenversicherung

Anwendungshinweise zur Anwendung der Soziometrie

Abbildung 1: Hochschulzugangsberechtigung der INGflex-Probanden/-innen (1. Kohorte:

Gesetz zur Beseitigung sozialer Überforderung bei Beitragsschulden in der Krankenversicherung tritt am 1. August in Kraft

Brandenburgisches Oberlandesgericht. Beschluss

2. Psychologische Fragen. Nicht genannt.

mobifleet Beschreibung 1. Terminverwaltung in der Zentrale

Fördermöglichkeiten. Promotion

Was ist das Budget für Arbeit?

Anlage eines neuen Geschäftsjahres in der Office Line

BAVers Krankenversicherung der Rentner ( KVdR )

B12-TOUCH VERSION 3.5

1 Vorgeschichte der Erprobung der ICD-10

Transkript:

74 DRV-Schriften Band 55/2009 Das Projekt BASiD Biografiedaten ausgewählter Sozialversicherungsträger in Deutschland: Projektinhalte, aktueller Stand der Arbeiten und Analysemöglichkeiten Daniela Hochfellner* / Axel Voigt* / Ute Budzak** / Birgit Steppich** * Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Nürnberg ** Deutsche Rentenversicherung Bund, Forschungsdatenzentrum der Rentenversicherung (FDZ-RV), Würzburg Inhalt 1 Einleitung 2 Motivation und Ziele 3 Datenquellen und Bestandteile 3.1 Die Versicherungskontenstichprobe 3.2 Die Beschäftigten- und Leistungsempfängerhistorik 3.3 Die Integrierten Erwerbsbiografien 3.4 Das Betriebs-Historik-Panel 3.5 Inhalte des BASiD-Datensatzes 4 Stichprobenziehung und -umfang 5 Vorgehensweise bei der Verknüpfung der Datenbasen 5.1 Der Matchingprozess 5.2 Das Episodensplitting 6 Der neue Scientific Use File: Zeitplan, Inhalte und Datenzugang 7 Literatur 1 Einleitung In den vergangenen Jahren ist das Interesse an Längschnitt-Biografiedaten in der Sozialforschung zur Bearbeitung soziologischer und ökonomischer Fragestellungen stark gestiegen. In dem Projekt Biografiedaten ausgewählter Sozialversicherungsträger in Deutschland (BASiD), gefördert durch das Bundesministerium für Bildung und Forschung (BMBF), werden Personendaten über die Grenzen zweier Sozialversicherungsträger hinweg zusammengespielt. Ziel des Projektes ist es, erstmalig in Deutschland einen gemeinsamen Längsschnitt- Biografiedatensatz aus den Daten der gesetzlichen Rentenversicherung (GRV) und der Bundesagentur für Arbeit (BA) bzw. des Instituts für Arbeitsmarkt- und Berufsforschung (IAB) zu erstellen und der Wissenschaft als Scientific Use File (SUF) und in schwach anonymisierter Form im Gastaufenthalt in beiden Häusern zur Verfügung zu stellen. 1 1 Aktuelle Informationen zum BASiD-Projekt finden sich auf der projekteigenen Homepage unter http://fdz.iab.de/de/fdz_projects/ BASID.aspx und unter www.fdz-rv.de Link: geförderte Projekte.

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 75 Das Verbundvorhaben wurde Anfang 2009 mit einer Laufzeit von drei Jahren gestartet. Der vorliegende Aufsatz informiert über die Inhalte bzw. die Datenquellen des neu zu entwickelnden Datensatzes, das methodische Vorgehen und den zeitlichen Ablauf des Projektes. Zur Veranschaulichung werden beispielhaft Analysemöglichkeiten vorgestellt. 2 Motivation und Ziele Sowohl das Forschungsdatenzentrum der Bundesagentur (BA) im Institut für Arbeitsmarktund Berufsforschung (IAB) als auch das Forschungsdatenzentrum der gesetzlichen Rentenversicherung (FDZ-RV) greifen bei der Erstellung von Biografiedatensätzen auf Angaben aus dem Meldeverfahren zur Sozialversicherung zurück. Ein Vorteil von prozessproduzierten Biografiedaten der Sozialversicherung ist, dass sie nicht retrospektiv erhoben werden und somit keine Antwortausfälle bestehen. Die Biografiedatensätze beider Häuser stammen aus dem gleichen Verfahren und sollten somit grundsätzlich über die gleiche Datenbasis verfügen. Allerdings sind die beiden Sozialversicherungsträger aus Datenschutz- und Wirtschaftlichkeitsgründen daran gebunden, in den Statistikdaten nur die zur Erfüllung ihrer jeweiligen Aufgaben notwendigen Informationen zu erfassen. Weitere Unterschiede im Informationsgehalt der Biografiedatensätze beider Forschungsdatenzentren entstehen zudem durch die Aufnahme von Merkmalen, die sich aus den Aufgaben und Verwaltungsverfahren der Sozialversicherungsträger ergeben. Beispielsweise enthalten die Daten der GRV 2 Informationen über Geburtstage und Anzahl von Kindern oder Kindererziehungszeiten, die in den IAB-Daten nicht verfügbar sind. Andererseits finden sich in den Daten des IAB Betriebsinformationen sowie Informationen über die Teilnahme an Maßnahmen der BA. Durch das Zusammenspielen der Daten können damit erstmals Fragestellungen bearbeitet werden, die bisher für Deutschland nur unzureichend beantwortet werden konnten. Daher wurde mit Hilfe einer Förderung durch das Bundesministerium für Bildung und Forschung ein Projekt initiiert, das einen gemeinsamen Biografiedatensatz der beiden Institutionen erstellt und der Forschungsgemeinschaft in geeigneter Form anbietet (BASiD). Der Datensatz wird die komplette Erwerbsbiografie aller (jemals) von der Sozialversicherungspflicht erfassten Personen ab 1940 abbilden. 3 Die Daten haben auf repräsentativer Basis Analysepotenzial im Bereich von auch kurzfristigen Ereignissen und Übergängen über Alterskohorten hinweg. Folgende beispielhafte Analysemöglichkeiten ermöglicht der innerhalb des BASiD-Projektes entstehende Datensatz: zur vollständigen Erwerbsbiografie nach Kohorten (mit ausreichenden Fallzahlen), zum Lebenseinkommen und Entgeltpunkten für die Rentenberechnung, zu Krankheit, Pflege in der Erwerbsphase, zu Einfluss von Wehrdienst, Zivildienst auf den Erwerbsverlauf, zu wichtigen Lebensereignissen wie z. B. Geburt von Kindern oder Arbeitslosigkeit während der Erwerbsphase, 2 Zum gesamten Datenangebot des FDZ-RV siehe Himmelreicher und Stegmann (2008) oder www.fdz-rv.de. 3 Dies gilt für die Daten der GRV. Die Datensätze des FDZ der BA am IAB setzen frühestens 1975 ein (vgl. hierzu auch Punkt 3.2).

76 DRV-Schriften Band 55/2009 zum Einfluss von Startbedingungen im Arbeitsmarkt auf den Karriereverlauf, zu Änderungen von gesetzlichen Regelungen in der Arbeitsmarkt- und/oder Rentenpolitik, zu Aussiedlern. Weitere Beispiele für Analysepotenziale des entstehenden Datensatzes lassen sich zudem den folgenden Studien entnehmen: So untersuchen Beblo, Bender und Wolf (2009) den Einfluss von Erwerbsunterbrechungen aufgrund von Mutterschaft auf das geschlechtliche Lohndifferenzial. Schönberg (2009) entwickelt eine Methode zur Identifikation von Mutterschaftszeiten in der IAB-Beschäftigtenstichprobe. Bei Müller (2008) finden sich deskriptive Auswertungen zu geschlechtsspezifischen Erwerbsverläufen. Wübbeke (2005) hingegen befasst sich mit Anreizen bezüglich des Übergangs in den Rentenbezug. 4 Weitere Analysepotenziale zeigen die Arbeiten von Bauer, Bender und Schmidt (2008); Schönberg, Ludsteck (2007) und Beblo, Wolf (2002). 3 Datenquellen und Bestandteile Das Anliegen einen Datensatz zu erstellen, der Erwerbsverläufe möglichst vollständig und detailliert abbildet, erfordert eine Vielzahl von Informationen. Um diese Informationen bereitstellen zu können, wird bei der Erstellung des BASiD-Datensatzes auf unterschiedliche Datensätze zurückgegriffen. Als Basisdatensatz dient die Versicherungskontenstichprobe der GRV. An sie werden die Informationen aus den IAB Datenquellen herangespielt. Hierbei handelt es sich um die Datensätze Beschäftigten- und Leistungsempfängerhistorik, Integrierte Erwerbsbiografien und um das Betriebs-Historik-Panel. Aus der Kombination der verschiedenen Datenquellen entsteht zum einen ein Scientific Use File, der über die jeweiligen Forschungsdatenzentren bezogen werden kann, zum anderen eine schwach anonymisierte Version dieses Datensatzes, die der Wissenschaft mittels Gastwissenschaftler-Arbeitsplätzen oder Kontrolliertem Fernrechnen zur Verfügung steht. Abbildung 1 gibt einen Überblick über die Zusammenhänge zwischen den einzelnen Datenbasen, die im Folgenden näher beschrieben werden sollen. 3.1 Die Versicherungskontenstichprobe (VSKT) Die VSKT ist eine ständige Sondererhebung der gesetzlichen Rentenversicherung. Sie erfasst die Versicherten der gesetzlichen Rentenversicherung und den Stand ihrer Rentenanwartschaften in Deutschland und liefert Informationen über sämtliche (gespeicherten) rentenrelevanten Tatbestände. Es lässt sich beispielsweise nachverfolgen, wann eine Person sozialversicherungspflichtig beschäftigt war, wann Kinder geboren bzw. erzogen wurden oder wann eine Person einer nichterwerbsmäßigen Pflege nachgegangen ist. Seit der Ersterhebung im Jahr 1983 wird eine geschichtete und ca. ein Prozent umfassende Zufallsstichprobe aus den Versichertenkonten gezogen und in den Folgejahren als Panel fortgeführt und gepflegt. Die 4 Diese Studien basieren auf dem Datensatz IABS 75-95 mit Ergänzungsteil I, der ebenfalls aus Biografiedatensätzen des IAB und der GRV erstellt wurde und somit ähnliche Informationen wie der BASiD-Datensatz enthält. Allerdings steht dieser Datensatz nicht in den Forschungsdatenzentren zur Verfügung.

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 77 Abbildung 1: Zusammensetzung des BASiD-Datensatzes Deutsche Rentenversicherung Versicherungskontenstichprobe IAB Beschäftigten- und Leistungsempfänger Historik Integrierte Erwerbs- Biographien BASiD SUF schwach anonymisiert Betriebs-Historik- Panel Quelle: Eigene Darstellung. Versicherungskontenstichprobe wird seit Juni 2008 vom Forschungsdatenzentrum der Rentenversicherung (FDZ-RV) als Scientific Use File angeboten. 5 Eine in der VSKT enthaltene, versicherte Person zeichnet sich durch folgende Kriterien aus: Zum einen muss sie zum Stichtag (31.12. des Berichtsjahres) im erwerbsfähigen Alter sein, das heißt mindestens 15 und höchstens 67 Jahre alt sein. Des Weiteren darf das Versichertenkonto am Auswertungstag nicht tot- oder stillgelegt sein und keinen Eintrag dahingehend enthalten, dass die Person verstorben ist. Schließlich müssen rentenrechtliche Zeiten oder Boni aus einem Versorgungsausgleich aufzufinden sein. 6 3.2 Die Beschäftigten- und Leistungsempfängerhistorik (BLH) Die BLH ist ein Individualdatensatz, dessen Informationen aus zwei unterschiedlichen Datenquellen gewonnen werden: Die erste Datenquelle stellt die Beschäftigtenhistorik dar. Diese wird seit dem Jahr 1975 erfasst und enthält die Entgeltmeldungen sozialversicherungspflichtiger Beschäftigung, d. h. im Wesentlichen Jahres-, Ab-, Unterbrechungs- und Änderungsmeldungen, die von den Betrieben im Rahmen des Meldeverfahrens an die Krankenkassen übermittelt werden müssen. Ab dem 1.4.1999 werden zusätzlich die Meldungen über geringfügige Beschäftigungen erfasst. Die zweite von der BLH genutzte Datenquelle ist die Leistungsempfängerhistorik. In dieser finden sich ebenfalls ab dem Jahr 1975 alle Abmeldungen zum Bezug von Arbeitslosengeld, 5 Für eine detaillierte Variablenbeschreibung siehe Richter und Himmelreicher (2008) oder Stegmann (2008). 6 Vgl. Stegmann (2008).

78 DRV-Schriften Band 55/2009 Arbeitslosenhilfe und Unterhaltsgeld. Diese Meldungen erhalten die Krankenkassen von der BA. Zu beachten ist, dass aufgrund der Hartz-Reformen ab dem 1.1.2005 nur noch die Leistungsart Arbeitslosengeld I (Alo I) in dieser Datenquelle enthalten ist. 3.3 Die Integrierten Erwerbsbiografien (IEB) Neben den genannten Datenquellen nutzt die IEB als zusätzliche Datenquellen die Leistungs- Historik-Grundsicherung, die Maßnahme-Teilnahme-Historiken sowie den Arbeitssuchendenstatus aus dem Bewerberangebot. Die Datenquelle Leistungs-Historik-Grundsicherung schließt dabei die durch die Umstellung von Arbeitslosenhilfe auf Arbeitslosengeld II nach dem 1.1.2005 entstandene Lücke in der Leistungsempfängerhistorik und liefert somit Informationen über den Bezug von Arbeitslosengeld II (Alo II). In den Maßnahme-Teilnahme-Historiken werden Teilnahmen an Maßnahmen der aktiven Arbeitsmarktförderung abgebildet. Dazu gehören Arbeitsbeschaffungsmaßnahmen und Strukturanpassungsmaßnahmen sowie das Einstiegsgeld nach 29 SGB II 7, die freie Förderung und Maßnahmen der beruflichen Weiterbildung. Bei Verwendung der IEB ist zu beachten, dass Informationen zu Maßnahmeteilnahmen sowie zu Zeiten der Arbeitssuche erst ab dem 1.1.2000 verfügbar sind, während die Informationen aus der Beschäftigtenhistorik und Leistungshistorik bereits für den Zeitraum beginnend mit dem 1.1.1990 genutzt werden können. 8 3.4 Das Betriebs-Historik-Panel (BHP) Das BHP umfasst alle Betriebe in Deutschland, die zum 30.6. eines Jahres mindestens einen sozialversicherungspflichtig Beschäftigten beziehungsweise ab 1.1.1999 mindestens einen geringfügig Beschäftigten zählen. Bei der Erstellung des BHP werden für Westdeutschland seit dem Jahr 1975 und für Ostdeutschland seit dem Jahr 1992 jährliche Querschnittsinformationen zum Stichtag gezogen, die zu einem Panel verknüpft werden können. 9 3.5 Inhalte des BASiD-Datensatzes Durch die Nutzung unterschiedlicher Quellen wird der BASiD-Datensatz somit mehr Informationen bieten als die bisher verfügbaren Erwerbsverläufe, die auf administrativen Daten basieren. Der Datensatz wird neben Informationen über Zeiten in unterschiedlichen Erwerbszuständen wie z. B. in Arbeitslosigkeit (Alo) oder im Fall von Kindererziehung auch Betriebsinformationen (z. B. Betriebsgröße oder Wirtschaftszweig des beschäftigenden Unternehmens) und eine Fülle von personenbezogenen Merkmalen (z. B. Schul-/Berufsbildung oder Berufsposition) enthalten. Da administrative Daten auf dem Meldeverfahren der Sozialversicherung basieren, können durch den BASiD-Datensatz allerdings nur Erwerbsverläufe von sozialversicherungspflichtig Beschäftigten abgebildet werden. Selbstständige finden sich 7 Zweites Sozialgesetzbuch (SGB II): Grundsicherung für Arbeitsuchende. 8 Für eine detaillierte Variablenbeschreibung siehe Jacobebbinghaus und Seth (2007) sowie Oberschachtsiek, Scioch, Seysen und Heining (2009). 9 Für eine detaillierte Variablenbeschreibung siehe Spengler (2009).

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 79 lediglich in dem Fall der freiwilligen Versicherung in der GRV. Einen Überblick über die wesentliche Inhalte und ihrem Herkunftsort gibt Abbildung 2: Abbildung 2: Inhalte des BASiD-Datensatzes vor der offiziellen Freigabe als SUF/schwach anonymisierte Form Inhalte VSKT BLH IEB BHP Informationen zu Beschäftigung und Leistungsbezug Beschäftigung Beschäftigung Leistungsempfang (Alo I + Alo II) Leistungsempfang (Alo I + Alo II) Rentenbezug Krankheit, Reha Nicht erwerbsmäßige Pflege Abgabegrund/ Beendigungsgrund Beruf: ausgeübte Tätigkeit Informationen zum Entgelt Informationen zum Entgelt Informationen zum Leistungssatz Zeiten der Arbeitssuche Maßnahmen (ABM, Qualifizierungen, Weiterbildungen) Informationen zur Rentenberechnung Entgeltpunkte Anrechnungszeiten Informationen zur Rentenberechnung Berücksichtigungszeiten

80 DRV-Schriften Band 55/2009 Informationen zum beschäftigten Betrieb Betriebsgröße Klassifikation der Wirtschaftszweige Informationen zur Beschäftigtenstruktur Betriebsentgelt Regionale Wohnort Wohnort Informationen * Arbeitsort Demografische Informationen Alter Alter Geschlecht Geschlecht Nationalität Nationalität Ausbildung Geburtsdaten Geburtsdaten Geburtsdaten der Kinder * In welcher Form letztendlich regionale Bezugsgrößen in die Endprodukte eingehen ist noch nicht entschieden. Quelle: Eigene Darstellung. 4 Stichprobenziehung und -umfang Das statistische Berichtswesen der gesetzlichen Rentenversicherung in Würzburg pflegt auf Basis des Stammsatzbestands aller Personen, für die jemals ein Konto bei der Sozialversicherung angelegt wurde, jährlich ein disproportional geschichtetes ca. ein Prozent umfassendes Panel, die unter Punkt 3.1 beschriebene VSKT. Die zuständigen Rentenversicherungsträger werden aufgefordert, für diese Versicherungsnummern eine abgestimmte Meldung zu liefern. Die VSKT ist der Basisdatensatz für das beantragte Projekt. Alle Personen, die sich in diesem Datenbestand zum Stichtag am 31.12.2007 befinden, wurden in den Datensätzen des IAB ermittelt. Die Ermittlung der betreffenden Personen erfolgte anhand einer Schlüsselliste, die einen anonymen Datenaustausch zwischen beiden Häusern gewährleistet. Die Bruttostichprobe beinhaltet 611.397 Personen mit gültigen Versicherungskonten, wobei hier beachtet werden muss, dass nicht für jede Person ein Konto bei beiden Institutionen geführt wird. Ein mögliches Beispiel für diesen Fall wäre eine Person, die eine selbstständige Tätigkeit ausführt, sich aber freiwillig rentenversichert. Diese Person ist lediglich über die Datenquelle der GRV zu identifizieren. Im Datensatz sind 537.896 Personen enthalten für die sowohl bei der BA, als auch bei der GRV ein gültiges Versicherungskonto existiert. Um einen

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 81 ersten Eindruck der Untersuchungspopulation zu bekommen, werden in der folgenden Abbildung 3 diese Personen kurz nach Geschlecht und Geburtskohorten skizziert. 10 Abbildung 3: Verteilung der BASiD-Stichprobe nach Geburtsjahr und Geschlecht 0 50.000 100.000 150.000 Aufteilung der Personen nach Geburtsjahr und Geschlecht BASiD 1940-49 1950-59 1960-69 1970-79 1980-89 ab 1990 männlich weiblich n=537.896 Quelle: BASiD-2007, eigene Berechnungen. Aus der Grafik geht hervor, dass sich die Aufteilung der Personen nach Geschlecht die Waage hält. Um die Verteilung der Geburtsjahrgänge besser darstellen zu können, wurden Kohorten gebildet. Betrachtet man die Größe der einzelnen Kohorten über die Zeit, ergibt sich der zu erwartende Verlauf. Die Besetzung der Kohorten nimmt zunächst von den ältesten Geburtsjahrgängen zu den jüngeren Geburtsjahrgängen hin zu. Innerhalb der Kohorten der jüngsten Geburtsjahrgänge zeigt sich hingegen der umgekehrte Verlauf, da viele Personen der jüngsten Geburtsjahrgänge noch in der schulischen Ausbildung verweilen. 5 Vorgehensweise bei der Verknüpfung der Datenbasen Sowohl die Datensätze des IAB als auch die Datensätze der GRV verfügen über einen gemeinsamen Identifikator: die Sozialversicherungsnummer. Darüber hinaus haben die Daten- 10 Alle den Stichprobenumfang betreffenden, ausgewiesenen Zahlen sind unter Maßgabe des aktuellen Projektstandes zu verstehen. Aufgrund von noch ausstehenden Datenaufbereitungsarbeiten kann die Anzahl der im Enddatensatz enthaltenen Personen von den hier genannten Zahlen abweichen.

82 DRV-Schriften Band 55/2009 sätze aus beiden Institutionen die gleiche Grundstruktur. Es handelt sich in beiden Fällen um Längsschnittsdaten, die tagesgenau die Erwerbs- und Rentenbiografie abbilden. Somit können in einem einfachen und sicheren Verfahren die Personen in beiden Datensätzen zusammengespielt werden und komplizierte bzw. fehleranfällige Zusammenspielalgorithmen entfallen. 5.1 Der Matchingprozess In einem ersten Schritt wurden zur Verknüpfung der unterschiedlichen Datenquellen die Datensätze BLH und IEB zusammengespielt. Hierbei ist zu erwähnen, dass das Informationspotenzial der BLH lediglich um Informationen zur Maßnahmeteilnahme aus der IEB ergänzt wurde. Anschließend wurden die IAB-Daten an die VSKT der Rentenversicherung gespielt. Bei der Zusammenführung dieser beiden Datensätze ist jedoch zu beachten, dass sich in beiden Datenbasen Episoden zeitlich überlagern können, die mit konkurrierenden Erwerbszuständen einhergehen. Beispielsweise kann eine Person in einem bestimmten Zeitraum bei der Rentenversicherung als sozialversicherungspflichtig beschäftigt gemeldet sein, während sie in den IAB-Daten im selben Zeitraum arbeitslos ist. 11 Der größte Anteil derartiger Unplausibilitäten dürfte auf fehlerhafte Arbeitgebermeldungen zurückzuführen sein. Zwar entstammen die Meldungen in beiden Datensatzteilen dem Meldeverfahren, allerdings werden von der Rentenversicherung Kontenklärungen durchgeführt. Im Rahmen des Kontenklärungsverfahrens werden somit beispielsweise unterlassene Jahres- oder Abmeldungen in den Daten der GRV bereinigt, infolge derer der IAB-Teil zu kurze oder zu lange Dauern für die entsprechenden Beschäftigungsverhältnisse ausweist. Aufgrund der möglichen Abweichungen wird beim Zusammenspielen der Daten mehrstufig vorgegangen. Zunächst wurden die Erwerbszustände in den IAB-Daten und in den GRV-Daten vereinheitlicht, um nach dem Zusammenspielen der Daten exakte statistische Zwillinge zu identifizieren. Das Zusammenspielen selbst erfolgte über einen gemeinsamen Identifikator, das Beginn- und Enddatum der jeweiligen Episode und dem Erwerbszustand der Person. 5.2 Das Episodensplitting Aufgrund unterschiedlicher Organisation der Datensätze in beiden Institutionen kann es vorkommen, dass identische Informationen in den verschiedenen Datenquellen unterschiedlich gehalten werden. Beispielsweise kann eine Originalmeldung in mehrere Meldungen aufgespaltet sein, die außer bei unterschiedlichen Beginn- und Endedaten identische Informationen beinhalten. Diese werden beim Zusammenspielen der Daten nicht als Zwillinge erkannt. Um derartige Fälle identifizieren zu können, wurde nach dem Zusammenspielen der Datensätze ein Episodensplitting durchgeführt, wobei die zeitlich längeren Episoden so in kürzere Episoden aufgeteilt wurden, dass sowohl in den IAB-Daten als auch in den GRV- Daten identisch lange Zeiträume in Bezug auf den jeweiligen Erwerbszustand entstehen. Auf diese Weise konnte ein weiterer Teil statistischer Zwillinge identifiziert werden. Zur Veranschaulichung des Episodensplittings dient Abbildung 4: 11 Vgl. Wübbeke (2005).

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 83 Abbildung 4: Grafische Darstellung des Episodensplittings (vorher/nachher) IAB Spell: z. B. Arbeitslosigkeit Im gleichen Zeitraum liegen 3 Spells mit Zustand Arbeitslosigkeit bei der RV vor. IAB Spell: z. B. Arbeitslosigkeit RV Spell: z. B. Arbeitslosigkeit IAB Spell: z. B. Arbeitslosigkeit RV Spell: z. B. Arbeitslosigkeit IAB Spell: z. B. Arbeitslosigkeit RV Spell: z. B. Arbeitslosigkeit Quelle: Eigene Darstellung. In Fällen, in denen die beschriebenen Abweichungen zwischen den IAB-Daten und GRV-Daten existieren und somit auch nach dem Episodensplitting keine exakten Zwillinge gefunden werden können, was für ca. 20 % der Beobachtungen zutrifft, wird unterschieden in Personen, bei denen in den GRV-Daten geklärte Versicherungskonten vorliegen, und Personen, bei denen dies nicht der Fall ist. Liegen geklärte Konten vor, wird die Richtigkeit der GRV-Daten unterstellt, da in den IAB-Datenbestand keine Korrekturen der existierenden Versichertenkonten eingepflegt werden. Bei den restlichen Fällen werden Heuristiken angewandt, um weitere Zwillinge auffinden zu können. 6 Der Scientific Use File: Zeitplan, Inhalte und Datenzugang Nach Abschluss des Matchings der Zwillingsepisoden, erfolgt das Heranspielen der Betriebsinformationen des BHP und weiteren ergänzenden Variablen der VSKT, sodass mit der Erstellung eines SUF begonnen werden kann. Verläuft die Testnutzung sowie die datenschutzrechtliche Prüfung positiv, wird der BASiD-Datensatz im September 2011 der wissenschaftlichen Öffentlichkeit zugänglich gemacht. Die voraussichtlich im ersten Quartal 2011 laufende Testnutzungsphase bietet Wissenschaftlern die Möglichkeit noch vor der Veröffentlichung mit dem SUF zu arbeiten und soll zu Verbesserungen des Datensatzes beitragen. Die aus der Testnutzung resultierenden Ergebnisse sollen zudem auf einem Workshop vorgestellt werden.

84 DRV-Schriften Band 55/2009 Der Unterschied zwischen dem SUF und der schwach anonymisierten Version des Datensatzes besteht darin, dass Anonymisierungsschritte bei diversen Merkmalen vorgenommen werden. Die Anonymisierung erfolgt im Wesentlichen nach dem Anonymisierungskonzept des seit Juni 2008 verfügbaren SUF der VSKT. 12 Für den BASiD- SUF wird eine Zufallsstichprobe des schwach anonymisierten Datensatzes gezogen, nachdem in der schwach anonymisierten Version zunächst eine Umsortierung der Merkmale und eine Vergabe von neuen Fallnummern stattgefunden hat. Letzteres erfolgt mit dem Ziel keine Hinweise zur Sortierung des Originaldatensatzes zu geben. Anschließend werden soziodemografische Merkmale in ihren Ausprägungen reduziert, sodass der SUF letztendlich zum Stichtag 31.12.2007 im Inland lebende Deutsche zwischen 30 und 67 Jahren beinhalten wird. Die abgelegte Biografiebzw. Erwerbszeit der jeweiligen Person wird ab dem 1. Januar des Jahres abgebildet, in dem die Person 14 Jahre alt wird. Sämtliche zeitveränderliche Datumsangaben werden monatlich ausgegeben, das heißt es wird für jeden Monat der Biografie- bzw. Erwerbszeit ein gültiger Zustand ermittelt. Tagesgenaue Informationen sind folglich nicht im SUF enthalten, sondern lediglich über die schwach anonymisierte Version zu erhalten. Die Informationen bezüglich der Entgeltpunkte werden im variablen Teil ebenfalls nur auf der Monatsebene weitergegeben. Im zeitunveränderlichen Datenteil der rentenrechtlichen Merkmale werden Entgeltsummen gerundet und zusammengefasst ausgegeben. Das Anonymisierungskonzept sieht zusätzlich vor, dass Regionalinformationen vergröbert werden müssen. Es wird im SUF am Ende eine regionale Identifikation nach Bundesländern möglich sein. Nach Veröffentlichung des SUF kann dieser über beide Forschungsdatenzentren (FDZ) bezogen werden. Daneben wird in Kopplung an Gastwissenschaftlicher-Arbeitsplätze auch eine schwach anonymisierte Version des Datensatzes angeboten werden. Eine weitere Möglichkeit besteht darin, Forschungsfragen mittels Kontrolliertem Fernrechnen, nach erstmaligem Gastaufenthalt, zu bearbeiten. Voraussetzung, um den erstellten BASiD Datensatz zu beantragen, ist ein nicht-kommerzielles wissenschaftliches Forschungsinteresse, das der jeweilige Forscher nachzuweisen hat. Spezielle Anforderungen an den Datenantrag können aus den allgemeinen Richtlinien des jeweiligen FDZ entnommen werden. 13 Weitere Informationen über den Datenzugang im FDZ der Bundesagentur für Arbeit im IAB sind über die Internetseite http://fdz.iab.de/de/fdz_data_access.aspx verfügbar. Die Seite www.fdz-rv.de informiert über den Datenzugang beim FDZ der Rentenversicherung. 7 Literatur Allmendinger, J. & Kohlmann, A. (2005): Datenverfügbarkeit und Datenzugang am Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung. In: Allgemeines Statistisches Archiv 88. 159 182. Bauer, T., Bender, St. & Schmidt, Chr. (2008): Evaluating the Labor Market Effects of Compulsory Military Services (unpublished manuscript, Essen/Nuremberg). 12 Weiterreichende Informationen zum SUF VSKT (Codepläne, Methodische Hinweise oder Gesetzestexte) kann den Internetseiten des FDZ-RV entnommen werden: www.fdz-rv.de. 13 Für ausführlichere Informationen zum FDZ der BA im IAB und den Datenzugangswegen siehe Kohlmann (2005) oder Allmendinger, Kohlmann (2005), zum FDZ-RV siehe Himmelreicher, Stegmann (2008).

BASiD Biografiedaten ausgewählter Sozialversicherungsträger 85 Beblo, M. & Wolf, E. (2002): Wage Penalties for Career Interruptions. An Empirical Analysis for West Germany. ZEW Discussion paper, 02-45, Mannheim. Beblo, M., Bender, St. & Wolf, E. (2009): Establishment-level wage effects of entering motherhood. In: Oxford Economic Papers, Vol. 61, No. S1. i11 i34. Jacobebbinghaus, P. & Seth, St. (2007): The German integrated employment biographies sample IEBS. In: Schmollers Jahrbuch. Zeitschrift für Wirtschafts- und Sozialwissenschaften, Jg. 127, H. 2. 335 342. Himmelreicher, R. K. & Stegmann, M. (2008): New Possibilities for Socio-Economic Research through Longitudinal Data from the Research Data Centre of the German Federal Pension Insurance (FDZ-RV). In: Schmollers Jahrbuch. Zeitschrift für Wirtschafts- und Sozialwissenschaften, Jg. 128, H. 4. 647 660. Kohlmann, A. (2005): The Research Data Centre of the Federal Employment Service in the Institute for Employment Research. In: Schmollers Jahrbuch 125. 437 447. Kreyenfeld, M. & Mika, T. (2008): Erwerbstätigkeit und Fertilität: Analysen mit der Versicherungskontenstichprobe der deutschen Rentenversicherung. In: DRV-Schriften Band 79, Bad Homburg. 71 95. Luckert, H., Stegmann, M. & Mika, T. (2005): Die Bereitstellung prozessproduzierter Daten im Forschungsdatenzentrum der Rentenversicherung. Grundsätze zur faktischen Anonymisierung von Mikrodaten und zu Gastwissenschaftler-Arbeitsplätzen. In: Deutsche Rentenversicherung 2 3/2005, Bad Homburg. 203 215. Müller, D. (2008): Der Traum einer kontinuierlichen Beschäftigung. Erwerbsunterbrechungen bei Männern und Frauen. In Szydlik, Marc (Hrsg.): Flexibilisierung. Folgen für Arbeit und Familie, (Sozialstrukturanalyse), Wiesbaden: VS Verlag für Sozialwissenschaften. 47 67. Oberschachtsiek, D.; Scioch, P., Seysen, Chr. & Heining, J. (2009): Stichprobe der Integrierten Erwerbsbiografien IEBS * Handbuch für die IEBS in der Fassung 2008. (FDZ Datenreport, 03/2009 (de)), Nürnberg. Rehfeld, U. G. (2007): Aktueller Stand und weitere Perspektiven im Forschungsdatenzentrum der Rentenversicherung. In: Erfahrungen und Perspektiven. DRV-Schriften Band 55/2006, Bad Homburg. 13 22. Richter, M. & Himmelreicher, R. K. (2008): Die Versicherungskontenstichprobe als Datengrundlage für Analysen von Versicherungsbiografien unterschiedlicher Altersjahrgänge. In: Die Versicherungskontenstichprobe als Scientific Use File. DRV-Schriften Band 79, Bad Homburg. 34 61. Schönberg, U. (2009): Does the IAB employment sample reliably identify maternity leave taking? A data report. In: Zeitschrift für Arbeitsmarktforschung, Volume 42, No. 1, Berlin / Heidelberg: Springer. 49 70. Schönberg, U. & Ludsteck, J. (2007): Maternity Leave Legislation, Female Labor Supply, and the Family Wage Gap, (IZA-Discussionpaper 2699).

86 DRV-Schriften Band 55/2009 Spengler, A. (2009): The Establishment History Panel. In: Schmollers Jahrbuch. Zeitschrift für Wirtschafts- und Sozialwissenschaften, Jg. 128, H. 3. 501 509. Spengler, A. (2009): Das Betriebs-Historik-Panel 1975 2006. Handbuch-Version 2.0.1. (FDZ Datenreport, 02/2009), Nürnberg. Stegmann, M. (2008): Aufbereitung der Sondererhebung Versicherungskontenstichprobe (VSKT) als Scientific Use File für das FDZ-RV. In: Die Versicherungskontenstichprobe als Scientific Use File. DRV-Schriften Band 79, Bad Homburg. 17 33. Wübbeke, Chr. (2005): Der Übergang in den Rentenbezug im Spannungsfeld betrieblicher Personal- und staatlicher Sozialpolitik, Beiträge zur Arbeitsmarkt- und Berufsforschung 290.1, Nürnberg. Ute Budzak studierte Soziologie und Politikwissenschaften an der Julius-Maximilians-Universität Würzburg. Seit Februar 2009 ist sie wissenschaftliche Mitarbeiterin am Forschungsdatenzentrum bei der Deutschen Rentenversicherung Bund in Würzburg. Daniela Hochfellner studierte Soziologie an der Otto-Friedrich-Universität Bamberg. Seit Juni 2008 ist sie wissenschaftliche Mitarbeiterin am Forschungsdatenzentrum (FDZ) der Bundesagentur für Arbeit (BA) im IAB. Birgit Steppich studierte Sozial- und Wirtschaftsgeografie, Soziologie und Regionalwissenschaften an der Universität Augsburg. Seit 2005 ist sie als wissenschaftliche Mitarbeiterin bei der Deutschen Rentenversicherung tätig, zunächst in der Abteilung Volkswirtschaft und Statistik in Berlin, und seit 2007 im Forschungsdatenzentrum bei der Deutschen Rentenversicherung Bund in Würzburg. Axel Voigt studierte Volkswirtschaftslehre an der Friedrich-Alexander-Universität Erlangen- Nürnberg. Das Studium schloss er 2008 mit dem Diplom ab. Seitdem ist er wissenschaftlicher Mitarbeiter des Forschungsdatenzentrums der Bundesagentur für Arbeit im IAB. Das Forschungsdatenzentrum (FDZ) der Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und Berufsforschung (IAB) ermöglicht externen Wissenschaftlern den Zugang zu den Mikrodaten der BA und des IAB für die nicht-kommerzielle empirische Forschung im Bereich der Arbeitsmarkt- und Berufsforschung. Das FDZ versteht sich als Vermittler zwischen den Datenproduzenten und den externen Datennutzern. Weitere Informationen sind im Internet verfügbar unter http://fdz.iab.de.