Auf dem Weg zum "Großen Vereinheitlichten Modell" Möglichkeiten und Grenzen der Datenfusion für Mikrosimulationsmodelle MITAX-Konferenz; Lüneburg, 5. Oktober 2005 Jürgen Buck, Universität Hohenheim
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 1
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 2
MÖGLICHE DATENQUELLEN FÜR STEUERSIMULATION SOEP FAST EVS Bereitsteller DIW Finanzverwaltung Amtliche Statistik Umfang Ca. 22.000 Personen Ca. 2,9 Mio. Steuerpflichtige Ca. 55.000 Haushalte Einkommensdaten ( ) Detailangaben zu steuerlichen Tatbeständen Turnus Jährlich 3-jährig, bisher nur für 1998 verfügbar 5-jährig Panel Repräsentativität 1 2 ( ) 1,3 SOEP und FAST erscheinen als Datenquelle für Steuersimulationsmodelle besonders geeignet 1 Sehr hohe Einkommen unvollständig erfasst 2 Nur Haushalte erfasst, die eine Steuererklärung abgeben 3 Besonders hoher Arbeitsaufwand für Teilnehmer (detaillierte Buchführung) 3
MODELLIERUNG STEUERLICHER TATBESTÄNDE IM GMOD (1/2) Unzureichend Sehr gut Modellierung im GMOD Abbildungsqualität Einkunftsarten 1 2 Land- und Forstwirtschaft Gewerbebetrieb Aus SOEP indirekt ermittelt Aus SOEP indirekt ermittelt 3 Selbständige Arbeit Aus SOEP indirekt ermittelt 4 Nichtselbständige Arbeit Bruttoarbeitslohn Werbungskosten Im SOEP abgefragt Generell Annahme der Pauschale 5 Einkünfte aus Kapitalvermögen Im SOEP oft nur Angabe von Gruppen 6 7 Einkünfte aus Vermietung und Verpachtung Sonstige Einkünfte Renten Versorgungsbezüge Aus SOEP indirekt ermittelt Im SOEP abgefragt Im SOEP abgefragt 4
MODELLIERUNG STEUERLICHER TATBESTÄNDE IM GMOD (2/2) Unzureichend Sehr gut Modellierung im GMOD Auf Basis SOEP-Daten modelliert Sonderausgaben Altersentlastungsbetrag Abbildungsqualität Außergewöhnliche Belastungen Kirchensteuer Vorsorgepauschale Versicherungsbeiträge Weitere Sonderausgaben Konfession nicht modelliert Auf Basis SOEP indirekt ermittelt Auf Basis SOEP indirekt ermittelt Generell Annahme Pauschale Nicht modelliert Weitere Freibeträge Kinderfreibeträge Haushaltsfreibetrag Aus Angaben im SOEP indirekt ermittelt Aus Angaben im SOEP indirekt ermittelt 5
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 6
PRINZIP DER DATENFUSION Gemeinsame Merkmale Primärfile Sekundärfile(s) X Z Y Z Fusioniertes File X Y Z 7
DISKUSSION VON REGRESSIONSANSÄTZEN Idee Ergänzung der fehlenden Daten durch Regression Verfahren Schätzung einer Regressionsgleichung Y = f (Z) im Primärfile Einsetzen der Schätzwerte ŷ j = f (z j ) für alle Beobachtungen j im Sekundärfile Kritik Funktionaler Zusammenhang zwischen gemeinsamen und fehlenden Variablen erforderlich Funktionale Form muss spezifiziert werden Einsetzen von "Mittelwerten" ŷ, daher "Varianzverlust" im fusionierten File 8
ZUSAMMENFASSENDE BEWERTUNG DER METHODEN Vorliegender Fall Information über (X,Y)-Verteilung Nicht vorhanden Vorhanden Klassische Methoden Sinnvoll Nicht sinnvoll (vorhandene Information wird nicht genutzt) Erweiterte Methoden Zur Sensitivitätsanalyse theoretisch denkbar, praktisch jedoch nicht sinnvoll (Intervalle zu groß, zu aufwendig) Sinnvoll Liegt vor Liegt nicht vor Bedingte Unabhängigkeit von X und Y, gegeben Z 9
NEAREST-NEIGHBOUR- UND PROPENSITY-SCORE-VERFAHREN Nearest-Neighbour Gewichtung und evtl. Normierung der gemeinsamen Variablen Propensity Score Einführung einer Indikatorvariable 1: im Primärfile/0: im Sekundärfile Kommentar Bei Propensity-Score-Verfahren erfolgt implizite Gewichtung durch Logit-/Probit-Schätzung Logit-/Probit-Schätzung zur Berechnung des Propensity Score für jede Beobachtung Berechnung der Abstände zwischen Datensätzen auf Basis der gewichteten gemeinsamen Variablen in Primär- und Sekundärfile Ergänzung der fehlenden Variablen im Primärfile durch die Variablen des Sekundärdatensatzes mit minimalem Abstand Fusionierter Datenbestand Berechnung der Abstände zwischen Datensätzen in Primärund Sekundärfile durch Vergleich ihrer Propensity Scores Ergänzung der fehlenden Variablen im Primärfile durch die Variablen des Sekundärsatzes mit minimalem Abstand Fusionierter Datenbestand Bei Nearest-Neighbour-Verfahren verschiedene Abstandsmaße möglich (z.b. absolut, euklidisch, Mahalanobis) Bei Verwendung der Mahalanobis- Distanz erfolgt implizite Skalenkorrektur Weitere Varianten Beschränkung der Anzahl der Funktionspartner Ergänzung von Durchschnittswerten mehrerer nächstliegender Datensätze Verwendung von Kerndichteverfahren 10
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 11
ÜBERBLICK ERGÄNZUNG DES GMOD Idee Ergänzung des GMOD um Werbungskosten Fahrtkosten Weitere Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfessionszugehörigkeit Verfahren Analyse der Situation im FAST Methodenwahl im Einzelfall Ergänzung des GMOD Vergleich fusionierte Daten "GMOD+" mit "Originaldaten" (FAST) Prämisse: FAST ist "richtiger" Datenbestand 12
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 13
WERBUNGSKOSTEN ÜBERBLICK Pauschale unterschätzt tatsächliche Werbungskosten 100% Unter Pauschale Pauschale 2 55 2 58 2 32 7 34 Ein oder beide Ehepartner unter Pauschale Pauschale für beide Ehepartner Über Pauschale 43 41 44 22 43 16 Ein Ehepartner über Pauschale, Pauschale für anderen Partner Beide über Pauschale Einzelveranlagung Zusammenveranlagung Alleinverdiener Stkl. IV/IV Zusammenveranlagung Stkl. III/V Zusammenveranlagung Bei genereller Annahmen der Werbungskostenpauschale werden Werbungskosten deutlich unterschätzt Quelle: FAST 98 14
ANTEIL FAHRTKOSTEN AN WERBUNGSKOSTEN UND KONSEQUENZEN FÜR MODELLIERUNG Durchschnittlicher Anteil der Kosten für Fahrten zwischen Wohnung und Arbeitsstätte an gesamten Werbungskosten Einzelveranlagung Zusammenveranlagung 72% Männer 71% Frauen 78% SOEP enthält Angaben über Entfernung Wohnung Arbeitsstelle Auf Grund der Verfügbarkeit von Daten zur Pendlerpauschale im SOEP und wegen dominierender Stellung der Fahrtkosten explizite Modellierung im GMOD+ Vereinfachende Annahmen Alle Steuerpflichtigen nutzen eigenen PKW Keine Berücksichtigung erhöhter Sätze für Einsatzwechseltätigkeit und behinderte Arbeitnehmer 200 Arbeitstage im Jahr 15
ERGEBNIS MODELLIERUNG FAHRTKOSTEN EINZELVERANLAGUNG Fahrtkosten > 0 EUR Fahrtkosten > 500 EUR Fahrtkosten > 800 EUR FAST GMOD+ Anteil in Prozent 26 48 22 28 20 20 Arithmetisches Mittel in EUR 1.784 1.108 2.035 1.710 2.228 2.177 Quantile in EUR 1% 67 71 530 501 823 859 5% 229 71 630 572 890 859 10% 385 143 741 572 984 930 25% 805 286 1.063 716 1.235 1.074 50% 1.392 716 1.603 1.145 1.775 1.718 75% 2.331 1.432 2.552 2.148 2.756 2.506 90% 3.651 2.506 3.876 3.436 4.072 3.937 95% 4.698 3.579 4.939 4.654 5.118 5.441 99% 7.104 7.159 7.351 7.875 7.535 8.950 Quelle: Eigene Berechnungen Steuerpflichtige mit geringen Fahrtkosten machen oft keine Angaben in Steuererklärung Sehr zuverlässige Modellierung 16
METHODIK ERGÄNZUNG WEITERE WERBUNGSKOSTEN* Funktionale Zusammenhänge Konsequenzen für Methodik Methodik Anteil Fahrtkosten an gesamten Werbungskosten unabhängig vom Einkommen Absolute Höhe der weiteren Werbungskosten unabhängig vom Einkommen Höhe der weiteren Werbungskosten unabhängig von demografischen Variablen Primäres Ziel: Reproduktion der Verteilung Methoden, welche starke funktionale Abhängigkeit von gemeinsamen Variablen benötigen, scheiden aus (z.b. Regression) Ergänzung der weiteren Werbungskosten durch Propensity Score Matching Addition der modellierten Fahrtkosten Ansatz von Pauschale ( EUR), falls Fahrtkosten und weitere Werbungskosten unter Pauschale Korrektur, falls Bruttoeinkommen unter Pauschale * Mehraufwendungen für Verpflegung, Mehraufwendungen für doppelte Haushaltsführung, besondere Berufsgruppen, übrige Werbungskosten 17
ERGEBNIS FUSION WERBUNGSKOSTEN Zusammenveranlagung Einzelveranlagung Männer Frauen FAST GMOD+ Arithmetisches Mittel in EUR 1.928 2.030 1.990 1.975 1.381 1.460 Quantile in EUR 1% 5% 10% 25% 50% 1.084 1.136 75% 2.205 2.207 2.306 2.084 1.210 1.140 90% 3.844 4.189 3.864 3.622 2.271 2.138 95% 5.240 5.682 5.225 5.719 3.120 3.177 99% 8.847 9.299 9.208 9.628 5.518 8.249 Sehr gute Abbildung der Verteilung Quelle: Eigene Berechnungen 18
FAZIT ERGÄNZUNG WERBUNGSKOSTEN Modellierung der Fahrtkosten auf Basis SOEP genauer als in Steuerdaten, daher erweiterte Analysen möglich, z.b. Änderung Pendlerpauschale Streichung Pendlerpauschale Änderung Werbungskostenpauschale Bei Werbungskosten insgesamt sehr gute Abbildung im GMOD+ 19
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 20
STEUERBERATUNGSKOSTEN ÜBERBLICK in Prozent Situation im FAST Ansatz von Steuerberatungskosten Funktionale Zusammenhänge Konsequenzen für Modellierung Nein 85 % 76 % Ja 15 % 24 % Keine erkennbaren wesentlichen funktionalen Zusammenhänge Ziel: Reproduktion der Verteilung Methode: Propensity Score Matching Durchschnittlicher Betrag in EUR EV* ZV** 192 281 * Einzelveranlagung ** Zusammenveranlagung Quelle: FAST 98 21
STEUERBERATUNGSKOSTEN ERGEBNISSE Zusammenveranlagung FAST GMOD+ Einzelveranlagung Alle Altersgruppen Ehemann < 70 Jahre Anteil in Prozent 15 13 24 28 24 24 Arithmetisches Mittel in EUR 192 203 177 281 275 236 Quantile in EUR 1% 6 15 7 1 7 1 5% 14 40 15 1 15 1 10% 21 59 31 1 30 1 25% 56 83 78 1 77 1 50% 100 97 160 28 158 125 75% 206 196 307 194 303 262 90% 396 330 592 453 581 552 95% 601 547 890 673 873 804 99% 1.450 1.473 2.036 2.103 1.972 2.211 Quelle: Eigene Berechnungen Gute Abbildung der Verteilung SOEP enthält deutlich mehr ältere Mitbürger als FAST (12% vs. 3% Anteil Ehepaare mit Ehemann ab 70 Jahre) 22
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 23
SPENDEN UND BEITRÄGE ÜBERBLICK in Prozent Situation im FAST Ansatz von Spenden und Beiträgen Funktionale Zusammenhänge Konsequenzen für Modellierung Nein 78 % 66 % Ja 22 % 34 % Keine erkennbaren wesentlichen funktionalen Zusammenhänge Ziel: Reproduktion der Verteilung Methode: Propensity Score Matching Durchschnittlicher Betrag in EUR EV* ZV** 211 307 * Einzelveranlagung ** Zusammenveranlagung Quelle: FAST 98 24
SPENDEN UND BEITRÄGE ERGEBNISSE Zusammenveranlagung SOEP GMOD+ Einzelveranlagung Alle Altersgruppen Ehemann < 70 Jahre Anteil in Prozent 22 18 24 34 24 34 Arithmetisches Mittel in EUR 211 218 307 341 283 362 Quantile in EUR 1% 5 10 10 3 7 10 5% 15 25 15 10 13 15 10% 26 33 26 10 25 26 25% 51 66 51 43 51 55 50% 102 128 102 123 102 112 75% 156 251 273 368 252 327 90% 494 358 748 602 680 817 95% 888 460 1.278 989 1.227 1.299 99% 2.030 1.718 2.898 3.732 2.754 5.011 Quelle: Eigene Berechnungen Verteilung wird sehr gut abgebildet Anteil wird deutlich unterschätzt, Höhe des jeweiligen Ansatzes wird überschätzt 25
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 26
ÜBERBLICK KONFESSIONSZUGEHÖRIGKEIT Situation Konsequenzen für Modellierung West Ost Anteil konfessionsgebundene Steuerpflichtige Ost-West-Vergleich (in Prozent) Einzelveranlagung Männer Frauen 21 26 75 78 Struktureller Unterschied zwischen Ost und West lässt Bildung von homogenen Gruppen/Clustern (Ost und West) ratsam erscheinen Zusammenveranlagung Männer Frauen 22 26 75 82 Ziel: Reproduktion der bedingten Verteilung "Anteil konfessionsgebundener Steuerpflichtiger, gegeben ihr Bruttoeinkommen" Einflüsse anderer demografischer Variablen eher gering Quelle: FAST 98 27
ERGEBNIS FUSION KONFESSIONSZUGEHÖRIGKEIT in Prozent Einzelveranlagung Zusammenveranlagung Männer Frauen Männer FAST Frauen GMOD+ West (gesamt) 75 78 79 84 64 75 82 86 Ost (gesamt) 21 19 16 26 22 28 26 35 Bruttoeinkommen in EUR < 10.000 66 73 70 73 60 48 70 82 10.000-19.999 58 56 71 61 49 41 65 63 20.000-29.999 68 67 71 73 64 62 60 61 30.000-39.999 52 67 67 70 72 69 59 62 40.000-49.999 62 63 62 54 72 68 56 65 50.000-99.999 55 53 56 48 69 69 17 51 Ab 100.000 44 100 43 100 63 66 K.A. 43 Hohe Einkommen im SOEP kaum enthalten Quelle: Eigene Berechnungen 28
FAZIT ERGÄNZUNG KONFESSIONSZUGEHÖRIGKEIT Ergebnis bei niedrigen und mittleren Einkommen sehr gut Fusionsergebnis im Hocheinkommensbereich wie auch Abbildung hoher Einkommen im SOEP nicht befriedigend Vor dem Hintergrund der Einkommensverteilung insgesamt akzeptable Reproduktion der Verteilung im GMOD+ Quelle: Team 29
INHALT Motivation Methodik Ergebnisse Werbungskosten Steuerberatungskosten Spenden und Beiträge Konfession Fazit und Ausblick 30
FAZIT Datenfusion kann ein interessanter Ansatz zur Verbesserung der Datenbasis für Mikrosimulationsmodelle sein Eine exakte Modellierung auf Basis kausaler Abhängigkeiten ist bei Möglichkeit vorzuziehen Es gibt keinen "Generalschlüssel"; Methoden sollten im Einzelfall auf Basis der spezifischen Situation und Datenlage gewählt werden Quelle: Team 31
KASSENMÄSSIGE STEUEREINNAHMEN 2003 in Prozent IM GMOD modelliert 100% = 479,6 Mrd. EUR 18 2 3 9 1 2 1 18 Gemeinschaftssteuern Bundessteuern steuern Zölle Gemeindesteuern 4 1 7 Länder- 70 Sonstige Stromsteuer Versicherungssteuer Solidaritätszuschlag Tabaksteuer Mineralölsteuer 2 2 70 1 7 22 2 Veranlagte Einkommenssteuer Zinsabschlag Körperschaftssteuer Ertragsteuern Einfuhrumsatzsteuer Umsatzsteuer 35 Lohnsteuer GMOD modelliert ca. 38% des Steueraufkommens Erweiterung um indirekte Steuern (insbes. Mehrwertsteuer, Mineralölsteuer) könnte zu höherem Informationsgehalt führen * Auf Basis ihres Aufkommens Quelle: Statistisches Bundesamt, Fachserie 14 32
AUSBLICK Erste Schätzungen mit GMOD+ Differenziertes dynamisches Angebotsmodell GMOD+ "Großes vereinheitlichtes Modell" Kurzfristig Anwendung diverser Discrete-Choice-Schätzverfahren für Arbeitsangebot Schätzung auf Querschnitt Vergleich Schätzergebnisse GMOD und GMOD+ Mittelfristig Dynamisierung der FAST- Daten auf Basis FAST 2001 Schätzung auf Längsschnitt Langfristig Einbeziehung von Daten zu indirekter Besteuerung "Großes vereinheitlichtes Modell" mit direkter und indirekter Besteuerung Integrierte Modellierung von Änderungen bei Einkommensteuern und Verbrauchsteuern Quelle: Team 33