Heaping/Rounding. Bernhard Riedl Betreuerin: Andrea Wiencierz München, den

Transkript

1 Heaping/Rounding Bernhard Riedl Betreuerin: Andrea Wiencierz München, den

2 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler

3 Beispiel zur Einführung

4 Stetige Variablen können normalerweise nur mit endlicher Präzision gemessen werden Mögliche Gründe: finanzielle oder technische Einschränkungen Die erhaltenen Werte liegen gehäuft auf einer Teilmenge der möglichen Werteskala (z.b. mehr Werte bei ganzen Zahlen als in Wirklichkeit) Einfluss auf Ergebnisse der Datenauswertung: verzerrte Schätzungen unterschiedliches Rundungsverhalten verschiedener Populationen unangemessene Interpretationen

5 Warum neigen Menschen dazu Werte zu runden? Menschen merken sich eine Größenordnung mit den ersten Ziffern und vergessen den Rest Wenn sie den Wert aus der Erinnerung wiedergeben sollen, ersetzen sie Ziffern, an die sie sich nicht erinnern, mit Nullen Wenn sie sich überhaupt nicht erinnern, schätzen sie den Wert komplett, welcher dadurch stark gerundet ist

7 2.1 Definition und Vorstellung Heaping X * =h round X h Rundungsfehler: = X * X Annahmen Heaping: a) Ein Befragter benutzt auf der Werteskala unterschiedlich große Rundungsintervalle h Beispiele: Je größer der Wert, desto größer das Rundungsintervall (stärkere Rundung) Manche Werte werden bevorzugt genannt (z.b. unterschiedlich große Haufen bei halben und ganzen Jahren)

8 b) Verschiedene Befragte benutzen unterschiedlich große Rundungsintervalle h Überlappung von Intervallen Beispiel : wahrer Wert X=8 Rundungsintervall h=12 12 round(0.66)=12 Rundungsintervall h=6 6 round(1.33)=6 Rundungsintervall h=1 1 round(8)=8 Unterschiedliche Befragte geben bei gleichem wahren Wert, je nach Rundungsintervall, unterschiedliche Werte an

9 Es kommt zu einer abnormalen Häufung von Anteilen an bestimmten Werten der Werteskala Skalenabhängigkeit: Je größer die Skala, desto größer die Tendenz zu runden Skala Monate: Häufung bei halben und ganzen Jahren (6, 12,18,...) Skala Wochen: Häufung bei Monaten (4, 8, 12,...) Heaping liegt in allen Umfragen vor, die sich auf die Vergangenheit beziehen.

10 Häufungspunkte können auch andere Ursachen haben: Wahre Begebenheiten (z.b. Pleite einer großen Firma) Saisonale Schwankungen (z.b. in Landwirtschaft oder Gastronomie) Fehler bei der Stichproben- oder Datenauswahl

12 Auswirkungen Heaping (I) Falsche saisonale Effekte durch Heaping Beispiel: Einige Arbeiter waren bis November arbeitslos. Ein bestimmter Prozentsatz der Arbeiter gibt aber Dezember als das Ende der Arbeitslosigkeit an. Dadurch wird der Dezember ungerechtfertigt überschätzt.

13 Auswirkungen Heaping (II) Über- bzw. Unterschätzung von Zeiträumen durch asymmetrisches Heaping Beispiel: Einige Arbeiter haben seit Februar einen Job Ein bestimmter Prozentsatz gibt aber Januar als Beginn der Beschäftigung an, währenddessen das Ende der Beschäftigung gleich bleibt Dadurch kann die Dauer der Beschäftigung überschätzt werden Es gibt weniger kurze Beschäftigungszeiten als in Realität Dadurch könnte man fälschlicherweise vermuten, dass mit zunehmender Dauer der Beschäftigung die Wahrscheinlichkeit arbeitslos zu werden steigt.

14 Auswirkungen Heaping (III) Auswirkungen von symmetrischem Heaping Beispiel: Einige Arbeiter geben statt dem wahren Beginn der Beschäftigungszeit einen gerundeten an Zum Beispiel wird statt Dezember oder Februar, Januar als Beschäftigungsbeginn angegeben Kaum Effekt auf den Erwartungswert der Beschäftigungszeit Die Varianz der Beschäftigungszeit vergrößert sich Jedoch können einige kurze Beschäftigungszeiten (zwischen Dezember und Februar) komplett herausfallen, wodurch die Dauer der Beschäftigung tendenziell überschätzt wird

16 3. Beispiel Heaping Angegebene Dauer der Arbeitslosigkeit bei der Umfrage 1986.I von Lombarden, die zwischen den beiden Umfragen 1986.I und 1986.II dauerhaft arbeitslos waren

17 In der folgenden Tabelle wird nun der wahre Zeitraum zwischen den beiden Umfragen 1986.I und 1986.II mit der Differenz der jeweils gemachten Angaben verglichen Man kann nun sehen zu wie viel Prozent der wahre Zeitraum über- bzw. unterschätzt wird Den Anteil der richtig angegebenen Zeiträume kann man unter Consistent response sehen Nun kann man vergleichen ob es mit zunehmender Dauer der Arbeitslosigkeit zu einer Veränderung des Rundungsverhaltens kommt

18

19 Nur 41.7% konsistente Antworten (der Zeitraum zwischen den Umfragen wird richtig angegeben) Anteil konsistenter Antworten nimmt mit der Dauer der Arbeitslosigkeit ab Lokal systematische Über- bzw. Unterschätzung der Zeiträume zwischen den Umfragen Werte lassen Häufung bei halben bzw. ganzen Jahren vermuten

20 Vergleich der Ergebnisse von Fragebögen, die 3 Monate auseinander liegen: Naiv: Alle Haufen verschieben sich um 3 Monate Jedoch: Haufen bleiben an den selben Häufungspunkten (halbe und ganze Jahre). 1. Fall: Wert bleibt auf dem gleichen Haufen (Fehler = -3) 2. Fall: Wert wandert auf nächsten bzw. übernächsten Haufen (Fehler = 3 bzw. 9) -3, 3, 9 entsprechen 1/3 der inkonsistenten Werte

22 2.1 Definition Rounding X * =h round X h Rundungsfehler: = X * X Annahmen Rounding: Ein Befragter benutzt auf der kompletten Werteskala das gleiche Rundungsintervall h Rundungintervall symetrisch um Alle Befragten benutzen das gleiche Rundungsintervall h Keine Überlappung der Intervalle X *

23 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler 4. Fazit

24 3.2 Beispiel Rounding/Heaping Analyse der finnischen Teilmenge des European Community Household Panel (ECHP) ECHP: Studie über die soziale und wirtschaftliche Situation der Bevölkerung in der EU Welche Faktoren beeinflussen die Stärke der Rundung des persönlichen Bruttogehalts bzw. Einkommens? Bei Haushaltspanelstudien gibt es einige plausible Faktoren, die Einfluss auf die Präzision der gemachten Angaben haben dürften Durch die unterschiedlich präzisen Angaben, die bei fast allen Studien vorliegen, handelt es sich auch hier streng genommen um Heaping

25 Welche Faktoren haben Einfluss auf die Präzision der Angaben? Interview Art des Interviews Interviewdauer Face-to-face Interview Telefoninterview Proxyinterview (Schätzung anhand von Proxy-Variablen) Panelkonditionierung (Bei einer wiederholten Bearbeitung verändert sich die Präzision signifikant) Einkommen wichtige vs. unwichtige Einkommensbestandteile feste vs. variable Löhne korrelieren mit: Alter, Jobtyp, Geschlecht

26 Rundungsindikator b Zeigt die Stärke der Rundung b=anzahl der Ziffern bis nur noch Nullen folgen x=wahrer Wert x =gerundeter Wert Notation: b=b( x * ) Bsp: b(2)=b(300)=b(7000)=1 b(11)=b(170)=b(6800)=2 Je kleiner b, desto stärker die Rundung Relativer Rundungsindikator: * Ermöglicht Vergleichbarkeit von verschiedenen Ländern mit z.b. unterschiedlichen Währungen oder Lebenshaltungskosten

27 Welche Fragen werden am Genausten beantwortet? bekannter Wert: abstrakter Wert: Geläufige Werte werden genauer angegeben Panelkonditionierung hat keinen substanziellen Effekt Stimmt mit der Hypothese überein, dass man sich nur an die ersten paar Ziffern einer Zahl erinnert und den Rest mit Nullen auffüllt

28 Weitere extremere Beispiele: Starke Rundung: the minimum net monthly income an unemployed person would accept to work b=1: 69,8% b=2: 29,7% Grund: Wert beruht sehr häufig auf Schätzung Schwache Rundung: average monthly child allowance b=1: 8% b=2: 42,3%, b=3: 35,3% b=4: 14,4% Gründe: wichtige Einkommenskomponente, geringe Variation

29 Bei welcher Rundungsstärke ergibt gibt es den größten Rundungsfehler? Bemerkung: int.=angegebener Wert, ref.=wahrer Wert Runden ist Indikator für geringe Genauigkeit Runden verursacht nicht den einzigen Messfehler, weil es selbst bei relativ wenig Rundung noch eine erhebliche Differenz zwischen dem angegebenen und dem wahren Wert (ref. erhält man aus dem Register) gibt.

30 Welche persönlichen Eigenschaften beeinflussen beeinflussen die Stärke der Rundung? Ordered Probit Modell: Verallgemeinerung des Probit Modells für den Fall, dass der Response mehr als zwei Werte annehmen kann. Dazu werden die möglichen Responsewerte in sinnvoller Reihenfolge angeordnet. Link- Funktion: Je größer, desto präziser die Antworten

31

33 3.3 Einfluss auf die Normalverteilung Herleitung des k-ten Moments von Verteilungen der gerundeten Werte: Bemerkung: ih entspricht X, * also dem Wert auf den gerundet wird. Dabei ist.

34 Wir schreiben jeden Term der Summe um ( y=ih) : Jetzt können wir Mithilfe der Euler-Maclaurin Formel die Summe in ein Integral umschreiben (Dabei wird nur jeder h-te Wert aufsummiert. R ist relativ klein und wird ab jetzt weggelassen): Wir setzen f(y) ein: Wir substituieren: y = x-u, v=u/h:

35 1. Moment: Einfluss des Rundens vernachlässigbar 2. Moment: Verzerrung um h 2 12

36 Da wir nun die approximative Verzerrung der Varianz kennen, können wir sie nun korrigieren Sheppard`s correction: Verteilung sollte annähernd symmetrisch sein entspricht Varianz einer gleichverteilten Variable auf dem Intervall Inzwischen gibt es auch Erweiterungen für polynomiale Variablen

38 3.4 Einfluss auf die Regressionskoeffizienten Einfache Regression: mit Regression mit gerundetem Prädiktor: mit Zusammenhang zwischen und : * Das wahre ist somit approximativ:

39 Gerundeter Response hat keinen Einfluss auf die Regressionskoeffizienten: Bemerkung: Die Kovarianz verändert sich nicht, wenn man X durch X * und/oder Y durch Y * ersetzt. Da der Erwartungswert der gerundeten Werte, wie bereits gezeigt, approximativ dem Erwartungswert der nicht gerundeten Werte entspricht.

41 3.5 Rundungsfehler da jedoch lokal stark unterschiedlich von 0 obwohl voneinander abhängig da Varianz des Fehlers: da:

42 Wahrscheinlichkeit des Fehlers : Umformung mithilfe der Euler-Maclaurin Formel: Grenzverteilung des Fehlers ist approximativ die Gleichverteilung im Intervall :

44 4. Fazit Menschen neigen dazu Werte zu runden bzw. zu häufen Heaping: Verschiedene Befragte benutzen verschiedene Rundungsintervalle h. Zudem kann ein Befragter verschiedene Rundungsintervalle h auf der Werteskala benutzen Heaping ist skalenabhängig Auswirkungen von Heaping: Falsche saisonale Schwankungen Falsche Schätzung von Zeiträumen Rounding: Alle Befragten benutzen das gleiche gegebenene Rundungsintervall h an jeder Stelle der Werteskala

45 Rundungsstärke und -fehler abhängig von vielen Faktoren: Eigenschaften der Person: Alter, Geschlecht, Interview, Beruf, Gehalt Eigenschaften des gefragten Werts: wichtig, geläufig, geschätzt Verzerrung der Varianz und des Regressionskoeffizienten kann durch die Sheppard`s correction relativ gut korrigiert werden. Der Rundungsfehler ist im Erwartungswert 0 Weitere Forschung: Rundungsfehler hängt noch von anderen Faktoren ab (Tricker 1984) Position des 1.Moments im Rundungsnetz Symmetrische oder unsymmetrische Verteilung

46 Literatur Schneeweiß, Hans; Komlos, John und Ahmad, A. (2006): Symmetric and Asymmetric Rounding. Sonderforschungsbereich 386, Discussion Paper 479 Wolff, J. und Augustin, Thomas (2000): Heaping and its Consequences for Duration Analysis. Sonderforschungsbereich 386, Discussion Paper 203 Hanisch (2005): Rounded responses to income questions. Allgemeines Statistisches Archiv 89, Torelli and Trivellato (1989): Youth unemployment duration from the Italien labour force survey. European Economic Review 33 Kaiser, Sebastian (2004): Messfehler (Heaping) in Arbeitslosigkeitsdaten. Seminar: Fehlerbehaftete Daten, Sommersemester 2004