7. Konzentrations- und Disparitätsmessung Betrachte: Merkmal X, bei dem alle Daten x i 0 sind und die Merkmalssumme n i=1 x i eine sinnvolle Interpretation besitzt (extensives Merkmal) 314
Beispiel: X: Haushaltseinkommen = Alle x i sind größer oder gleich Null ni=1 x i ist Gesamteinkommen der Population Fragestellung: Wie ist die Merkmalssumme n i=1 x i auf die einzelnen Merkmalsträger verteilt? (Konzentration, Ungleichheit) 315
7.1 Disparität und Konzentration Jetzt: Klärung der Begriffe Ungleichheit (= Disparität) Konzentration 316
Messung von Disparität: Welcher Anteil der Merkmalssumme fällt auf einen bestimmten Anteil der Merkmalsträger? Beispiel: Welchen Anteil am Gesamteinkommen einer Bevölkerung vereinigen die 10% Reichsten auf sich? (Anteil des Gesamt-EK Anteil der Bevölkerung) 317
Messung von Konzentration: Welcher Anteil der Merkmalssumme fällt auf eine bestimmte Anzahl von Merkmalsträgern? Beispiel: Welchen Anteil am Gesamtumsatz eines Industriesektors haben die 5 größten Unternehmen? (Anteil des Gesamtumsatzes Anzahl von Unternehmen) 318
7.2 Konzentrationsmessung Wichtige Grundvoraussetzung: Die Daten x 1,..., x n sind absteigend geordnet: x 1 x 2... x n 0 Bemerkungen und Bezeichnungen: [I] An dieser Stelle verzichten wir auf die Schreibweise der geordneten Urliste x (n) x (n 1)... x (1) 0 319
Bemerkungen und Bezeichnungen: [II] Stattdessen ordnen wir (nötigenfalls) unsere Urliste einfach so um, dass gilt Es bezeichne h r = x 1 x 2... x n 0 x r n i=1 x i = x r n x, r = 1,..., n den Merkmalsanteil des r-ten Merkmalsträgers an der Merkmalssumme Wegen x 1 x 2... x n 0 gilt für die Merkmalsanteile: h 1 h 2... h n 0 320
7.2.1 Konzentrationsraten und Konzentrationskurve Definition 7.1: (Konzentrationsrate i-ter Ordnung) Die Summe der i größten Merkmalsanteile, CR(i) = i r=1 h r = i x r r=1 n x r r=1 heißt Konzentrationsrate der Ordnung i. CR(i) ist der Merkmalsanteil, der auf die i größten Merkmalsträger entfällt. Für i = 0 wird CR(0) = 0 gesetzt. 321
Definition 7.2: (Konzentrationskurve) Zeichnet man für i = 0,..., n die Punkte (i, CR(i)) in ein Koordinatensystem und verbindet man die Punkte durch einen linearen Streckenzug, so erhält man die Konzentrationskurve. Bemerkung: Per Definition beginnt die Konzentrationskurve im Punkt (0, CR(0)) = (0, 0) und endet im Punkt (n, CR(n)) = (n, 1). 322
Beispiel: [I] Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x 1 = 330, x 2 = 120, x 3 = 90, x 4 = 30, x 5 = 30 Man beachte: Die Daten sind bereits absteigend geordnet 323
Beispiel: [II] Arbeitstabelle: i x i h i CR(i) 0 0 1 330 0.55 0.55 2 120 0.20 0.75 3 90 0.15 0.90 4 30 0.05 0.95 5 30 0.05 1.00 600 1.00 324
Beispiel: [III] Verbinden der Punkte (i, CR(i)) ergibt die Konzentrationskurve: 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 325
Eigenschaften der Konzentrationskurve: [I] Die Konzentrationskurve ist der Graph einer Funktion, die das Intervall [0, n] auf das Intervall [0, 1] abbildet. Die Funktion ist stückweise linear und streng monoton wachsend vom Anfangspunkt (0, 0) bis zum Endpunkt (n, 1) Die Steigung des r-ten Segmentes (r = 1,..., n) beträgt CR(r) CR(r 1) = h r. 1 Die Steigungen h r nehmen mit wachsendem r ab. Somit ist die Konzentrationskurve konkav 326
Eigenschaften der Konzentrationskurve: [II] Der Fall maximaler Konzentration: Ein Merkmalsträger vereinigt die gesamte Merkmalssumme auf sich: Es folgt: h 1 = 1, h 2 = h 3 =... = h n = 0 CR(0) = 0, CR(1) = CR(2) =... = CR(n) = 1 327
Eigenschaften der Konzentrationskurve: [III] Der Fall minimaler Konzentration (egalitäre Verteilung): Jeder Merkmalsträger hat denselben Anteil 1/n an der Merkmalssumme. Es gilt: Es folgt: h 1 = h 2 =... = h n = 1 n CR(i) = i n, i = 0,..., n 328
Offensichtlich gilt: Jede Konzentrationskurve liegt zwischen den Extremen der maximalen Konzentration und der minimalen Konzentration 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 329
Naheliegende Vorgehensweise: Benutze die Konzentrationskurven zweier Grundgesamtheiten (Märkte) zum Vergleich des Ausmaßes der Konzentration in beiden Grundgesamtheiten (Märkten), z.b. zum Vergleich der Konzentration eines Merkmals auf ein und demselben Markt zu verschiedenen Zeitpunkten (zeitlicher Vergleich der Konzentration) der Konzentration eines Merkmals auf zwei unterschiedlichen Märkten zum gleichen Zeitpunkt (räumlicher Vergleich der Konzentration) 330
Beispiel: [I] Umsätze auf 2 Märkten: Markt I: 38, 12, 106, 34, 10 Markt II: 25, 20, 39, 7, 9 Man beachte: Daten müssen zunächst geordnet werden 331
Beispiel: [II] Arbeitstabelle: i x i h i CR I (i) x i h i CR II (i) 0 0 0 1 106 0.53 0.53 39 0.39 0.39 2 38 0.19 0.72 25 0.25 0.64 3 34 0.17 0.89 20 0.20 0.84 4 12 0.06 0.95 9 0.09 0.93 5 10 0.05 1.00 7 0.07 1.00 200 1.00 100 1.00 332
Beispiel: [III] Konzentrationskurven CR I und CR II : 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 333
Offensichtlich: Markt I weist gleichmäßig höhere Konzentration als Markt II auf Häufiges praktisches Problem: Konzentrationskurven CR I und CR II schneiden sich Kein eindeutiger Konzentrationsvergleich möglich 334
Ausweg: Beschreibe Konzentrationsausmaß in einer Grundgesamtheit durch geeignete Zahlen (Indizes) Eindeutiger Konzentrationsvergleich durch Vergleich von Zahlen ist immer möglich 335
7.2.2 Konzentrationsindizes Hier nur zwei Indizes: Herfindahl- und Rosenbluth-Index Definition 7.3: (Herfindahl-Index) Die Summe der quadrierten Merkmalsanteile K H = n h 2 i i=1 bezeichnet man als Herfindahl-Index. 336
Bemerkungen: Der Herfindahl-Index ist normiert. Es gilt 1 n K H 1 Es gilt K H = 1/n genau dann, wenn minimale Konzentration vorliegt Es gilt K H = 1 genau dann, wenn maximale Konzentration vorliegt 337
Jetzt: Index, der die Biegung der Konzentrationskurve ausnutzt Erinnerung: Bei maximaler Konzentration ist die Konzentrationskurve maximal gebogen Bei egalitärer Verteilung ist die Konzentrationskurve gar nicht gebogen (sondern eine Gerade) 338
Dehalb: Fläche A innerhalb des Rechtecks [0, n] [0, 1], die oberhalb der Konzentrationskurve liegt, ist sinnvolle Maßzahl für die Konzentration des Merkmals Kleines A hohe Konzentration Großes A geringe Konzentration Jetzt: Formale Berechnung des Flächeninhaltes A 339
Zur Berechnung des Rosenbluth-Index 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 340
Zunächst: Berechnung der Flächeninhalte A 1,..., A 5 A 1 = h 1 2 = h 1 2 1 1 2 A 2 = h 2 2 1 2 h 2 = 3 2 h 2 = h 2 2 2 1 2 A 3 = h 3 3 1 2 h 3 = 5 2 h 3 = h 3 2 3 1 2 A 4 = h 4 4 1 2 h 4 = 7 2 h 4 = h 4 2 4 1 2 A 5 = h 5 5 1 2 h 5 = 9 2 h 5 = h 5 2 5 1 2 341
Allgemein gilt für alle i = 1,..., n: A i = h i 2i 1 2 Somit folgt für den gesuchten Flächeninhalt A: A = n i=1 A i = n i=1 h i 2i 1 2 = n i=1 h i (i 1 2 ) = = n i=1 h i i 1 2 n i=1 h i i 1 2 n h i i=1 342
Jetzt: Definition eines Konzentrationsindexes basierend auf dem Flächeninhalt A Definition 7.4: (Rosenbluth-Index) Der Rosenbluth-Index ist definiert als K R = 1 2A = 1. n 2 i h i 1 i=1 343
Bemerkungen: Der Rosenbluth-Index ist normiert. Es gilt 1 n K R 1 Es gilt K R = 1/n genau dann, wenn minimale Konzentration vorliegt Es gilt K R = 1 genau dann, wenn maximale Konzentration vorliegt 344
7.3 Disparitätsmessung Wichtige Grundvoraussetzung: Die Daten x 1,..., x n sind aufsteigend geordnet: (vgl. Folie 319) 0 x 1 x 2... x n 345
Weitere Bezeichnungen: Wie bei der Konzentrationsmessung bezeichne h r = x r n x i i=1 den Anteil des r-ten Merkmalsträgers an der Merkmalssumme Wegen 0 x 1... x n gilt für die Merkmalsanteile: 0 h 1 h 2... h n Frage: Welchen Anteil an der Merkmalssumme vereinigen bestimmte Anteile der Population auf sich? 346
7.3.1 Lorenzkurve Definition 7.5: (Lorenzkurve) Für i = 1,..., n bezeichne L ( ) i n = i r=1 h r = i x r r=1 n x r r=1 den Anteil der i kleinsten Merkmalsträger an der Merkmalssumme. Zeichnet man nun die Punkte ( ( )) ( ( )) ( ( )) 1 1 2 2 n 1 n 1 (0, 0), n, L, n n, L,..., n n, L, (1, 1) n in ein Koordinatensystem und verbindet man diese durch einen linearen Streckenzug, so erhält man die Lorenzkurve der Daten x 1,..., x n. 347
Bemerkung: Die Lorenzkurve ordnet dem Anteil i/n der i kleinsten Merkmalsträger der Population den dazugehörigen Merkmalsanteil L(i/n) an der Grundgesamtheit zu. Die Lorenzkurve trägt somit zwei Anteile gegeneinander ab Beispiel: [I] (vgl. Folie 323) Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x 1 = 330, x 2 = 120, x 3 = 90, x 4 = 30, x 5 = 30 348
Beispiel: [II] Umordnung (vom kleinsten zum größten) ergibt folgende Arbeitstabelle: i x i h i L( 5 i ) = i r=1 h r 1 30 0.05 0.05 2 30 0.05 0.10 3 90 0.15 0.25 4 120 0.20 0.45 5 330 0.55 1.00 600 1.00 349
Lorenzkurve: 1 0,8 L(i/n) 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 i/n 350
Eigenschaften der Lorenzkurve: [I] Der Graph der Lorenzkurve befindet sich im Einheitsquadrat. Es gilt L(0) = 0 und L(1) = 1. Die Lorenzkurve ist stückweise linear, streng monoton wachsend und konvex. Der Fall minimaler Disparität (absolute Gleichheit): Gilt x 1 = x 2 =... = x n, so folgt h 1 = h 2 =... = h n Dies impliziert L(i/n) = i/n, i = 0,..., n (Lorenzkurve ist die Diagonale im Einheitsquadrat) 351
Eigenschaften der Lorenzkurve: [II] Der Fall maximaler Disparität (absolute Ungleichheit): Die gesamte Merkmalssumme entfällt auf einen (den größten) Merkmalsträger: Es folgt x 1 = x 2 =... = x n 1 = 0, x n = n x i i=1 h 1 = h 2 =... = h n 1 = 0, h n = 1 Dies impliziert ( ) ( ) ( 1 2 n 1 L = L =... = L n n n (Lorenzkurve ist maximal gebogen) ) = 0, L(1) = 1 352
Lorenzkurven minimaler und maximaler Disparität: 1 L(i/n) 0 0 1 i/n 353
Es gilt: Jede Lorenzkurve liegt zwischen den Extremen der minimalen Disparität (absolute Gleichheit) und der maximalen Disparität (absolute Ungleichheit) Wenn sich zwei Lorenzkurven nicht schneiden, weist die höhere Lorenzkurve eindeutig weniger Disparität auf als die niedrigere Lorenzkurve 354
Praktisches Problem: Lorenzkurven schneiden sich in vielen Fällen Kein eindeutiger Disparitätsvergleich möglich Ausweg: Beschreibe Ausmaß der Disparität durch einen Index Disparitätsvergleich anhand von Zahlen 355
7.3.2 Der Gini-Koeffizient Bekanntester Disparitätsindex: Der Gini-Koeffizient Intuition: Gini-Koeffizient nutzt Biegung der Lorenzkurve aus 356
Definition 7.6: (Gini-Koeffizient) Der Gini-Koeffizient (in Zeichen: D G ) ist definiert als das Zweifache der Fläche zwischen der Lorenzkurve und der Diagonalen im Einheitsquadrat. Formale Darstellung: [I] Es bezeichne B die Fläche unterhalb der Lorenzkurve im Einheitsquadrat. Dann gilt: D G = 2 ( ) 1 2 B = 1 2B 357
Zur Berechnung des Gini-Koeffizienten 1 L(i/n) 0 0 1 i/n 358
Formale Darstellung: [II] Man kann zeigen, dass gilt: B = n i=1 B i = n i=1 h i 2n 2i + 1 2n Damit folgt D G = 1 2B = 1 = n i=1 h i n i=1 h i n i=1 h i 2n 2i + 1 n 2n 2i + 1 = n n i=1 h i ( 1 2n 2i + 1 n ) = n i=1 h i 2i n 1 n 359
Bemerkungen: Der Gini-Koeffizient ist normiert. Es gilt 0 D G 1 1 n Es gilt D G = 0 genau dann, wenn minimale Disparität (absolute Gleichheit) vorliegt Es gilt D G = 1 1/n genau dann, wenn maximale Disparität (absolute Ungleichheit) vorliegt 360
Beispiel: (vgl. Folie 348) Gini-Koeffizient für die 5 Unternehmen eines Marktes Arbeitstabelle: i x i h i L( i 5 ) = i r=1 h r 2i 5 1 5 2i 5 1 5 h i 1 30 0.05 0.05 0.8 0.04 2 30 0.05 0.10 0.4 0.02 3 90 0.15 0.25 0.00 0.00 4 120 0.20 0.45 0.4 0.08 5 330 0.55 1.00 0.8 0.44 600 1.00 0 0.46 = D G 361