7. Konzentrations- und Disparitätsmessung

7. Konzentrations- und Disparitätsmessung Betrachte: Merkmal X, bei dem alle Daten x i 0 sind und die Merkmalssumme n i=1 x i eine sinnvolle Interpretation besitzt (extensives Merkmal) 314

Beispiel: X: Haushaltseinkommen = Alle x i sind größer oder gleich Null ni=1 x i ist Gesamteinkommen der Population Fragestellung: Wie ist die Merkmalssumme n i=1 x i auf die einzelnen Merkmalsträger verteilt? (Konzentration, Ungleichheit) 315

7.1 Disparität und Konzentration Jetzt: Klärung der Begriffe Ungleichheit (= Disparität) Konzentration 316

Messung von Disparität: Welcher Anteil der Merkmalssumme fällt auf einen bestimmten Anteil der Merkmalsträger? Beispiel: Welchen Anteil am Gesamteinkommen einer Bevölkerung vereinigen die 10% Reichsten auf sich? (Anteil des Gesamt-EK Anteil der Bevölkerung) 317

Messung von Konzentration: Welcher Anteil der Merkmalssumme fällt auf eine bestimmte Anzahl von Merkmalsträgern? Beispiel: Welchen Anteil am Gesamtumsatz eines Industriesektors haben die 5 größten Unternehmen? (Anteil des Gesamtumsatzes Anzahl von Unternehmen) 318

7.2 Konzentrationsmessung Wichtige Grundvoraussetzung: Die Daten x 1,..., x n sind absteigend geordnet: x 1 x 2... x n 0 Bemerkungen und Bezeichnungen: [I] An dieser Stelle verzichten wir auf die Schreibweise der geordneten Urliste x (n) x (n 1)... x (1) 0 319

Bemerkungen und Bezeichnungen: [II] Stattdessen ordnen wir (nötigenfalls) unsere Urliste einfach so um, dass gilt Es bezeichne h r = x 1 x 2... x n 0 x r n i=1 x i = x r n x, r = 1,..., n den Merkmalsanteil des r-ten Merkmalsträgers an der Merkmalssumme Wegen x 1 x 2... x n 0 gilt für die Merkmalsanteile: h 1 h 2... h n 0 320

7.2.1 Konzentrationsraten und Konzentrationskurve Definition 7.1: (Konzentrationsrate i-ter Ordnung) Die Summe der i größten Merkmalsanteile, CR(i) = i r=1 h r = i x r r=1 n x r r=1 heißt Konzentrationsrate der Ordnung i. CR(i) ist der Merkmalsanteil, der auf die i größten Merkmalsträger entfällt. Für i = 0 wird CR(0) = 0 gesetzt. 321

Definition 7.2: (Konzentrationskurve) Zeichnet man für i = 0,..., n die Punkte (i, CR(i)) in ein Koordinatensystem und verbindet man die Punkte durch einen linearen Streckenzug, so erhält man die Konzentrationskurve. Bemerkung: Per Definition beginnt die Konzentrationskurve im Punkt (0, CR(0)) = (0, 0) und endet im Punkt (n, CR(n)) = (n, 1). 322

Beispiel: [I] Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x 1 = 330, x 2 = 120, x 3 = 90, x 4 = 30, x 5 = 30 Man beachte: Die Daten sind bereits absteigend geordnet 323

Beispiel: [II] Arbeitstabelle: i x i h i CR(i) 0 0 1 330 0.55 0.55 2 120 0.20 0.75 3 90 0.15 0.90 4 30 0.05 0.95 5 30 0.05 1.00 600 1.00 324

Beispiel: [III] Verbinden der Punkte (i, CR(i)) ergibt die Konzentrationskurve: 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 325

Eigenschaften der Konzentrationskurve: [I] Die Konzentrationskurve ist der Graph einer Funktion, die das Intervall [0, n] auf das Intervall [0, 1] abbildet. Die Funktion ist stückweise linear und streng monoton wachsend vom Anfangspunkt (0, 0) bis zum Endpunkt (n, 1) Die Steigung des r-ten Segmentes (r = 1,..., n) beträgt CR(r) CR(r 1) = h r. 1 Die Steigungen h r nehmen mit wachsendem r ab. Somit ist die Konzentrationskurve konkav 326

Eigenschaften der Konzentrationskurve: [II] Der Fall maximaler Konzentration: Ein Merkmalsträger vereinigt die gesamte Merkmalssumme auf sich: Es folgt: h 1 = 1, h 2 = h 3 =... = h n = 0 CR(0) = 0, CR(1) = CR(2) =... = CR(n) = 1 327

Eigenschaften der Konzentrationskurve: [III] Der Fall minimaler Konzentration (egalitäre Verteilung): Jeder Merkmalsträger hat denselben Anteil 1/n an der Merkmalssumme. Es gilt: Es folgt: h 1 = h 2 =... = h n = 1 n CR(i) = i n, i = 0,..., n 328

Offensichtlich gilt: Jede Konzentrationskurve liegt zwischen den Extremen der maximalen Konzentration und der minimalen Konzentration 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 329

Naheliegende Vorgehensweise: Benutze die Konzentrationskurven zweier Grundgesamtheiten (Märkte) zum Vergleich des Ausmaßes der Konzentration in beiden Grundgesamtheiten (Märkten), z.b. zum Vergleich der Konzentration eines Merkmals auf ein und demselben Markt zu verschiedenen Zeitpunkten (zeitlicher Vergleich der Konzentration) der Konzentration eines Merkmals auf zwei unterschiedlichen Märkten zum gleichen Zeitpunkt (räumlicher Vergleich der Konzentration) 330

Beispiel: [I] Umsätze auf 2 Märkten: Markt I: 38, 12, 106, 34, 10 Markt II: 25, 20, 39, 7, 9 Man beachte: Daten müssen zunächst geordnet werden 331

Beispiel: [II] Arbeitstabelle: i x i h i CR I (i) x i h i CR II (i) 0 0 0 1 106 0.53 0.53 39 0.39 0.39 2 38 0.19 0.72 25 0.25 0.64 3 34 0.17 0.89 20 0.20 0.84 4 12 0.06 0.95 9 0.09 0.93 5 10 0.05 1.00 7 0.07 1.00 200 1.00 100 1.00 332

Beispiel: [III] Konzentrationskurven CR I und CR II : 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 333

Offensichtlich: Markt I weist gleichmäßig höhere Konzentration als Markt II auf Häufiges praktisches Problem: Konzentrationskurven CR I und CR II schneiden sich Kein eindeutiger Konzentrationsvergleich möglich 334

Ausweg: Beschreibe Konzentrationsausmaß in einer Grundgesamtheit durch geeignete Zahlen (Indizes) Eindeutiger Konzentrationsvergleich durch Vergleich von Zahlen ist immer möglich 335

7.2.2 Konzentrationsindizes Hier nur zwei Indizes: Herfindahl- und Rosenbluth-Index Definition 7.3: (Herfindahl-Index) Die Summe der quadrierten Merkmalsanteile K H = n h 2 i i=1 bezeichnet man als Herfindahl-Index. 336

Bemerkungen: Der Herfindahl-Index ist normiert. Es gilt 1 n K H 1 Es gilt K H = 1/n genau dann, wenn minimale Konzentration vorliegt Es gilt K H = 1 genau dann, wenn maximale Konzentration vorliegt 337

Jetzt: Index, der die Biegung der Konzentrationskurve ausnutzt Erinnerung: Bei maximaler Konzentration ist die Konzentrationskurve maximal gebogen Bei egalitärer Verteilung ist die Konzentrationskurve gar nicht gebogen (sondern eine Gerade) 338

Dehalb: Fläche A innerhalb des Rechtecks [0, n] [0, 1], die oberhalb der Konzentrationskurve liegt, ist sinnvolle Maßzahl für die Konzentration des Merkmals Kleines A hohe Konzentration Großes A geringe Konzentration Jetzt: Formale Berechnung des Flächeninhaltes A 339

Zur Berechnung des Rosenbluth-Index 1 0,8 CR(i) 0,6 0,4 0,2 0 0 1 2 3 4 5 i 340

Zunächst: Berechnung der Flächeninhalte A 1,..., A 5 A 1 = h 1 2 = h 1 2 1 1 2 A 2 = h 2 2 1 2 h 2 = 3 2 h 2 = h 2 2 2 1 2 A 3 = h 3 3 1 2 h 3 = 5 2 h 3 = h 3 2 3 1 2 A 4 = h 4 4 1 2 h 4 = 7 2 h 4 = h 4 2 4 1 2 A 5 = h 5 5 1 2 h 5 = 9 2 h 5 = h 5 2 5 1 2 341

Allgemein gilt für alle i = 1,..., n: A i = h i 2i 1 2 Somit folgt für den gesuchten Flächeninhalt A: A = n i=1 A i = n i=1 h i 2i 1 2 = n i=1 h i (i 1 2 ) = = n i=1 h i i 1 2 n i=1 h i i 1 2 n h i i=1 342

Jetzt: Definition eines Konzentrationsindexes basierend auf dem Flächeninhalt A Definition 7.4: (Rosenbluth-Index) Der Rosenbluth-Index ist definiert als K R = 1 2A = 1. n 2 i h i 1 i=1 343

Bemerkungen: Der Rosenbluth-Index ist normiert. Es gilt 1 n K R 1 Es gilt K R = 1/n genau dann, wenn minimale Konzentration vorliegt Es gilt K R = 1 genau dann, wenn maximale Konzentration vorliegt 344

7.3 Disparitätsmessung Wichtige Grundvoraussetzung: Die Daten x 1,..., x n sind aufsteigend geordnet: (vgl. Folie 319) 0 x 1 x 2... x n 345

Weitere Bezeichnungen: Wie bei der Konzentrationsmessung bezeichne h r = x r n x i i=1 den Anteil des r-ten Merkmalsträgers an der Merkmalssumme Wegen 0 x 1... x n gilt für die Merkmalsanteile: 0 h 1 h 2... h n Frage: Welchen Anteil an der Merkmalssumme vereinigen bestimmte Anteile der Population auf sich? 346

7.3.1 Lorenzkurve Definition 7.5: (Lorenzkurve) Für i = 1,..., n bezeichne L ( ) i n = i r=1 h r = i x r r=1 n x r r=1 den Anteil der i kleinsten Merkmalsträger an der Merkmalssumme. Zeichnet man nun die Punkte ( ( )) ( ( )) ( ( )) 1 1 2 2 n 1 n 1 (0, 0), n, L, n n, L,..., n n, L, (1, 1) n in ein Koordinatensystem und verbindet man diese durch einen linearen Streckenzug, so erhält man die Lorenzkurve der Daten x 1,..., x n. 347

Bemerkung: Die Lorenzkurve ordnet dem Anteil i/n der i kleinsten Merkmalsträger der Population den dazugehörigen Merkmalsanteil L(i/n) an der Grundgesamtheit zu. Die Lorenzkurve trägt somit zwei Anteile gegeneinander ab Beispiel: [I] (vgl. Folie 323) Fünf Unternehmen eines Marktes weisen die folgenden Umsätze auf (in Mill. Euro) x 1 = 330, x 2 = 120, x 3 = 90, x 4 = 30, x 5 = 30 348

Beispiel: [II] Umordnung (vom kleinsten zum größten) ergibt folgende Arbeitstabelle: i x i h i L( 5 i ) = i r=1 h r 1 30 0.05 0.05 2 30 0.05 0.10 3 90 0.15 0.25 4 120 0.20 0.45 5 330 0.55 1.00 600 1.00 349

Lorenzkurve: 1 0,8 L(i/n) 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 i/n 350

Eigenschaften der Lorenzkurve: [I] Der Graph der Lorenzkurve befindet sich im Einheitsquadrat. Es gilt L(0) = 0 und L(1) = 1. Die Lorenzkurve ist stückweise linear, streng monoton wachsend und konvex. Der Fall minimaler Disparität (absolute Gleichheit): Gilt x 1 = x 2 =... = x n, so folgt h 1 = h 2 =... = h n Dies impliziert L(i/n) = i/n, i = 0,..., n (Lorenzkurve ist die Diagonale im Einheitsquadrat) 351

Eigenschaften der Lorenzkurve: [II] Der Fall maximaler Disparität (absolute Ungleichheit): Die gesamte Merkmalssumme entfällt auf einen (den größten) Merkmalsträger: Es folgt x 1 = x 2 =... = x n 1 = 0, x n = n x i i=1 h 1 = h 2 =... = h n 1 = 0, h n = 1 Dies impliziert ( ) ( ) ( 1 2 n 1 L = L =... = L n n n (Lorenzkurve ist maximal gebogen) ) = 0, L(1) = 1 352

Lorenzkurven minimaler und maximaler Disparität: 1 L(i/n) 0 0 1 i/n 353

Es gilt: Jede Lorenzkurve liegt zwischen den Extremen der minimalen Disparität (absolute Gleichheit) und der maximalen Disparität (absolute Ungleichheit) Wenn sich zwei Lorenzkurven nicht schneiden, weist die höhere Lorenzkurve eindeutig weniger Disparität auf als die niedrigere Lorenzkurve 354

Praktisches Problem: Lorenzkurven schneiden sich in vielen Fällen Kein eindeutiger Disparitätsvergleich möglich Ausweg: Beschreibe Ausmaß der Disparität durch einen Index Disparitätsvergleich anhand von Zahlen 355

7.3.2 Der Gini-Koeffizient Bekanntester Disparitätsindex: Der Gini-Koeffizient Intuition: Gini-Koeffizient nutzt Biegung der Lorenzkurve aus 356

Definition 7.6: (Gini-Koeffizient) Der Gini-Koeffizient (in Zeichen: D G ) ist definiert als das Zweifache der Fläche zwischen der Lorenzkurve und der Diagonalen im Einheitsquadrat. Formale Darstellung: [I] Es bezeichne B die Fläche unterhalb der Lorenzkurve im Einheitsquadrat. Dann gilt: D G = 2 ( ) 1 2 B = 1 2B 357

Zur Berechnung des Gini-Koeffizienten 1 L(i/n) 0 0 1 i/n 358

Formale Darstellung: [II] Man kann zeigen, dass gilt: B = n i=1 B i = n i=1 h i 2n 2i + 1 2n Damit folgt D G = 1 2B = 1 = n i=1 h i n i=1 h i n i=1 h i 2n 2i + 1 n 2n 2i + 1 = n n i=1 h i ( 1 2n 2i + 1 n ) = n i=1 h i 2i n 1 n 359

Bemerkungen: Der Gini-Koeffizient ist normiert. Es gilt 0 D G 1 1 n Es gilt D G = 0 genau dann, wenn minimale Disparität (absolute Gleichheit) vorliegt Es gilt D G = 1 1/n genau dann, wenn maximale Disparität (absolute Ungleichheit) vorliegt 360

Beispiel: (vgl. Folie 348) Gini-Koeffizient für die 5 Unternehmen eines Marktes Arbeitstabelle: i x i h i L( i 5 ) = i r=1 h r 2i 5 1 5 2i 5 1 5 h i 1 30 0.05 0.05 0.8 0.04 2 30 0.05 0.10 0.4 0.02 3 90 0.15 0.25 0.00 0.00 4 120 0.20 0.45 0.4 0.08 5 330 0.55 1.00 0.8 0.44 600 1.00 0 0.46 = D G 361