Einführung in die Statistik

Elmar Klemm Einführung in die Statistik Für die Sozialwissenschaften Westdeutscher Verlag

INHALTSVERZEICHNIS 1. Einleitung und Begrifflichkeiten 11 1.1 Grundgesamtheit, Stichprobe 12 1.2 Untersuchungseinheit, Variable, Merkmalsausprägung 13 1.3 Vom Erhebungsinstrument zur Datenmatrix 14 1.4 Das Skalenniveau der Variablen 15 1.5 Diskrete und stetige Variablen 18 1.6 Abhängige und unabhängige Variablen, Kontrollvariablen 19 TEIL I:UNIVARIATE DESKRIPTIVSTATISTIK 2. Häufigkeitsverteilungen und ihre grafische Darstellung 20 2.1 Nominale und ordinale Daten 20 2.2 Intervall-und ratioskalierte Daten 24 3. Maßzahlen zur Charakterisierung einer Verteilung Mittelwerte und Streuungsmaße 40 3.1 Mittelwerte 41 3.1.1 Der Modus 41 3.1.1.1 Der Modus für nominale Daten 42 3.1.1.2 Modus für intervall- oder ratioskalierte Daten 42 3.1.1.3 Modus bei klassierten Daten 43 3.1.2 Der Mediän 45 3.1.2.1 Errechnung des Medians beim Vorliegen einer Wertereihe mit singulären Werten 45 3.1.2.2 Errechnung beim Vorliegen einer klassierten Variablen 46 3.1.2.3 Eigenschaft des Medians 48 3.1.3 Das arithmetische Mittel 48 3.1.3.1 Errechnung beim Vorliegen der Datenmatrix 49 3.1.3.2 Errechnung beim Vorliegen einer Häufigkeitsverteilung 49 3.1.3.3 Das gewichtete arithmetische Mittel 51 3.1.3.4 Eigenschaften des arithmetischen Mittels 51 3.1.4 Das geometrische Mittel.. 53 3.1.5 Das harmonische Mittel 54 3.1.6 Zum Verhältnis der einzelnen Mittelwerte 55 3.2 Streuungsmaße 56 3.2.1 Streuungsmaße für nominale Daten 56 3.2.1.1 Die Variation ratio und Galtungs d 56

8. Konfidenzintervalle univariater Maßzahlen 138 8.1 Konfidenzintervall des arithmetischen Mittels bei bekannter Populationsvarianz 142 8.2 Konfidenzintervall des arithmetischen Mittels bei unbekannter Populationsvarianz 145 8.3 Konfidenzintervall der Populationsvarianz 147 8.4 Konfidenzintervall eines Anteilswertes 150 8.4.1 Bestimmung der Konfidenzintervalle mittels der Normalverteilung 151 8.4.2 Exakte Bestimmung der Konfidenzintervalle 153 8.5 Konfidenzintervall des Medians 156 8.5.1 Konfidenzintervall und Standardfehler des Medians 157 8.5.2 Verteilungsfreie Konfidenzintervalle des Medians 158 TEIL III: STATISTISCHE HYPOTHESEN UND IHRE TESTS 9. Testen von statistischen Hypothesen 163 9.1 Nullhypothese und Alternativhypothese 163 9.2 Der Fehler der I. Art, das Signifikanzniveau a 165 9.3 Der Fehler der II. Art 169 9.4 Einseitige und zweiseitige Hypothesen 172 9.5 Einstichproben-Tests 175 9.5.1 Tests über den Mittelwert a einer Normalverteilung 175 9.5.2 Test über die Varianz a 2 einer Normalverteilung 178 9.5.3 Test über den Anteilswert n einer Binomialverteilung 179 10. Zweistichproben-Tests Mittelwerte und Varianzen 188 10.1 Tests auf Mittelwertsunterschiede unverbundener Stichproben 189 10.1.1 Voraussetzungen und Grundlagen 189 10.1.2 Test auf Mittelwertsunterschiede bei bekannten Populationsvarianzen 190 10.1.3 Test auf Mittelwertsunterschiede bei unbekannten, jedoch gleichen Populationsvarianzen 192 10.1.4 Test auf Mittelwertsunterschiede bei unbekannten, ungleichen Populationsvarianzen 196 10.2 Test auf Mittelwertsunterschiede verbundener Stichproben 200 10.3 Test auf Ungleichheit zweier Varianzen, der F-Test 202 11. Zweistichproben-Tests Anteilswerte 206 11.1 Unterschiedstest über die Normalverteilung 206 11.2 Unterschiedstest über die exakte Wahrscheinlichkeitsverteilung 209 11.2.1 Die binomiale Differenzverteilung (BD-Verteilung) 210 11.2.2 Der exakte Test für die Differenz zweier Anteilswerte 213

11.3 Der Irwin-Fisher-Test 217 12. Anpassungstests 221 12.1 Der Kohnogorowsche Anpassungstest 221 12.2 Lilliefors Test auf Normalverteilung 230 12.3 Pearsons Chi-Quadrat-Anpassungstest 232 TEIL IV: ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 13. Zusammenhangsanalyse in Kreuztabellen 238 13.1 Kreuztabellen und ihre Darstellung 239 13.1.1 Kreuztabelle und gemeinsame Verteilung 240 13.1.2 Kreuztabelle und bedingte Verteilung 242 13.2 Pearsons Chi-Quadrat-Test auf Unabhängigkeit 243 13.3 Pearsons Chi-Quadrat-Test auf Homogenität 247 13.4 Chi-Quadrat-Tests für spezielle Kontingenztafeln 249 13.4.1 Die 2xJ-Felder-Tafel 249 13.4.2 Die Vierfelder-Tafel 251 13.5 Der Likelihood-Ratio-Chi-Quadrat-Test auf Unabhängigkeit 254 13.6 Der Test auf Unabhängigkeit nach Freeman und Haiton 256 13.7 Der Irwin-Fisher-Test 261 14. Assoziationsmaße für nominale Merkmale in Kreuztabellen 262 14.1 Eigenschaften von Assoziationsmaßen 263 14.2 Chi-Quadrat-basierte Assoziationsmaße in IxJ-Tafeln 265 14.3 Assoziationsmaße für Vierfelder-Tafeln 271 14.3.1 Der Phi-Koeffizient 272 14.3.2 Das Kreuzproduktverhältnis 273 14.3.3 YulesQundY 276 14.3.4 Das relative Risiko 279 14.3.5 Die Anteilsdifferenz 282 14.4PRV-Maße 283 14.4.1 Das Goodman-Kruskalsche i, die erklärte Varianz 284 14.4.2 DasPRE-MaßA, 288 15. Zusammenhangsmaße für rangtransformierte Merkmale 292 15.1 Die Rangtransformation 293 15.2 Kendalls x a 294 15.2.1 Zur deskriptiven Interpretation von t a 299 15.2.2 Signifikanztests für Kendalls T a 301 15.2.3 Kendalls T a und der verallgemeinerte Korrelationskoeffizient 307 15.3 Rangkorrelation bei Rangbindungen: Kendalls x b 308 8

15.3.1 Berechnung von T b in geordneten Kreuztabellen 311 15.3.2 Signifikanztest für T b : 316 15.4 Stuarts T C 318 15.5 Goodman und Kruskalsy 322 16. Zusammenhangsmaße für metrisch skalierte Merkmale 325 16.1 Kovarianz und Korrelation zweier Zufalls variablen 325 16.2 Pearsons r 330 16.3 Der deskriptive Gebrauch von Pearsons r 335 16.3.1 Pearsons r und bivariate Ausreißer 336 16.3.2 Kurvilineare Beziehungen und Pearsons r 337 16.3.3 Pearsons r beim Vorliegen mehrerer Gruppen 338 16.4 Tests und Konfidenzintervalle für den Korrelationskoeffizienten p.. 339 16.4.1 Signifikanztest für Pearsons r 340 16.4.2 Das Konfidenzintervall für p, die Fisher-Z-Transformation 341 16.4.3 Vergleich der Korrelationswerte zweier Stichproben 343 17. Einfache lineare Regression I 345 17.1 Die Methode der kleinsten Quadrate 347 17.2 Die Regressionsgerade in der Grundgesamtheit 353 17.2.1 Beziehung zwischen ß und b 355 17.2.2 Beziehung zwischen a und a 356 17.2.3 Schätzung der Varianz der Fehlerterme 358 17.3 Regression mit normalverteilten Fehlertermen 359 17.4 Konfidenzintervalle der Regressionskoeffizienten und Tests für die Regressionskoeffizienten 360 17.4.1 Konfidenzintervall und statistischer Test für ß 361 17.4.2 Konfidenzintervall und statistischer Test für a 363 17.5 Konfidenzintervall der Erwartungswerte von Y und Prognoseintervall einzelner Y-Werte 365 17.5.1 Das Konfidenzintervall der Erwartungswerte der abhängigen Variablen 366 17.5.2 Das Prognoseintervall für einen einzelnen Y-Wert 369 18. Einfache lineare Regression II 371 18.1 Variationszerlegung und die Regressionsgerade, das Bestimmtheitsmaß r 2 371 18.2 Identifikation einflussreicher Untersuchungseinheiten 376 18.2.1 Der Einfluss der Untersuchungseinheiten auf die Steigung b 376 18.2.2 Der Einfluss der Untersuchungseinheiten auf y 378 18.3 Residualanalyse, Überprüfung der Modellannahmen 383

18.3.1 Ideale Residuenverteilung 386 18.3.2 Residuenverteilung bei Nichtlinearität 387 18.3.3 Residuenverteilung bei Varianzheterogenität 388 18.3.4 Residuenverteilung und Ausreißer 389 18.3.5 Prüfung der Normalverteilungsannahme der Residuen 392 Anhang 398 A Standardnormalverteilung z-»4>(z) 398 B Standardnormalverteilung <I>(z)-»z 400 C x 2 -Verteilung F(x)->x 403 D t-verteilung F(x)-wc 406 E F-Verteilung F(x)=0.95->x 409 F F-Verteilung F(x)=0.975-«414 G F-Verteilung F(x)=0.99->x 419 H Kolmogorows Anpassungstest 424 I Lilliefors Test auf Normalverteilung 426 J Exakter Test für Kendalls T a 428 Literaturverzeichnis 430 Stichwort-Register 438 10