Multivariate statistische Verfahren

Multivariate statistische Verfahren 2., überarbeitete Auflage Herausgegeben von Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz unter Mitarbeit von Wolfgang Brachinger, Walter Häußler, Heinz Kaufmann, Peter Kemeny, Christian Kredler, Willi Nagl, Friedemann Ost, Heinz Pape w DE G Walter de Gruyter Berlin New York 1996

Inhalt Vorwort zur zweiten Auflage Vorwort zur ersten Auflage Kapitel 1 Einführung 1 Ludwig Fahrmeir und Alfred Hamerle 1. Einführende Beispiele 1 2. Grundlegende Begriffe der Meßtheorie 4 3. Überblick über multivariate statistische Verfahren 11 Kapitel 2 Mehrdimensionale Zufallsvariablen und Verteilungen 18 Ludwig Fahrmeir und Alfred Hamerle 1. Verteilungsfunktionen und Dichten 19 1.1 Gemeinsame Verteilungsfunktionen und Dichten 19 2. Erwartungswerte und Kovarianzmatrizen 22 3. Mehrdimensionale Normalverteilung, Multinominälverteilung und Grenzwertsätze 25 3.1 Mehrdimensionale Normalverteilung 25 3.2 Verteilungskonvergenz und Grenzwertsätze 29 3.3 Multinominälverteilung 33 4. Wishart- und verwandte Verteilungen 37 4.1 X 2 -, F- und t-verteilung 37 4.2 Wishart-, A- und 0-Verteilung 38 5. Exponentialfamilien 42 5.1 Definition und Beispiele 42 5.2 Einfache Exponentialfamilien 46 Kapitel 3 Grundlegende multivariate Schätz- und Testprobleme 49 Ludwig Fahrmeir und Alfred Hamerle 1. Punktschätzung von Erwartungswerten und Kovarianzmatrizen 49 1.1 Ein-Stichprobenfall 49 1.2 Mehr-Stichprobenfall 52 2. Allgemeine Prinzipien der Parameterschätzung 53 2.1 Likelihood-Funktion und Suffizienz 54 2.2 Einige Eigenschaften von Punktschätzern 57 2.3 Maximum-Likelihood-Schätzung 59 2.4 Einige Verfahren zur Minimierung einer Funktion 65 2.5 Nichtparametrische Dichteschätzung 72 3. Hypothesentests und Vertrauensbereiche für Erwartungswerte und Kovarianzmatrizen 80

X Inhalt 3.1 Test und Vertrauensbereiche für Erwartungswerte 80 3.2 Tests für Kovarianzmatrizen 84 4. Testprinzipien 85 4.1 Likelihood-Quotienten-Test, Score-Test und Wald-Test 85 4.2 Der Union-Intersection-Test und simultane Kofidenzintervalle 90 Kapitel 4 Regressionsanalyse 93 Ludwig Fahrmeir, Heinz Kaufmann und Christian Kredler -1. Univariate lineare Regression 93 1.1 Modelle der linearen Regressionsanalyse 95 1.2 Schätzen im klassischen und allgemeinen linearen Modell 97 1.3 Tests, Konfidenzbereiche und Modellüberprüfung 108 1.4 Variablenselektion 118 1.5 Beispiele 123-2. Multivariate lineare Regression 132 2.1 Das Modell 132 2.2 Punktschätzung der Parameter 133 2.3 Tests und Konfidenzintervalle 135 2.4 Beispiel 141 2.5 Kanonische Korrelationsanalyse 144-3. Nichtlinare Regression 146 3.1 Modellgleichung, Kleinst-Quadrat-Schätzung 146 3.2 Die Gauß-Newton-Methode zur numerischen Berechnung der KQ-Schätzer.. 149 3.3 Asymptotische Eigenschaften der KQ-Schätzer 150 3.4 Test und Konfidenzbereiche 152 3.5 Beispiel 155 4. Nichtparametrische Regression 158 4.1 Nichtparametrische Einfachregression: Scatterplot-Smoother 158 4.2 Nichtparametrische Mehrfachregression 163 Kapitel 5 Varianz- und Kovarianzanalyse 169 Ludwig Fahrmeir, Alfred Hamerle und Willi Nagl 1. Univariate Varianzanalyse mit festen Effekten 169 1.1 Einfaktorielle Versuchspläne 169 1.2 Zweifaktorielle Versuchspläne 182 2. Kovarianzanalyse 196 2.1 Allgemeine zweistufige Vorgehensweise 198 3. Versuchspläne mit zufälligen Effekten, genestete Designs und Meßwiederholungspläne 205 3.1 Grundbegriffe und Kennzeichnung des Designs 205 3.2 Einige Modelle 209 3.2.1 Modell mit einem Wiederholungsfaktor (zufälliger Blockplan) 210 3.2.2 Modell mit zwei Wiederholungsfaktoren 212 3.2.3 Modell mit Gruppen- und Wiederholungsfaktoren 215 3.3 Allgemeine Form der Gemischten Modelle 220 3.3.1 Spezialfälle 220 3.3.2 Schätzung des Modells 225 4. Multivariate Varianzanalyse mit festen Effekten 228

Inhalt XI 4.1 Einfaktorielle Versuchspläne 228 4.2 Zweifaktorielle Versuchspläne 234 Kapitel 6 Kategoriale und generalisierte lineare Regression 239 Ludwig Fahrmeir, Alfred Hamerle, Gerhard Tutz 1. Univariate generalisierte lineare Modelle 239 1.1 Beispiele und Daten 240 1.2 Definition generalisierter linearer Modelle 243 1.3 Modelle für stetige Zielvariablen 246 1.4 Modelle für binäre und binomiale Zielvariablen 247 1.5 Modelle für Zähldaten 253 2. Statistische Inferenz in univariaten generalisierten linearen Modellen 254 2.1 Maximum-Likelihood-Schätzung 254 2.2 Hypothesentests und Goodness of fit" 258 3. Mehrkategoriale Regressionsmodelle 262 3.1. Daten und Beispiele 263 3.2. Das mehrkategoriale Logit-Modell als multivariates verallgemeinertes lineares Modell 263 3.3 Modelle für geordnete Responsekategorien 271 3.4 Schätzen und Testen in multivariaten generalisierten linearen Modellen 277 3.5 Anpassungstests und Residualanalyse 279 4. Parametrische Erweiterungen 287 4.1 Quasi-Likelihood-Modelle und generalisierte Schätzgleichungen 287 5. Regressionsmodelle für multivariate korrelierte Zielvariablen 293 5.1 Generalisierte additive Modelle 293 5.2 Kernschätzung zur geglätteten Regression bei diskreter abhängiger Variable 296 Kapitel 7 Regressionsmodelle zur Analyse von Verweildauern 301 Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz 1. Grundlegende Begriffe und Modelle 302 1.1 Zensierte Daten 302 1.2 Survivalfunktion und Hazardrate 304 1.3 Zwei Modellklassen 304 2. Schätzverfahren 317 2.1 Die Sterbetafel-Methode 317 2.2 Nichtparametrische Schätzung der Survivalfunktion (Kaplan-Meier-Schätzer) 321 2.3 Maximum-Likelihood-Schätzung in Transformationsmodellen (bei bekannter Fehlerverteilung) 323 2.4 Kleinst-Quadrate-Schätzung in Transformationsmodellen 326 2.5 Maximum-Partial-Likelihood-Schätzung für das Proportional-Hazard-Modell 328 3. Einbeziehung von zeitabhängigen Koyariablen 331 4. Tests für Regressionsparameter und Überprüfung der Proportionalitätsannahme 338 4.1. Test für Regressionskoeffizienten und Modellteile 338 5. Einbeziehung unbeobachteter Populationsheterogenität 341

XII Inhalt 5.1. Beispiele zur unbeobachteten Heterogenität 341 5.2. Modelle und Parameterschätzung bei gegebener Verteilung der Heterogenitätskomponente 344 5.3 Simultane Schätzung der strukturellen Modellparameter und der Verteilung der Heterogenitätskomponente 345 5.4 Vergleich verschiedener Schätzverfahren bei Fehlspezifikation, insbesondere bei unbeobachteter Heterogenität 346 6. Kurze Übersicht über weitere Verfahren und Probleme der Verweildaueranalyse. 349 6.1 Competing Risks" und Mehr-Zustands-Modelle 349 6.2 Multivariate Ereignisanalyse 351 6.3 Zeitdiskrete Modelle für Verweildauern 355 Kapitel 8 Diskriminanzanalyse 357 Ludwig Fahrmeir, Walter Häußler und Gerhard Tutz 1. Der allgemeine entscheidungstheoretische Ansatz 358 1.1 Problemstellung, Entscheidungsregeln und Fehler 358 1.2 Geschätzte Entscheidungsregeln und Fehlerraten 366 2. Klassische Diskriminanzanalyse: Normalverteilte Merkmale und Fisher-Ansatz 372 2.1 Diskriminanzfunktionen bei bekannten Normalverteilungen in den Klassen 373 2.2 Lineare Diskriminanzanalyse bei unbekannten Parametern 376 2.3 Bewertung von Entscheidungsregeln und Variablenselektion 381 2.4 Beispiele 387 3. Diskriminanzanalyse mit kategorialen Variablen 394 3.1 Das volle multinomiale Modell 395 3.2 Unabhängige binäre Variablen 396 3.3 Parametrisierung in Modellfamilien 398 3.4 Dichteschätzer 404 3.5 Variablenselektion 406 3.6 Beispiele 409 4. Diskriminanzanalyse mit gemischten Variablen 411 4.1 Das Lokalisationsmodell 411 4.2 Das logistische Modell 413 5. Verteilungsfreie Verfahren 416 5.1. Dichteschätzung mit Kernfunktionen 416 5.2. Nächste-Nachbarn-Zuordnungsregeln 418 5.3. Kleinstquadratapproximation von Bayes-Klassifikatoren durch verallgemeinerte lineare Diskriminanzfunktionen 422 5.4 Klassifikationsbäume 425 Kapitel 9 Clusteranalyse.: 437 Heinz Kaufmann und Heinz Pape 1. Einleitung 437 2. Ähnlichkeits- und Distanzmaße 440 2.1 Definitionen 440 2.2 Transformationen von Ähnlichkeiten in Distanzen und umgekehrt 442

Inhalt XIII 2.3 Spezielle Ähnlichkeits- und Distanzmaße 442 3. Hierarchische Klassifikationsverfahren 453 3.1 Grundzüge und Anwendungsbeispiele 453 3.2 Formale Beschreibung einer Hierarchie 457 3.3 Agglomerative Verfahren 457 3.4 Divisive Verfahren 468 4. Optimale Partitionen 469 4.1 Problemstellung 469 4.2 Zur Wahl des Gütekriteriums 470 4.3 Bestimmung lokal optimaler Partitionen 471 4.4 Bestimmung der Klassenanzahl 472 4.5 Gütekriterien bei quantitativen Merkmalen 473 4.6 Gütekriterien bei Ähnlichkeits- und Distanzmaßen 484 5. Mischverteilungsverfahren 486 5.1 Das Modell 487 5.2 Identifizierbarkeit 487 5.3 Maximum-Likelihood-Schätzung der Parameter 489 5.4 Andere Schätzverfahren 493 5.5 Normalverteilte Komponenten 494 5.6 Binäre Variablen: Latent Class Analysis 506 5.7 Zur Bestimmung der Klassenzahl 508 5.8 Verwandte Modelle 510 6. Stochastische Partitionsverfahren 511 6.1 Maximum-Likelihood-Ansatz 511 6.2 Normalverteilte Klassen 514 6.3 Bestimmung der Klassenzahl 520 6.4 Ein modifizierter ML-Ansatz 522 6.5 Bayes-Ansätze 530 6.6 Verwandte Modelle 531 7. Verteilungsfreie Verfahren 532 7.1 Gradientenverfahren 532 7.2 Ein sequentielles Quick and Dirty Verfahren 533 7.3 Das Verfahren von Wishart und Cluster hoher Dichte 533 8. Einige abschließende Bemerkungen 535 Kapitel 10 Zusammenhangsanalysen in mehrdimensionalen Kontingenztabellen - das loglineare Modell 537 Alfred Hamerle und Gerhard Tutz 1. Zweidimensionale Modelle 538 1.1 Formen der Datenerhebung 538 1.2 Das loglineare Modell 541 1.3 Analogie zur Varianzanalyse und Modellparameter 545 2. Drei- und höherdimensionale Modelle 548 2.1 Zusammenhangsstrukturen in dreidimensionalen Modellen 548 2.2 Die Parameter des loglinearen Modells 557 2.3 Erhebungsschemata in dreidimensionalen Modellen 557 2.4 Vier- und höherdimensionale Tafeln 568 2.5 Graphische Modelle und Interpretierbarkeit höherdimensionaler Modelle... 571 2.6 Die Grundstruktur aller Modelle - loglineare Modelle als Spezialfälle verallgemeinerter linearer Modelle 575 2.7 Aggregierbarkeit von Kontingenztafeln 578 3. Parameterschätzung und Modellanpassung 580

XIV Inhalt 3.1 Maximum-Likelihood-Schätzung 580 3.2 Anpassungs-Tests 589 3.3 Konditionale Teststatistiken 593 3.4 Parametertests 595 4. Modellwahl 596 4.1 Schrittweise Auswahl bei vorgegebener Modellhierarchie 598 4.2 Effektwahl nach Brown 600 4.3 Simultane Tests der Ordnung k 603 4.4 Modellspezifizierung über die standardisierten Parameter des saturierten Modells 605 4.5 Schrittweise Testprozeduren nach Goodman 607 4.6 Simultane Testprozeduren nach Aitkin 611 4.7 Modellwahl nach Edward? Havranek 614 5. Logit-Modelle 616 5.1 Loglineare Modelle und Logit-Modelle 616 5.2 Darstellung als Regressionsmodelle 619 5.3 Interpretation der Parameter und Analogie zur Varianzanalyse 620 5.4 Schätzung der Parameter 621 6. Unvollständige Kontingenztafeln 622 6.1 Zweidimensionale unvollständige Kontingenztafeln 622 6.2 Drei- und höherdimensionale unvollständige Tafeln 626 7. Spezielle, quadratische zweidimensionale Kontingenztabellen: Symmetrie, Quasi-Symmetrie und marginale Homogenität 631 7.1 Symmetrie 631 7.2 Quasi-Symmetrie 634 7.3 Marginale Homogenität 635 Kapitel 11 Modelle mit latenten Variablen: Faktorenanalyse, Latent-Structure-Analyse und LISREL-Analyse 637 Hans Wolfgang Brachinger und Friedmann Ost 1. Das faktorenanalytische Modell 639 1.1. Modell, Grundgleichung und Schätzaufgabe 639 1.2 Eindeutigkeit der Parameter (Identifizierbarkeit) 642 2. ML-Faktorenanalyse 646 2.1 ML-Schätzung für L und V 647 2.2 Test des Modells, Bestimmung von k 650 2.3 Verteilung der ML-Schätzer, Vertrauensintervalle 652 2.4 Ergänzungen 654 2.5 Beispiel 656 3. Hauptkomponentenanalyse 659 3.1 Hauptachsentransformation 661 3.2 Hauptkomponentenmethode 665 3.3 Hauptfaktorenanalyse 669 3.4 Beispiel 673 4. Faktorentransformation und Interpretation 675 4.1 Faktorentransformation 676 4.2 Interpretation der rotierten Faktoren 680 4.3 Beispiele 681 4.4 Identifikation einflußreicher Beobachtungen 686 5. Schätzung der Faktorenwerte 688 5.1 ML-Prinzip und KQ-Methode (Bartlett 1937, 1938) 688 5.2 Regressionsmethode (Thomson 1951) 689

Inhalt XV 5.3 Berechnung der Faktorenwerte nach einer Hauptkomponentenanalyse 690 5.4 Beispiel 691 6. Überblick über weitere Verfahren 692 6.1 Rangreduktion und Zentroidmethode (Thurstone 1947) 692 6.2 Multiple Group-Methode 694 6.3 Minres-Verfahren 696 6.4 Image-Analyse 697 6.5 Kanonische Faktorenanalyse 699 6.6 a-faktorenanalyse 702 6.7 Maximum-Determinanten-Lösung 703 6.8 Direkte Dreieckszerlegung im gestuften Faktorenmodell 704 6.9 Konfirmative Faktorenanalyse 704 6.10 Strukturanalyse von Kovarianzmatrizen 706 7. Latent Structure-Analyse 708 7.1 Das allgemeine Modell 709 7.2 Latent Class-Analyse 714 7.3 Latent Profile-Analyse 716 7.4 Dichotome und ordinale Faktorenanalyse 719 7.5 Die normale Faktorenanalyse als Modell der Latent Structure-Analyse 726 8. LISREL-Analyse '. 729 8.1 Das LISREL-Modell 730 8.2 Grundgleichung und Modellparameter 736 8.3 Eindeutigkeit der Parameter (Identifizierbarkeit) 740 8.4 Schätzung der Modellparameter 743 8.5 Schätzqualitäten 746 8.6 Berechnung von Schätzwerten 750 8.7 Beurteilung der Schätzer 754 8.8 Anpassungsgüte eines Modells 756 8.9 Modifikationsindizes 759 8.10 Hypothesentests 762 Kapitel 12 Grundlagen der mehrdimensionalen Skalierung 765 Alfred Hamerle und Heinz Pape 1. Ziele und Konzeption mehrdimensionaler Skalierungsverfahren 765 2. Meßtheoretische Aspekte der mehrdimensionalen Skalierung 767 3. Methoden zur Erhebung von Ähnlichkeitsdaten 773 4. Metrische MDS 774 4.1 Distanzmodell 775 4.2 Klassische metrische Skalierung 776 4.3 Kleinste-Quadrate-Ansätze zur MDS 782 5. Nichtmetrisches MDS 783 6. Hinweise auf weitere MDS-Verfahren 790 Anhang A Grundbegriffe der Matrix-Algebra 795 Peter Kemeny A.l Matrizen und Vektoren : 795 A.2 Matrizenverknüpfungen 799 A.3 Elementare Rechenregeln für Matrizen 801

XVI Inhalt A.4 Determinanten 802 A.5 Matrixinversion 803 A.6 Partitionierte Matrizen 805 A.7 Lineare Abhängigkeit von Vektoren und Rang einer Matrix 808 A.8 Lineare Gleichungssysteme 812 A.9 Spur einer quadratischen Matrix 813 A.10 Eigenwerte und Eigenvektoren 814 A.ll Diagonalisierung symmetrischer Matrizen 815 A.12 Quadratische Formen und Hauptachsenrotation 816 A.13 Vektor- und Matrixdifferentiation (symbolische Differentiation) 819 A.14 Extrema ohne Nebenbedingungen 824 Anhang B Tabellen 831 Literatur 857 Wichtige Programmpakete und Programmierumgebungen 893