Multivariate Statistik



Ähnliche Dokumente
Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Statistische Thermodynamik I Lösungen zur Serie 1

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Einfache statistische Auswertungen mit dem Programm SPSS

Tutorial: Homogenitätstest

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

W-Rechnung und Statistik für Ingenieure Übung 11

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Korrelation (II) Korrelation und Kausalität

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Varianzanalyse (ANOVA: analysis of variance)

Beispiel Zusammengesetzte Zufallsvariablen

Statistik II für Betriebswirte Vorlesung 2

Binäre abhängige Variablen

2.Tutorium Generalisierte Regression

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Korrelation - Regression. Berghold, IMI

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.


Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

R ist freie Software und kann von der Website.

9. Schätzen und Testen bei unbekannter Varianz

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Webergänzung zu Kapitel 10

Stochastische Eingangsprüfung,

Professionelle Seminare im Bereich MS-Office

Einführung in statistische Analysen

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Ein möglicher Unterrichtsgang

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Multivariate Verfahren

Zusammenhänge zwischen metrischen Merkmalen

7 Die Determinante einer Matrix

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

6.2 Scan-Konvertierung (Scan Conversion)

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Lösung. Prüfungsteil 1: Aufgabe 1

Kapitel 4: Binäre Regression

Kontingenzkoeffizient (nach Pearson)

Theoretische Grundlagen der Informatik WS 09/10

Computer Vision I. Nikos Canterakis. Lehrstuhl für Mustererkennung, Universität Freiburg

Quantitative Methoden der Bildungsforschung

Ausarbeitung des Seminarvortrags zum Thema

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Zeichen bei Zahlen entschlüsseln

Dokumentation Datamining

Fortgeschrittene Statistik Logistische Regression

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:


Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Bevor lineare Gleichungen gelöst werden, ein paar wichtige Begriffe, die im Zusammenhang von linearen Gleichungen oft auftauchen.

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Überblick über die Verfahren für Ordinaldaten

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

3. LINEARE GLEICHUNGSSYSTEME

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/ Universität Trier Dr. Dirk Kranz

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Dokumentation. estat Version 2.0

Auswertung mit dem Statistikprogramm SPSS:

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Berechnungen in Access Teil I

BONUS MALUS SYSTEME UND MARKOV KETTEN

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

11. Das RSA Verfahren und andere Verfahren

Simulation LIF5000. Abbildung 1

Lineare Gleichungssysteme

Die Optimalität von Randomisationstests

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

Repetitionsaufgaben Wurzelgleichungen

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

1.5 Umsatzsteuervoranmeldung

Transkript:

Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012

Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau) als Funktion des Alters Mit steigendem Alter sinkt die Wahrscheinlichkeit, dass der Kredit ausfällt, also p(kredit = schlecht Alter) Beispiel 12 (OECD-Daten) Ein interessanter Datensatz, der auf OECD-Erhebungen beruht 2, soll im folgenden diskutiert werden Er ist auf der Kurs-CD enthalten (als Excel-, SPSS- und JMP-Datei), kann jedoch auch im Internet als Excel- Tabelle gefunden werden (siehe http://oecdbetterlifeindexorg/) Die Excel-Tabelle kann in SPSS importiert und anschließend als SPSS- Datensatz (sav) wieder gespeichert werden (siehe Abb 13) SPSS/Datei/Öffnen/Daten/Format Excel auswählen Abb 14 zeigt die sogenannte Daten- und Variablenansicht des Datensatzes BetterLifeIndexsav Der Datensatz wird mit Hilfe des Menüs SPSS/Datei/Öffnen/Daten 2 Organisation for Economic Cooperation and Development

Seite: 20 KAPITEL 1 FALLSTUDIEN Abbildung 19: SAS/JMP: Farbmatrix der Korrelationen und Cluster (diagonales Ordnen)

17 GESICHTSPUNKTE BEI MULTIVARIATEN ANALYSEN Seite: 43 Asymmetrische Verfahren Y = f(x) UV = X AV = Y diskret stetig diskret Kreuztabellen, log-lineare Modelle kategoriale Regression kategoriale Regression Diskriminanz-Analyse stetig Varianz-Analyse Regressions-Analyse Sind die abhängigen Variablen stetig und hat man gemischte stetige und diskrete unbhängige Variablen, so spricht man auch vom allgemeinen linearen Modell Nimmt man bei der Varianz-Analyse (diskrete UV) noch stetige Kovariablen (dh weitere UV) hinzu, so ergibt sich das Modell der Kovarianzanalyse Verfahren, bei denen Objekte (Zeilen der Datenmatrix) anhand der Spalten (Variablen) gruppiert werden, entstammen dem Bereich der Clusteranalyse Hat man eine große Zahl korrelierter Variablen, so kann eine Dimensionsreduktion auf wenige latente Faktoren angestrebt werden (Faktorenanalyse) Auch sind Kombinationen von Regressions- und Faktorenanalyse möglich Dies wird als Strukturgleichungs-Modellierung bezeichnet allgemeines lineares Modell Kovarianzanalyse Clusteranalyse Faktorenanalyse Strukturgleichungs- Modellierung

Seite: 46 KAPITEL 2 MULTIVARIATE VERTEILUNGEN UND ZUFALLSVARIABLEN Abbildung 21: Bivariate Normalverteilungsdichte Obere Zeile: ρ xy = 0, σ x = 1, σ y = 2 Mittlere Zeile: ρ xy = 08 σ x = 1, σ y = 1 Untere Zeile: ρ xy = 09 σ x = 1, σ y = 1 Von Links: Regler, 3D-Graphik, Höhenlinien und simulierte Daten (N = 100) http://wwwfernuni-hagende/ls statistik/lehre/

Seite: 56 KAPITEL 2 MULTIVARIATE VERTEILUNGEN UND ZUFALLSVARIABLEN [X 1,, X p ] : p 1 für den Zufallsvektor x (wird klein geschrieben, um eine Verwechslung mit der Matrix X zu vermeiden), so ist die p-variate Normalverteilungsdichte für x N(µ, Σ) durch folgenden Ausdruck gegeben: φ(x) = det(2πσ) 1/2 exp { 1 2 (x µ) Σ 1 (x µ) } (249) Hierbei ist x = [x 1,, x p ] ein p-vektor und E(X 1 ) µ 1 µ = E[x] = = (250) E(X p ) µ p sowie Σ = Cov(X 1, X 1 ) Cov(X 1, X p ) (251) Cov(X p, X 1 ) Cov(X p, X p ) sind die Parameter (Vektoren und Matrizen) der p-variaten Normalverteilung Als Abkürzung kann man auch σ ij = Cov(X i, X j ), i, j = 1,, p schreiben Hierbei ist σ ii = σ 2 i = Var(X i ) die Varianz und σ i = σ ii die Standardabweichung Der Korrelationskoeffizient zwischen den Variablen X i und X j, i, j = 1,, p, ρ ij = σ ij σ i σ j (252) kann als Matrix P zusammengefasst werden Schreibt man alle Standardabweichungen in eine Diagonalmatrix σ 1 0 D = = diag(σ 1,, σ p ) (253) 0 σ p

32 EIN-STICHPROBEN-FALL Seite: 83 Abbildung 33: OECD-Daten Unbekanntes Σ Konfidenz-Ellipsen zu den Niveaus 1 α = 04, 09, 095, 099 Außerdem ist die Nullhypothese H 0 : µ 0 = [6, 6] eingezeichnet χ 2 -Verteilung und der Hotelling-T 2 -Verteilung ist in Abb 34, unten) zu sehen Die Quantile der Hotelling-T 2 -Verteilung sind immer größer, da ja Σ nur geschätzt wurde (analog zur Normal- und t-verteilung) Wählt man als Nullhypothese H 0 : µ = µ 0 = [7, 55], so ergibt sich [ ] [ ] 0151 0063 0846 t 2 = 32 34 [ 0846, 0947] = 6135 66 0063 0182 0947 Damit muß H 0 auf dem 5%-Niveau abgelehnt werden (vgl Abb 36) Der Stoff wird in Aufgabe 32 vertieft

Seite: 92 KAPITEL 3 TESTS UND KONFIDENZINTERVALLE Abbildung 37: Applet für simultane Konfidenz-Intervalle http://wwwfernuni-hagende/ls statistik/lehre/

Seite: 132 KAPITEL 4 REGRESSIONSANALYSE Abbildung 412: Berechnung der abhängigen Variablen y Die wahren Parameterwerte sind β 0 = 1, β 2 = 2, β 1 = 4, β 3 = 10, σ = 5

52 EINFAKTORIELLE VARIANZANALYSE MIT FIXEN EFFEKTEN Seite: 149 Das lineare Modell in Effekt-Kodierung lautet explizit: Y 11 1 1 0 0 0 Y 1J 1 1 0 0 0 Y 21 1 0 1 0 0 Y 2J 1 0 1 0 0 µ α 1 = Y I 1,1 1 0 0 0 1 Y I 1,J 1 0 0 0 1 Y I1 1 1 1 1 1 1 1 1 1 1 Y IJ α I 1 + ɛ 11 ɛ 1J ɛ 21 ɛ 2J ɛ I 1,1 ɛ I 1,J ɛ I1 Der Parameter α I, der in µ nicht vorkommt, ergibt sich als α I = I 1 i=1 α i Dies wird durch die negativen Einsen der letzten J Zeilen bewirkt Etwas kompakter kann man schreiben [ [ ] ] [ ] II 1 µ y = 1 I 1 J, 1 1 J + ɛ (556) I 1 α [ ] µ := [X 0, X α ] + ɛ (557) α Die Abkürzung ɛ IJ 1, i = i < I x α ii = 1, i = I 0, sonst (558) Effektkodierung i = 1,, I, i = 1,, I 1 bzw als Matrix 1 0 0 0 [ ] 0 1 0 0 x α II 1 = 1 = I 1 0 0 0 : I (I 1) (559) 0 0 0 1 1 1 1

61 DICHOTOME ABHÄNGIGE VARIABLEN Seite: 165 10 08 06 04 02 00 4 2 0 2 4 Abbildung 61: Responsefunktionen: Logistische (rot), Normalverteilung (orange), Gleichverteilung (grün) Die Varianzen wurden auf den Wert π 2 /3 der logistischen Funktion adjustiert Probit-Modell p(y = 1 x) = Φ(x β) (616) Probit-Modell Die unterschiedlichen Modell sind in Abb 61 dargestellt Zum besseren Vergleich wurden die Varianzen auf den Wert π 2 /3 der logistischen Funktion adjustiert Dies ist sinnvoll, da die Funktionen h(β 0 + β 1 x) = h( β 0 + β 1 x) auf eine äquivalente Modellierung führen Daher kann die Funktion verschoben und das Argument mit einem Faktor skaliert werden (vgl Fahrmeir et al, 1996, S 249) Die Unterschiede in den Funktionen sind recht gering, wobei die logistische Funktion im Gegensatz zur Normalverteilung leichter zu berechnen ist Generell muß die Response-Funktion zwischen 0 und 1 liegen, es ist nicht notwendig, daß es sich um eine kumulative Verteilungsfunktion handelt Man kann jedoch das binäre Regressions-Modell durch eine latente Variable Y = x β + ɛ motivieren, die nicht direkt beobachtet werden

73 SPEZIELLE DISTANZMASSE Seite: 215 15 10 x m d 2 05 00 x n d 1 05 05 00 05 10 15 20 25 Abbildung 73: Vergleich von euklidischer Distanz d 2 und City-Block-Metrik d 1 Diese bleibt invariant, wenn andere kürzeste Wege entlang des Rasters genommen werden 6 4 2 0 2 2 0 2 4 Abbildung 74: Daten und Abstände Translationsinvarianz der Distanzen Bei um φ rotierten Daten bleiben die Abstände invariant

Seite: 226 KAPITEL 7 CLUSTER-ANALYSE C j C k Abbildung 711: Abstand von 2 Klassen beim average-linkage-verfahren 20 15 10 5 0 1 2 3 4 5 6 Abbildung 712: Dendrogramm beim average-linkage-verfahren

83 MATHEMATISCHER EINSCHUB: HAUPTACHSENTRANSFORMATION Seite: 245 3 2 1 0-1 -2-2 -1 0 1 2 3 Abbildung 82: Simulierte [ normalverteilte ] Daten x n, n = 1,, N = 1000 1 09 mit Kovarianz-Matrix R = Die Hauptachsen zeigen in Richtung 09 1 der Winkelhalbierenden Daher sind die gedrehten Koordinaten (Hauptkomponenten) y 1, y 2 unkorreliert Die quadratische Form (Ellipse) der Matrix R x Rx = ij x i ρ ij x j = x 2 1 + 2ρx 1 x 2 + x 2 2 (844) ist diagonal im gedrehten System: x Rx = x PP RPP x (845) = y My = µ 1 y 2 1 + µ 2 y 2 2 = (1 + ρ)y 2 1 + (1 ρ)y 2 2 (846) Die im Bild gezeigte Ellipse ist allerdings x R 1 x = y M 1 y (847) = y2 1 + y2 2 (848) µ 1 µ 2 = y 2 1 1 + ρ + y2 2 1 ρ (849) = y2 1 19 + y2 2 01, (850)