Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Größe: px
Ab Seite anzeigen:

Download "Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin"

Transkript

1 Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 60

2 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Ziel: Reduziere die Dimension einer p-variaten Zufallsvariable X über Linearkombinationen. Diese Linearkombinationen sollten die gröÿte Streuung zwischen den Werten von X erzeugen, z. B. in dem die Linearkombinationen mit den gröÿten Varianzen gesucht werden. Ostap Okhrin 2 of 60

3 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Standardisierte Linearkombination (SLC) Für eine standardisierte Linearkombination (SLC) mit einem gewichteten Durchschnitt von X kann δ X = p δ j=1 jx j δ = 1, standardisiert p j=1 δ2 j = 1 geschrieben werden. δ = (δ 1,..., δ p ) ist dabei der Wichtungsvektor, der die Richtung der Linearkombinationen bestimmt. Ostap Okhrin 3 of 60

4 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von δ X maximiert: max {δ: δ =1} Var(δ X ) = max {δ: δ =1} δ Var(X )δ. Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung) ist der Eigenvektor γ 1 mit dem dazugehörigen gröÿten Eigenwert λ 1 der Kovarianz-Matrix Σ = Var(X ). Ostap Okhrin 4 of 60

5 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Gegeben sei: erste Hauptkomponente: zweite Hauptkomponente: Y 1 = γ 1 X Y 2 = γ 2 X...und so weiter mit γ i γ j i j. Allgemein: Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ ist: Y = Γ (X µ) Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente einen Erwartungswert von Null erhält. Ostap Okhrin 5 of 60

6 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 1: Eine beliebige SLC Ostap Okhrin 6 of 60

7 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 2: Die interessanteste SLC Ostap Okhrin 7 of 60

8 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Beispiel ( ) Bivariate Normalverteilung N(0, Σ), Σ = 1ρ ρ 1, ρ > 0. Eigenwerte dieser Matrix sind λ 1 = 1 + ρ und λ 2 = 1 ρ mit den dazugehörigen Eigenvektoren γ 1 = 1 ( ) 1, γ 2 = ( ). Die PC Transformation ist somit or ( Y1 Y 2 Y = Γ (X µ) = 1 ( ) = 1 2 ( X1 + X 2 X 1 X 2 ). ) X Ostap Okhrin 8 of 60

9 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Die erste Hauptkomponente (PC) ist Y 1 = 1 2 (X 1 + X 2 ) und die zweite ist Y 2 = 1 2 (X 1 X 2 ). Ostap Okhrin 9 of 60

10 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Berechne die Varianzen von diesen Hauptkomponenten (PCs) { } 1 Var(Y 1 ) = Var 2 (X 1 + X 2 ) = 1 2 Var(X 1 + X 2 ) = 1 2 {Var(X 1) + Var(X 2 ) + 2 Cov(X 1, X 2 )} = 1 ( ρ) = 1 + ρ 2 = λ 1. Auf die gleiche Weise kann Var(Y 2 ) = λ 2 = 1 ρ. gefunden werden. Ostap Okhrin 10 of 60

11 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Sei X (µ, Σ) und Y = Γ (X µ) die PC Transformation. Dann ist für j=1,...,p: E Y j = 0 Var(Y j ) = λ j Cov(Y i, Y j ) = 0, for i j Var(Y 1 ) Var(Y p ) 0 p j=1 Var(Y j) = tr(σ) p j=1 Var(Y j) = Σ. Ostap Okhrin 11 of 60

12 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Es gibt keine SLC, die eine gröÿere Varianz als λ 1 = Var(Y 1 ) hat. Theorem Sei Y = a X eine SLC, die nicht mit den ersten k Hauptkomponenten (PCs) von X korreliert, dann wird Var(Y ) durch a = γ k+1 maximal. Ostap Okhrin 12 of 60

13 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Eine standardisierte Linearkombination (SLC) ist ein gewichteter Durchschnitt δ X = p δ j=1 jx j. Der Vektor δ hat eine Länge von 1. Durch Maximieren der Varianz von δ X wird der Eigenvektor δ = γ 1 gefunden. Dieser Eigenvektor gehört zum gröÿten Eigenwert λ 1 der Kovarianzmatrix Σ = Var(X ). Das entspricht einer Projektion von X in einem eindimensionalen Raum, in dem die Komponenten von X von den Elementen γ 1 gewichtet werden. Y 1 = γ 1 (X µ) wird die erste Hauptkomponente (rst PC) genannt. Ostap Okhrin 13 of 60

14 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Diese Projektion kann für höhere Dimensionen verallgemeinert werden. Die PC Transformation ist eine Lineartransformation Y = Γ (X µ), mit Σ = Var(X ) = Γ ΛΓ und µ = E X. Y 1, Y 2,..., Y p wird erste, zweite,..., p-te Hauptkomponente (rst, second,...,pth PCs) genannt. Ostap Okhrin 14 of 60

15 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Die Hauptkomponenten (PCs) haben einen Erwartungswert von Null, eine Varianz Var(Y j ) = λ j, und keine Kovarianzen. Gilt λ 1... λ p, ist Var(Y 1 )... Var(Y p ). Des Weiteren sei p j=1 Var(Y j) = tr(σ) und p j=1 Var(Y j) = Σ. Wenn Y = a X eine SLC ist, die nicht mit den ersten k Hauptkomponenten von X korreliert, wird die Varianz von Y durch die Wahl von a gleich der (k + 1)ten Hauptkomponente maximiert. Ostap Okhrin 15 of 60

16 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Hauptkomponenten in der Praxis µ wird x, Σ ändert sich zu S = GLG Y = (X 1 n x )G S Y = n 1 Y HY = n 1 G (X 1 n x ) H(X 1 n x )G = n 1 G X HX G = G SG = L L = diag(l 1,..., l p ) ist die Matrix der Eigenwerte von S. Ostap Okhrin 16 of 60

17 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis y 1 = (X 1 n x )g 1 g 1 = 1. Evec(S) g 2 = 2. Evec(S) g 3 = 3. Evec(S). Die Hauptkomponenten-Methode ist empndlich gegenüber Skalabzw. Maÿstabsänderungen. Die Hauptkomponenten (PC) Transformation sollte nur für Daten angewendet werden, die nahezu die selbe Skala in jeder Variable aufweisen. Ostap Okhrin 17 of 60

18 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel Es wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von X ist: x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5), der Vektor mit den Eigenwerten von S ist: l = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035). Ostap Okhrin 18 of 60

19 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Die Eigenvektoren g j entsprechen den Spalten von G: G = Die erste Spalte von G ist der erste Eigenvektor. Er liefert die Gewichte, die für die erste Hauptkomponente benötigt werden. Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte Banknoten wurden mit o und gefälschte mit + gekennzeichnet. Ostap Okhrin 19 of 60

20 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 3: Hauptkomponenten der Bankdaten. Ostap Okhrin 20 of 60

21 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel (Skala- bzw. Maÿstabsänderung) Umskalierung der Variablen X 1, X 2, X 3, und X 6 in cm, nur X 4 und X 5 werden weiterhin mm angegeben. Damit ist x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05), und l = (2.101, 0.623, 0.005, 0.002, 0.001, ). Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe Abbildung 4): die 1. Hauptkomponente wird durch X 4 und die 2. Hauptkomponente durch X 5 dominiert. Die anderen Variablen haben deutlich weniger Gewicht. Ostap Okhrin 21 of 60

22 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 4: Hauptkomponenten der umskalierten Bankdaten Ostap Okhrin 22 of 60

23 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Zusammenfassung: PCs in der Praxis Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt wird. Für die Anwendung der PCA in der Praxis wird µ durch den Mittelwert x und Σ durch die empirische Kovarianz S ersetzt. Anschlieÿend werden die Eigenwerte l 1,..., l p und die Eigenvektoren g 1,..., g p von S berechnet. Für die grasche Darstellung der Hauptkomponenten wird die geplottete 1. Hauptkomponente der 2. Hauptkomponente (und eventuell der 3. Hauptkomponente) gegenübergestellt. Die Komponenten des Eigenvektors g i sind die Gewichte der originalen Variablen in den Hauptkomponenten. Ostap Okhrin 23 of 60

24 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Interpretation der Hauptkomponenten Die Varianz wird durch die ersten q Hauptkomponenten erklärt. ψ = λ λ q = p λ j = j=1 q Var(Y j ) j=1 tr(σ) q Var(Y j ) j=1 p Var(Y j ) j=1 Ostap Okhrin 24 of 60

25 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem Originalvektor X : Cov(X, Y ) = E(XY ) E X E Y = E(XX Γ) µµ Γ = Var(X )Γ = ΣΓ = ΓΛΓ Γ = ΓΛ Korrelation zwischen Variable X i und der Hauptkomponente Y j : ρ Xi Y j ( ) 1/2 λj = γ ij. σ Xi X i Ostap Okhrin 25 of 60

26 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Beispiel Bankdaten: Eigenwert Varianz- kumulierter anteil Anteil Ostap Okhrin 26 of 60

27 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Variance Explained Index Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt werden kann. Ostap Okhrin 27 of 60

28 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs ψ 1 = λ λ q p λ j j=1 Arbeitsschritte fürs Plotten: 1. Berechnen der Kovarianzmatrix 2. Berechnen der Eigenwerte 3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte 4. Plotten der Anteile auf der y Achse Ostap Okhrin 28 of 60

29 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Second PC X6 X1 X5 X2 X3 X First PC Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten. Ostap Okhrin 29 of 60

30 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Gewichtung der Hauptkomponenten bestimmt in welche Richtungen, ausgedrückt in Originalkoordinaten, die beste Varianzerklärung liegt. Es muss beachtet werden, dass die PCA nicht skaleninvariant ist. Der relative Anteil ψ q = q λ j=1 j/ p λ j=1 j ist ein Maÿstab dafür, wie gut die ersten q Hauptkomponenten die Variation erklären. Wie gut die Hauptkomponenten die Variation in den Daten erklären, kann mit einem Scree Plot von diesen Variationen grasch dargestellt werden. Ostap Okhrin 30 of 60

31 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Korrelation zwischen einer Hauptkomponente Y j und einer ( λ Originalvariable X i kann mit ρ Xi Y j = γ j ij berechnet σ Xi X j ) 1/2 werden. Wird in der Praxis eine Datenmatrix betrachtet, wird die Korrelation stattdessen mit rx 2 i Y j = l j gij 2 s berechnet. Anders Xi X j ausgedrückt entspricht rx 2 i Y j dem Varianzanteil von X i, der durch Y j erklärt werden kann. Ein Plot von r Xi Y 1 und r Xi Y 2 zeigt, welche Variablen aus dem Originaldatensatz am stärksten mit den Hauptkomponenten korrelieren. Das sind jene Variablen, die sehr Nahe am Einheitskreis liegen. Ostap Okhrin 31 of 60

32 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Asymptotische Eigenschaften der Hauptkomponenten Theorem Sei Σ > 0 mit eindeutigen Eigenwerten und U m 1 W p (Σ, m) mit den spektralen Zerlegungen Σ = ΓΛΓ und U = GLG gegeben. Dann sind (a) L m(l λ) N p (0, 2Λ 2 ), (b) m(g j γ j ) L N p (0, V j ), mit V j = λ j k j (c) Cov(g j, g k ) = V jk, (r, s)-element von V jk ist: λ k (λ k λ j ) 2 γ k γ k, λ j λ k γ rk γ sj [m(λ j λ k ) 2 ], (d) Elemente in l asymptotische unabhängige Elemente in G Ostap Okhrin 32 of 60

33 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Sei X 1,..., X n N(µ, Σ), ns W p (Σ, n 1), dann kann das letzte Theorem wie folgt ausgedrückt werden: n 1(lj λ j ) L N(0, 2λ 2 j ), j = 1,..., p. Da die Varianz 2λ 2 j unbekannt ist, wird die Log-Transformation und das Transformationstheorem (siehe Multivariate Verteilungen) wie folgt angewendet: n 1 L (log l j log λ j ) N(0, 1) 2 Ein zweiseitiges Kondenzintervall sieht wie folgt aus: 2 2 log(l j ) 1.96 n 1 log λ j log(l j ) n 1 Ostap Okhrin 33 of 60

34 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Gegeben seien die Bankdaten mit: n = 200, l 1 = Dafür ist log(2.98) ± = log(2.98) ± und das Kondenzintervall: P{λ 1 (2.448, 3.62)} 0.95 Ostap Okhrin 34 of 60

35 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Erklärung der Varianz durch die ersten q Hauptkomponenten ψ = λ λ q p λ j j=1 ψ = l l q p l j j=1 Ostap Okhrin 35 of 60

36 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das Transformationstheorem 4.11 angewendet: n 1( ψ ψ) L N(0, D VD) V = 2Λ 2 D = (d 1,, d p ) d j = ψ λ j = { 1 ψ tr(σ) ψ tr(σ) for 1 j q, for q + 1 j p. Ostap Okhrin 36 of 60

37 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Theorem n 1( ψ ψ) L N(0, ω 2 ), ω 2 = D 2 { VD = (1 ψ) 2 (λ 2 {tr(σ)} λ 2 q) + ψ 2 (λ 2 q λ 2 p) } = 2 tr(σ2 ) {tr(σ)} 2 (ψ2 2βψ + β) β = λ λ2 q λ λ2 p Hinweis: Mit tr(λ) = tr(σ) und tr(λ 2 ) = tr(σ 2 ) können die Berechnungen vereinfacht werden Ostap Okhrin 37 of 60

38 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Die erste berechnete Hauptkomponente der Schweizer Banknoten erklärt 67% der Variation. Nun soll getestet werden, ob der wahre Anteil sogar bei 75% liegt. Das Kondenzintervall mit einer 1-α=0.95 Vertrauenswahrscheinlichkeit sei gegeben: ± 1.96 ω 2 kann wie folgt berechnet werden: ω 2 n 1, β = l 2 1 l l2 p = tr(s) = p tr(s 2 ) = l 2 j = j=1 Ostap Okhrin 38 of 60

39 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Damit ist: ω 2 = 2 tr(s2 ) tr(s) 2 ( ψ 2 2 β ψ + β) = ± 1.96 = (0.615, 0.720). 199 Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden Ostap Okhrin 39 of 60

40 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die Eigenwerte l j und Eigenvektoren g j sind asymptotisch normalverteilt, im Speziellen L n 1(l λ) N p (0, 2Λ 2 ). Für die Eigenwerte gilt n 1 2 (log l j log λ j ) L N(0, 1). Ostap Okhrin 40 of 60

41 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die asymptotische Normalverteilung erlaubt Konndenzintervalle zu konstruieren und auf den Anteil der Varianz zu testen, der von den ersten q Hauptkomponenten erklärt wird. Es gilt für die geschätzten ψ von ψ das L n 1( ψ ψ) N(0, ω 2 ). Ostap Okhrin 41 of 60

42 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Normalisierte Hauptkomponentenanalyse (NPCA) Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw. dem Maÿstab von X j. Die Standardisierung der Komponenten X j, wenn die Datenmatrix X sei: Korrektur des Mittelwertes: X C = HX zentrierte Datenmatrix (H = I n n 1 1 n 1 n ) Ostap Okhrin 42 of 60

43 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes: X S = HX D 1/2, D = diag(s X1 X 1,..., s XpX p ), x S = 0, S XS = RKorrelationsmatrix Die PCA von X S wird NPCA (Normalisierte Hauptkomponentenanalyse) genannt, mit L R = diag(l R 1,..., lr p ). R = G R L R G R, Die NPC's sind: Z = X S G R = (z 1,..., z p ). Ostap Okhrin 43 of 60

44 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Die NPC's genügen: z = 0, S Z = G R S XS G R = G R RG R = L R. Kovarianz und Korrelation S XS,Z = 1 n X S Z = G RL R R XS,Z = G R L R L 1/2 1/2 R = G R L R r Xi Z j = r Xsi Z j = l j g R,ij p rx 2 i Z j = 1. j=1 Ostap Okhrin 44 of 60

45 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food Data Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel verschiedener Familien in Frankreich (manual workers = MA, employees = EM, managers = CA) mit unterschiedlicher Kinderzahl (2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and Fénelon (1982). Ostap Okhrin 45 of 60

46 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Families CA5 EM5 CA3 MA5 MA4 EM4 MA3 EM3 CA2 MA2 CA4 EM First Factor Families Abbildung 7: Grasche Darstellung der Individuen Ostap Okhrin 46 of 60

47 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Goods vegetables meat poultry fruits milk bread wine First Factor Goods Abbildung 8: Grasche Darstellung der Variablen Ostap Okhrin 47 of 60

48 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Zusammenfassung: NPCA Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht der Hauptkomponentenanalyse (PCA), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet wird. Die grasche Darstellung liefert ähnliche Bilder wie bei der PCA, jedoch wird hier die relative Position der Individuen berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede Variable das selbe Gewicht (bei der PCA hat die Variable mit der gröÿten Varianz das gröÿte Gewicht). Die Qualität der Darstellungen kann durch geschätzt werden. ψ = l 1 + l l q. p l j j=1 Ostap Okhrin 48 of 60

49 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Hauptkomponenten als faktorielle Methode Die empirischen Hauptkomponenten (normalisiert oder nicht) sind äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix erhalten würde. Die Hauptkomponenten entsprechen Faktoren und werden durch die Zeilen der zentrierten Datenmatrix repräsentiert. Die normalisierten Hauptkomponenten (NPCs) entsprechen den Faktoren der standardisierten Datenmatrix. Ostap Okhrin 49 of 60

50 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Betrachtet man die Individuen (die Zeilen von X ) und die Variablen (die Spalten von X ) in einer kleineren Dimension, dann ist X C = HX. Die spektrale Zerlegung von X C X C ist der Zerlegung von S X ähnlich: X C X C = X H HX = ns X = nglg. Die faktoriellen Variablen werden durch die Projektion von X C auf G berücksichtigt, Y = X C G = (y 1,..., y p ). Ostap Okhrin 50 of 60

51 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Da HX C = X C, folgt sofort, dass y = 0, S Y = G S X G = L = diag(l 1,..., l p ). Die faktoriellen Achsen des Streudiagramms der Individuen sind somit um den Ursprung zentriert und streuen stärker in die erste Richtung (die erste Hauptkomponente hat die Varianz l 1 ), danach in die zweite Richtung (die zweite Hauptkomponente hat die Varianz l 2 ). Ostap Okhrin 51 of 60

52 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Duale Relationen Die Projektionen der Spalten von X C in die Eigenvektoren v k von X C XC sind XC v k = 1 XC X C g k = nl k g k. nlk Projektionen der ersten p Achse sind die Spalten von X C V = ngl 1/2. Ostap Okhrin 52 of 60

53 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Geometrische Darstellung Betrachte x C[j] x C[k] = ns Xj X k, x C[j] 2 = ns Xj X j, mit x C[j] und x C[k], dabei sei die j-te und k-te Spalte von X C. Wenn θ jk der Winkel zwischen x C[j] und x C[k] ist, kann cos θ jk = x C[j] x C[k] x C[j] x C[k] = r X j X k geschrieben werden. Ostap Okhrin 53 of 60

54 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Qualität der Darstellungen Die Qualität der Darstellungen kann mit ψ = l 1 + l l q. p l j bestimmt werden. j=1 Ostap Okhrin 54 of 60

55 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Es ist sinnvoll den Winkel ϑ ik zwischen der Darstellung eines Individuum i und der k-ten Hauptkomponente - oder die normalisierten Hauptkomponenten-Achse zu berechnen. cos ϑ ik = y i e k y i e k = für die Hauptkomponenten oder analog cos ζ ik = z i e k z i e k = y ik x Ci z ik x Si für die normalisierten Hauptkomponenten, dabei beschreibt e k den k-ten Einheitsvektor e k = (0,..., 1,..., 0). Ostap Okhrin 55 of 60

56 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein entsprechender Winkel klein ist, zum Beispiel, wenn cos 2 ϑ ik für k = 1,..., p ist dieser nahezu eins. Für jedes Individuum gilt i, p k=1 cos 2 ϑ ik = y i y i xci x Ci = x Ci GG x Ci x Ci x Ci = 1 Die Werte cos 2 ϑ ik werden manchmal relative Beiträge der k-ten Achse zur Darstellung des i-ten Individuums genannt. Ostap Okhrin 56 of 60

57 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Zusammenfassung: Hauptkomponenten als faktorielle Methode Normalisierte Hauptkomponenten (NPCs) sind Hauptkomponenten (PCs), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet werden. Die grasche Darstellung der NPCs ist äquivalent zu der graschen Darstellung der PCs. Der Unterschied liegt lediglich in der Position der Individuen. Die Qualität der Darstellung einer Variablen kann über den prozentualen Varianzanteil von X i bewertet werden. Dieser lässt sich durch eine Hauptkomponente, z.b., mit rx 2 i Y j erklären. Ostap Okhrin 57 of 60

58 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Common Principal Components (Gemeinsame Hauptkomponenten) Zusammengesetze Dimensionsreduktionstechnik Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in verschiedenen Gruppen. Der identische Raum wird von Eigenvektoren aufgespannt. Flury (1988) H CPC : Σ i = ΓΛ i Γ, i = 1,..., k Σ i Bevölkerungs Kovarianzmatrix der Gruppe i Γ = (γ 1,..., γ p ) Transformationsmatrix Λ i = diag(λ i1,..., λ ip ) Eigenwertmatrix Ostap Okhrin 58 of 60

59 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Beispiel Gemeinsame Hauptkomponentenanalyse für die impliziten Oberächenschwankungen des Dax-Index von Oberächenglättung (tageweise). Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3 Der Moneynessbereich: Ostap Okhrin 59 of 60

60 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten PCP for CPCA, 3 eigenvectors loading moneyness Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der dritten (dünn) Hauptkomponente. Ostap Okhrin 60 of 60

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Multivariate Verteilungen. Gerhard Tutz LMU München

Multivariate Verteilungen. Gerhard Tutz LMU München Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS

Mehr

5.Tutorium Multivariate Verfahren

5.Tutorium Multivariate Verfahren 5.Tutorium Multivariate Verfahren - Hauptkomponentenanalyse - Nicole Schüller: 27.06.2016 und 04.07.2016 Hannah Busen: 28.06.2016 und 05.07.2016 Institut für Statistik, LMU München 1 / 18 Gliederung 1

Mehr

1 Multivariate Zufallsvariablen

1 Multivariate Zufallsvariablen 1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)

Mehr

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,

Mehr

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg

Mehr

2.Tutorium Multivariate Verfahren

2.Tutorium Multivariate Verfahren 2.Tutorium Multivariate Verfahren - Multivariate Verteilungen - Hannah Busen: 27.04.2015 und 04.05.2015 Nicole Schüller: 28.04.2015 und 05.05.2015 Institut für Statistik, LMU München 1 / 21 Gliederung

Mehr

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse

Mehr

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) 1 Zusammenfassung Bedingte Verteilung: P (y x) = P (x, y) P (x) mit P (x) > 0 Produktsatz P (x, y) = P (x y)p (y) = P (y x)p (x) Kettenregel

Mehr

Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ

Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ Kleine Eigenwerte oder Eigenwerte gleich Null: k Eigenwerte Null = Rang(Σ) = m k Eigenwerte fast Null = Hauptkomponenten beinahe konstant Beschränkung

Mehr

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben: Korrelationsmatrix Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall einer Zufallsgröße mit N Dimensionen bietet sich zweckmäßiger Weise

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion und σ > 0 heißt

Mehr

Konfirmatorische Faktorenanalyse

Konfirmatorische Faktorenanalyse Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable nicht direkt beobachtbare Größe die beobachtbare Variablen ( Indikatoren

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr. Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;

Mehr

Herleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ. Z j = a 1j Y 1 + a 2j Y a mj Y m = a t j Y

Herleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ. Z j = a 1j Y 1 + a 2j Y a mj Y m = a t j Y Herleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ Z j = a 1j Y 1 + a 2j Y 2 +... + a mj Y m = a t j Y a t j = (a 1j, a 2j,..., a mj ) Z 1, Z 2,...,Z m unkorreliert Varianzen

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn. Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2016/17 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

Die n-dimensionale Normalverteilung

Die n-dimensionale Normalverteilung U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung

Mehr

x p 2 (x )dx, Hinweis: es ist nicht erforderlich, zu integrieren!

x p 2 (x )dx, Hinweis: es ist nicht erforderlich, zu integrieren! Aufgabe T- Gegeben seien zwei normalverteilte Zufallsvariablen X N(µ, σ) 2 und X 2 N(µ 2, σ2) 2 mit pdf p (x) bzw. p 2 (x). Bestimmen Sie x (als Funktion der µ i, σ i, sodass x p (x )dx = + x p 2 (x )dx,

Mehr

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Statistische Methoden in der Wirtschaftsund Sozialgeographie Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 0.5--45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

67 Zufallsvariable, Erwartungswert, Varianz

67 Zufallsvariable, Erwartungswert, Varianz 67 Zufallsvariable, Erwartungswert, Varianz 67.1 Motivation Oft möchte man dem Resultat eines Zufallsexperiments eine reelle Zahl zuordnen. Der Gewinn bei einem Glücksspiel ist ein Beispiel hierfür. In

Mehr

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2. Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2. Lineare Korrelation Annahme: var(x 1 ),var(x 2 ) (0, ). Der Koeffizient

Mehr

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Wahrscheinlichkeitstheorie Prof. Dr. W.-D. Heller Hartwig Senska

Mehr

Prof. Dr. Fred Böker

Prof. Dr. Fred Böker Statistik III WS 2004/2005; 8. Übungsblatt: Lösungen 1 Prof. Dr. Fred Böker 07.12.2004 Lösungen zum 8. Übungsblatt Aufgabe 1 Die Zufallsvariablen X 1 X 2 besitzen eine gemeinsame bivariate Normalverteilung

Mehr

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 1. Ergänzungen zur

Mehr

Vektoren und Matrizen

Vektoren und Matrizen Vektoren und Matrizen Die multivariate Statistik behandelt statistische Eigenschaften und Zusammenhänge mehrerer Variablen, im Gegensatz zu univariaten Statistik, die in der Regel nur eine Variable untersucht.

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen

Mehr

5 Erwartungswerte, Varianzen und Kovarianzen

5 Erwartungswerte, Varianzen und Kovarianzen 47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 018 / 019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen 1 Optimierung Optimierungsprobleme Suche nach dem Maximum oder Minimum

Mehr

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte Kapitel 8 Parameter multivariater Verteilungen 8.1 Erwartungswerte Wir können auch bei mehrdimensionalen Zufallsvariablen den Erwartungswert betrachten. Dieser ist nichts anderes als der vektor der Erwartungswerte

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review) Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review) 1 Diskrete Zufallsvariablen (Random variables) Eine Zufallsvariable X(c) ist eine Variable (genauer eine Funktion), deren Wert vom Ergebnis c

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

6.1 Definition der multivariaten Normalverteilung

6.1 Definition der multivariaten Normalverteilung Kapitel 6 Die multivariate Normalverteilung Wir hatten die multivariate Normalverteilung bereits in Abschnitt 2.3 kurz eingeführt. Wir werden sie jetzt etwas gründlicher behandeln, da die Schätzung ihrer

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

Mathematik 2 Probeprüfung 1

Mathematik 2 Probeprüfung 1 WWZ Wirtschaftswissenschaftliche Fakultät der Universität Basel Dr. Thomas Zehrt Bitte in Druckbuchstaben ausfüllen: Name Vorname Mathematik 2 Probeprüfung 1 Zeit: 90 Minuten, Maximale Punktzahl: 72 Zur

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Lineare Regression. Kapitel Regressionsgerade

Lineare Regression. Kapitel Regressionsgerade Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell

Mehr

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen

Mehr

2.3.4 Drehungen in drei Dimensionen

2.3.4 Drehungen in drei Dimensionen 2.3.4 Drehungen in drei Dimensionen Wir verallgemeinern die bisherigen Betrachtungen nun auf den dreidimensionalen Fall. Für Drehungen des Koordinatensystems um die Koordinatenachsen ergibt sich 1 x 1

Mehr

oder A = (a ij ), A =

oder A = (a ij ), A = Matrizen 1 Worum geht es in diesem Modul? Definition und Typ einer Matrix Spezielle Matrizen Rechenoperationen mit Matrizen Rang einer Matrix Rechengesetze Erwartungswert, Varianz und Kovarianz bei mehrdimensionalen

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

Unabhängige Zufallsvariablen

Unabhängige Zufallsvariablen Kapitel 9 Unabhängige Zufallsvariablen Die Unabhängigkeit von Zufallsvariablen wird auf die Unabhängigkeit von Ereignissen zurückgeführt. Im Folgenden sei Ω, A, P ) ein Wahrscheinlichkeitsraum. Definition

Mehr

Copula Funktionen. Eine Einführung. Nils Friewald

Copula Funktionen. Eine Einführung. Nils Friewald Copula Funktionen Eine Einführung Nils Friewald Institut für Managementwissenschaften Abteilung Finanzwirtschaft und Controlling Favoritenstraße 9-11, 1040 Wien friewald@imw.tuwien.ac.at 13. Juni 2005

Mehr

4 Statistik normalverteilter Daten

4 Statistik normalverteilter Daten 4 Statistik normalverteilter Daten 4.1 Eine Stichprobe a Die drei Grundfragen. Die schliessende Statistik bildet die Brücke zwischen den Wahrscheinlichkeitsmodellen, die unser Denken strukturieren, und

Mehr

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1 Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, 4. Mai 2017 Dr. Michael O. Distler

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Bivariate Normalverteilung

Bivariate Normalverteilung Bivariate Normalverteilung Die Dichtefunktion der gemeinsamen Verteilung für korrelierte normalverteilte Zufallsvariable ist nicht unmittelbar verständlich. Die Definition dieser multivariaten Normalverteilung

Mehr

K8 Stetige Zufallsvariablen Theorie und Praxis

K8 Stetige Zufallsvariablen Theorie und Praxis K8 Stetige Zufallsvariablen Theorie und Praxis 8.1 Theoretischer Hintergrund Wir haben (nicht abzählbare) Wahrscheinlichkeitsräume Meßbare Funktionen Zufallsvariablen Verteilungsfunktionen Dichten in R

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 5. Juli 2011 Zunächst: PCA (Hauptkomponentenanalyse) ist eine mathematische Prozedur, die eine Anzahl von (möglicherweise korrelierten) Variablen

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A

Mehr

Varianz und Kovarianz

Varianz und Kovarianz KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen

Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen Kapitel 9 Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen 9 Definitionen, Eigenschaften Wir betrachten jetzt p Zufallsvariablen X, X 2,, X p Alle Definitionen, Notationen und Eigenschaften

Mehr

Stichproben Parameterschätzung Konfidenzintervalle:

Stichproben Parameterschätzung Konfidenzintervalle: Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,

Mehr

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009 Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Lageparameter: Erwartungswert d) Erwartungswert

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Multivariate Verteilungen

Multivariate Verteilungen Multivariate Verteilungen Zufallsvektoren und Modellierung der Abhängigkeiten Ziel: Modellierung der Veränderungen der Risikofaktoren X n = (X n,1, X n,2,..., X n,d ) Annahme: X n,i und X n,j sind abhängig

Mehr

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch LS-Schätzer Sei µ = Xβ mit rg(x) = p und β = (β 1,..., β p ) t SSE(β) = (y µ) t (y µ) Minimiere SSE(β) bzgl. β: = y t y 2β t X t y + β t X t Xβ β SSE(β) = 2Xt y + 2X t Xβ. Minimum definiert durch X t X

Mehr

Proxies, Endogenität, Instrumentvariablenschätzung

Proxies, Endogenität, Instrumentvariablenschätzung 1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)

Mehr

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth Lineare Algebra Mathematik II für Chemiker Daniel Gerth Überblick Lineare Algebra Dieses Kapitel erklärt: Was man unter Vektoren versteht Wie man einfache geometrische Sachverhalte beschreibt Was man unter

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung 8a. Kovarianz und Korrelation Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere

Mehr

Lineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya

Lineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya Lineare Transformationen und Determinanten 10-E Ma 1 Lubov Vassilevskaya Lineare Transformation cc Definition: V und W sind zwei Vektorräume. Eine Funktion T nennt man eine lineare Transformation von V

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse

Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse Martin Hutzenthaler & Dirk Metzler http://evol.bio.lmu.de/_statgen 6. Juli 2010 Übersicht 1 Ruf des Kleinspechts 2 Modell Vorgehen

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Statistik - Fehlerrechnung - Auswertung von Messungen

Statistik - Fehlerrechnung - Auswertung von Messungen Statistik - Fehlerrechnung - Auswertung von Messungen TEIL II Vorbereitungskurs F-Praktikum B (Physik), RWTH Aachen Thomas Hebbeker Eindimensionaler Fall: Parameterbestimmung - Beispiele [Übung] Mehrdimensionaler

Mehr

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik II Version A 1. Klausur Sommersemester 2011 Hamburg, 27.07.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................

Mehr

1.5 Mehrdimensionale Verteilungen

1.5 Mehrdimensionale Verteilungen Poisson eine gute Näherung, da np = 0 und 500p = 5 00 = n. Wir erhalten somit als Näherung Exakte Rechnung ergibt P(2 X 0) = k=2 0 k=2 π (k) = 0,26424. 0 ( ) 00 P(2 X 0) = 0,0 k 0,99 00 k = 0,264238. k.4.2.4

Mehr

Fallstudien der mathematischen Modellbildung Teil 3: Quanten-Operationen. 0 i = i 0

Fallstudien der mathematischen Modellbildung Teil 3: Quanten-Operationen. 0 i = i 0 Übungsblatt 1 Aufgabe 1: Pauli-Matrizen Die folgenden Matrizen sind die Pauli-Matrizen, gegeben in der Basis 0, 1. [ [ [ 0 1 0 i 1 0 σ 1 = σ 1 0 = σ i 0 3 = 0 1 1. Zeigen Sie, dass die Pauli-Matrizen hermitesch

Mehr

Übungsblatt

Übungsblatt Übungsblatt 3 3.5.27 ) Die folgenden vier Matrizen bilden eine Darstellung der Gruppe C 4 : E =, A =, B =, C = Zeigen Sie einige Gruppeneigenschaften: a) Abgeschlossenheit: Berechnen Sie alle möglichen

Mehr

Seminar Quantitatives Risikomanagement

Seminar Quantitatives Risikomanagement Seminar Quantitatives Risikomanagement Multivariate Modelle II Toni Bastgen Mathematisches Institut der Universität zu Köln Sommersemester 2008 Betreuung: Prof. Schmidli, J. Eisenberg Inhaltsverzeichnis

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Zusammenfassung 11. Sara dos Reis.

Zusammenfassung 11. Sara dos Reis. Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr