Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin
|
|
- Heinz Lang
- vor 7 Jahren
- Abrufe
Transkript
1 Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 60
2 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Ziel: Reduziere die Dimension einer p-variaten Zufallsvariable X über Linearkombinationen. Diese Linearkombinationen sollten die gröÿte Streuung zwischen den Werten von X erzeugen, z. B. in dem die Linearkombinationen mit den gröÿten Varianzen gesucht werden. Ostap Okhrin 2 of 60
3 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Standardisierte Linearkombination (SLC) Für eine standardisierte Linearkombination (SLC) mit einem gewichteten Durchschnitt von X kann δ X = p δ j=1 jx j δ = 1, standardisiert p j=1 δ2 j = 1 geschrieben werden. δ = (δ 1,..., δ p ) ist dabei der Wichtungsvektor, der die Richtung der Linearkombinationen bestimmt. Ostap Okhrin 3 of 60
4 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von δ X maximiert: max {δ: δ =1} Var(δ X ) = max {δ: δ =1} δ Var(X )δ. Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung) ist der Eigenvektor γ 1 mit dem dazugehörigen gröÿten Eigenwert λ 1 der Kovarianz-Matrix Σ = Var(X ). Ostap Okhrin 4 of 60
5 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Gegeben sei: erste Hauptkomponente: zweite Hauptkomponente: Y 1 = γ 1 X Y 2 = γ 2 X...und so weiter mit γ i γ j i j. Allgemein: Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ ist: Y = Γ (X µ) Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente einen Erwartungswert von Null erhält. Ostap Okhrin 5 of 60
6 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 1: Eine beliebige SLC Ostap Okhrin 6 of 60
7 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 2: Die interessanteste SLC Ostap Okhrin 7 of 60
8 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Beispiel ( ) Bivariate Normalverteilung N(0, Σ), Σ = 1ρ ρ 1, ρ > 0. Eigenwerte dieser Matrix sind λ 1 = 1 + ρ und λ 2 = 1 ρ mit den dazugehörigen Eigenvektoren γ 1 = 1 ( ) 1, γ 2 = ( ). Die PC Transformation ist somit or ( Y1 Y 2 Y = Γ (X µ) = 1 ( ) = 1 2 ( X1 + X 2 X 1 X 2 ). ) X Ostap Okhrin 8 of 60
9 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Die erste Hauptkomponente (PC) ist Y 1 = 1 2 (X 1 + X 2 ) und die zweite ist Y 2 = 1 2 (X 1 X 2 ). Ostap Okhrin 9 of 60
10 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Berechne die Varianzen von diesen Hauptkomponenten (PCs) { } 1 Var(Y 1 ) = Var 2 (X 1 + X 2 ) = 1 2 Var(X 1 + X 2 ) = 1 2 {Var(X 1) + Var(X 2 ) + 2 Cov(X 1, X 2 )} = 1 ( ρ) = 1 + ρ 2 = λ 1. Auf die gleiche Weise kann Var(Y 2 ) = λ 2 = 1 ρ. gefunden werden. Ostap Okhrin 10 of 60
11 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Sei X (µ, Σ) und Y = Γ (X µ) die PC Transformation. Dann ist für j=1,...,p: E Y j = 0 Var(Y j ) = λ j Cov(Y i, Y j ) = 0, for i j Var(Y 1 ) Var(Y p ) 0 p j=1 Var(Y j) = tr(σ) p j=1 Var(Y j) = Σ. Ostap Okhrin 11 of 60
12 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Es gibt keine SLC, die eine gröÿere Varianz als λ 1 = Var(Y 1 ) hat. Theorem Sei Y = a X eine SLC, die nicht mit den ersten k Hauptkomponenten (PCs) von X korreliert, dann wird Var(Y ) durch a = γ k+1 maximal. Ostap Okhrin 12 of 60
13 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Eine standardisierte Linearkombination (SLC) ist ein gewichteter Durchschnitt δ X = p δ j=1 jx j. Der Vektor δ hat eine Länge von 1. Durch Maximieren der Varianz von δ X wird der Eigenvektor δ = γ 1 gefunden. Dieser Eigenvektor gehört zum gröÿten Eigenwert λ 1 der Kovarianzmatrix Σ = Var(X ). Das entspricht einer Projektion von X in einem eindimensionalen Raum, in dem die Komponenten von X von den Elementen γ 1 gewichtet werden. Y 1 = γ 1 (X µ) wird die erste Hauptkomponente (rst PC) genannt. Ostap Okhrin 13 of 60
14 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Diese Projektion kann für höhere Dimensionen verallgemeinert werden. Die PC Transformation ist eine Lineartransformation Y = Γ (X µ), mit Σ = Var(X ) = Γ ΛΓ und µ = E X. Y 1, Y 2,..., Y p wird erste, zweite,..., p-te Hauptkomponente (rst, second,...,pth PCs) genannt. Ostap Okhrin 14 of 60
15 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Die Hauptkomponenten (PCs) haben einen Erwartungswert von Null, eine Varianz Var(Y j ) = λ j, und keine Kovarianzen. Gilt λ 1... λ p, ist Var(Y 1 )... Var(Y p ). Des Weiteren sei p j=1 Var(Y j) = tr(σ) und p j=1 Var(Y j) = Σ. Wenn Y = a X eine SLC ist, die nicht mit den ersten k Hauptkomponenten von X korreliert, wird die Varianz von Y durch die Wahl von a gleich der (k + 1)ten Hauptkomponente maximiert. Ostap Okhrin 15 of 60
16 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Hauptkomponenten in der Praxis µ wird x, Σ ändert sich zu S = GLG Y = (X 1 n x )G S Y = n 1 Y HY = n 1 G (X 1 n x ) H(X 1 n x )G = n 1 G X HX G = G SG = L L = diag(l 1,..., l p ) ist die Matrix der Eigenwerte von S. Ostap Okhrin 16 of 60
17 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis y 1 = (X 1 n x )g 1 g 1 = 1. Evec(S) g 2 = 2. Evec(S) g 3 = 3. Evec(S). Die Hauptkomponenten-Methode ist empndlich gegenüber Skalabzw. Maÿstabsänderungen. Die Hauptkomponenten (PC) Transformation sollte nur für Daten angewendet werden, die nahezu die selbe Skala in jeder Variable aufweisen. Ostap Okhrin 17 of 60
18 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel Es wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von X ist: x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5), der Vektor mit den Eigenwerten von S ist: l = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035). Ostap Okhrin 18 of 60
19 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Die Eigenvektoren g j entsprechen den Spalten von G: G = Die erste Spalte von G ist der erste Eigenvektor. Er liefert die Gewichte, die für die erste Hauptkomponente benötigt werden. Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte Banknoten wurden mit o und gefälschte mit + gekennzeichnet. Ostap Okhrin 19 of 60
20 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 3: Hauptkomponenten der Bankdaten. Ostap Okhrin 20 of 60
21 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel (Skala- bzw. Maÿstabsänderung) Umskalierung der Variablen X 1, X 2, X 3, und X 6 in cm, nur X 4 und X 5 werden weiterhin mm angegeben. Damit ist x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05), und l = (2.101, 0.623, 0.005, 0.002, 0.001, ). Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe Abbildung 4): die 1. Hauptkomponente wird durch X 4 und die 2. Hauptkomponente durch X 5 dominiert. Die anderen Variablen haben deutlich weniger Gewicht. Ostap Okhrin 21 of 60
22 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 4: Hauptkomponenten der umskalierten Bankdaten Ostap Okhrin 22 of 60
23 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Zusammenfassung: PCs in der Praxis Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt wird. Für die Anwendung der PCA in der Praxis wird µ durch den Mittelwert x und Σ durch die empirische Kovarianz S ersetzt. Anschlieÿend werden die Eigenwerte l 1,..., l p und die Eigenvektoren g 1,..., g p von S berechnet. Für die grasche Darstellung der Hauptkomponenten wird die geplottete 1. Hauptkomponente der 2. Hauptkomponente (und eventuell der 3. Hauptkomponente) gegenübergestellt. Die Komponenten des Eigenvektors g i sind die Gewichte der originalen Variablen in den Hauptkomponenten. Ostap Okhrin 23 of 60
24 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Interpretation der Hauptkomponenten Die Varianz wird durch die ersten q Hauptkomponenten erklärt. ψ = λ λ q = p λ j = j=1 q Var(Y j ) j=1 tr(σ) q Var(Y j ) j=1 p Var(Y j ) j=1 Ostap Okhrin 24 of 60
25 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem Originalvektor X : Cov(X, Y ) = E(XY ) E X E Y = E(XX Γ) µµ Γ = Var(X )Γ = ΣΓ = ΓΛΓ Γ = ΓΛ Korrelation zwischen Variable X i und der Hauptkomponente Y j : ρ Xi Y j ( ) 1/2 λj = γ ij. σ Xi X i Ostap Okhrin 25 of 60
26 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Beispiel Bankdaten: Eigenwert Varianz- kumulierter anteil Anteil Ostap Okhrin 26 of 60
27 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Variance Explained Index Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt werden kann. Ostap Okhrin 27 of 60
28 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs ψ 1 = λ λ q p λ j j=1 Arbeitsschritte fürs Plotten: 1. Berechnen der Kovarianzmatrix 2. Berechnen der Eigenwerte 3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte 4. Plotten der Anteile auf der y Achse Ostap Okhrin 28 of 60
29 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Second PC X6 X1 X5 X2 X3 X First PC Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten. Ostap Okhrin 29 of 60
30 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Gewichtung der Hauptkomponenten bestimmt in welche Richtungen, ausgedrückt in Originalkoordinaten, die beste Varianzerklärung liegt. Es muss beachtet werden, dass die PCA nicht skaleninvariant ist. Der relative Anteil ψ q = q λ j=1 j/ p λ j=1 j ist ein Maÿstab dafür, wie gut die ersten q Hauptkomponenten die Variation erklären. Wie gut die Hauptkomponenten die Variation in den Daten erklären, kann mit einem Scree Plot von diesen Variationen grasch dargestellt werden. Ostap Okhrin 30 of 60
31 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Korrelation zwischen einer Hauptkomponente Y j und einer ( λ Originalvariable X i kann mit ρ Xi Y j = γ j ij berechnet σ Xi X j ) 1/2 werden. Wird in der Praxis eine Datenmatrix betrachtet, wird die Korrelation stattdessen mit rx 2 i Y j = l j gij 2 s berechnet. Anders Xi X j ausgedrückt entspricht rx 2 i Y j dem Varianzanteil von X i, der durch Y j erklärt werden kann. Ein Plot von r Xi Y 1 und r Xi Y 2 zeigt, welche Variablen aus dem Originaldatensatz am stärksten mit den Hauptkomponenten korrelieren. Das sind jene Variablen, die sehr Nahe am Einheitskreis liegen. Ostap Okhrin 31 of 60
32 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Asymptotische Eigenschaften der Hauptkomponenten Theorem Sei Σ > 0 mit eindeutigen Eigenwerten und U m 1 W p (Σ, m) mit den spektralen Zerlegungen Σ = ΓΛΓ und U = GLG gegeben. Dann sind (a) L m(l λ) N p (0, 2Λ 2 ), (b) m(g j γ j ) L N p (0, V j ), mit V j = λ j k j (c) Cov(g j, g k ) = V jk, (r, s)-element von V jk ist: λ k (λ k λ j ) 2 γ k γ k, λ j λ k γ rk γ sj [m(λ j λ k ) 2 ], (d) Elemente in l asymptotische unabhängige Elemente in G Ostap Okhrin 32 of 60
33 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Sei X 1,..., X n N(µ, Σ), ns W p (Σ, n 1), dann kann das letzte Theorem wie folgt ausgedrückt werden: n 1(lj λ j ) L N(0, 2λ 2 j ), j = 1,..., p. Da die Varianz 2λ 2 j unbekannt ist, wird die Log-Transformation und das Transformationstheorem (siehe Multivariate Verteilungen) wie folgt angewendet: n 1 L (log l j log λ j ) N(0, 1) 2 Ein zweiseitiges Kondenzintervall sieht wie folgt aus: 2 2 log(l j ) 1.96 n 1 log λ j log(l j ) n 1 Ostap Okhrin 33 of 60
34 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Gegeben seien die Bankdaten mit: n = 200, l 1 = Dafür ist log(2.98) ± = log(2.98) ± und das Kondenzintervall: P{λ 1 (2.448, 3.62)} 0.95 Ostap Okhrin 34 of 60
35 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Erklärung der Varianz durch die ersten q Hauptkomponenten ψ = λ λ q p λ j j=1 ψ = l l q p l j j=1 Ostap Okhrin 35 of 60
36 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das Transformationstheorem 4.11 angewendet: n 1( ψ ψ) L N(0, D VD) V = 2Λ 2 D = (d 1,, d p ) d j = ψ λ j = { 1 ψ tr(σ) ψ tr(σ) for 1 j q, for q + 1 j p. Ostap Okhrin 36 of 60
37 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Theorem n 1( ψ ψ) L N(0, ω 2 ), ω 2 = D 2 { VD = (1 ψ) 2 (λ 2 {tr(σ)} λ 2 q) + ψ 2 (λ 2 q λ 2 p) } = 2 tr(σ2 ) {tr(σ)} 2 (ψ2 2βψ + β) β = λ λ2 q λ λ2 p Hinweis: Mit tr(λ) = tr(σ) und tr(λ 2 ) = tr(σ 2 ) können die Berechnungen vereinfacht werden Ostap Okhrin 37 of 60
38 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Die erste berechnete Hauptkomponente der Schweizer Banknoten erklärt 67% der Variation. Nun soll getestet werden, ob der wahre Anteil sogar bei 75% liegt. Das Kondenzintervall mit einer 1-α=0.95 Vertrauenswahrscheinlichkeit sei gegeben: ± 1.96 ω 2 kann wie folgt berechnet werden: ω 2 n 1, β = l 2 1 l l2 p = tr(s) = p tr(s 2 ) = l 2 j = j=1 Ostap Okhrin 38 of 60
39 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Damit ist: ω 2 = 2 tr(s2 ) tr(s) 2 ( ψ 2 2 β ψ + β) = ± 1.96 = (0.615, 0.720). 199 Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden Ostap Okhrin 39 of 60
40 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die Eigenwerte l j und Eigenvektoren g j sind asymptotisch normalverteilt, im Speziellen L n 1(l λ) N p (0, 2Λ 2 ). Für die Eigenwerte gilt n 1 2 (log l j log λ j ) L N(0, 1). Ostap Okhrin 40 of 60
41 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die asymptotische Normalverteilung erlaubt Konndenzintervalle zu konstruieren und auf den Anteil der Varianz zu testen, der von den ersten q Hauptkomponenten erklärt wird. Es gilt für die geschätzten ψ von ψ das L n 1( ψ ψ) N(0, ω 2 ). Ostap Okhrin 41 of 60
42 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Normalisierte Hauptkomponentenanalyse (NPCA) Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw. dem Maÿstab von X j. Die Standardisierung der Komponenten X j, wenn die Datenmatrix X sei: Korrektur des Mittelwertes: X C = HX zentrierte Datenmatrix (H = I n n 1 1 n 1 n ) Ostap Okhrin 42 of 60
43 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes: X S = HX D 1/2, D = diag(s X1 X 1,..., s XpX p ), x S = 0, S XS = RKorrelationsmatrix Die PCA von X S wird NPCA (Normalisierte Hauptkomponentenanalyse) genannt, mit L R = diag(l R 1,..., lr p ). R = G R L R G R, Die NPC's sind: Z = X S G R = (z 1,..., z p ). Ostap Okhrin 43 of 60
44 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Die NPC's genügen: z = 0, S Z = G R S XS G R = G R RG R = L R. Kovarianz und Korrelation S XS,Z = 1 n X S Z = G RL R R XS,Z = G R L R L 1/2 1/2 R = G R L R r Xi Z j = r Xsi Z j = l j g R,ij p rx 2 i Z j = 1. j=1 Ostap Okhrin 44 of 60
45 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food Data Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel verschiedener Familien in Frankreich (manual workers = MA, employees = EM, managers = CA) mit unterschiedlicher Kinderzahl (2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and Fénelon (1982). Ostap Okhrin 45 of 60
46 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Families CA5 EM5 CA3 MA5 MA4 EM4 MA3 EM3 CA2 MA2 CA4 EM First Factor Families Abbildung 7: Grasche Darstellung der Individuen Ostap Okhrin 46 of 60
47 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Goods vegetables meat poultry fruits milk bread wine First Factor Goods Abbildung 8: Grasche Darstellung der Variablen Ostap Okhrin 47 of 60
48 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Zusammenfassung: NPCA Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht der Hauptkomponentenanalyse (PCA), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet wird. Die grasche Darstellung liefert ähnliche Bilder wie bei der PCA, jedoch wird hier die relative Position der Individuen berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede Variable das selbe Gewicht (bei der PCA hat die Variable mit der gröÿten Varianz das gröÿte Gewicht). Die Qualität der Darstellungen kann durch geschätzt werden. ψ = l 1 + l l q. p l j j=1 Ostap Okhrin 48 of 60
49 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Hauptkomponenten als faktorielle Methode Die empirischen Hauptkomponenten (normalisiert oder nicht) sind äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix erhalten würde. Die Hauptkomponenten entsprechen Faktoren und werden durch die Zeilen der zentrierten Datenmatrix repräsentiert. Die normalisierten Hauptkomponenten (NPCs) entsprechen den Faktoren der standardisierten Datenmatrix. Ostap Okhrin 49 of 60
50 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Betrachtet man die Individuen (die Zeilen von X ) und die Variablen (die Spalten von X ) in einer kleineren Dimension, dann ist X C = HX. Die spektrale Zerlegung von X C X C ist der Zerlegung von S X ähnlich: X C X C = X H HX = ns X = nglg. Die faktoriellen Variablen werden durch die Projektion von X C auf G berücksichtigt, Y = X C G = (y 1,..., y p ). Ostap Okhrin 50 of 60
51 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Da HX C = X C, folgt sofort, dass y = 0, S Y = G S X G = L = diag(l 1,..., l p ). Die faktoriellen Achsen des Streudiagramms der Individuen sind somit um den Ursprung zentriert und streuen stärker in die erste Richtung (die erste Hauptkomponente hat die Varianz l 1 ), danach in die zweite Richtung (die zweite Hauptkomponente hat die Varianz l 2 ). Ostap Okhrin 51 of 60
52 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Duale Relationen Die Projektionen der Spalten von X C in die Eigenvektoren v k von X C XC sind XC v k = 1 XC X C g k = nl k g k. nlk Projektionen der ersten p Achse sind die Spalten von X C V = ngl 1/2. Ostap Okhrin 52 of 60
53 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Geometrische Darstellung Betrachte x C[j] x C[k] = ns Xj X k, x C[j] 2 = ns Xj X j, mit x C[j] und x C[k], dabei sei die j-te und k-te Spalte von X C. Wenn θ jk der Winkel zwischen x C[j] und x C[k] ist, kann cos θ jk = x C[j] x C[k] x C[j] x C[k] = r X j X k geschrieben werden. Ostap Okhrin 53 of 60
54 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Qualität der Darstellungen Die Qualität der Darstellungen kann mit ψ = l 1 + l l q. p l j bestimmt werden. j=1 Ostap Okhrin 54 of 60
55 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Es ist sinnvoll den Winkel ϑ ik zwischen der Darstellung eines Individuum i und der k-ten Hauptkomponente - oder die normalisierten Hauptkomponenten-Achse zu berechnen. cos ϑ ik = y i e k y i e k = für die Hauptkomponenten oder analog cos ζ ik = z i e k z i e k = y ik x Ci z ik x Si für die normalisierten Hauptkomponenten, dabei beschreibt e k den k-ten Einheitsvektor e k = (0,..., 1,..., 0). Ostap Okhrin 55 of 60
56 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein entsprechender Winkel klein ist, zum Beispiel, wenn cos 2 ϑ ik für k = 1,..., p ist dieser nahezu eins. Für jedes Individuum gilt i, p k=1 cos 2 ϑ ik = y i y i xci x Ci = x Ci GG x Ci x Ci x Ci = 1 Die Werte cos 2 ϑ ik werden manchmal relative Beiträge der k-ten Achse zur Darstellung des i-ten Individuums genannt. Ostap Okhrin 56 of 60
57 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Zusammenfassung: Hauptkomponenten als faktorielle Methode Normalisierte Hauptkomponenten (NPCs) sind Hauptkomponenten (PCs), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet werden. Die grasche Darstellung der NPCs ist äquivalent zu der graschen Darstellung der PCs. Der Unterschied liegt lediglich in der Position der Individuen. Die Qualität der Darstellung einer Variablen kann über den prozentualen Varianzanteil von X i bewertet werden. Dieser lässt sich durch eine Hauptkomponente, z.b., mit rx 2 i Y j erklären. Ostap Okhrin 57 of 60
58 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Common Principal Components (Gemeinsame Hauptkomponenten) Zusammengesetze Dimensionsreduktionstechnik Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in verschiedenen Gruppen. Der identische Raum wird von Eigenvektoren aufgespannt. Flury (1988) H CPC : Σ i = ΓΛ i Γ, i = 1,..., k Σ i Bevölkerungs Kovarianzmatrix der Gruppe i Γ = (γ 1,..., γ p ) Transformationsmatrix Λ i = diag(λ i1,..., λ ip ) Eigenwertmatrix Ostap Okhrin 58 of 60
59 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Beispiel Gemeinsame Hauptkomponentenanalyse für die impliziten Oberächenschwankungen des Dax-Index von Oberächenglättung (tageweise). Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3 Der Moneynessbereich: Ostap Okhrin 59 of 60
60 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten PCP for CPCA, 3 eigenvectors loading moneyness Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der dritten (dünn) Hauptkomponente. Ostap Okhrin 60 of 60
Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin
Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrMultivariate Verteilungen. Gerhard Tutz LMU München
Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS
Mehr5.Tutorium Multivariate Verfahren
5.Tutorium Multivariate Verfahren - Hauptkomponentenanalyse - Nicole Schüller: 27.06.2016 und 04.07.2016 Hannah Busen: 28.06.2016 und 05.07.2016 Institut für Statistik, LMU München 1 / 18 Gliederung 1
Mehr1 Multivariate Zufallsvariablen
1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)
MehrKlausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min
Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,
MehrStatistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen
Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg
Mehr2.Tutorium Multivariate Verfahren
2.Tutorium Multivariate Verfahren - Multivariate Verteilungen - Hannah Busen: 27.04.2015 und 04.05.2015 Nicole Schüller: 28.04.2015 und 05.05.2015 Institut für Statistik, LMU München 1 / 21 Gliederung
MehrKonfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler
Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) 1 Zusammenfassung Bedingte Verteilung: P (y x) = P (x, y) P (x) mit P (x) > 0 Produktsatz P (x, y) = P (x y)p (y) = P (y x)p (x) Kettenregel
MehrDie Rücktransformation: Z = A t (Y µ) = Y = AZ + µ
Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ Kleine Eigenwerte oder Eigenwerte gleich Null: k Eigenwerte Null = Rang(Σ) = m k Eigenwerte fast Null = Hauptkomponenten beinahe konstant Beschränkung
MehrKorrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:
Korrelationsmatrix Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall einer Zufallsgröße mit N Dimensionen bietet sich zweckmäßiger Weise
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrDemokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik
Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management
für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion und σ > 0 heißt
MehrKonfirmatorische Faktorenanalyse
Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable nicht direkt beobachtbare Größe die beobachtbare Variablen ( Indikatoren
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrHerleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ. Z j = a 1j Y 1 + a 2j Y a mj Y m = a t j Y
Herleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ Z j = a 1j Y 1 + a 2j Y 2 +... + a mj Y m = a t j Y a t j = (a 1j, a 2j,..., a mj ) Z 1, Z 2,...,Z m unkorreliert Varianzen
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrKapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.
Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2016/17 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich
MehrDie n-dimensionale Normalverteilung
U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung
Mehrx p 2 (x )dx, Hinweis: es ist nicht erforderlich, zu integrieren!
Aufgabe T- Gegeben seien zwei normalverteilte Zufallsvariablen X N(µ, σ) 2 und X 2 N(µ 2, σ2) 2 mit pdf p (x) bzw. p 2 (x). Bestimmen Sie x (als Funktion der µ i, σ i, sodass x p (x )dx = + x p 2 (x )dx,
MehrStatistische Methoden in der Wirtschaftsund Sozialgeographie
Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 0.5--45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-
MehrReelle Zufallsvariablen
Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen
Mehr67 Zufallsvariable, Erwartungswert, Varianz
67 Zufallsvariable, Erwartungswert, Varianz 67.1 Motivation Oft möchte man dem Resultat eines Zufallsexperiments eine reelle Zahl zuordnen. Der Gewinn bei einem Glücksspiel ist ein Beispiel hierfür. In
MehrAbhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.
Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2. Lineare Korrelation Annahme: var(x 1 ),var(x 2 ) (0, ). Der Koeffizient
MehrKapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Wahrscheinlichkeitstheorie Prof. Dr. W.-D. Heller Hartwig Senska
MehrProf. Dr. Fred Böker
Statistik III WS 2004/2005; 8. Übungsblatt: Lösungen 1 Prof. Dr. Fred Böker 07.12.2004 Lösungen zum 8. Übungsblatt Aufgabe 1 Die Zufallsvariablen X 1 X 2 besitzen eine gemeinsame bivariate Normalverteilung
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 1. Ergänzungen zur
MehrVektoren und Matrizen
Vektoren und Matrizen Die multivariate Statistik behandelt statistische Eigenschaften und Zusammenhänge mehrerer Variablen, im Gegensatz zu univariaten Statistik, die in der Regel nur eine Variable untersucht.
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
Mehr5 Erwartungswerte, Varianzen und Kovarianzen
47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,
MehrMathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 018 / 019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen 1 Optimierung Optimierungsprobleme Suche nach dem Maximum oder Minimum
MehrKapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte
Kapitel 8 Parameter multivariater Verteilungen 8.1 Erwartungswerte Wir können auch bei mehrdimensionalen Zufallsvariablen den Erwartungswert betrachten. Dieser ist nichts anderes als der vektor der Erwartungswerte
Mehr4. Verteilungen von Funktionen von Zufallsvariablen
4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Review)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review) 1 Diskrete Zufallsvariablen (Random variables) Eine Zufallsvariable X(c) ist eine Variable (genauer eine Funktion), deren Wert vom Ergebnis c
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
Mehr6.1 Definition der multivariaten Normalverteilung
Kapitel 6 Die multivariate Normalverteilung Wir hatten die multivariate Normalverteilung bereits in Abschnitt 2.3 kurz eingeführt. Wir werden sie jetzt etwas gründlicher behandeln, da die Schätzung ihrer
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)
MehrMathematik 2 Probeprüfung 1
WWZ Wirtschaftswissenschaftliche Fakultät der Universität Basel Dr. Thomas Zehrt Bitte in Druckbuchstaben ausfüllen: Name Vorname Mathematik 2 Probeprüfung 1 Zeit: 90 Minuten, Maximale Punktzahl: 72 Zur
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrKapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42
Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich
Mehr3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
MehrPrincipal Component Analysis (PCA) (aka Hauptkomponentenanalyse)
Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen
Mehr2.3.4 Drehungen in drei Dimensionen
2.3.4 Drehungen in drei Dimensionen Wir verallgemeinern die bisherigen Betrachtungen nun auf den dreidimensionalen Fall. Für Drehungen des Koordinatensystems um die Koordinatenachsen ergibt sich 1 x 1
Mehroder A = (a ij ), A =
Matrizen 1 Worum geht es in diesem Modul? Definition und Typ einer Matrix Spezielle Matrizen Rechenoperationen mit Matrizen Rang einer Matrix Rechengesetze Erwartungswert, Varianz und Kovarianz bei mehrdimensionalen
MehrPrincipal Component Analysis (PCA)
Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
Mehr9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T
9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon
MehrUnabhängige Zufallsvariablen
Kapitel 9 Unabhängige Zufallsvariablen Die Unabhängigkeit von Zufallsvariablen wird auf die Unabhängigkeit von Ereignissen zurückgeführt. Im Folgenden sei Ω, A, P ) ein Wahrscheinlichkeitsraum. Definition
MehrCopula Funktionen. Eine Einführung. Nils Friewald
Copula Funktionen Eine Einführung Nils Friewald Institut für Managementwissenschaften Abteilung Finanzwirtschaft und Controlling Favoritenstraße 9-11, 1040 Wien friewald@imw.tuwien.ac.at 13. Juni 2005
Mehr4 Statistik normalverteilter Daten
4 Statistik normalverteilter Daten 4.1 Eine Stichprobe a Die drei Grundfragen. Die schliessende Statistik bildet die Brücke zwischen den Wahrscheinlichkeitsmodellen, die unser Denken strukturieren, und
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, 4. Mai 2017 Dr. Michael O. Distler
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrStatistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrBootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle
Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle [Dudoit, van der Laan, Pollard: Multiple Testing. Part I Single-Step Procedures for Control of General Type-I-Error Rates]
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrBivariate Normalverteilung
Bivariate Normalverteilung Die Dichtefunktion der gemeinsamen Verteilung für korrelierte normalverteilte Zufallsvariable ist nicht unmittelbar verständlich. Die Definition dieser multivariaten Normalverteilung
MehrK8 Stetige Zufallsvariablen Theorie und Praxis
K8 Stetige Zufallsvariablen Theorie und Praxis 8.1 Theoretischer Hintergrund Wir haben (nicht abzählbare) Wahrscheinlichkeitsräume Meßbare Funktionen Zufallsvariablen Verteilungsfunktionen Dichten in R
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 5. Juli 2011 Zunächst: PCA (Hauptkomponentenanalyse) ist eine mathematische Prozedur, die eine Anzahl von (möglicherweise korrelierten) Variablen
MehrOLS-Schätzung: asymptotische Eigenschaften
OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrWirtschaftsmathematik
Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A
MehrVarianz und Kovarianz
KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]
MehrI Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...
Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrAnhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen
Kapitel 9 Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen 9 Definitionen, Eigenschaften Wir betrachten jetzt p Zufallsvariablen X, X 2,, X p Alle Definitionen, Notationen und Eigenschaften
MehrStichproben Parameterschätzung Konfidenzintervalle:
Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,
MehrÜbung zu Empirische Ökonomie für Fortgeschrittene SS 2009
Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrEinführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Lageparameter: Erwartungswert d) Erwartungswert
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrMultivariate Verteilungen
Multivariate Verteilungen Zufallsvektoren und Modellierung der Abhängigkeiten Ziel: Modellierung der Veränderungen der Risikofaktoren X n = (X n,1, X n,2,..., X n,d ) Annahme: X n,i und X n,j sind abhängig
MehrLS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch
LS-Schätzer Sei µ = Xβ mit rg(x) = p und β = (β 1,..., β p ) t SSE(β) = (y µ) t (y µ) Minimiere SSE(β) bzgl. β: = y t y 2β t X t y + β t X t Xβ β SSE(β) = 2Xt y + 2X t Xβ. Minimum definiert durch X t X
MehrProxies, Endogenität, Instrumentvariablenschätzung
1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes
MehrStatistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik
Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)
MehrLineare Algebra. Mathematik II für Chemiker. Daniel Gerth
Lineare Algebra Mathematik II für Chemiker Daniel Gerth Überblick Lineare Algebra Dieses Kapitel erklärt: Was man unter Vektoren versteht Wie man einfache geometrische Sachverhalte beschreibt Was man unter
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrVorlesung 8a. Kovarianz und Korrelation
Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere
MehrLineare Transformationen und Determinanten. 10-E Ma 1 Lubov Vassilevskaya
Lineare Transformationen und Determinanten 10-E Ma 1 Lubov Vassilevskaya Lineare Transformation cc Definition: V und W sind zwei Vektorräume. Eine Funktion T nennt man eine lineare Transformation von V
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse
Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse Martin Hutzenthaler & Dirk Metzler http://evol.bio.lmu.de/_statgen 6. Juli 2010 Übersicht 1 Ruf des Kleinspechts 2 Modell Vorgehen
MehrStatistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrStatistik - Fehlerrechnung - Auswertung von Messungen
Statistik - Fehlerrechnung - Auswertung von Messungen TEIL II Vorbereitungskurs F-Praktikum B (Physik), RWTH Aachen Thomas Hebbeker Eindimensionaler Fall: Parameterbestimmung - Beispiele [Übung] Mehrdimensionaler
MehrStatistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik II Version A 1. Klausur Sommersemester 2011 Hamburg, 27.07.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................
Mehr1.5 Mehrdimensionale Verteilungen
Poisson eine gute Näherung, da np = 0 und 500p = 5 00 = n. Wir erhalten somit als Näherung Exakte Rechnung ergibt P(2 X 0) = k=2 0 k=2 π (k) = 0,26424. 0 ( ) 00 P(2 X 0) = 0,0 k 0,99 00 k = 0,264238. k.4.2.4
MehrFallstudien der mathematischen Modellbildung Teil 3: Quanten-Operationen. 0 i = i 0
Übungsblatt 1 Aufgabe 1: Pauli-Matrizen Die folgenden Matrizen sind die Pauli-Matrizen, gegeben in der Basis 0, 1. [ [ [ 0 1 0 i 1 0 σ 1 = σ 1 0 = σ i 0 3 = 0 1 1. Zeigen Sie, dass die Pauli-Matrizen hermitesch
MehrÜbungsblatt
Übungsblatt 3 3.5.27 ) Die folgenden vier Matrizen bilden eine Darstellung der Gruppe C 4 : E =, A =, B =, C = Zeigen Sie einige Gruppeneigenschaften: a) Abgeschlossenheit: Berechnen Sie alle möglichen
MehrSeminar Quantitatives Risikomanagement
Seminar Quantitatives Risikomanagement Multivariate Modelle II Toni Bastgen Mathematisches Institut der Universität zu Köln Sommersemester 2008 Betreuung: Prof. Schmidli, J. Eisenberg Inhaltsverzeichnis
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrWahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
MehrZusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
Mehr