Formelsammlung zu Multivariate Verfahren

Größe: px
Ab Seite anzeigen:

Download "Formelsammlung zu Multivariate Verfahren"

Transkript

1 Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version Diese Formelsammlung darf in der Klausur verwendet werden Eigene Notizen und Ergänzungen dürfen eingefügt, aber keine zusätzlichen Blätter eingeheftet werden Multivariate Schätz und Testprobleme 2 Schätzung im Ein Stichprobenfall 2 2 Schätzung im Mehr Stichprobenfall 3 3 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ bekannt 4 4 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ unbekannt 4 5 Tests im Zwei Stichprobenfall unabhängige Stichproben 5 6 Tests im Zwei Stichprobenfall verbundene Stichproben 5 2 Diskriminanzanalyse/Klassifikation 6 2 Relevante Größen: 6 22 Bayes Zuordnung: 6 23 Kostenoptimale Bayes Zuordnung: 8 24 Zuordnungsregel unter der Voraussetzung Normalverteilung 9 25 Fishersche Diskriminanzanalyse 0 3 Clusteranalyse 3 Distanzmaße für Objekte: 32 Distanzmaße: 33 Distanzmaße für Klassen: 2 34 Einige Grundbegriffe: 3 35 Gütekriterien: quantitative Merkmale 4 4 Multivariate lineare Regression 4 4 Konzept 4 42 Schätzen 6 43 Testverfahren 7 5 Assoziationsstrukturen 7 5 Marginale, bedingte und partielle Korrelation 7 52 Korrelationskoeffizienten bei vektoriellen Größen 8 53 Multiple Korrelation 8 54 Kanonische Korrelation 9 6 Hauptkomponentenanalyse 20 7 Faktorenanalyse 2 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 2 Multivariate Schätz und Testprobleme Schätzung im Ein Stichprobenfall Seien x,, x n unabhängige Wiederholungen von x mit E(x) = µ und Kovarianz Var(x) = Σ x x x p Bezeichne X die (n p) Datenmatrix X = = x n x np Erwartungswertschätzung: Empirische Kovarianzmatrix: Alternativer Schätzer für Σ: x n n x = x i x = ; n n x ip x p S = n n (x i x)(x i x) = ( n ) n x ix i n x x Schätzung der Korrelationsmatrix: ˆR = (r ij ) p p Satz: ˆΣ = n S nicht erwartungstreu n r ij = n n s= (x si x i )(x sj x j ) s= (x si x i ) 2 n s= (x sj x j ) 2 x,, x n seien unabhängig und identisch p(µ, Σ) verteilt Dann gilt a) E( x) = µ, E(S) = Σ (Unverzerrtheit), b) cov( x) = n Σ, c) E x µ 2 E ˆµ µ 2 für jeden anderen unverzerrten linearen Schätzer ˆµ = ˆµ(x,, x n ) = a x + + a n x n Sind x, x n zusätzlich normalverteilt, dann gilt außerdem d) x N p ( µ, n Σ) und (n )S = Σ n (x i x)(x i x) T W p (Σ, n ) e) x und S sind unabhängig

2 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 3 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 4 2 Schätzung im Mehr Stichprobenfall Grundgesamtheit ist aufgespalten in disjunkten Klassen Ω,, Ω g Separat in den Klassen werden Stichproben gezogen Arithmetrisches Mittel in Klasse k: x () x () n (aus Ω ) x (g) x (g) ng (aus Ω g ) x (k) = n k nk Empirische Kovarianzmatrix in Klasse k: S (k) = nk n k Häufige Annahme: Σ = Σ 2 = Σ g = Σ x(k) (x(k) i i µ k = µ (k) µ (k) p x (k) )(x (k) i x (k) ) Σ k Wenn Gleichheit gilt, dann nimmt man die gepoolte empirische Kovarianzmatrix: S = g n g (n k )S (k) = g nk k= n g k= W = g nk k= Weiter bezeichnet (x(k) i (x(k) i x (k) )(x (k) i x (k) ) = n g W x (k) )(x (k) i x (k) ) die Streuung innerhalb der Gruppen bezeichnet B = g n k( x (k) x)( x (k) x) k= die Streuung zwischen den Gruppen, 3 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ bekannt x,, x n unabhängige Realisierungen der Stichprobenvariablen x i N(µ, Σ); i =,, n Hypothesen: Teststatistik: H 0 ablehnen, wenn gilt: H 0 : µ = µ 0, H : µ µ 0 T 2 = n( x µ 0 ) T Σ ( x µ 0 ), T 2 H0 χ 2 (p) T 2 > χ 2 (p; α) 4 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ unbekannt x,, x n unabhängige Realisierungen der Stichprobenvariablen x i N(µ, Σ) mit unbekanntem Σ Hypothesen: x = n g den großen Mittelwert über alle Klassen bezeichnet, mit k= n k x (k) Teststatistik: T s = H 0 : µ = µ 0, H : µ µ 0 n(n p) p(n ) ( x µ 0) T S ( x µ 0 ), n = n + n n g H0 T s F (p, n p) für die Gesamtstreuungsmatrix T = g k= nk (x(k) i x)(x (k) i x) H 0 ablehnen, wenn gilt: T s > F (p, n p; α) gilt die folgende Zerlegung T = W + B

3 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 5 2 DISKRIMINANZANALYSE/KLASSIFIKATION 6 5 Tests im Zwei Stichprobenfall unabhängige Stichproben X = (x,, x n ) T ist eine unabhängige Stichprobe aus einer N p (µ, Σ) verteilten Grundgesamtheit, X 2 = (x 2,, x 2n2 ) T ist eine unabhängige Stichprobe aus einer N p (µ 2, Σ) verteilten Grundgesamtheit, Es werden gleiche Kovarianzmatrizen vorausgesetzt Hypothesen: Teststatistik: H 0 ablehnen: H 0 : µ = µ 2, H : µ µ 2 T 2 = n n 2 ( x x 2 ) T S ( x x 2 ) n + n 2 mit S = n + n 2 2 [(n )S + (n 2 ) S 2 ] ni und S i = n i j= (x(i) j x (i) )( x (i) j x (i) ) T n + n 2 p (n + n 2 2) p T 2 > F (p; n + n 2 p ; α) weil n + n 2 p (n + n 2 2) p T 2 H0 F (p; n + n 2 p ) 6 Tests im Zwei Stichprobenfall verbundene Stichproben Hypothesen: ( ()) x i x (2) i (( ) µ N 2p ; µ 2 ( )) Σ Σ 2 Σ 2 Σ 22 Unbekannte Kovarianzmatrix: H 0 ablehnen (n p) n (n ) p d T S d d > F (p; n p; α) mit d = S d = Bekannte Kovarianzmatrix von d sei Σ d : H 0 ablehnen n Σn d i n n 2 Diskriminanzanalyse/Klassifikation 2 Relevante Größen: Wichtige Größen für das Klassifikationsproblem sind (d i d)(d i d) T n d T Σ d d > χ 2 (p; α) die a priori Wahrscheinlichkeiten p(r) = P (Y = r), r =,, k, die a posteriori Wahrscheinlichkeiten P (r x) = P (Y = r x), r =, k, die Verteilung der Merkmale, gegeben die Klasse, bestimmt durch die Dichten f(x ),, f(x k) die Mischverteilung der Population f(x) = p()f(x ) + + p(k)f(x k) Satz von Bayes: 22 Bayes Zuordnung: P (r x) = f(x r)p(r) f(x) = f(x r)p(r) p(i)p (x i) H 0 : µ = µ 2 µ µ 2 = 0, H : µ µ 2 d i = x () i x (2) i H 0 besagt: E(d i ) = 0 d i N p (µ µ 2 ; Σ + Σ 22 Σ 2 Σ 2 ) δ (x) = r P (r x) = max P (i x),,k

4 2 DISKRIMINANZANALYSE/KLASSIFIKATION 7 2 DISKRIMINANZANALYSE/KLASSIFIKATION 8 Fehlklassifikationswahrscheinlichkeiten: Es lassen sich verschiedene Formen der Fehlklassifikationen durch die Zuordnungsregel δ unterscheiden Wahrscheinlichkeit einer Fehlklassifikation, gegeben der feste Merkmalsvektor x ε(x) = P (δ(x) Y x) = P (δ(x) = Y x) = P (δ(x) x) Verwechslungswahrscheinlichkeit oder individuelle Fehlerrate ε rs = P (δ(x) = s Y = r) = f(x r)dx, x:δ(x)=s Globale Fehlklassifikationswahrscheinlichkeit oder Gesamt Fehlerrate ε = P (δ(x) Y ) r s Wahrscheinlichkeit einer Fehlklassifikation, gegeben das Objekt entstammt der Klasse r Es gilt der Zusammenhang: ε r = P (δ(x) r Y = r) = s r ε = P (δ(x) Y ) = P (δ(x) r Y = r)p(r) = ε r p(r) = ε rs p(r) r= s r r= ε = P (δ(x) Y ) = ε rs P (δ(x) Y x)f(x)dx = Optimalität der Bayes Zuordnung Die Bayes Zuordnung minimiert die Gesamtfehlerrate ε Äquivalente Diskriminanzfunktionen: a) d r (x) = P (r x), b) d r (x) = f(x r)p(r)/f(x) c) d r (x) = f(x r)p(r) d) d r (x) = log(f(x r)) + log(p(r)) δ (x) = r P (r x) = max P (i x),,k r= ε(x)f(x)dx Maximum Likelihood (ML) Zuordnungsregel 23 Kostenoptimale Bayes Zuordnung: δ ML (x) = r f(x r) = max f(x i),,k c(i, j) = c ij = Kosten einer Zuordnung eines Objekts aus Klasse i in die Klasse j Für I = j gelte c ii = 0 dh die Kosten einer richtigen Zuordnung sind Null, während c ij 0 für i j Bedingtes Risiko, gegeben x Individuelles Risiko Risiko, gegeben Klasse i r(x) = c i,δ(x) P (i x) r ij = c ij P (δ(x) = j Y = i) = c ij r i = r ij j= x:δ(x)=j f(x i)dx Das gesamte Bayes Risiko, dh die zu erwartenden Kosten, lassen sich darstellen durch R = E(c(Y, δ(x))) = r i p(i) = r(x)f(x)dx Bayes Zuordnung mit Kosten Bei Vorliegen des Beobachtungsvektors x wird das Bayes Risiko minimiert durch die Zuordnung Mit den Diskrimininanzfunktionen erhält man δ (x) = r P (i x)c ir = min d r (x) = j=,,k P i (i x)c ir, δ (x) = r d r (x) = max,,k d i(x) P (i x)c ij

5 2 DISKRIMINANZANALYSE/KLASSIFIKATION 9 2 DISKRIMINANZANALYSE/KLASSIFIKATION 0 24 Zuordnungsregel unter der Voraussetzung Normalverteilung Klassenverteilungen: Bayes Regel: f(x i) = (2π) p/2 (det Σ i ) /2 exp{ 2 (x µ i) T Σ i (x µ i )} 25 Fishersche Diskriminanzanalyse x i x ini in der Klasse i Grundprinzip (Zwei Klassen Fall): Projektion y = a T x mit a =, so dass das folgende Kriterium maximiert wird d i (x) = ln(f(x i)) + ln(p(i)) d i (x) = 2 (x µ i) T Σ i (x µ i ) 2 ln(det Σ i) + ln p(i), i =,, k Zusätzlich unabhängige standardisierte Merkmale, Σ i = σ 2 I: d i (x) = x µ i 2 2σ 2 + ln p(i) Sind die a priori Wahrscheinlichkeiten gleich groß, so reduziert sich die Diskriminanzfunktion auf d i (x) = x µ i 2 Klassenweise identische Kovarianzmatrizen; Σ i = Σ, i =,, k : d i (x) = 2 (x µ i) T Σ (x µ i ) + ln p(i) Lösung: Q(a) = (ȳ ȳ 2 ) 2 s 2 + s 2 2 ȳ i = ni a T x ij = a T x i Klassenmittelpunkt, n i j= s 2 i = (a T x ij a x i ) 2 Quadratische Abweichungen i te Klasse mit a = W ( x x 2 ) W = (n + n 2 2)S =, 2 ni (x ij x i )(x ij x i ) T j= Für k=2 erhält man: d i (x) = µ T i Σ x 2 µt i Σ µ i + ln p(i), i =,, k d(x) = d (x) d 2 (x) = [x 2 (µ + µ 2 )] T Σ (µ µ 2 ) ln p(2) p() Für die ML Regel sind die ln Terme wegzulassen Schätzer für µ k und Σ : ˆµ i = x i, ˆΣ = S = N g ni (x in x i )(x in x i ) T n= Mehr Klassen Fall: Kriterium: Resultierende Eigenvektoren: Resultierende Eigenwerte: mit Q(a) = g n i(ȳ i ȳ) 2 g s2 i a,, a q, q = rg(b) λ = at Ba a T Wa B = W = max,, λ q = a qba q a T q Wa q g n i ( x i x)( x i x) T g ni (x ij x i )(x ij x i ) T j=

6 3 CLUSTERANALYSE 3 CLUSTERANALYSE 2 3 Clusteranalyse Objektmenge Ω = {a,, a n } Zugehörige Merkmalsvektoren {x,, x n } Gesucht: Partition = disjunkte vollständige Zerlegung C,, C g so daß g C i = {a,, a n }, C i C j = 3 Distanzmaße für Objekte: d : Ω Ω IR + mit d(a i, a i ) = 0, d(a i, a j ) 0, d(a i, a j ) = d(a j, a i ) Für metrische Distanzmaße: zusätzlich Dreiecksungleichung 32 Distanzmaße: Binäre Merkmale d(a i, a j ) d(a i, a m ) + d(a m, a j ) für alle a i, a j, a m x T i = (x i,, x ip ) mit x ij {0, } h ij (y, z) bezeichnet die Anzahl der übereinstimmenden Komponenten in x i und x j mit Ausprägung y in x i und z in x j h ij (y, z) = {s (x is, x js ) = (y, z)} für (y, z) {(0, 0), (0, ), (, 0), (, )} Matching Koeffizient s ij = h ij(, ) + h ij (0, 0) p Distanz Matching Koeffizient (Anzahl nicht übereinstimmender Merkmale) d ij = s ij Metrische Merkmale L q Metrik q = City Block Metrik q = 2 Euklidische Metrik Mahalanobis Distanz mit empirischer Kovarianzmatrix S 33 Distanzmaße für Klassen: Form: D(C r, C s ) C r, C s Ω Single Linkage Verfahren 2 Complete Linkage Verfahren 3 Average Linkage Verfahren 4 Zentroid Verfahren x = (x,, x p ), y = (y,, y p ) ( p ) /q d(x, y) = x i y i q d(x, y) = (x y) T S (x y) D(C r, C s ) = min a i Cr a j Cs D(C r, C s ) = max a i Cr D(C r, C s ) = n r n s mit n i = C i a j Cs d(a i, a j ) d(a i, a j ) ai Cr aj Cs d(a i, a j ) D(C r, C s ) = x r x s 2 mit x i = n i xj Ci x j

7 3 CLUSTERANALYSE 3 4 MULTIVARIATE LINEARE REGRESSION 4 34 Einige Grundbegriffe: 35 Gütekriterien: quantitative Merkmale Mittelwert in Klasse C k xk = n k Streuung in Klasse C k Streuung der Partition IC innerhalb der Klassen nk x i mit n k = C k W(C k ) = (x i x k )(x i x k ) T xi Ck Partition IC = {C,, C g } Varianzkriterium g H(IC) = x i x k 2 k= xi Ck g W(IC) = W(C k ) k= Streuung der Partition IC zwischen den Klassen B(IC) = Die Gesamtstreuung ist zerlegbar in g n k ( x k x)( x k x) T mit x = n n k= n T = (x i x)(x i x) T T = W(IC) + B(IC) x i Minimum Distanz Eigenschaft x i x k x i x j für x i C k 2 Determinantenkriterium H(IC) = W(IC) Minimum Distanz Eigenschaft (x i x k ) T W(IC) (x i x k ) (x i x j ) T W(IC) (x i x j ) für x i C k 3 Verallgemeinertes Determinantenkriterium g H(IC) = n k ln( W(C k ) ) n k k= 4 Multivariate lineare Regression 4 Konzept (y i, x i ), i =,, n mit y T i x T i = (y i,, y iq ) q abhängige Variablen = (, x i,, x ip ) p konstante und fixe Prädiktoren

8 4 MULTIVARIATE LINEARE REGRESSION 5 4 MULTIVARIATE LINEARE REGRESSION 6 Klassisches lineares Modell: Matrixdarstellungen: Vektorielle Form bzw und als Gesamtmodell y i = y iq Multivariate Formulierung I Multivariate Formulierung II bzw als Gesamtmodell y ij = x T i β (j) + ε ij, i =,, n, j =, q, x T i x T i β T (j) = (β 0j, β j, β qj ), y T y T n = (y (),, y (q) ) = x T mit X 0 = x T n Annahmen: () E(ɛ i ) = 0 (2) cov(ɛ i ) = Σ, i =,, n cov(ɛ i, ɛ j ) = 0, i j cov(ɛ (s), ɛ (t) ) = σ st I, s t (3) Normalverteilung, ɛ i N(0, Σ) x T x T n x T x T n β () ε i + x T i y i = X i β + ɛ i y = Xβ + ɛ β (q) ε iq β T = (β T (),, β T (q)) ɛ T (β (),, β (q) ) + ɛ T n (β (),, β (q) ) + (ɛ (),, ɛ (q) ) Y = X 0 B + E β 0j β pj y j, β (j) =, y (j) =, ɛ (j) = y nj ɛ j ɛ nj 42 Schätzen Kleinste Quadrate Schätzung Lösung (voller Rang von X): Als Vektor mit Schätzung der Kovarianz: q (y (j) X 0 β (j) ) T (y (j) X 0 β (j) ) min j= ˆβ (j) = (X T 0 X 0 ) X T 0 y (j) bzw ˆB = (X T 0 X 0 ) X T 0 Y ˆβ = BDiag{(X T 0 X 0 ) X T 0 }y 0 oder ˆβ = (X T X) X T y y T 0 = (y T (),, y T (q)), y T = (y T,, y T n ) ˆΣ = n p ˆΣ = n T (y i X i ˆβ)(yi X i ˆβ) Gauß Markov Theorem (Annahmen () und (2)) () E( ˆB) = B, E( ˆΣ) = Σ (2) Var(ˆβ (i), ˆβ (j) ) = σ ij (X T 0 X 0 ) (3) ˆB ist BLUE Weiter gilt mit Normalverteilungsannahme (4) ˆB ist normalverteilt (5) Q e = ÊT Ê W p(σ, n p ) (6) ˆB und ˆΣ sind unabhängig n p ET E E = Y X 0 ˆB Residuenmatrix

9 5 ASSOZIATIONSSTRUKTUREN 7 5 ASSOZIATIONSSTRUKTUREN 8 43 Testverfahren Tests: (Unter Normalverteilungsannahme) H 0 : CB = Γ H : CB Γ rg(c) = s Λ = Q e Λ(q, n p, s) Q 0 mit Q e = (Y X 0 ˆB) T (Y X 0 ˆB) ohne Restriktion Q 0 = (Y X 0 ˆB0 ) T (Y X 0 ˆB0 ) mit Restriktion H 0 ablehnen, wenn Λ < Λ α (q, n p, s) 52 Korrelationskoeffizienten bei vektoriellen Größen Ausgangspunkt: Zufallsvektoren y, x und z mit y µ y y µ = E x = µ x, Σ = cov x = z z µ z Marginale Korrelationsmatrix für y gegeben x: Σ yy Σ yx Σ yz Σ xy Σ xx Σ xz Σ zy Σ zx Σ zz K = (k ij ) mit k ij = σ yixj /(σ yi σ xi ), 5 Assoziationsstrukturen 5 Marginale, bedingte und partielle Korrelation Marginale Korrelation von Y und X ρ Y X = Bedingte Korrelation von Y und X, gegeben Z = z ρ Y X Z=z = cov(y, X) σ Y σ X cov(y, X Z = z) var(y Z = z) var(x Z = z) Partielle Korrelation von Y und X nach Elimination des linearen Anteils von Z ρ XY Z = cov(ε Y Z, ε X Z ) var(εy Z ) var(ε X Z ) = ρ Y X ρ XZ ρ Y Z, ρ 2 Y Z ρ 2 XZ mit ε Y Z, ε X Z als Residuen aus den Regressionsmodellen Y = β 0 + βz + ε Y Z und X = γ 0 + γz + ε X Z σ yixj Einträge von Σ yx Matrix der bedingten Kovarianzen für y und x gegeben z = z: Σ yx z= z = (cov(y i, x j z = z)) ij Partielle Korrelation skalarer Merkmale y und x nach Elimination des linearen Anteils von z: ϱ xy z = cov(ε y z, ε x z ) var(εy z ) var(ε x z ) = ε y z = y z T β und ε x z = x z T γ 53 Multiple Korrelation σ 2 y Σ yz Σ z σ yx Σ yz Σ z Σ zx, Σ zy σ 2 x Σ xz Σ z Σ zx Ausgangspunkt: lineares Regressionsmodell y = x T β + ε y x, damit ergibt sich var(x T β) = Σ yx Σ x Σ xy = cov(y, x T β) var(y x) = var(ε y x ) = σy 2 Σ yx Σ x Σ xy Für (Y, X, Z) gemeinsam normalverteilt gilt ρ Y X Z=z = ρ XY Z und die Zerlegung Multipler Korrelationskoeffizient: var(y) = var(x T β) + var(y x) R = ϱ(y, x T β) = cov(y, x T β) var(y) var(xt β) Es gilt R 2 = var(xt β) var(y) = var(y x) var(y)

10 5 ASSOZIATIONSSTRUKTUREN 9 6 HAUPTKOMPONENTENANALYSE Kanonische Korrelation Ausgangspunkt: Zufallsvektoren y und x der Länge p bzw q mit Σ xy = cov(x, y) Betrachte Maximierungsproblem ϱ(a T x, b T y) a,b max ϱ(a, b) = ϱ(a T x, b T y) = mit der Nebenbedingung var(a T x) = var(b T y) = cov(a T x, b T y) var(at x) var(b T y) = a T Σ xy b at Σ xx a b T Σ yy b Lösen des Maximierungsproblems für i =,, s = min{p, q} mit ergibt cov(a i x, a j x) = cov(b i y, b j y) = 0 für i j a i, b i als die iten Korrelationsvektoren, u i = a T i x, v i = b T i y als ite Korrelationsvariablen und ϱ i = ϱ(u i, v i ) als ite kanonische Korrelationskoeffizienten Für u T = (u,, u s ) und v T = (v,, v s ) gilt cor ( ) u v Schärfere Formulierung des Maximierungsproblems: 0 ϱ ϱ s = ϱ ϱ s 0 6 Hauptkomponentenanalyse Ausgangsgrößen: Problem: y i = a T i x, i =,, p so dass Restriktionen: () a T i a i = (2) a T i a j = 0, j =,, i Äquivalent ist cov(y i, y j ) = 0, j =,, i Lösung: Σ = ΨΛΨ T Λ = diag(λ,, λ p ), λ λ 2 λ p Ψ = (a,, a p ) Eigenschaften: x T = (x,, x p ) µ = E(x), Σ = cov(x) var(y i ) = a T i Σa i maximal y = Ψ T x mit y T = (y,, y p ) () cov(y) = Λ (var(y i ) = λ i, cov(y i, y j ) = 0, i j) (2) tr(σ) = tr(λ) ϱ(a T i x, b T i y) ai,bi max mit den Nebenbedingungen var(a T i x) = var(b T i y) =, i =,, s cov(a T i x, a T j x) = cov(b T i y, b T j y) = 0, j =,, i Lösungen (a i, b i ) über das kombinierte Eigenwertproblem (Σ xy Σ yyσ yx λ i Σ xx )a i = 0 (Σ yx Σ xxσ xy λ i Σ yy )b i = 0

11 7 FAKTORENANALYSE 2 7 Faktorenanalyse Modell: X µ = ΓF + U, X (p ) - Vektor der beobachtbaren Größen µ Erwartungswert von X F (k ) - Vektor der Faktoren Γ (p k) - Matrix der Faktorladungen U (p ) - Vektor der spezifischen Faktoren Annahmen: () E(F) = 0 (2) U V (0, Ψ), mit Ψ = diag(ψ 2,, Ψ 2 p) (3) cov(f, U) = 0 (4) cov(f) = I orthogonales Faktormodell Fundamentaltheorem für s = cov(x) Insbesondere: s = ΓΓ + Ψ m var(x i ) = γij 2 + Ψ 2 i j=, cov(x, F) = Γ Rotationsproblem (Eindeutigkeit von Γ bei gegebenem k, Ψ) Γ Ψ Γ = diag(λ,, λ k ), λ λ 2,, λ k

Multivariate Verteilungen. Gerhard Tutz LMU München

Multivariate Verteilungen. Gerhard Tutz LMU München Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Der Zwei-Quadrate-Satz von Fermat

Der Zwei-Quadrate-Satz von Fermat Der Zwei-Quadrate-Satz von Fermat Proseminar: Das BUCH der Beweise Fridtjof Schulte Steinberg Institut für Informatik Humboldt-Universität zu Berlin 29.November 2012 1 / 20 Allgemeines Pierre de Fermat

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios Bernd Rosenow Rafael Weißhaupt Frank Altrock Universität zu Köln West LB AG, Düsseldorf Gliederung Beschreibung des Datensatzes

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011 Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

1 Diskriminanzanalyse

1 Diskriminanzanalyse Multivariate Lineare Modelle SS 2008 1 Diskriminanzanalyse 1. Entscheidungstheorie 2. DA für normalverteilte Merkmale 3. DA nach Fisher 1 Problemstellungen Jedes Subjekt kann einer von g Gruppen angehören

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema 2x 4 + x 3 + x + 3 div x 2 + x 1 = 2x 2 x + 3 (2x 4 + 2x 3 2x 2 ) x 3 + 2x 2 + x + 3 ( x

Mehr

Statistik I für Betriebswirte Vorlesung 11

Statistik I für Betriebswirte Vorlesung 11 Statistik I für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 22. Juni 2012 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

1 Multivariate Zufallsvariablen

1 Multivariate Zufallsvariablen 1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu Herleitung der oppenecker-formel (Wiederholung) Für ein System ẋ Ax + Bu (B habe Höchstrang) wird eine Zustandsregelung u x angesetzt. Der geschlossene egelkreis gehorcht der Zustands-Dgl. ẋ (A B)x. Die

Mehr

Vorlesung. Informationsökonomik und die Theorie der Firma

Vorlesung. Informationsökonomik und die Theorie der Firma Vorlesung Informationsökonomik und die Theorie der Firma Ulrich Schwalbe Universität Hohenheim 5. Vorlesung 28.11.2007 Ulrich Schwalbe (Universität Hohenheim) Informationsökonomik 5. Vorlesung 28.11.2007

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Eigenwerte und Eigenvektoren von Matrizen

Eigenwerte und Eigenvektoren von Matrizen Eigenwerte und Eigenvektoren von Matrizen Das Eigenwertproblem Sei A eine quadratische Matrix vom Typ m,m. Die Aufgabe, eine Zahl λ und einen dazugehörigen Vektor x zu finden, damit Ax = λx ist, nennt

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

WS 2008/09. Diskrete Strukturen

WS 2008/09. Diskrete Strukturen WS 2008/09 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0809

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

2.Tutorium Multivariate Verfahren

2.Tutorium Multivariate Verfahren 2.Tutorium Multivariate Verfahren - Multivariate Verteilungen - Hannah Busen: 27.04.2015 und 04.05.2015 Nicole Schüller: 28.04.2015 und 05.05.2015 Institut für Statistik, LMU München 1 / 21 Gliederung

Mehr

4 Vorlesung: 21.11. 2005 Matrix und Determinante

4 Vorlesung: 21.11. 2005 Matrix und Determinante 4 Vorlesung: 2111 2005 Matrix und Determinante 41 Matrix und Determinante Zur Lösung von m Gleichungen mit n Unbekannten kann man alle Parameter der Gleichungen in einem rechteckigen Zahlenschema, einer

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Gert Zöller Übungsklausur Hilfsmittel: Taschenrechner, Formblatt mit Formeln. Lösungswege sind stets anzugeben. Die alleinige Angabe eines

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Modulabschlussklausur Analysis II

Modulabschlussklausur Analysis II Modulabschlussklausur Analysis II. Juli 015 Bearbeitungszeit: 150 min Aufgabe 1 [5/10 Punkte] Es sei a R und f a : R 3 R mit f a (x, y, z) = x cos(y) + z 3 sin(y) + a 3 + (z + ay a y) cos(x) a) Bestimmen

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist. Matrizennorm Es seien r,s N Mit M r,s (R bezeichnen wir die Menge der reellen r s- Matrizen (also der linearen Abbildungen R s R r, und setze M s (R := M s,s (R (also die Menge der linearen Abbildungen

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren. Basis und Dimension Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren Wilhelm Kleppmann Taschenbuch Versuchsplanung Produkte und Prozesse optimieren ISBN-10: 3-446-41595-5 ISBN-13: 978-3-446-41595-9 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41595-9

Mehr

1.3 Die Beurteilung von Testleistungen

1.3 Die Beurteilung von Testleistungen 1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen

Mehr

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch LS-Schätzer Sei µ = Xβ mit rg(x) = p und β = (β 1,..., β p ) t SSE(β) = (y µ) t (y µ) Minimiere SSE(β) bzgl. β: = y t y 2β t X t y + β t X t Xβ β SSE(β) = 2Xt y + 2X t Xβ. Minimum definiert durch X t X

Mehr

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1 1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand 1 Fragestellung Methoden.1 Vergleich der Anzahlen. Vergleich

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel

Mehr

Optimierung. Optimierung. Vorlesung 7 Lineare Programmierung II. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 7 Lineare Programmierung II. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 7 Lineare Programmierung II 1 Lineare Programme Lineares Programm: Lineare Zielfunktion Lineare Nebenbedingungen (Gleichungen oder Ungleichungen) Spezialfall der konvexen Optimierung

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Multivariate Verfahren

Multivariate Verfahren Institut für Statistik Ludwig Maximilians Universität München Sommersemester 2012 Multivariate Verfahren Mitschrift zur Vorlesung von Prof. Dr. Tutz L A TEX-Satz von Sebastian Koch und Christian Lindenlaub

Mehr