Formelsammlung zu Multivariate Verfahren

Größe: px
Ab Seite anzeigen:

Download "Formelsammlung zu Multivariate Verfahren"

Transkript

1 Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version Diese Formelsammlung darf in der Klausur verwendet werden Eigene Notizen und Ergänzungen dürfen eingefügt, aber keine zusätzlichen Blätter eingeheftet werden Multivariate Schätz und Testprobleme 2 Schätzung im Ein Stichprobenfall 2 2 Schätzung im Mehr Stichprobenfall 3 3 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ bekannt 4 4 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ unbekannt 4 5 Tests im Zwei Stichprobenfall unabhängige Stichproben 5 6 Tests im Zwei Stichprobenfall verbundene Stichproben 5 2 Diskriminanzanalyse/Klassifikation 6 2 Relevante Größen: 6 22 Bayes Zuordnung: 6 23 Kostenoptimale Bayes Zuordnung: 8 24 Zuordnungsregel unter der Voraussetzung Normalverteilung 9 25 Fishersche Diskriminanzanalyse 0 3 Clusteranalyse 3 Distanzmaße für Objekte: 32 Distanzmaße: 33 Distanzmaße für Klassen: 2 34 Einige Grundbegriffe: 3 35 Gütekriterien: quantitative Merkmale 4 4 Multivariate lineare Regression 4 4 Konzept 4 42 Schätzen 6 43 Testverfahren 7 5 Assoziationsstrukturen 7 5 Marginale, bedingte und partielle Korrelation 7 52 Korrelationskoeffizienten bei vektoriellen Größen 8 53 Multiple Korrelation 8 54 Kanonische Korrelation 9 6 Hauptkomponentenanalyse 20 7 Faktorenanalyse 2 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 2 Multivariate Schätz und Testprobleme Schätzung im Ein Stichprobenfall Seien x,, x n unabhängige Wiederholungen von x mit E(x) = µ und Kovarianz Var(x) = Σ x x x p Bezeichne X die (n p) Datenmatrix X = = x n x np Erwartungswertschätzung: Empirische Kovarianzmatrix: Alternativer Schätzer für Σ: x n n x = x i x = ; n n x ip x p S = n n (x i x)(x i x) = ( n ) n x ix i n x x Schätzung der Korrelationsmatrix: ˆR = (r ij ) p p Satz: ˆΣ = n S nicht erwartungstreu n r ij = n n s= (x si x i )(x sj x j ) s= (x si x i ) 2 n s= (x sj x j ) 2 x,, x n seien unabhängig und identisch p(µ, Σ) verteilt Dann gilt a) E( x) = µ, E(S) = Σ (Unverzerrtheit), b) cov( x) = n Σ, c) E x µ 2 E ˆµ µ 2 für jeden anderen unverzerrten linearen Schätzer ˆµ = ˆµ(x,, x n ) = a x + + a n x n Sind x, x n zusätzlich normalverteilt, dann gilt außerdem d) x N p ( µ, n Σ) und (n )S = Σ n (x i x)(x i x) T W p (Σ, n ) e) x und S sind unabhängig

2 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 3 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 4 2 Schätzung im Mehr Stichprobenfall Grundgesamtheit ist aufgespalten in disjunkten Klassen Ω,, Ω g Separat in den Klassen werden Stichproben gezogen Arithmetrisches Mittel in Klasse k: x () x () n (aus Ω ) x (g) x (g) ng (aus Ω g ) x (k) = n k nk Empirische Kovarianzmatrix in Klasse k: S (k) = nk n k Häufige Annahme: Σ = Σ 2 = Σ g = Σ x(k) (x(k) i i µ k = µ (k) µ (k) p x (k) )(x (k) i x (k) ) Σ k Wenn Gleichheit gilt, dann nimmt man die gepoolte empirische Kovarianzmatrix: S = g n g (n k )S (k) = g nk k= n g k= W = g nk k= Weiter bezeichnet (x(k) i (x(k) i x (k) )(x (k) i x (k) ) = n g W x (k) )(x (k) i x (k) ) die Streuung innerhalb der Gruppen bezeichnet B = g n k( x (k) x)( x (k) x) k= die Streuung zwischen den Gruppen, 3 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ bekannt x,, x n unabhängige Realisierungen der Stichprobenvariablen x i N(µ, Σ); i =,, n Hypothesen: Teststatistik: H 0 ablehnen, wenn gilt: H 0 : µ = µ 0, H : µ µ 0 T 2 = n( x µ 0 ) T Σ ( x µ 0 ), T 2 H0 χ 2 (p) T 2 > χ 2 (p; α) 4 Tests, Konfidenzbereiche für Erwartungswerte im Ein Stichprobenfall; Σ unbekannt x,, x n unabhängige Realisierungen der Stichprobenvariablen x i N(µ, Σ) mit unbekanntem Σ Hypothesen: x = n g den großen Mittelwert über alle Klassen bezeichnet, mit k= n k x (k) Teststatistik: T s = H 0 : µ = µ 0, H : µ µ 0 n(n p) p(n ) ( x µ 0) T S ( x µ 0 ), n = n + n n g H0 T s F (p, n p) für die Gesamtstreuungsmatrix T = g k= nk (x(k) i x)(x (k) i x) H 0 ablehnen, wenn gilt: T s > F (p, n p; α) gilt die folgende Zerlegung T = W + B

3 MULTIVARIATE SCHÄTZ UND TESTPROBLEME 5 2 DISKRIMINANZANALYSE/KLASSIFIKATION 6 5 Tests im Zwei Stichprobenfall unabhängige Stichproben X = (x,, x n ) T ist eine unabhängige Stichprobe aus einer N p (µ, Σ) verteilten Grundgesamtheit, X 2 = (x 2,, x 2n2 ) T ist eine unabhängige Stichprobe aus einer N p (µ 2, Σ) verteilten Grundgesamtheit, Es werden gleiche Kovarianzmatrizen vorausgesetzt Hypothesen: Teststatistik: H 0 ablehnen: H 0 : µ = µ 2, H : µ µ 2 T 2 = n n 2 ( x x 2 ) T S ( x x 2 ) n + n 2 mit S = n + n 2 2 [(n )S + (n 2 ) S 2 ] ni und S i = n i j= (x(i) j x (i) )( x (i) j x (i) ) T n + n 2 p (n + n 2 2) p T 2 > F (p; n + n 2 p ; α) weil n + n 2 p (n + n 2 2) p T 2 H0 F (p; n + n 2 p ) 6 Tests im Zwei Stichprobenfall verbundene Stichproben Hypothesen: ( ()) x i x (2) i (( ) µ N 2p ; µ 2 ( )) Σ Σ 2 Σ 2 Σ 22 Unbekannte Kovarianzmatrix: H 0 ablehnen (n p) n (n ) p d T S d d > F (p; n p; α) mit d = S d = Bekannte Kovarianzmatrix von d sei Σ d : H 0 ablehnen n Σn d i n n 2 Diskriminanzanalyse/Klassifikation 2 Relevante Größen: Wichtige Größen für das Klassifikationsproblem sind (d i d)(d i d) T n d T Σ d d > χ 2 (p; α) die a priori Wahrscheinlichkeiten p(r) = P (Y = r), r =,, k, die a posteriori Wahrscheinlichkeiten P (r x) = P (Y = r x), r =, k, die Verteilung der Merkmale, gegeben die Klasse, bestimmt durch die Dichten f(x ),, f(x k) die Mischverteilung der Population f(x) = p()f(x ) + + p(k)f(x k) Satz von Bayes: 22 Bayes Zuordnung: P (r x) = f(x r)p(r) f(x) = f(x r)p(r) p(i)p (x i) H 0 : µ = µ 2 µ µ 2 = 0, H : µ µ 2 d i = x () i x (2) i H 0 besagt: E(d i ) = 0 d i N p (µ µ 2 ; Σ + Σ 22 Σ 2 Σ 2 ) δ (x) = r P (r x) = max P (i x),,k

4 2 DISKRIMINANZANALYSE/KLASSIFIKATION 7 2 DISKRIMINANZANALYSE/KLASSIFIKATION 8 Fehlklassifikationswahrscheinlichkeiten: Es lassen sich verschiedene Formen der Fehlklassifikationen durch die Zuordnungsregel δ unterscheiden Wahrscheinlichkeit einer Fehlklassifikation, gegeben der feste Merkmalsvektor x ε(x) = P (δ(x) Y x) = P (δ(x) = Y x) = P (δ(x) x) Verwechslungswahrscheinlichkeit oder individuelle Fehlerrate ε rs = P (δ(x) = s Y = r) = f(x r)dx, x:δ(x)=s Globale Fehlklassifikationswahrscheinlichkeit oder Gesamt Fehlerrate ε = P (δ(x) Y ) r s Wahrscheinlichkeit einer Fehlklassifikation, gegeben das Objekt entstammt der Klasse r Es gilt der Zusammenhang: ε r = P (δ(x) r Y = r) = s r ε = P (δ(x) Y ) = P (δ(x) r Y = r)p(r) = ε r p(r) = ε rs p(r) r= s r r= ε = P (δ(x) Y ) = ε rs P (δ(x) Y x)f(x)dx = Optimalität der Bayes Zuordnung Die Bayes Zuordnung minimiert die Gesamtfehlerrate ε Äquivalente Diskriminanzfunktionen: a) d r (x) = P (r x), b) d r (x) = f(x r)p(r)/f(x) c) d r (x) = f(x r)p(r) d) d r (x) = log(f(x r)) + log(p(r)) δ (x) = r P (r x) = max P (i x),,k r= ε(x)f(x)dx Maximum Likelihood (ML) Zuordnungsregel 23 Kostenoptimale Bayes Zuordnung: δ ML (x) = r f(x r) = max f(x i),,k c(i, j) = c ij = Kosten einer Zuordnung eines Objekts aus Klasse i in die Klasse j Für I = j gelte c ii = 0 dh die Kosten einer richtigen Zuordnung sind Null, während c ij 0 für i j Bedingtes Risiko, gegeben x Individuelles Risiko Risiko, gegeben Klasse i r(x) = c i,δ(x) P (i x) r ij = c ij P (δ(x) = j Y = i) = c ij r i = r ij j= x:δ(x)=j f(x i)dx Das gesamte Bayes Risiko, dh die zu erwartenden Kosten, lassen sich darstellen durch R = E(c(Y, δ(x))) = r i p(i) = r(x)f(x)dx Bayes Zuordnung mit Kosten Bei Vorliegen des Beobachtungsvektors x wird das Bayes Risiko minimiert durch die Zuordnung Mit den Diskrimininanzfunktionen erhält man δ (x) = r P (i x)c ir = min d r (x) = j=,,k P i (i x)c ir, δ (x) = r d r (x) = max,,k d i(x) P (i x)c ij

5 2 DISKRIMINANZANALYSE/KLASSIFIKATION 9 2 DISKRIMINANZANALYSE/KLASSIFIKATION 0 24 Zuordnungsregel unter der Voraussetzung Normalverteilung Klassenverteilungen: Bayes Regel: f(x i) = (2π) p/2 (det Σ i ) /2 exp{ 2 (x µ i) T Σ i (x µ i )} 25 Fishersche Diskriminanzanalyse x i x ini in der Klasse i Grundprinzip (Zwei Klassen Fall): Projektion y = a T x mit a =, so dass das folgende Kriterium maximiert wird d i (x) = ln(f(x i)) + ln(p(i)) d i (x) = 2 (x µ i) T Σ i (x µ i ) 2 ln(det Σ i) + ln p(i), i =,, k Zusätzlich unabhängige standardisierte Merkmale, Σ i = σ 2 I: d i (x) = x µ i 2 2σ 2 + ln p(i) Sind die a priori Wahrscheinlichkeiten gleich groß, so reduziert sich die Diskriminanzfunktion auf d i (x) = x µ i 2 Klassenweise identische Kovarianzmatrizen; Σ i = Σ, i =,, k : d i (x) = 2 (x µ i) T Σ (x µ i ) + ln p(i) Lösung: Q(a) = (ȳ ȳ 2 ) 2 s 2 + s 2 2 ȳ i = ni a T x ij = a T x i Klassenmittelpunkt, n i j= s 2 i = (a T x ij a x i ) 2 Quadratische Abweichungen i te Klasse mit a = W ( x x 2 ) W = (n + n 2 2)S =, 2 ni (x ij x i )(x ij x i ) T j= Für k=2 erhält man: d i (x) = µ T i Σ x 2 µt i Σ µ i + ln p(i), i =,, k d(x) = d (x) d 2 (x) = [x 2 (µ + µ 2 )] T Σ (µ µ 2 ) ln p(2) p() Für die ML Regel sind die ln Terme wegzulassen Schätzer für µ k und Σ : ˆµ i = x i, ˆΣ = S = N g ni (x in x i )(x in x i ) T n= Mehr Klassen Fall: Kriterium: Resultierende Eigenvektoren: Resultierende Eigenwerte: mit Q(a) = g n i(ȳ i ȳ) 2 g s2 i a,, a q, q = rg(b) λ = at Ba a T Wa B = W = max,, λ q = a qba q a T q Wa q g n i ( x i x)( x i x) T g ni (x ij x i )(x ij x i ) T j=

6 3 CLUSTERANALYSE 3 CLUSTERANALYSE 2 3 Clusteranalyse Objektmenge Ω = {a,, a n } Zugehörige Merkmalsvektoren {x,, x n } Gesucht: Partition = disjunkte vollständige Zerlegung C,, C g so daß g C i = {a,, a n }, C i C j = 3 Distanzmaße für Objekte: d : Ω Ω IR + mit d(a i, a i ) = 0, d(a i, a j ) 0, d(a i, a j ) = d(a j, a i ) Für metrische Distanzmaße: zusätzlich Dreiecksungleichung 32 Distanzmaße: Binäre Merkmale d(a i, a j ) d(a i, a m ) + d(a m, a j ) für alle a i, a j, a m x T i = (x i,, x ip ) mit x ij {0, } h ij (y, z) bezeichnet die Anzahl der übereinstimmenden Komponenten in x i und x j mit Ausprägung y in x i und z in x j h ij (y, z) = {s (x is, x js ) = (y, z)} für (y, z) {(0, 0), (0, ), (, 0), (, )} Matching Koeffizient s ij = h ij(, ) + h ij (0, 0) p Distanz Matching Koeffizient (Anzahl nicht übereinstimmender Merkmale) d ij = s ij Metrische Merkmale L q Metrik q = City Block Metrik q = 2 Euklidische Metrik Mahalanobis Distanz mit empirischer Kovarianzmatrix S 33 Distanzmaße für Klassen: Form: D(C r, C s ) C r, C s Ω Single Linkage Verfahren 2 Complete Linkage Verfahren 3 Average Linkage Verfahren 4 Zentroid Verfahren x = (x,, x p ), y = (y,, y p ) ( p ) /q d(x, y) = x i y i q d(x, y) = (x y) T S (x y) D(C r, C s ) = min a i Cr a j Cs D(C r, C s ) = max a i Cr D(C r, C s ) = n r n s mit n i = C i a j Cs d(a i, a j ) d(a i, a j ) ai Cr aj Cs d(a i, a j ) D(C r, C s ) = x r x s 2 mit x i = n i xj Ci x j

7 3 CLUSTERANALYSE 3 4 MULTIVARIATE LINEARE REGRESSION 4 34 Einige Grundbegriffe: 35 Gütekriterien: quantitative Merkmale Mittelwert in Klasse C k xk = n k Streuung in Klasse C k Streuung der Partition IC innerhalb der Klassen nk x i mit n k = C k W(C k ) = (x i x k )(x i x k ) T xi Ck Partition IC = {C,, C g } Varianzkriterium g H(IC) = x i x k 2 k= xi Ck g W(IC) = W(C k ) k= Streuung der Partition IC zwischen den Klassen B(IC) = Die Gesamtstreuung ist zerlegbar in g n k ( x k x)( x k x) T mit x = n n k= n T = (x i x)(x i x) T T = W(IC) + B(IC) x i Minimum Distanz Eigenschaft x i x k x i x j für x i C k 2 Determinantenkriterium H(IC) = W(IC) Minimum Distanz Eigenschaft (x i x k ) T W(IC) (x i x k ) (x i x j ) T W(IC) (x i x j ) für x i C k 3 Verallgemeinertes Determinantenkriterium g H(IC) = n k ln( W(C k ) ) n k k= 4 Multivariate lineare Regression 4 Konzept (y i, x i ), i =,, n mit y T i x T i = (y i,, y iq ) q abhängige Variablen = (, x i,, x ip ) p konstante und fixe Prädiktoren

8 4 MULTIVARIATE LINEARE REGRESSION 5 4 MULTIVARIATE LINEARE REGRESSION 6 Klassisches lineares Modell: Matrixdarstellungen: Vektorielle Form bzw und als Gesamtmodell y i = y iq Multivariate Formulierung I Multivariate Formulierung II bzw als Gesamtmodell y ij = x T i β (j) + ε ij, i =,, n, j =, q, x T i x T i β T (j) = (β 0j, β j, β qj ), y T y T n = (y (),, y (q) ) = x T mit X 0 = x T n Annahmen: () E(ɛ i ) = 0 (2) cov(ɛ i ) = Σ, i =,, n cov(ɛ i, ɛ j ) = 0, i j cov(ɛ (s), ɛ (t) ) = σ st I, s t (3) Normalverteilung, ɛ i N(0, Σ) x T x T n x T x T n β () ε i + x T i y i = X i β + ɛ i y = Xβ + ɛ β (q) ε iq β T = (β T (),, β T (q)) ɛ T (β (),, β (q) ) + ɛ T n (β (),, β (q) ) + (ɛ (),, ɛ (q) ) Y = X 0 B + E β 0j β pj y j, β (j) =, y (j) =, ɛ (j) = y nj ɛ j ɛ nj 42 Schätzen Kleinste Quadrate Schätzung Lösung (voller Rang von X): Als Vektor mit Schätzung der Kovarianz: q (y (j) X 0 β (j) ) T (y (j) X 0 β (j) ) min j= ˆβ (j) = (X T 0 X 0 ) X T 0 y (j) bzw ˆB = (X T 0 X 0 ) X T 0 Y ˆβ = BDiag{(X T 0 X 0 ) X T 0 }y 0 oder ˆβ = (X T X) X T y y T 0 = (y T (),, y T (q)), y T = (y T,, y T n ) ˆΣ = n p ˆΣ = n T (y i X i ˆβ)(yi X i ˆβ) Gauß Markov Theorem (Annahmen () und (2)) () E( ˆB) = B, E( ˆΣ) = Σ (2) Var(ˆβ (i), ˆβ (j) ) = σ ij (X T 0 X 0 ) (3) ˆB ist BLUE Weiter gilt mit Normalverteilungsannahme (4) ˆB ist normalverteilt (5) Q e = ÊT Ê W p(σ, n p ) (6) ˆB und ˆΣ sind unabhängig n p ET E E = Y X 0 ˆB Residuenmatrix

9 5 ASSOZIATIONSSTRUKTUREN 7 5 ASSOZIATIONSSTRUKTUREN 8 43 Testverfahren Tests: (Unter Normalverteilungsannahme) H 0 : CB = Γ H : CB Γ rg(c) = s Λ = Q e Λ(q, n p, s) Q 0 mit Q e = (Y X 0 ˆB) T (Y X 0 ˆB) ohne Restriktion Q 0 = (Y X 0 ˆB0 ) T (Y X 0 ˆB0 ) mit Restriktion H 0 ablehnen, wenn Λ < Λ α (q, n p, s) 52 Korrelationskoeffizienten bei vektoriellen Größen Ausgangspunkt: Zufallsvektoren y, x und z mit y µ y y µ = E x = µ x, Σ = cov x = z z µ z Marginale Korrelationsmatrix für y gegeben x: Σ yy Σ yx Σ yz Σ xy Σ xx Σ xz Σ zy Σ zx Σ zz K = (k ij ) mit k ij = σ yixj /(σ yi σ xi ), 5 Assoziationsstrukturen 5 Marginale, bedingte und partielle Korrelation Marginale Korrelation von Y und X ρ Y X = Bedingte Korrelation von Y und X, gegeben Z = z ρ Y X Z=z = cov(y, X) σ Y σ X cov(y, X Z = z) var(y Z = z) var(x Z = z) Partielle Korrelation von Y und X nach Elimination des linearen Anteils von Z ρ XY Z = cov(ε Y Z, ε X Z ) var(εy Z ) var(ε X Z ) = ρ Y X ρ XZ ρ Y Z, ρ 2 Y Z ρ 2 XZ mit ε Y Z, ε X Z als Residuen aus den Regressionsmodellen Y = β 0 + βz + ε Y Z und X = γ 0 + γz + ε X Z σ yixj Einträge von Σ yx Matrix der bedingten Kovarianzen für y und x gegeben z = z: Σ yx z= z = (cov(y i, x j z = z)) ij Partielle Korrelation skalarer Merkmale y und x nach Elimination des linearen Anteils von z: ϱ xy z = cov(ε y z, ε x z ) var(εy z ) var(ε x z ) = ε y z = y z T β und ε x z = x z T γ 53 Multiple Korrelation σ 2 y Σ yz Σ z σ yx Σ yz Σ z Σ zx, Σ zy σ 2 x Σ xz Σ z Σ zx Ausgangspunkt: lineares Regressionsmodell y = x T β + ε y x, damit ergibt sich var(x T β) = Σ yx Σ x Σ xy = cov(y, x T β) var(y x) = var(ε y x ) = σy 2 Σ yx Σ x Σ xy Für (Y, X, Z) gemeinsam normalverteilt gilt ρ Y X Z=z = ρ XY Z und die Zerlegung Multipler Korrelationskoeffizient: var(y) = var(x T β) + var(y x) R = ϱ(y, x T β) = cov(y, x T β) var(y) var(xt β) Es gilt R 2 = var(xt β) var(y) = var(y x) var(y)

10 5 ASSOZIATIONSSTRUKTUREN 9 6 HAUPTKOMPONENTENANALYSE Kanonische Korrelation Ausgangspunkt: Zufallsvektoren y und x der Länge p bzw q mit Σ xy = cov(x, y) Betrachte Maximierungsproblem ϱ(a T x, b T y) a,b max ϱ(a, b) = ϱ(a T x, b T y) = mit der Nebenbedingung var(a T x) = var(b T y) = cov(a T x, b T y) var(at x) var(b T y) = a T Σ xy b at Σ xx a b T Σ yy b Lösen des Maximierungsproblems für i =,, s = min{p, q} mit ergibt cov(a i x, a j x) = cov(b i y, b j y) = 0 für i j a i, b i als die iten Korrelationsvektoren, u i = a T i x, v i = b T i y als ite Korrelationsvariablen und ϱ i = ϱ(u i, v i ) als ite kanonische Korrelationskoeffizienten Für u T = (u,, u s ) und v T = (v,, v s ) gilt cor ( ) u v Schärfere Formulierung des Maximierungsproblems: 0 ϱ ϱ s = ϱ ϱ s 0 6 Hauptkomponentenanalyse Ausgangsgrößen: Problem: y i = a T i x, i =,, p so dass Restriktionen: () a T i a i = (2) a T i a j = 0, j =,, i Äquivalent ist cov(y i, y j ) = 0, j =,, i Lösung: Σ = ΨΛΨ T Λ = diag(λ,, λ p ), λ λ 2 λ p Ψ = (a,, a p ) Eigenschaften: x T = (x,, x p ) µ = E(x), Σ = cov(x) var(y i ) = a T i Σa i maximal y = Ψ T x mit y T = (y,, y p ) () cov(y) = Λ (var(y i ) = λ i, cov(y i, y j ) = 0, i j) (2) tr(σ) = tr(λ) ϱ(a T i x, b T i y) ai,bi max mit den Nebenbedingungen var(a T i x) = var(b T i y) =, i =,, s cov(a T i x, a T j x) = cov(b T i y, b T j y) = 0, j =,, i Lösungen (a i, b i ) über das kombinierte Eigenwertproblem (Σ xy Σ yyσ yx λ i Σ xx )a i = 0 (Σ yx Σ xxσ xy λ i Σ yy )b i = 0

11 7 FAKTORENANALYSE 2 7 Faktorenanalyse Modell: X µ = ΓF + U, X (p ) - Vektor der beobachtbaren Größen µ Erwartungswert von X F (k ) - Vektor der Faktoren Γ (p k) - Matrix der Faktorladungen U (p ) - Vektor der spezifischen Faktoren Annahmen: () E(F) = 0 (2) U V (0, Ψ), mit Ψ = diag(ψ 2,, Ψ 2 p) (3) cov(f, U) = 0 (4) cov(f) = I orthogonales Faktormodell Fundamentaltheorem für s = cov(x) Insbesondere: s = ΓΓ + Ψ m var(x i ) = γij 2 + Ψ 2 i j=, cov(x, F) = Γ Rotationsproblem (Eindeutigkeit von Γ bei gegebenem k, Ψ) Γ Ψ Γ = diag(λ,, λ k ), λ λ 2,, λ k

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Roland Stigge stigge@informatik.hu-berlin.de Humboldt Universität zu Berlin 9. Januar 2003 Umweltmonitoring: Statistische

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Statistische Eigenschaften der OLS-Schätzer, Residuen, Statistische Eigenschaften der OLS-Schätzer, Residuen, Bestimmtheitsmaß Stichwörter: Interpretation des OLS-Schätzers Momente des OLS-Schätzers Gauss-Markov Theorem Residuen Schätzung von σ 2 Bestimmtheitsmaß

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Statistik II. Universität Ulm Abteilung Stochastik. Vorlesungsskript Prof. Dr. Volker Schmidt Stand: Wintersemester 2007/08

Statistik II. Universität Ulm Abteilung Stochastik. Vorlesungsskript Prof. Dr. Volker Schmidt Stand: Wintersemester 2007/08 CURANDO UNIVERSITÄT ULM SCIENDO DOCENDO Statistik II Universität Ulm Abteilung Stochastik Vorlesungsskript Prof Dr Volker Schmidt Stand: Wintersemester 2007/08 Ulm, im Februar 2008 INHALTSVERZEICHNIS 2

Mehr

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 60 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Mathematik 3 für Informatik

Mathematik 3 für Informatik Gunter Ochs Wintersemester 5/6 Mathematik 3 für Informatik Lösungen zum Hausaufgabenblatt Lösungshinweise ohne Garnatie auf Fehlerfreiheit c 5. Berechnen Sie die folgenden unbestimmten Integrale: a x 4

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios Bernd Rosenow Rafael Weißhaupt Frank Altrock Universität zu Köln West LB AG, Düsseldorf Gliederung Beschreibung des Datensatzes

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Klausur Wirtschaftsmathematik Lösungshinweise

Klausur Wirtschaftsmathematik Lösungshinweise Klausur Wirtschaftsmathematik Lösungshinweise Prüfungsdatum: 27. Juni 2015 Prüfer: Etschberger Studiengang: Wirtschaftsingenieurwesen Aufgabe 1 16 Punkte Anton Arglos hat von seiner Großmutter 30 000 geschenkt

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Evaluation & Forschungsmethoden (Multivariate Analyse) Hauptdiplom-Prüfungsklausur am 03.08.2007 (1.Termin)

Evaluation & Forschungsmethoden (Multivariate Analyse) Hauptdiplom-Prüfungsklausur am 03.08.2007 (1.Termin) Evaluation & Forschungsmethoden (Multivariate Analyse Hauptdiplom-Prüfungsklausur am 03.08.007 (1.Termin Name: Matrikel-Nr.: Aufgabe 1: (3 Punkte Es seien zwei Vektoren a und b (mit mehr als Koordinaten

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Einführung in die Tensorrechnung

Einführung in die Tensorrechnung 1. Definition eines Tensors Tensoren sind Grössen, mit deren Hilfe man Skalare, Vektoren und weitere Grössen analoger Struktur in ein einheitliches Schema zur Beschreibung mathematischer und physikalischer

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer Kommentierte Formelsammlung multivariater statistischer Verfahren Prof Dr Irene Rößler Prof Dr Albrecht Ungerer Inhaltsverzeichnis i Inhaltsverzeichnis Verfahren im Überblick Beispieldatensatz 1 1 Multiple

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Extrema von Funktionen in zwei Variablen

Extrema von Funktionen in zwei Variablen Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

Statistik I für Betriebswirte Vorlesung 11

Statistik I für Betriebswirte Vorlesung 11 Statistik I für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 22. Juni 2012 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011 Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Multivariate statistische Verfahren

Multivariate statistische Verfahren Multivariate statistische Verfahren 2., überarbeitete Auflage Herausgegeben von Ludwig Fahrmeir, Alfred Hamerle und Gerhard Tutz unter Mitarbeit von Wolfgang Brachinger, Walter Häußler, Heinz Kaufmann,

Mehr

FORMELSAMMLUNG. Analyse longitudinaler Daten und Zeitreihen WS 2003/04

FORMELSAMMLUNG. Analyse longitudinaler Daten und Zeitreihen WS 2003/04 FORMELSAMMLUNG Analyse longitudinaler Daten und Zeitreihen WS 2003/04 Inhaltsverzeichnis 1 Zeitreihenanalyse 3 1.1 Grundlagen................................ 3 1.1.1 Notation..............................

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Methoden der multivariaten Statistik

Methoden der multivariaten Statistik Meteorologisches Institut der Universität Bonn Skript zur Vorlesung Methoden der multivariaten Statistik Sommersemester 2002 Andreas Hense Version: April 2002 (mit Korrekturen Nov. 2005, PF) 1 Inhaltsverzeichnis

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

+ 2 F2 (u) X 1 F1 (u)) Der Koeffizient der unteren Tail-Abhängigkeit von (X 1,X 2 ) T wird folgendermaßen definiert:

+ 2 F2 (u) X 1 F1 (u)) Der Koeffizient der unteren Tail-Abhängigkeit von (X 1,X 2 ) T wird folgendermaßen definiert: Tail Abhängigkeit Definition 12 Sei (X 1,X 2 ) T ein Zufallsvektor mit Randverteilungen F 1 und F 2. Der Koeffizient der oberen Tail-Abhängigkeit von (X 1,X 2 ) T wird folgendermaßen definiert: λ U (X

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen

Mehr

Statistik II für Betriebswirte Vorlesung 12

Statistik II für Betriebswirte Vorlesung 12 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die

Mehr

Solvency II und die Standardformel

Solvency II und die Standardformel Fakultät Mathematik und Naturwissenschaften Institut für Mathematische Stochastik Solvency II und die Standardformel Festkolloquium 20 Jahre (neue) Versicherungsmathematik an der TU Dresden Sebastian Fuchs

Mehr

Grundlagen Wahrscheinlichkeitsrechnung, Statistik

Grundlagen Wahrscheinlichkeitsrechnung, Statistik Grundlagen Wahrscheinlichkeitsrechnung, Statistik Was ist Statistik? Wahrscheinlichkeit Grundgesamtheit und Verteilung Verteilung von Stichprobenparametern und Intervallschätzung Werkzeug Varianzanalyse

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab Einfache lineare Regression als Beispiel für das ALM ALM : Allgemeines Lineares Modell Y : Kriterium U : Prädiktor Modell : Erwartungswert von Y ist lineare Funktion von U Genauer : Für festes u gilt für

Mehr