Multivariate Analyse: FS Ergänzungen zur Mitschrift der Vorlesung über Multivariate Datenanalyse von Prof. A. Barbour

Größe: px
Ab Seite anzeigen:

Download "Multivariate Analyse: FS 2012. Ergänzungen zur Mitschrift der Vorlesung über Multivariate Datenanalyse von Prof. A. Barbour"

Transkript

1 Multivariate Analyse: FS 2012 Ergänzungen zur Mitschrift der Vorlesung über Multivariate Datenanalyse von Prof. A. Barbour by PD Dr. Daniel Mandallaz Chair of Land Use Engineering Department of Environmental Sciences, ETH Zurich Übungen: Mathias Weyland

2 Vorwort Diese bündigen Unterlagen sind Ergänzungen und zum Teil Erweiterungen zur Mitschrift der Vorlesung Multivariate Datenanalyse von Prof. em. Andrew D. Barbour, welche von Mathias Weyland verfasst wurde. Der Titel der Vorlesung ist ein bisschen irreführend, weil andere Themen ebenfalls behandelt werden (u. A. nichtparametrische Verfahren sowie Resampling-Methoden). Es ist bekanntlich schwierig, vielleicht sogar unmöglich, multivariate statistische Verfahren ganz ohne lineare Algebra zu erklären. Aus diesem Grund werden die für die Vorlesung wichtigsten Begriffe der linearen Algebra ebenfalls behandelt (eine kurze Einführung ist ebenfalls in der Mitschrift gegeben). Studierende, welche die multivariaten Verfahren gründlich beherrschen wollen, sollten idealerweise die Vorlesung Lineare Algebra belegt haben, auch wenn a posteriori. Ferner sei darauf hingewiesen, dass statistische Grundkenntnisse (z.b. Tests von Hypothesen, Vertrauensintervalle, parametrische und nicht-parametrische Varianzanalyse) vorausgesetzt werden, welche im Skript der Vorlesung Biologische Datenanalyse von D. Mandallaz behandelt werden.

3 Kapitel 1 Nicht-parametrische und Permutationstests 1.1 Der Vorzeichen-Test Wir betrachten n unabhängige binäre Zufallvariablen X i mit P(X i = 1) = p und P(X i = 0) = 1 p und die Teststatistik T = N X i (1.1) Die Nullhypothese sei H 0 : p = p 0 und die einseitige Alternative H A : p > p 0. Wir verwerfen die Nullhypothese H 0 sobald T b und wählen b sodass n ( ) n P(T b H 0 ) = p x x 0(1 p 0 ) n x α (1.2) x=b Diese Entscheidungsregel hat somit Niveau (Level) α. Die beobachtete Realisierung von T sei nun t = T obs. Die beobachtete Signifikanzschranke (observed significance level, p-value) ist definiert als p obs + = n x=t obs ( ) n p x x 0(1 p 0 ) n x (1.3) Für die andere einseitige Alternative H A : p < p 0 definieren wir analog p obs = T obs x=0 ( ) n p x x 0(1 p 0 ) n x (1.4) Die beobachte Signifikanzschranke bezüglich der zweiseitigen Alternative H A : p p o ist 2 min(p obs +, p obs ). Für grosse n kann man die z Statistik z obs = T obs np 0 np0 (1 p 0 ) verwenden, welche nach dem Zentralgrenzwertsatz unter H 0 genähert standard normal verteilt ist, sodass ein (1 α)-vertrauensintervall mittels ˆp±z 1 α ˆp(1 ˆp) 2 n konstruiert werden kann, wobei ˆp = xi n n die relative Frequenz der x i = 1 ist (zur Erinnerung: z 1 α = für (1 α) = Für kleine n können exakte pobs 2 und Vertrauensintervalle berechnet werden, allerdings nur in diskreten Stufen. Der Vorzeichentest kommt in vielen Anwendungen vor, wie zum Beispiel: 1

4 1. Median: Y i unabhängig gleichverteilt, mit stetiger Verteilungsfunktion F (x) = P(Y i x). Die Nullhypothese H 0 besagt, dass der Median von F gleich θ 0 ist ( d.h. F ist symmetrisch um θ 0 ), die einseitige Alternative ist P(Y i > θ 0 ) > 1 2. Man definiert X i = 1 falls Y i > θ 0 und X i = 0 sonst, und T = n X i. Man wendet den Vorzeichentest für T an, mit H 0 : p = P(Y i > θ 0 ) = 1 2 = p 0 und H A : p > 1 2 = p 0, analog für H A : p < 1 2 und den zweiseitigen Test. 2. Paar-Vergleich: Wir haben in diesem Fall m unabhängige Paare (X i, Y i ), von numerischen oder qualitativen Variable und möchten testen, ob X i > Y i (X i besser als Y i ), bzw. X i < Y i (bzw. X i schlechter als Y i ). Wir definieren p + = P(X i > Y i ), p = P(X i < Y i ). Dann gilt offensichtlich P(X i = Y i ) = 1 (p + + p ) (X i und Y i equivalent). Die ensprechend beobachteten Frequenzen sind m + = m = m 0 = n n n I {xi>y i} I {xi<y i} I {xi=y i} Man will die Nullhypothese H 0 : p + = p gegeben m 0 testen. In diesem Falle ist m + binomial verteilt mit p = 1 2 und m m o Beobachtungen. Man wendet also den Vorzeichentest mit T = m +, p 0 = 1 2 und n = m m 0 an. 3. Vergleich von Poisson-Verteilungen: X 1 und X 2 seien Poisson-verteilt mit Parametern λ 1 und λ 2. Die Nullhypothese ist H 0 : λ 1 = λ 2. Sei ferner S = X 1 + X 2, bekanntlich auch Poisson-verteilt mit Parameter λ 1 + λ 2. Wir haben P(X 2 = x 2 S = n) = P(X 2 = x 2 und X 1 = n x 2 ) P(S = n) λ x 2 = e λ2 2 x 2! = λx1 e λ1 1 x 1! e (λ1+λ2) (λ1+λ2)n n! n! x 2!(n x 2 )! ( λ 2 λ 1 + λ 2 ) x2 ( λ 1 λ 1 + λ 2 ) n x2 also binomial verteilt mit Parametern n = x 1 + x 2 und p = ist p = 1 2. λ2 λ 1+λ 2. Unter H 0 Beispiel: in 1989 gab es 21 Verkehrstote in der Stadt Zürich, in 1990 nur 19. Ist diese Abnahme signifikant? Solche Daten werden oft erfolgreich mit Poisson Verteilungen modelliert (seltene Ereignisse). Mit n = 40 und x 2 = 19 bekommt man als exaktes 95%-Vertrauensintervall [0.315, 0.639] welches p = 0.5 enthält. Die Abnahme ist somit nicht signifikant. Die Approximation mittels der Normalverteilung liefert das Intervall ± (1 40 ) = [0.32, 0.63]. Eine knapp signifikante Abnahme hätte man mit nur 9 Verkehrstote in

5 1.2 Kruskal-Wallis und Wilcoxon Tests Der Kruskal-Wallis Test ist eine nicht parametrische Version der klassische Einweg- Varianzanalyse mit k Gruppen, der Test von Wilcoxon bezieht sich auf den Spezialfall k = 2. Wir betrachten k unabängige Stichproben mit jeweils n i, i = 1, 2... k Beobachtungen. Die zugörigen Zufallsvariable haben stetige Verteilungsfunktionen F (x θ 1 ), F (x θ 2 ),... F (x θ k ), (P(X i x) = F (x θ i )), wobei θ i ein Lokationsparameter der i-ten Population (z.b. Erwartungswert oder Median). Wir wollen die Nullhypothese H 0 : θ 1 = θ 2 =... θ k gegen die Alternative testen, dass mindestens zwei Populationen ungleich sind, also θ i θ j für i j. Die Beobachtungen sind Realisierungen der Zufallsvariablen X 11,... X 1n1... X k1... X knk Wir betrachten die gesamte Stichprobe der n = n 1 + n n k Beobachtungen, aufsteigend geordnet: R ij ist der Rang (also eine ganze Zahl zwischen 1 und n, unter der Annahme alle X ij voneinander verschieden sind (keine Bindungen). Unter H 0 haben alle n Beobachtungen dieselbe Verteilung F (x θ), sodass der Vektor der Ränge R = (R 11,... R 1n1,... R k1... R knk ) eine Permutation der Zahlen 1, 2,... n ist. Unter H 0 sind alle Permutationen gleich wahrscheinlich, mit Wahrscheinlichkeit 1 n!. Die Summe aller Ränge ist R.. = n i = n(n+1) 2, mit Mittelwert R.. = n+1 2. Der mittlere Rang in der i-ten Population ist R i. = 1 n i n i j=1 R ij = R i. n i Unter H 0 ist der Erwartungswert der Ränge in allen Populationen gleich. Wir haben somit E H0 ( R i. ) = n Grosse Werte von ( R i. n+1 2 )2 weisen daher auf Abweichung von der Nullhypothese hin. Kruskal and Wallis (1952) haben folgende Teststatistik vorgeschlagen: K := 12 n(n + 1) k ( n i Ri. n + 1 ) 2 12 = 2 n(n + 1) k R 2 i. n i 3(n + 1) (1.5) Es ist grundsätzlich durch Abzählung möglich, die exakte diskrete Verteilung von K unter H 0 zu bestimmen. Für grosse n i kann diese Verteilung mit einer Chi-Quadrat Verteilung mit (k 1) Freiheitsgraden approximiert werden. Wenn Bindungen vorhanden sind, kann man die Ränge der Beobachtungen mit den gleichen Werten durch den zueordneten mittleren Rang ersetzen. Die exakte Verteilung wird jedoch komplizierter. Software Pakete liefern exakte Tests für nicht allzu grosse n, auch mit Bindungen. Im Falle von nur zwei Populationen (k = 2) kann man den statistisch äquivalenten Wilcoxon Test (1945) anwenden. Sei W 1 die Summe der Ränge der ersten Stichprobe und W 2 die Summe der Ränge der zweiten Stichprobe, wobei die Ränge in der zusammengesetzten Stichprobe von allen n = n 1 + n 2 Beobachtungen ermittelt werden. Man hat W 1 + W 2 = n(n+1) 2 und der mittlere Rang unter H 0 ist wie vorhin n1+n Der Erwartungswert von W 1 unter H 0 ist demnach E H0 (W 1 ) = n1(n1+n2+1) 2. Die Varianzen unter H 0 von W 1 and W 2 sind beide gleich 3

6 n 1n 2(n 1+n 2+1) 12. Für grosse n 1 and n 2 ist die Teststatistik z = W 1 n1(n1+n2+1) 2 n 1n 2(n 1+n 2+1) 12 (1.6) approximativ standard normalverteilt. In kleinen Stichproben kann die exakte diskrete Verteilung bestimmt werden. Man kann auch Bindungen wie bei Kruskal- Wallis berücksichtigen. Im Gegensatz zur klassischen Varianzanalyse mit F -Tests wird die Normalverteilung nicht vorausgesetzt. Dies kostet allerdings etwas, nämlich ein Verlust der Macht (Power). Dieser Verlust ist jedoch in grossen Stichproben klein, zum Beispiel ca 5% im Vergleich zum Student t-test im Falle von zwei Stichproben. 1.3 Wilcoxon Vorzeichen-Test Der Vorzeichentest kann, wie wir gesehen haben, beim Paar-Vergleich angewandt werden, wie auch der Student t-test für gepaarte Stichproben, wenn die Differenzen normal verteilt sind (zumindest approximativ). Der Vorzeichen-Test ist selbstverständlich mit einem Informationsverlust verbunden, weil die Grösse der Differenzen nicht berücksichtigt wird. Das sogenannte Wilcoxon Vorzeichen-Test (Wilcoxon signed-rank test) ist ein Kompromiss zwischen den beiden Tests. Wir betrachten n unabhängige Zufallsvariablen Z i, mit stetiger Verteilung F, symmetrisch um θ 0. Ohne Beschränkung der Allgemeinheit setzen wir θ 0 = 0 voraus (ansonsten betrachtet man die Z i θ 0 ). Wir definieren die Funktion ψ(x) gemäss ψ(x) = 1 falls x 0 sonst ψ(x) = 0. Sei ψ i = ψ(x i ). Nach Voraussetzung ist P(ψ i = 1) = P(ψ i = 0) = 1 2. Man kann zeigen, dass wegen der Symmetrie von F die Zufallvariablen Z i und ψ i stochastisch unabhängig sind. R + i sei der Rang von Z i unter Z 1, Z 2,... Z n. Der signed rank (Rang mit Vorzeichen) ist nach Definition ψ i R + i. Es gelten für ganze Zahlen r und s zwischen 1 und n Das Wilcoxon Vorzeichen-Test ist Man zeigt folgende Resultate P(R + i = r) = 1 n P(R + i = r, R + j = s) = 1 n(n 1) E(R + i ) = n V(R + (n + 1)(n 1) i ) = 12 COV(R + i, + 1) R+ j ) = (n 12 W + = n ψ i R + i (1.7) E H0 (W + ) = V H0 (W + ) = n(n + 1) 4 n(n + 1)(2n + 1) 24 (1.8) 4

7 Für grosse n kann man die Normalverteilung als Approximation unter H 0 verwenden, d.h. die Zufallvariable Z = W + E H0 W + VH0 (W + ) (1.9) ist unter der Nullhypothese genähert standard normal verteilt. Für kleine n kann man die exakte diskrete Verteilung von W + berechnen. Man muss dazu alle 2 n Möglichkeiten der Vorzeichen {+, } untersuchen. Im Falle von n = 3 bekommt man 2 3 = 8 Teilmengen von {1, 2, 3} = {R 1, R 2, R 3 } mit positiven Vorzeichen. Tabelle 1.1 fasst die Resultate zusammen. Tabelle 1.1: Wilcoxon Vorzeichen-Test W + Teilmenge von {1, 2, 3} Wert von W + 0 {1} 1 {2} 2 {3} 3 {1, 2} 3 {1, 3} 4 {2, 3} 5 {1, 2, 3} 6 Man erhält somit folgen Verteilung unter H 0 P(W + = 0) = P(W + = 1) = P(W + = 2) = 1 8 P(W + = 4) = P(W + = 5) = P(W + = 6) = 1 8 P(W + = 3) = 1 4 Man verifiziert leicht die Formeln in (1.8) für Erwartungswert und Varianz. Die exakte Behandlung von Bindungen ist mühsam. Man kann wie üblich die mittleren Ränge verwenden oder einen kleinen zufälligen Fehler addieren; die obigen Formeln gelten dann nur approximativ. In kleinen Stichproben liefern die Sofware Pakete die exakten Tests. 1.4 Der Test von Friedman Dieser Test ist die nicht-parametrische Version der Zweiweg-Varianzanalyse ohne Wiederholungen. Wir betrachen k Behandlungen, welche in n homogene Blöcke angewandt werden; zum Beispiel k Düngemittel jeweils in n Versuchsflächen, welche alle in k gleichgrosse Teilflächen unterteilt sind. Die Zielvariable könnte zum Beispiel der Ertrag von Weizen in 103 kg ha sein. Die Beobachtungen der Zielvariable seien die Realisierungen der unabängigen Zufallvariablen Y ij, i = 1, 2... k mit j = 1, 2... n. Die stetige Verteilung von Y ij sei F (x τ i β j ). Die Nullhypothese besagt, dass kein Behandlungseffekt vorliegt, d.h. H 0 : τ 1 = τ 2 =... τ k = τ. Unter H 0 ist somit Y ij, i = 1, 2... k gemäss F (x τ β j ), j = 1, 2... n, verteilt. Die Alternative Hypothese ist H A : τ i τ j für mindestens ein Paar i j. 5

8 Für festes j {1, 2,... n} sei nun R ij der Rang von Y ij unter der Y 1j,... Y kj ; R ij ist somit der Rang der Y ij unter den k Beobachtungen im selben j-ten Block. Der Rangvektor R = (R ij,... R kj ) ist somit unter H 0 eine Permutation der ganzen Zahlen1,... k. Seien R i. = 1 n R ij = 1 n n R i. j=1 der mittlere Rang (innerhalb der Blöcke) der i-ten Behandlungen. Unter H 0 haben wir E H0 ( R i. ) = 1 n E H0 (R ij ) = 1 n 1 k(k + 1) (k + 1) = n n k 2 2 j=1 Grosse Werte von ( R i. (k+1) 2 ) 2 weisen auf Abweichung von der Nullhypothese von keinem Behandlungseffekt hin. Dies führt zur sogenannten Friedman Test-Statistik (1937) Q = 12n k(k + 1) k ( Ri. j=1 (k + 1) ) 2 12 = 2 nk(k + 1) k Ri. 2 3n(k + 1) Für kleine n kann wiederum die exakte Verteilung von Q unter der Nullhypothese H 0 berechnet werden. Für grosse n (k bleibt in der Regel klein) kann man zeigen, dass die Verteilung von Q unter H 0 approximativ Chi-Quadrat mit (k 1) Freiheitsgraden is. Die Approximation funktioniert für kn 30 sehr gut. Bei Bindungen innerhalb der Blöcke kann man die üblichen Anpassungen machen. Für kleine k und n liefern die Software Pakete exakte Tests, auch mit Bindungen. Eine ausgezeichnete Referenz für nicht parametrische Statistik ist und bleibt: E.L. Lehmann (1975). Nonparametrics: statistical methods based on ranks, Holden-Day, Inc. (McGraw-Hill International Book Company). 1.5 Permutationstests Die nicht-parametrischen Tests (wir haben nur eine kleine Anzahl der wichtigsten gesehen) befreien uns teilweise von der einschränkenden Annahme der Normalverteilung. Eine grundlegende Idee der Statistik ist die Randomisierung (Fisher), welche uns von allen Verteilungsannahmen befreit, falls die Zuordnung der statistischen Einheiten zu den Behandlungen zufällig erfolgt. Wir betrachten zum Beispiel n Patienten, identifiziert durch die Indizes i = 1, 2... n, mit Werten y i der Zielvariable. Wir erzeugen eine zufällige Permutation der ganzen Zahlen 1, 2, 3,... n. Die ersten n 1 Patienten bekommen Behandlung A und die übrigen n 2 (n 1 + n 2 = n) bekommen Behandlung B. Idealerweise erfolgt eine solche Studie double blind, d.h. weder der Arzt noch der Patient weiss, welche Behandlung verabreicht wurde (wohl aber der Statistiker!). Wenn die Nullhypothese stimmt, sind die Werte der Beobachtungen von den Behandlungen unabängig, sodass die meisten Permutationen auf keine Differenzen zwischen Behandlungen hinweisen. Es ist jedoch möglich, dass eine Permutation die Daten so umordnet, dass ausgerechnet alle n 1 kleinsten Beobachtungen gerade die n 1 ersten Beobachtungen sind. Wir betrachten folgendes Beispiel. Die erste Gruppe mit 15 Beobachtungen wurden mit Y i = 10+χ 2 (3) simuliert und die zweite Gruppe von ebenfalls 15 Beobachtungen gemäss X i = 12 + χ 2 (2). Die Nullhypothese setzt gleiche Erwartungswerte, was hier falsch ist. Die Daten sind offensichtlich nicht normal verteilt, wie QQ-Plots und 6

9 Shapiro-Wilks Test bestätigen. Als Teststatistik nehmen wir die absolute Differenz Ȳ X, welche gleich ist (die wahre absolute Differenz beträgt 1). Wir haben in diesem Fall (n1+n2)! n 1!n 2! = mögliche Permutationen. Von dieser riesigen Anzahl werden 5000 zufällig ausgewählt und für jede permutierte Stichprobe wird Ȳ X = k, k = 1, berechnet. Der P -Wert des klassischen F -Tests ist in diesem Fall 0.077, was ziemlich genau dem empirischen 92.5% Quantil der empirischen Verteilung der k entspricht, siehe Abbildung 1.1. Die Berechnungen wurden mit folgendem R Programm durchgeführt: mc.group1<-c(rep(1,15));mc.group2<-c(rep(-1,15)); mc.group=c(mc.group1,mc.group2) mc.group set.seed(100) data1<-round(10+c(rchisq(15,3)),digits=2) data2<-round(12+c(rchisq(15,2)),digits=2) data1 data2 hist(data1); hist(data2) mean(data1);mean(data2) deltamean=mean(data1)-mean(data2);deltamean absdeltamean=abs(deltamean);absdeltamean sd(data1)/sqrt(15);sd(data2)/sqrt(15) mc.data<-c(data1,data2) mc.data absdeltameancheck<-abs(sum(mc.group*mc.data)/15) absdeltameancheck aux.group<-factor(mc.group); anova(lm(mc.data~mc.group)) diff<-matrix(0:0,nrow=5000, ncol=1) for(i in 1:5000) { per<-c(sample(mc.group,30)); aux=per*mc.data diff[i,1]=abs(sum(aux)/15) } hist(diff, xlab="absolute Differenz der Mittelwerte",main=" ") abline(v=absdeltamean) quantile(diff,c(0.925,0.95,0.975,0.99)) Man merke sich, dass der Befehl per<-c(sample(mc.group,30)) die zufälligen Permutationen der ursprünglichen 30 Werte erzeugt, allerdings sind diese 5000 Permutationen der Start-Sequenz (mit 15 1 am Anfang gefolgt von 15 1 ) nicht alle verschieden sind (man zieht aus der Menge der Menge aller n! Permutationen mit Zurücklegung), was jedoch für die empirische Bestimmung der Quantile irrelevant ist. Oft wird direkt der P -Wert der klassischen Auswertung als Test-Statistik genommen. Die Mitschrift zeigt, wie man die allgemeine Einweg- Varianzanalyse mit k > 2 Gruppen mittels Permutationstests auswerten kann. Man kann auch komplexere randomisierte Designs (wie Lateinische Quadrate) analog auswerten. R bietet hierfür spezielle Pakete. 7

10 Abbildung 1.1: Histogramm von 5000 k empirischer 92.5% Quantil: 1.029, empirischer 95%-Quantil= Die Permutationstests sind sogenannte bedingte Tests (d.h. gegeben die Daten) und immer gültig falls das Randomisierung-Prinzip verwendet wurde. Streng genommen sind diese Tests allerdings nur für den untersuchten Datensatz gütig. Es gibt theoretische und empirische Evidenz dafür, dass die P -Werte der klassischen ANOVA-Tests den P Werten der Permutationstests ähnlich sind. In diesem Sinne ist die Einhaltung der Randomisierung vor der Auswertung wichtig, auch wenn diese mit klassischen Verfahren erfolgt. Die Randomisierung ist auch unter einem anderen Gesichtspunkt wichtig, nämlich um den potentiellen gefährlichen Einfluss von Variablen zu dämpfen, welche im Modell nicht berücksichtigt wurden. 8

11 Kapitel 2 Resampling und Robuste Verfahren 2.1 Die empirische Verteilungsfunktion Die Verteilungsfunktion F (x) einer Zufallsvariable X ist definiert als F (x) = P(X x) Dies ist eine monoton wachsende Funktion von x. Für eine diskrete Zufallsvariable mit möglichen Werten w k (k = 1, 2, 3...) ist F (x) eine stückweise konstante Treppenfunktion mit Sprungstellen in den w k. Wir betrachten nun n unabhängige gleichtverteilte Zufallsvariablen X i mit Verteilungsfunktion F (x). x i ist die Realisierung von X i. Die empirische Verteilungsfunktion ˆF n (x) ist definiert als ˆF n (x) = 1 n n I {xi x}(x) (2.1) wobei I A (x) = 1 falls x A sonst I A (x) = 0. In Worten: ˆFn (x) ist die relative Frequenz der n Beobachtungen x i, welche kleiner oder gleich x sind. Dies ist eine stückweise konstante Treppenfunktion mit Sprüngen in den Beobachtungen x i. Mit der Zuordnung x i X i können wir ˆF n (x) auch als eine Zufallsvariable betrachten, mit Erwartungswert und Varianz E( ˆF n (x)) = F (x), V( ˆF n (x)) = F (x)(1 F (x)) n Nach dem Gesetz der grossen Zahlen und dem Zentralen Grenzwertsatz ist somit n( ˆFn (x) F (x)) asymptotisch, d.h. für grosse n, normalverteilt mit Erwartungswert 0 und Varianz F (x)(1 F (x)). Die empirische Verteilungsfunktion ist somit eine konsistente Schätzung der wahren unbekannten kumulativen Verteilungsfunktion F (x). Sie fasst die ganze verfügbare Information zusammen, welche die Beobachtungen x i enthalten. Es ist daher intuitiv, dass die Nullhypothese H 0 : F (x) = F 0 (x) (d.h. die Beobachtungen sind unabhängig gemäss der Verteilung F 0 (x) verteilt) mittels der empirischen Verteilungsfunktion ˆF n (x) geprüft werden kann, zum Beispiel 9

12 mit den Statistiken D n = sup ˆF n (x) F 0 (x) W n = n x A n = n ( ˆFn (x) F 0 (x) ) 2 f0 (x)dx ( ˆFn (x) F 0 (x) ) 2 F 0 (x)(1 F 0 (x)) f 0(x)dx (2.2) wobei f 0 (x) = d dx F 0(x) die Wahrscheinlichkeitsdichte ist. sup x steht für Supremum, also die kleinste obere Schranke ( Es ist auf abgeschossene Intervalle der grösste Wert). D n ist die Kolmogorov -Smirnov Statistik, W n die Cramèr-von-Mieses Statistik und A n die Anderson-Darling Statistik, welche die Abweichungen zwischen ˆF n (x) und F 0 (x) über alle x subsummieren. Alle drei Tests haben die bemerkenswerte Eigenschaft, dass die Verteilung unter H 0 : F (x) = F 0 (x) unabhängig von F 0 ist. Für D n zum Beispiel gilt asymptotisch (d.h. für gross n) P( nd n z) = 1 2 ( 1) j 1 e 2j2 z 2 Diese Tests sind universell gültig und in speziellen Fällen daher nicht optimal. Wenn wir zum Beispiel für F 0 die Normalverteilung wählen, ist der sogenannte Shapiro- Wilks Test besser. In den Anwendungen sind graphische Verfahren einfacher und deswegen sehr beliebt, zum Beispiel die sogenannten Quantile-Quantile (Q-Q) Plots, welche im nächsten Abschnitt kurz erläutert werden. 2.2 Q-Q Plots Wir betrachten die Verteilungsfunktion F 0 (x) und möchten prüfen, ob die unabhängige Beobachtungen x i, i = 1, 2... n mit F 0 bis auf Lokation und Streuung verträglich sind. Wir setzen somit voraus, dass P(X i x) = F 0 ( x µ σ ), oder equivalent dazu, dass die nicht beobachtbaren Zufallsvariablen Y i = Xi µ σ die Verteilungsfunktion P(Y i y) = F 0 (y) haben. Seien nun Y (1) < Y (2) <... Y (n) die geordneteten Werte der Y i und entsprechend die X (1) < X (2) <... X (n). Wegen X i = µ + σy i gilt auch X (i) = µ + σy (i). Bekanntlich ist die Zufallvariable U i = F 0 (Y i ) uniform auf dem Interval [0, 1] verteilt. Intuitiv ist es klar (und kann auch bewiesen werden), dass E(U (i) ) i n+1 und daher E(Y (i)) = E(F0 1 (U (i) ) F0 1 (E(U (i) )) F0 1 ( i n+1). Ferner gilt E(X(i) ) = µ + σy (i). Unter H 0 sollten im Mittel die Punkte (F0 1 ( i n+1 ), x (i)) = (E(Y (i) ), x (i) ) auf einer Gerade liegen. Man interpretiert die E(Y (i) ) als die F 0 -theoretischen und die x (i) als die beobachteten Quantile, deshalb der Name Quantile-Quantile Plot (Q-Q Plot). Wenn die Punkte stark von einer Gerade abweichen, ist es ein Hinweis gegen H 0. Man kann bei Bedarf die Parameter µ und σ mittels linearer Regression oder Maximum Likelihood schätzen. 2.3 Bootstrap j=1 Wir nehmen an, dass die Beobachtungen x i Realisierungen von n unabängigen gleichverteilten Zufallsvariablen X i mit Verteilungsfunktion F sind. Wir wollen einen Parameter h(f ) = θ der unbekannten Verteilung F, zum Beispiel median (h(f ) = F 1 (0.5)), Erwartungswert (h(f ) = E(X i )), bestimmte Quantile 10

13 (q α = h(f ) = F 1 (α)), Varianz (h(f ) = V(X i )) usw. schätzen, und auch entsprechende Vertrauensintervalle angeben. Auch wenn F bis auf einzelne Parameter (z.b. Normalverteilung mit Erwartungswert µ und Varianz σ 2 ) bekannt ist, kann die Verteilung der Schätzung ˆθ sehr kompliziert sein (wie zum Beispiel für das Median oder die Testgrössen in 2.2, wobei h(f ) = sup x (F (x) F 0 (x)) und analog für W und A). Oft braucht man auch weiter Eigenschaften der Schätzung ˆθ n, wie zum Beispiel ( λ n (F ) = P F n(ˆθn h(f )) a ) λ n (F ) = ˆθ n θ Verzerrung, Bias λ n (F ) = V( nˆθ n ) λ n (F ) = P F ( n(ˆθ n h(f )) τ(f ) a ) mit Streuungsfaktor τ(f ) (2.3) Wir betrachten Schätzer der Form ˆθ n = h( ˆF n ) oder ˆλ n ( ˆF n ), also die nur von der empirischen Verteilungsfunktion abhängen (plug-in estimators). Würde man die wahre Verteilungsfunktion F kennen, könnte man die Verteilungen der Schätzung durch umfangreiche Simulationen unter F beliebig genau bestimmen. Die geniale und einfache Idee des Resampling Boostrap Verfahrens besteht darin, diese Simulationen mit ˆF n statt mit F durchzuführen (Effron, 1979, 1982). Man zieht also eine sehr grosse Anzahl B Stichproben der Grösse n mittels der Verteilung ˆF n. Eine solche Bootstrap Stichprobe wird mit (X1, X2,... Xn) bezeichnet, wobei die Xi aus den X i gleichwahrscheinlich (d.h. mit Wahrscheinlichkeit 1 n ) mit Zurücklegung gezogen werden. P und E bezeichnen Wahrscheinlichkeit und Erwartungswert bezüglich dieses Verfahrens, kurz bezüglich der Verteilung ˆF n. Der Satz der totalen Wahrscheinlichkeit rechtfertigt das Verfahren, weil P [X i x i ] = n P [Xi x Xi = x i ]P (x i = x i ) = n 1 I {xi x} n = ˆF n (x) (2.4) Die X i haben somit die Verteilungsfunktion ˆF n, welche für grosse n gegen F konvergiert. Es ist somit intuitiv plausibel, dass die B Bootstrap Stichproben das Verhalten von B Stichproben unter F nachahmen, und folglich rein empirisch die Verteilung der ˆθ n und λ n ( ˆF n ) approximieren. Zur Illustration setzen wir θ = h(f ) gleich dem Median und λ n (F ) sei der Bias des Stichprobenmedians ˆθ n im hypothetischen Fall einer Stichprobe mit n = 3. Die Verteilung F sei zudem stetig, sodass Bindungen Wahrscheinlichkeit null haben. Die Daten sind (x (1), x (2), x (3) ) = (b, c, d) mit b < c < d. Die Stichproben (X 1, X 2, X 3 ) können die 3 3 = 27 Werte (b, b, b), (b, b, c), (b, c, b),... (d, d, d) belegen. Zum Beispiel hat man P (X (1) = b, X (2) = b, X (3) = c) = 3 27 gleich der Summe der Wahrscheinlichkeiten der elementaren Ereignisse (b, b, c), (b, c, b), (c, b, b) für (X 1, X 2, X 3 ). Insgesamt bekommt man die Tabelle Der wahre Median sei θ = F 1 (0.5) mit Stichprobenschätzwert ˆθ n. Der Bias ist nach Definition λ n (F ) = E(ˆθ n ) θ 11

14 Tabelle 2.1: Wahrscheinlichkeitsraum für (X (1), X (2), X (3) ) Ereignis (b, b, b) (b, b, c) (b, b, d) (b, c, c) (b, c, d) (b, d, d) (c, c, c) (c, c, d) (c, d, d) (d, d, d) P θ n sei der Median der hypothetischen Stichprobe X 1, X 2, X 3,... X n von ˆF n. Wir haben nach Definition λ n ( ˆF n ) = E (θ n) ˆθ n Man kann zeigen, dass unter gewissen Regularitätsbedingungen und für grosse n, λ n ( ˆF n ) konsistent λ n (F ) schätzt. Wir betrachten hier ˆF n als Zufallvariable. Im Falle n = 3 bekommt man für den Median X (2) von (X 1, X 2, X 3 ) folgende Beziehung P (X(2) = b) = 7 27, P (X(2) 13 = c) = 27, P (X(2) = d) = 7 27 Infolgedessen ist der Schätzer λ 3 ( ˆF 3 ) des Bias von ˆθ 3 = X (2) gemäss der obigen berechtigten Vermutung ( 7 E (X(2) ) X (2) = 27 X (1) X (2) + 7 ) 27 X (3) X (2) = 14 ( X(1) + X ) (3) X (2) 27 2 Man kann zeigen, dass es unter P genau ( ) 2n 1 n verschiedene Kombinationen gibt, z.b. 10 für n = 3 und für n = 10, exponentiell schnell wachsend mit n. λ n ( ˆF n ) ist somit theoretisch berechenbar, leider aber in den meisten Anwendungen trotz leistungsfähiger Computer praktisch nicht. Das Bootstrap-Verfahren liefert hier eine einfache Lösung: Man simuliert B Stichproben gemäss P. Die i-te simulierte Stichprobe liefert die Schätzung θi und der Erwartungswert E (θn) wird mit dem empirischen Mittelwert 1 B B θ i geschätzt. Wir betrachten ein Beispiel. Zunächst simulieren wir 100 Beobachtungen, welche Chi-Quadrat mit 4 FG verteilt sind. Der wahre Erwartungswert ist 4 und der wahre Median Abbildungen 2.1 und 2.2 stellen Histogramm und Q-Q Plot der Rohdaten dar. Der Shapiro-Wilks Test bestätigt, dass die Daten signifikant von einer Normalverteilung abweichen, wie auch direkt vom Histogramm ersichtlich. Wir simulieren nun B = 1000 Bootstrap Stichproben (jeweils bestehend aus 100 Ziehungen mit Zurücklegung aus den 100 Rohdatenwerten). Für jede Bootstrap Stichprobe berechnen wir den Medianwert ˆθ i, Abbildung 2.3 zeigt das entsprechende Histogramm. Die Bestimmung von Vertrauensintervalle beruht auf der Idee, dass die Verteilung der ˆθ i ˆθ die Verteilung von ˆθ θ nachahmt. Für ein 1 α Vertrauensintervall können wir aus diesem Grund schreiben 1 α = P(L ˆθ θ U) P (L ˆθ i ˆθ U) wobei L die untere und U die obere Grenzen sind. Das Vertrauensintervall für θ ist [ˆθ U, ˆθ L], wobei L + ˆθ und U + ˆθ die α 2 und 1 α 2 Quantile der empirischen Boostrap-Verteilung sind, welche wir mit k α und k 2 1 α bezeichnen. Dies 2 ist gerechtfertigt, weil die exakt Wahrscheinlichkeit unter P mit der entsprechenden relativen Frequenz der B = 1000 Bootstrap Stichproben geschätzt wird. Wir bekommen letzten Endes folgendes 1 α Vertrauensintervall für θ [ˆθ U, ˆθ L] = [ˆθ (k 1 α 2 ˆθ), ˆθ (k α 2 ˆθ)] = [2ˆθ k 1 α 2, 2ˆθ k α 2 ] (2.5) 12

15 Abbildung 2.1: Histogramm von 100 Chi-Quadrat xi mit 4 FG empirischer Mittelwert= 4.514, empirischer Median= Abbildung 2.2: Q-Q Plot der 100 xi In obigen Beispiel bekommt man [3.187, 4.018] als 95% Vertrauensintervall, was sich vom naiven [2.5%, 97.5%] Quantil-Range des Histogramms der Bootstrap Medianwerte θ i ( siehe Abbildung 2.3) unterscheidet. Die Berechnungen wurden mit folgenden einfachen R Programm durchgefu hrt: set.seed(200) chi<-rchisq(100,4) hist(chi,nclass=12, main=" ") qqnorm(chi);qqline(chi) mean(chi);median(chi);sd(chi);sd(chi)/sqrt(100) m<-1000;bootres1<-numeric(m) for (j in 1:m) bootres1[j]<-median(sample(chi,replace=t)) mean(bootres1);sd(bootres1);sd(bootres1)/sqrt(1000) hist(bootres1,main=" ") qqnorm(bootres1);qqline(bootres1) quantile(bootres1,probs=c(0.025,0.975)) 13

16 Abbildung 2.3: Histogramm der Bootstrap Medianwerte ˆθ i Mittelwert= 3.756, 2.5%-Quantil = 3.380, 97.5%-Quantile = untere95<-2*median(chi)-quantile(bootres1,probs=c(0.975)) obere95<-2*median(chi)-quantile(bootres1,probs=c(0.025)) In gewissen Fällen (z.b. für Mittelwerte) kennt man die geschätzten Varianzen ˆσ 2, bzw. ˆσ i 2. Es ist dann besser mit der Pivot-Statistik ˆθ i ˆσ ˆθ zu arbeiten, welche 2 i die empirischen Quantile q α und q 2 1 α liefert. Man bekommt dann das (1 α)- 2 Vertrauensintervall [2ˆθ q 1 α ˆσ, 2ˆθ q α ˆσ] 2 2 Die Mitschrift gibt noch weitere Beispiele. Mit Bootstrap-Verfahren kann man grundsätzlich komplexe Tests durchführen, wie in der parametrischen oder nicht parametrischen Varianzanalyse. Es ist dabei zu achten, dass eine Verifikation der P-Werten der Klassischen Analyse mit dem Bootstrap unter der Nullhypothese erfolgen muss. Das heisst im Falle der Einweg-Varianzanalyse zum Beispiel, dass man die Gruppen-Mittelwerte (oder Gruppen-Medianwerte) in jeder Gruppe von den Rohdaten subtrahieren muss, und erst dann das Bootstrap durchführt. Die Mitschrift behandelt solche Beispiele. 2.4 Robuste Verfahren Die parametrischen Verfahren setzen in der Regel erstens ein explikatives Modell (z.b. multiple lineare Regression oder Varianzanalyse), welches von unbekannten Parameter abhängt und zweitens eine bis auf Parameter bekannte Verteilungsfunktion (z.b. Normalverteilung für die Residuen) voraus. Die Parameter werden meistens mit Maximum Likelihood oder Least Squares (LS) geschätzt. Sie erlauben komplexe Modellierungen und Inferenz, welche leider auf Abweichungen vom postulierten Modell, auf Ausreisser (outliers) oder sogenannte Hebelpunkte (leverage points) so empfindlich reagieren können, dass die Auswertung fragwürdig sein kann. Die Nicht-parametrischen Verfahren (wir haben nur die üblichsten und einfachsten behandelt) sind weitgehend frei von Annahmen über die Verteilung der zugrunde liegenden Beobachtungen, erlauben in der Regel jedoch nicht so komplexe Analysen wie die parametrischen Verfahren. Die robuste Statistik versucht ein Kompromiss zwischen beiden Philosophien zu machen, indem die klassischen parametrischen Modelle in einer vollen Umgebung der Grundverteilung (zum Beispiel der Normalverteilung) ihre Gültigkeit behalten (sie sind bis zu einem gewissen Grad Ausreisser- und 14

17 Hebelpunkt resistent). Die emeritierten ETH Professoren Peter Huber und Frank Hampel waren massgeblich an der Entwicklung der robusten Statistik beteiligt. Der Nachteil der robusten Methoden liegt vor allem in der mathematischen und numerischen Komplexität (letztere ist heute mit der Verfügbarkeit von Software, wie z.b. R, kein grosses Hinderniss mehr). Zur Illustrierung betrachten wir die einfache lineare Regression: Y i = θ 1 + θ 2 ξ i + e i, wobei θ 1 der Achsenabschnitt ist, und θ 2 die Steigung. Die explikative Variable ξ i ist fest (keine Zufallsvariable) und fehlerfrei. Die theoretischen Residuen ε i werden in der klassischen Theorie als normal verteilt N(0, σ 2 ) vorausgesetzt, in der robusten Statistik wird oft eine kontaminierte Normalverteilung betrachtet, mit z.b. der Verteilungsfunktion F (x) = (1 α)φ( x σ ) + αφ( x 3σ 1 x u2 ), wobei Φ(x) = e 2 2π die kumulative Verteilungsfunktion der standard Normalverteilung ist; 0 < α < 0.5 ist der Anteil der schlechten Beobachtungen (Ausreisser), welche eine dreimal grössere Standardabweichung haben. Wir haben n Beobachtungen (ξ i, y i ). Die LS Schätzungen (ˆθ 1, ˆθ 2 ) minimieren n r2 i, wobei r i = y i ŷ i die Residuen und ŷ i = θ 1 + θ 2 ξ i die Prognosen sind. Eine Verallgemeinerung wäre n ρ(r i ) zu minimieren, wobei ρ(x) eine symmetrische Funktion (ρ( x) = ρ(x)) mit einem eindeutigen Minimum in x = 0 ist. Die Wahl ρ(x) = x 2 liefert die klassischen Kleinste Quadrat Schätzungen. Ableiten nach θ 1 und θ 2 liefert das 2 2 Gleichungssystem n ψ(r i )x i = (0, 0) wobei ψ(x) = d dx ρ(x) und x i = (1, ξ i ). Die LS Schätzungen sind nicht Ausreisser resistent, weil eine einzige schlechte Beobachtung die Quadratsumme explodieren lässt, die Funktionen ρ(x) und ψ(x) sind nicht beschränkt. Huber s Vorschlag (1964) ist c ψ(x) = min(c, max(x, c)) = x min(1, x ) c ist eine tuning Konstante. Im eindimensionalen Lokationsproblem (θ 2 = 0)sind der Median und der gestutzte Mittelwert (α-trimmed mean, die α% grösten und kleinsten Beobachtung werden weggelassen) einfache robuste Alternative zum Ausreisser empfindlichen Mittelwert. In der einfachen oder multiplen Regression sind nicht nur Aussreisser in der Zielvariable ein Problem, sondern auch Ausreisser in den explikativen Variablen, die sogenannten Hebelpunkte (leverage points). Die Mitschrift gibt diesbezüglich spektakuläre Beispiele. Eine gute Alternative zur LS-Methode ist der Least Median of Squares (LMS) Schätzer, welcher den Medianwert der ri 2 über θ minimiert. Die Software R bietet u.a. die robuste Prozedur lqs. Eine graphische Darstellung der Daten ist auf jeden Fall empfehlenswert, was im zweideimensionalen Fall recht einfach ist. Ausreisser und Hebelpunkte können Fehler (Tipp oder Messfehler), richtige aber ungewöhliche Beobachtungen sein oder sogar potentielle bahnbrechende Entdeckungen. Sie müssen wann immer möglich identifiziert und entsprechend behandelt werden. 15

18 Kapitel 3 Grundzüge der linearen Algebra 3.1 Notation und Grundbegriffe In diesem Kapitel werden die für die multivariate Statistik wichtigsten Begriffe und Sätze zusammengestellt. Die lineare Algebra ist auch in der Modellierung der Populationsdynamik wichtig. Es wird fast gänzlich auf Beweise verzichtet. Wir betrachten den n-dimensionalen Raum R n. Vektoren werden mit kleinen lateinischen Buchstaben bezeichnet und Skalare (hier reelle Zahlen) mit griechischen Buchstaben. Ein Vektor x R n ist somit ein n-tupel von Zahlen x = (ξ 1, ξ 2,..., ξ n ) t. Grundsätzlich werden hier Vektoren als Spaltenvektoren aufgefasst, werden jedoch zur Vereinfachung des Schreibens als transponierte Zeilenvektoren (mit dem Superskript t ) geschrieben. Vektoren kann man komponentenweise addieren und komponentenweise mit einem Skalaren multiplizieren, gemäss x + y = (ξ 1 + η 1, ξ 2 + η 2,... ξ n + η n ) t λx = (λξ 1, λξ 2,..., λξ n ) t (3.1) Das Skalarprodukt von zwei Vektoren ist definiert mittels n x y =< x, y >= ξ i η i R Zwei Vektoren x und y heissen orthogonal falls x y = 0. Die Norm oder Länge von x wird mit x = < x, x > = n ξ2 i definiert. Eine Menge von p Vektoren {x 1, x 2,... x p } R n heisst linear unabhängig falls eine lineare Kombination, welche den Nullvektor ergibt, d.h. p λ i x i = 0 notwendigerweise die triviale lineare Kombination ist, d.h. λ i = 0 für alle i. Man merke sich, dass der Vektor 0 den Nullvektor bezeichnet, dessen Komponente alle gleich der Zahl Null (0) sind. Ein Hauptsatz besagt, dass in R n höchstens n Vektoren linear unbhängig sein können, welche dann eine Basis e i, i = 1, 2... n bilden. Jeder Vektor kann eineindeutig als lineare Kombination von Basisvektoren geschrieben werden, d.h. n x = ξ i e i 16

19 Die ξ i heissen Koordinaten von x bezüglich der Basis e i. Wir werden fast ausschliesslich mit der kanonischen Basis arbeiten, in welcher die Komponenten von e i alle gleich Null sind, bis auf die i-te, welche 1 ist. Alle Vektoren dieser Basis sind zueinander orthogonal und alle haben die Länge 1, eine solche Basis heisst orthonormiert. In R 3 kann man aus der kanonischen Basis durch Rotationen beliebig viele andere orthonormierten gleichorientierte Basen (rechte oder linke Hand Orientierung) erzeugen. 3.2 Lineare Abbildungen und ihre Matrizen Wir betrachten eine Abbildung von R m nach R n Die Abbildung heisst linear falls f : x R m y = f(x) R n f(λ 1 x 1 + λ 2 x 2 ) = λ 1 f(x 1 ) + λ 2 f(x 2 ) für alle x 1, x 2, λ 1, λ 2. Inbesondere gilt f(0) = 0 (Achtung! der erste 0 ist in R m und der zweite in R n ). Wir haben die Basis {e 1, e 2,... e m } in R m und die Basis {f 1, f 2... f n } in R n. Wir haben wegen der Linearität der Abbildung f folgende Zerlegungen nach den Basisvektoren: x = y = f(e j ) = m ξ j e j j=1 n η i f i n α ij f i m m f(x) = f( ξ j e j ) = ξ j f(e j ) = = j=1 j=1 m ( n ) ξ j α ij f i j=1 n η i f i (3.2) Wegen der Eindeutigkeit der Zerlegung nach den Basisvektoren haben wir η i = m α ij ξ j (3.3) j=1 Die Koeffizienten α ij sind die Koordinaten in der Basis {f i, i = 1, 2... n} des Bildes unter der Abbildung f des j-ten Basisvektors e j. Diese α ij sind von der Wahl der zwei Basen abhängig. Diese nm Koeffizienten werden in einer Matrix A mit n Zeilen und m Spalten zusammengefasst, was oft mit der Notation A n m bezeichnet wird. Man merke sich die umgekehrte Reihenfolge der Indizes, die Abbildung geht von m nach n dimensionalen Räumen, während die Matrix vom Typ n m ist. Matrizen werden mit grossen fett gedruckten lateinischen Buchstaben bezeichnet. 17

20 A nm = α 11 α α 1m α 21 α α 2m α n1 α n2... α nm Die Gleichung (3.3) lässt sich als Skalarprodukt der i-ten Zeile der Matrix A mit dem Spaltenvektor x = (ξ 1, ξ 2,... ξ m ) t darstellen. Gelegentlich wird die Notation A n m = (α ij ) verwendet. Wenn man y als Spaltenvektor (η 1, η 2,... η n ) t betrachtet, kann man schreiben y = Ax Dieselbe Abbildung f kann, je nach Wahl der Basen, mit verschiedenen ähnlichen Matrizen dargestellt werden. Die Kunst wird oft darin bestehen, die Basen so zu wählen, dass die Matrix möglichst einfach wird. Die geometrische Natur der Abbildung (zum Beispiel Projektion, Spiegelung, Drehung usw.) ist intrinsisch, während Basen und Koordinaten nur zum eigentlichen Rechnen verwendet werden. Für eine Abbildung f von R n nach R n ist die zugehörige Matrix quadratisch, d.h. m = n. In einem solchen Fall wird meistens dieselbe Basis im Definitionsbereich wie auch im Bildbereich zugrunde gelegt. Ein wichtiger Spezialfall ist die identische Abbildung id : x R n id(x) = x R n. Die zugehörige Matrix wird mit I n bezeichnet (oft wird der Index n nicht angegeben, wenn die Dimension aus dem Kontext klar ist). Diese sogenannte Einheitsmatrix hat 1 in der Diagonale und 0 ausserhalb, d.h. I n = Zwei Matrizen vom selben Typ A n m = (α ij ) und B n m = (β ij ) können komponentenweise addiert werden, um eine neue Matrix C n m zu erhalten, und zwar gemäss: C n m = (γ ij ) = (α ij + β ij ) Die Multiplikation einer Matrix mit einem Skalar wird ebenfalls komponentenweise definiert, d.h. λa n m = (λα ij ) Wir betrachten nun die Verkettung g f von zwei linearen Abbildungen f und g, mit zugehörigen Matrizen A n m und B p n bezüglich der Basen {e 1,... e m }, {f 1... f n }, {g 1... g p } x R m f y R n g g(y) = g(f(x)) = (g f)(x) R p Wie man leicht sieht, ist die Abbildung h = g f ebenfalls eine lineare Abbildung von R m nach R p, also g f : R m R p, mit Matrix C p m = (γ ij ). Zweimalige Anwendung der obigen Überlegungen führt zur wichtigen Relation γ ij = n β ik α kj i = 1, 2... p, j = 1, 2,... m k=1 Das ij-te Element von C p m ist somit das Skalarprodukt der i-ten Zeile von B p n mit der j-ten Spalte von A n m. Man schreibt das als Matrixprodukt C p m = B p n A n m 18

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

A Matrix-Algebra. A.1 Definition und elementare Operationen

A Matrix-Algebra. A.1 Definition und elementare Operationen A Matrix-Algebra In diesem Anhang geben wir eine kompakte Einführung in die Matrizenrechnung bzw Matrix-Algebra Eine leicht lesbare Einführung mit sehr vielen Beispielen bietet die Einführung in die Moderne

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Leitfaden Lineare Algebra: Determinanten

Leitfaden Lineare Algebra: Determinanten Leitfaden Lineare Algebra: Determinanten Die symmetrische Gruppe S n. Eine Permutation σ der Menge S ist eine bijektive Abbildung σ : S S. Ist S eine endliche Menge, so reicht es zu verlangen, dass σ injektiv

Mehr

4 Vorlesung: 21.11. 2005 Matrix und Determinante

4 Vorlesung: 21.11. 2005 Matrix und Determinante 4 Vorlesung: 2111 2005 Matrix und Determinante 41 Matrix und Determinante Zur Lösung von m Gleichungen mit n Unbekannten kann man alle Parameter der Gleichungen in einem rechteckigen Zahlenschema, einer

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u.

u + v = v + u. u + (v + w) = (u + v) + w. 0 V + v = v + 0 V = v v + u = u + v = 0 V. t (u + v) = t u + t v, (t + s) u = t u + s u. Universität Stuttgart Fachbereich Mathematik Prof. Dr. C. Hesse PD Dr. P. H. Lesky Dipl. Math. D. Zimmermann Msc. J. Köllner FAQ 3 Höhere Mathematik I 4..03 el, kyb, mecha, phys Vektorräume Vektorräume

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Erinnerung/Zusammenfassung zu Abbildungsmatrizen

Erinnerung/Zusammenfassung zu Abbildungsmatrizen Erinnerung/Zusammenfassung zu Abbildungsmatrizen Thomas Coutandin (cthomas@student.ethz.ch) 7. November 2 Abbildungsmatrizen Im Folgenden betrachten wir stets endlich dimensionale K-Vektorräume (K irgend

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr

Kapitel 15. Lösung linearer Gleichungssysteme

Kapitel 15. Lösung linearer Gleichungssysteme Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren

Mehr

Seminararbeit für das SE Reine Mathematik- Graphentheorie

Seminararbeit für das SE Reine Mathematik- Graphentheorie Seminararbeit für das SE Reine Mathematik- Graphentheorie Der binäre Rang, der symplektische Graph, die Spektralzerlegung und rationale Funktionen Vortrag am 24.01.2012 Heike Farkas 0410052 Inhaltsverzeichnis

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

1.9 Eigenwerte und Eigenvektoren

1.9 Eigenwerte und Eigenvektoren .9. EIGENWERTE UND EIGENVEKTOREN 0.9 Eigenwerte und Eigenvektoren Alles in diesem Abschnitt bezieht sich auf quadratische reelle oder komplexe n n-matrizen. Statt E n (n n-einheitsmatrix) wird kurz E geschrieben..

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Mathematik 1. Inhaltsverzeichnis. Prof. Dr. K. Melzer. karin.melzer@hs-esslingen.de http://www.hs-esslingen.de/de/mitarbeiter/karin-melzer.

Mathematik 1. Inhaltsverzeichnis. Prof. Dr. K. Melzer. karin.melzer@hs-esslingen.de http://www.hs-esslingen.de/de/mitarbeiter/karin-melzer. Mathematik 1 Prof Dr K Melzer karinmelzer@hs-esslingende http://wwwhs-esslingende/de/mitarbeiter/karin-melzerhtml Inhaltsverzeichnis 1 Matrizenrechnung 2 11 Matrixbegri 2 12 Spezielle Matrizen 3 13 Rechnen

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011 Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h

Mehr

Bestimmung einer ersten

Bestimmung einer ersten Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Statistische Methoden

Statistische Methoden Statistische Methoden Dr CJ Luchsinger 6 Repetition: Rechnen mit Matrizen für die Statistik Matrizen sind aus zwei Gründen für die Statistik sehr wichtig: Sie ermöglichen uns einerseits eine sehr elegante

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist. Matrizennorm Es seien r,s N Mit M r,s (R bezeichnen wir die Menge der reellen r s- Matrizen (also der linearen Abbildungen R s R r, und setze M s (R := M s,s (R (also die Menge der linearen Abbildungen

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Computer Vision: 3D-Geometrie D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Lochkamera Modell C Projektionszentrum, Optische Achse, Bildebene, P Hauptpunkt (optische Achse kreuzt die Bildebene),

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

7. Ringe und Körper. 7. Ringe und Körper 49

7. Ringe und Körper. 7. Ringe und Körper 49 7. Ringe und Körper 49 7. Ringe und Körper In den bisherigen Kapiteln haben wir nur Gruppen, also insbesondere nur Mengen mit lediglich einer Verknüpfung, untersucht. In der Praxis gibt es aber natürlich

Mehr

3.1. Die komplexen Zahlen

3.1. Die komplexen Zahlen 3.1. Die komplexen Zahlen Es gibt viele Wege, um komplexe Zahlen einzuführen. Wir gehen hier den wohl einfachsten, indem wir C R als komplexe Zahlenebene und die Punkte dieser Ebene als komplexe Zahlen

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Vektorräume und Rang einer Matrix

Vektorräume und Rang einer Matrix Universität Basel Wirtschaftswissenschaftliches Zentrum Vektorräume und Rang einer Matrix Dr. Thomas Zehrt Inhalt:. Lineare Unabhängigkeit 2. Vektorräume und Basen 3. Basen von R n 4. Der Rang und Rangbestimmung

Mehr

Lösungen zum 3. Aufgabenblatt

Lösungen zum 3. Aufgabenblatt SS, Lineare Algebra Die Lösungen wurden erstellt von: Isabel Voigt, Vanessa Lamm und Matthias Rehder Hinweis: Eine Liste der zur Bearbeitung verwendeten Literatur ist unter www.mathematiwelt.com aufrufbar.

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

00. Einiges zum Vektorraum R n

00. Einiges zum Vektorraum R n 00. Einiges zum Vektorraum R n In diesem einleitenden Kapitel werden die in der LV Einführung in die mathematischen Methoden erwähnten Konzepte über Vektoren (im R 2 und R 3 ) im Rahmen des n-dimensionalen

Mehr

TECHNISCHE UNIVERSITÄT MÜNCHEN. Abzählbarkeit, Injektivität, Sürjektivität und Bijektivität

TECHNISCHE UNIVERSITÄT MÜNCHEN. Abzählbarkeit, Injektivität, Sürjektivität und Bijektivität TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik Prof. Dr. Friedrich Roesler Ralf Franken, PhD Max Lein Lineare Algebra 1 WS 26/7 en Blatt 4 13.11.26 Abzählbarkeit, Injektivität, Sürjektivität und Bijektivität

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14. Auswahl vorausgesetzter Vorkenntnisse

Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14. Auswahl vorausgesetzter Vorkenntnisse UNIVERSITÄT DES SAARLANDES FACHRICHTUNG 6.1 MATHEMATIK Dipl.-Math. Kevin Everard Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14 Auswahl vorausgesetzter Vorkenntnisse

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Kap 5: Rang, Koordinatentransformationen

Kap 5: Rang, Koordinatentransformationen Kap 5: Rang, Koordinatentransformationen Sei F : V W eine lineare Abbildung. Dann ist der Rang von F erklärt durch: rang F =dim ImF. Stets gilt rang F dimv, und ist dimv

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Eigenwerte und Eigenvektoren von Matrizen

Eigenwerte und Eigenvektoren von Matrizen Eigenwerte und Eigenvektoren von Matrizen Das Eigenwertproblem Sei A eine quadratische Matrix vom Typ m,m. Die Aufgabe, eine Zahl λ und einen dazugehörigen Vektor x zu finden, damit Ax = λx ist, nennt

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Übungen zum Ferienkurs Lineare Algebra WS 14/15

Übungen zum Ferienkurs Lineare Algebra WS 14/15 Übungen zum Ferienkurs Lineare Algebra WS 14/15 Linearkombinationen, Basen, Lineare Abbildungen 2.1 Lineare Unabhängigkeit Sind die folgenden Vektoren linear unabhängig? (a) 1, 2, 3 im Q Vektorraum R (b)

Mehr

Komplexe Zahlen. Kapitel 1. 1.1 Definitionen 18.4.01

Komplexe Zahlen. Kapitel 1. 1.1 Definitionen 18.4.01 Kapitel Komplexe Zahlen Motivation: die Gleichung x = hat offensichtlich keine reellen Lösungen, da x 0 für jedes reelle x gilt Um auch diese Gleichung lösen zu können, muß man neue Zahlen einführen: die

Mehr

ax 2 + bx + c = 0, (4.1)

ax 2 + bx + c = 0, (4.1) Kapitel 4 Komplexe Zahlen Wenn wir uns auf die reellen Zahlen beschränken, ist die Operation des Wurzelziehens (also die Umkehrung der Potenzierung) nicht immer möglich. Zum Beispiel können wir nicht die

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Optimalitätskriterien

Optimalitätskriterien Kapitel 4 Optimalitätskriterien Als Optimalitätskriterien bezeichnet man notwendige oder hinreichende Bedingungen dafür, dass ein x 0 Ω R n Lösung eines Optimierungsproblems ist. Diese Kriterien besitzen

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Extremwertverteilungen

Extremwertverteilungen Seminar Statistik Institut für Stochastik 12. Februar 2009 Gliederung 1 Grenzwertwahrscheinlichkeiten 2 3 MDA Fréchet MDA Weibull MDA Gumbel 4 5 6 Darstellung von multivariaten, max-stabilen Verteilungsfunktionen

Mehr

Vorlesung 12 22. bzw. 23. Januar 2014. Determinanten 1. Cramersche Regel

Vorlesung 12 22. bzw. 23. Januar 2014. Determinanten 1. Cramersche Regel Vorlesung 2 22 bzw 23 Januar 204 Lineares Gleichungssystem a a 2 b b 2 = F a a 2 a 3 b b 2 b 3 c c 2 c 3 = V V =< a, b c > c b a b a F V Seite 70 a x + a 2 x 2 + a 3 x 3 b = 0 < a x + a 2 x 2 + a 3 x 3

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

7 Die Determinante einer Matrix

7 Die Determinante einer Matrix 7 Die Determinante einer Matrix ( ) a11 a Die Determinante einer 2 2 Matrix A = 12 ist erklärt als a 21 a 22 det A := a 11 a 22 a 12 a 21 Es ist S 2 = { id, τ}, τ = (1, 2) und sign (id) = 1, sign (τ) =

Mehr

Einführung in die Tensorrechnung

Einführung in die Tensorrechnung 1. Definition eines Tensors Tensoren sind Grössen, mit deren Hilfe man Skalare, Vektoren und weitere Grössen analoger Struktur in ein einheitliches Schema zur Beschreibung mathematischer und physikalischer

Mehr

Parametrische Statistik

Parametrische Statistik Statistik und ihre Anwendungen Parametrische Statistik Verteilungen, maximum likelihood und GLM in R Bearbeitet von Carsten F. Dormann 1. Auflage 2013. Taschenbuch. xxii, 350 S. Paperback ISBN 978 3 642

Mehr

Mathematik II Frühjahrssemester 2013

Mathematik II Frühjahrssemester 2013 Mathematik II Frühjahrssemester 2013 Prof Dr Erich Walter Farkas Kapitel 7: Lineare Algebra 73 Ergänzungen Prof Dr Erich Walter Farkas Mathematik I+II, 73 Ergänzungen 1 / 17 1 Reguläre Matrizen Prof Dr

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

LINEARE ALGEBRA Ferienkurs. Hanna Schäfer Philipp Gadow

LINEARE ALGEBRA Ferienkurs. Hanna Schäfer Philipp Gadow LINEARE ALGERA Ferienkurs Hanna Schäfer Philipp Gadow INHALT Eigenwerte und Eigenvektoren. asiswechsel.2 Eigenwertgleichung 2.3 Diagonalisierbarkeit 5.4 Trigonalisierung 8.5 Zusatzmaterial 8 Aufgaben 9

Mehr

Monte-Carlo Simulation

Monte-Carlo Simulation Monte-Carlo Simulation Sehr häufig hängen wichtige Ergebnisse von unbekannten Werten wesentlich ab, für die man allerhöchstens statistische Daten hat oder für die man ein Modell der Wahrscheinlichkeitsrechnung

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

6 Symmetrische Matrizen und quadratische Formen

6 Symmetrische Matrizen und quadratische Formen Mathematik für Ingenieure II, SS 9 Freitag. $Id: quadrat.tex,v.5 9//5 ::59 hk Exp $ $Id: orthogonal.tex,v.4 9// ::54 hk Exp $ $Id: fourier.tex,v. 9// :: hk Exp $ Symmetrische Matrizen und quadratische

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Dr. C.J. Luchsinger 2 Zufallsgrössen Literatur Kapitel 2 * Statistik in Cartoons: Kapitel 4 * Krengel: 3.1 und 3.2 in 3 und (Honours Program) 10 sowie 11.1, 11.2 und 11.3 in

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Lineare Algebra (Mathe I) für Wirtschaftsinformatiker; Zusammenfassung

Lineare Algebra (Mathe I) für Wirtschaftsinformatiker; Zusammenfassung Lineare Algebra (Mathe I) für Wirtschaftsinformatiker; Zusammenfassung Artur Trzewik sw562@uni-essen.de v1., 26.3.1998 korrigiert 16. Februar 2 Zusammenfassung Warnung: für die Richtigkeit der Definitionnen

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr