Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Größe: px
Ab Seite anzeigen:

Download "Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin"

Transkript

1 Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 58

2 Angewandte Multivariate Statistik Correspondence Analysis Motivation Korrespondenzanalyse Kategoriale Skalen Haltungen, Meinungen und demografische Charakteristiken, z. B. Geschlecht, Rasse, soziale Schicht öffentliche Gesundheit, Ökologie, Bildung, Marketing Qualitätskontrolle: Wie gut eine Fabrik aufgestellt ist, wie gut ein Produkt schmeckt oder wie einfach ein Arbeiter eine bestimmte Aufgabe findet. Ostap Okhrin 2 of 58

3 Angewandte Multivariate Statistik Correspondence Analysis Motivation Zweiweg-Kontingenztabelle Variable Z hat I Level Variable Y hat J Level Dies ergibt IJ Kombinationen von Z und Y Zähle die Rückmeldungen (Z, Y ) und stelle diese Information in einer rechteckigen Tabelle mit I Zeilen und J Spalten dar. In jeder Zelle ist die Anzahl der Subjekte mit der Kombination von Z und Y gegeben. Ostap Okhrin 3 of 58

4 Example X = Finanz Energie Hightech Frankfurt Berlin München multivariate Verteilung: π ij = P(Z = i, Y = j) ist die Wahrscheinlichkeit, dass Z und i und gleichzeitig Y und j gleich sind. Randverteilung von Z: π i - Wahrscheinlichkeit, dass Z und i gleich sind. Randverteilung von Y : π j - Wahrscheinlichkeit, dass Y und j gleich sind.

5 Angewandte Multivariate Statistik Correspondence Analysis Motivation Unabhängigkeit Die Assoziation zwischen Z und Y ist durch ihre multivariate Verteilung gegeben: die cdtl-verteilung von Z für gegebenes Y oder die cdtl-verteilung von Y für gegebenes Z. Z und Y sind unabhängig, falls für alle i und j: π i j = π ij /π j = π i, π j i = π ji /π i = π j, or π ij = π i π j. π ij bezeichnet die unbekannten wahren Wahrscheinlichkeiten. Die relativen Häufigkeiten der Stichprobe werden durch p ij = x ij /x abgebildet, wobei x ij die absoluten Häufigkeiten und x die Stichprobengröße ist. Ostap Okhrin 5 of 58

6 Angewandte Multivariate Statistik Correspondence Analysis Motivation Unabhängigkeitsmaße Vergleiche die Rückmeldung zweier Zeilen (Wahrscheinlichkeit, dass Z = 1): 1. Differenz von Proportionen π 1i π 1h 2. Relatives Risiko π 1i /π 1h 3. Odds-Verhältnis (π 11 /π 12 )/(π 21 /π 22 ) Unabhängigkeit impliziert, dass die Differenz der Proportionen = 0, relatives Risiko = 1, und Odds-Verhältnis = 1. Ostap Okhrin 6 of 58

7 Angewandte Multivariate Statistik Correspondence Analysis Motivation Stichprobenverteilungen Die Tests sind oft, jedoch nicht immer, identisch für alle Arten von Stichproben. Poisson-Sampling (alles ist zufällig) Multinomial-Sampling (Gesamtzahl der beobachteten Subjekte ist fest) Unabhängiges Multinomial-Sampling (Anzahl der Subjekte ist fest für jede Zeile oder Spalte) Ostap Okhrin 7 of 58

8 Angewandte Multivariate Statistik Correspondence Analysis Motivation Maximum-Likelihood-Schätzungen Abhängig von der Stichprobenverteilung erhalten wir unterschiedliche Likelihood-Funktionen (Poisson- oder multinomiale Verteilungen). Die ML-Schätzung von π ij ist gegeben durch die relative Häufigkeit p ij = x ij /x. Unter Unabhängigkeit sind die ML-Schätzungen der Zellenwahrscheinlichkeiten gegeben durch ˆπ ij = p i p j = (x i x j )/x 2. Mit Algebra erhalten wir den Likelihood-Ratio Test für Unabhängigkeit. Ostap Okhrin 8 of 58

9 Angewandte Multivariate Statistik Correspondence Analysis Motivation Likelihood-Ratio Test für Unabhängigkeit Der Likelihood-Ratio Test für Unabhängigkeit ist identisch zu G = 2 log Λ = 2 log i x x j (x i x j ) x ij i j x x ij ij = 2 I i=1 j=1 J log(x ij /E ij ), E ij def = (x i x j )/x (1) Die Theorie ergibt, dass 2 log Λ unter Annahme der Nullhypothese eine asymptotische χ 2 -Verteilung mit (I 1)(J 1) Freiheitsgraden hat. Ostap Okhrin 9 of 58

10 Angewandte Multivariate Statistik Correspondence Analysis Motivation Pearson Chi-Quadrat Test Mit den Schätzern für die erwarteten Häufigkeiten E ij t = I J (x ij E ij ) 2 i=1 j=1 E ij. (2) Unter Annahme der Nullhypothese ist die Teststatistik eine χ 2 -Verteilung mit (I 1)(J 1) Freiheitsgraden. Ostap Okhrin 10 of 58

11 Angewandte Multivariate Statistik Correspondence Analysis Motivation Idee des Beweises: Nehme an, dass x ij unabhängige Poissongrößen sind. E [x ij ] = e ij. Die standardisierten z ij = (x ij e ij )/ e ij haben eine asymptotische N(0, 1), deshalb gehorcht z 2 ij einer asymptotischen χ 2 -Verteilung mit IJ 1 Freiheitsgraden. Man ersetze e ij durch ihre Schätzungen E ij. Dann erhält man die Pearson χ 2 -Statistik t, siehe (2), und verliert (I 1) + (J 1) Freiheitsgrade. Ostap Okhrin 11 of 58

12 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example (Augen-Haar-Beispiel) Das klassischste aller Beispiele. EYE/HAIR black brown red blond SUM d.brown l.brown green blue SUM Ostap Okhrin 12 of 58

13 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Originaltabelle und -werte unter erwarteter Unabhängigkeit. [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] Ostap Okhrin 13 of 58

14 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Beiträge zur Chi-Quadrat-Statistik und ihre Summe > (E - X) ^ 2 / E [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] > Chi2 [1] Pearson Chi-Quadrat t hat χ 2 (9) cdf kritischer Wert (α = 0.05) ist Ostap Okhrin 14 of 58

15 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example (Fahrzeugdaten) X 3 : Reparaturen 1978 (5 beste,..., 1 schlechteste) X 4 : Reparaturen 1977 X 13 : Unternehmenssitz (1 US, 2 Japan, 3 Europa) Fragestellung: Gibt es einen Zusammenhang zwischen den Unternehmenssitzen und Reparaturen? Ostap Okhrin 15 of 58

16 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example > X3X4 [,1] [,2] [,3] [,4] [,5] [1,] [2,] [3,] [4,] [5,] > Chi2_X3X4 [1] Kritischer Wert ist (α = 0.05) Ostap Okhrin 16 of 58

17 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example > X3X13 [,1] [,2] [,3] [1,] [2,] [3,] [4,] [5,] > Chi2_X3X13 [1] Kritischer Wert ist (α = 0.05) Ostap Okhrin 17 of 58

18 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example > X4X13 [,1] [,2] [,3] [1,] [2,] [3,] [4,] [5,] > Chi2_X4X13 [1] Kritischer Wert ist (α = 0.05) Ostap Okhrin 18 of 58

19 Angewandte Multivariate Statistik Correspondence Analysis Motivation Korrespondenzanalyse Die Unabhängigkeitstests mit Kontingenztabellen liefern keine Informationen über die Struktur der Abhängigkeit der Daten in der Tabelle. Wir können feststellen, dass eine Abhängigkeit besteht, es ist jedoch unmöglich zu sagen, wie die Zeilenkategorien diejenigen der Spalten beeinflussen. Das Ziel der Korrespondenzanalyse ist es, Zusammenhänge (Assoziation) zwischen zwei diskreten Variablen durch die Bestimmung der Zeilen- und Spaltenindizes aus der Kontingenztabelle zu untersuchen. Ostap Okhrin 19 of 58

20 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Die französischen Bachelordaten: Region (z.b. Ile-de-France) und Fächer (z.b. Philosophie) Frage: Ziehen Studierende in einigen Regionen bestimmte Fächer vor oder umgekehrt? Anteil der acht Fächer für die Lorraine-Region: A B C D E F G H Ostap Okhrin 20 of 58

21 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Anteil der acht Fächer für alle Regionen. A B C D E F G H Lorraine scheint in den Fächern E, F, G über- und in den Fächern A, B, C, D unterrepräsentiert zu sein. Entwicklung eines Index für die Region, sodass die Über- und Unterrepräsentation mit einiger einzigen Zahl gemessen werden kann. Wie können wir die Regionen gewichten, sodass wir sehen können, in welchen Regionen welche Fächer präferiert werden? Ostap Okhrin 21 of 58

22 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example n Typen von Unternehmen und p Orte. Kontingenztabelle x 11 x 12 x 1p x 1 x 21 x 22 x 2p x x n1 x n2 x np x n x 1 x 2 x p x Ostap Okhrin 22 of 58

23 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Nehme an, dass n = 3, p = 3 und X = Finanz Energie High-Tech Frankfurt Berlin München Ostap Okhrin 23 of 58

24 Angewandte Multivariate Statistik Correspondence Analysis Motivation Example Ortsindex: s j n i=1 r i x ij x j r = (r 1,..., r n ) mit dem (Unternehmens-)Gewichtsvektor Unternehmensindex: p mit dem (Orts-)Gewichtsvektor s = ( s1,..., s p r i sj j=1 x ij x i Finde gleichzeitig r = (r 1,..., r n ) und s = (s 1,..., s p ), sodass die Proximität (Abstand) zwischen r i und s j eine positive oder negative Assoziation zwischen der i ten Zeile und der j ten Spalte. ) Ostap Okhrin 24 of 58

25 Angewandte Multivariate Statistik Correspondence Analysis Motivation Zusammenfassung: Korresponzanalyse Das Ziel der Korrespondenzanalyse ist es, Indizes zu entwickeln, die Zusammenhänge zwischen den Variablen in einer Kontingenztabelle zeigen. Die gemeinsame Repräsentation dieser Indizes deckt Zusammenhänge zwischen den Variablen auf. Ostap Okhrin 25 of 58

26 χ 2 -Zerlegung χ 2 -Teststatistik für Unabhängigkeit in einer zweidimensionalen Kontigenztabelle n p t = (x ij E ij ) 2 /E ij i=1 j=1 wobei E ij (1) die erwartete Häufigkeit in Zelle (i, j) unter Unabhängigkeit ist: E ij = x i x j x Ostap Okhrin 26 of 58

27 Mit der Unabhängigkeitshypothese: t gehorcht χ 2 (n 1)(p 1) - Verteilung. Die Abweichung von der Unabhängigkeit kann mittels der Matrix C bestimmt werden, deren Elemente definiert sind durch Notation c ij = (x ij E ij )/E 1/2 ij (3) A = diag(x i ), B = diag(x j ) Die Randzeilen und -spalten-häufigkeiten sind a = A1 n, b = B1 n. C b = 0, C a = 0 Ostap Okhrin 27 of 58

28 Singulärwertzerlegung (SWZ) von C R = rank(c) min(n 1, p 1) Λ = diag(λ 1/2 1,..., λ 1/2 R ) λ j Erwartungswert von CC. c ij = C = ΓΛ. R k=1 λ 1/2 k γ ik δ jk tr(cc ) = R λ k = 1 i cij 2 = t. j SWZ zerlegt χ 2 -Wert und nicht die Totalvarianz. Ostap Okhrin 28 of 58

29 Erinnerung: Kapitel Zerlegung von Datenmatrizen durch Faktoren. Dualitätsrelationen: δ k = λ 1 2 k C γ k γ k = λ 1 2 k Cδ k Projektionen auf Zeilen und Spalten: Cδ k = λ k γ k C γ k = λ k δ k Folglich haben die Eigenvektoren δ k und γ k fast dieselben Eigenschaften wie die Indizes r k und s k, die wir erhalten möchten. Ostap Okhrin 29 of 58

30 Angenommen λ 1 ist vorherrschend, sodass c ij λ 1/2 1 γ i1 δ j1. Die Matrix der Abweichungen von der Unabhängigkeit kann durch ein Paar von Eigenvektoren beschrieben werden. Ähnlich wie in PCA oder kanonischer Korrelationsanalyse korrespondieren die Eigenwerte zur erklärten Varianz. Oft sind λ 1, λ 2 vorherrschend Anteil von χ 2, der durch γ 1, γ 2 und δ 1, δ 2 erklärt wird, ist groß. Ostap Okhrin 30 of 58

31 Definiere und beobachte r k = A 1/2 Cδ k s k = B 1/2 C γ k r k = 1 λk A 1/2 CB 1/2 s k s k = 1 λk B 1/2 C A 1/2 r k r k und s k werden Zeilen- bzw. Spaltenfaktor bezeichnet. Ostap Okhrin 31 of 58

32 Eigenschaften der Faktoren und r k = 1 x r k a = 0 s k = 1 x s k b = 0 Var(r k ) = λ k x = Var(s k ) λ k / i λ i ist der Anteil der Varianz, die durch Faktor k erklärt wird. C a (i, r k ) = x i r 2 ki /λ k ist der Beitrag von Zeile i zur Varianz von (Zeilen-)Faktor r k. Ostap Okhrin 32 of 58

33 Example In Belgien wurde eine Umfrage durchgeführt, um Menschen, die regelmäßig Zeitschriften lesen, zu erfassen. Die Antworten wurden bezüglich der Wohnregionen und der Sprache der Zeitschriften (Flämisch, Französisch oder beides) klassifiziert. Es gibt 10 Regionen: Antwerpen, Westflandern, Ostflandern, Hainant, Liège, Limburg, Luxemburg, Flämisch-Brabant, Wallon-Brabant, Brüssel. Die Sprache der Zeitschrift wird durch den ersten Buchstaben angegeben: v: Flämisch (Vlaams) f: Franzözisch (Francais) b: beide Insgesamt gibt es 15 Zeitschriften. Ostap Okhrin 33 of 58

34 λ j % Varianz kumuliert % Repräsentationen in zwei Dimensionen werden zufriedenstellend sein. (81 % der Varianz). Ostap Okhrin 34 of 58

35 C a (i, r 1 ) C a (i, r 2 ) C a (i, r 3 ) v a v b v c v d v e f f f g f h f Total Absoluter Beitrag des Zeilenfaktors r k Ostap Okhrin 35 of 58

36 C a (j, s 1 ) C a (j, s 2 ) C a (j, s 3 ) brw bxl anv brf foc for hai lig lim lux Total Absoluter Beitrag des Spaltenfaktors Ostap Okhrin 36 of 58

37 Example Die Tabelle zeigt beispielsweise die wichtige Rolle von Antwerpen und der Zeitschrift vb für die Bestimmung der Varianz beider Faktoren. Die erste Achse zeigt klar die Unterschiede zwischen den drei Teilen von Belgien, die zweite Achse zeigt eine höhere Dispersion zwischen den flämischen Regionen als in den französischsprachigen Regionen. Ostap Okhrin 37 of 58

38 Correspondence Analysis Journal Data 0.5 ve lim foc vc brf vd r 2, s 2 0 for va vm bj bl bk bxl ff fh hai fn fi brw fg lig fo lux -0.5 anv -1 vb r, s 1 1 Abbildung: Projektion der Zeilen (die 15 Zeitschriften) und der Spalten (die Regionen) Figure 14.1: Projection of rows (the 15 newspapers) and columns (the 10 regions) MVAcorrjourn C a (i, r 1 ) C a (i, r 2 ) C a (i, r 3 ) v a Ostap Okhrin 38 of 58

39 Example (Interpretation) Hohe Assoziation zwischen den Regionen und der Art der Zeitschrift. Insbesondere wird vb (Gazet of Antwerp) in Antwerpen gelesen (Extreme im Graph). Die Punkte auf der linken Seite gehören zu Flandern, während diejenigen auf der rechten Seite zur Wallonischen Region gehören. Es sei angemerkt, dass Wallon-Brabant und Flämisch-Brabant nicht weit von Brüssel entfernt sind. Brüssel ist zentral und eher durchschnittlich. Ostap Okhrin 39 of 58

40 Example Wende die Korrespondenz-Analyse auf französische Bachelordaten an. A: Philosophie, B: Ökonomie und soziale Wissenschaften, C: Mathematik und Physik, D: Mathematik und Naturwissenschaften, E: Mathematik und Technik, F: Industrietechnik, G: Ökonomietechnik, H: Computertechnik. Die Daten wurden in 22 Regionen (bezeichnet durch Codes aus 4 Buchstaben) erfasst. Es gibt Beobachtungen in einer 22 8 Kontingenztabelle. Die Analyse wurde zweimal (mit und ohne Korsika), da die Grafik andeutete, dass Korsika ein Ausreißer ist. Ostap Okhrin 40 of 58

41 Angewandte Multivariate Statistik lux Correspondence Analysis Dekomposition Total Table 14.3: Absolute contributions of column factors s k. Baccalaureat Data 0.5 cors r 2,s laro ildf B C pcha aqui A prov bnor payl midi D cham G frac pica cent auve bret rhoa limo hnor H nopc bour lorr E alsa F r 1,s 1 Abbildung: Korrespondenzanalyse mit Korsika Figure 14.2: Correspondence analysis including Corsica MVAcorrbac eigenvalues λ percentage of variances cumulated percentage Ostap Okhrin of 58

42 Correspondence Analysis Baccalaureat Data 0.1 alsaf nopc C 0.05 lorre bour H hnor limo rhoa bret ildf B r 2,s frac G auve cent pica cham D midi Aprov bnor payl laro aqui pcha r,s 1 1 Abbildung: Korrespondenzanalyse ohne Korsika Figure 14.3: Correspondence analysis excluding Corsica. MVAcorrbac eigenvalues λ percentage of variances cumulated percentage Ostap Okhrin of 58

43 Example Eigenwerte λ % Varianzen % kumulierte Varianz Eigenwerte mit Korsika. Ostap Okhrin 43 of 58

44 Example Eigenwerte λ % Varianzen % kumulierte Varianz Eigenwerte ohne Korsika. Ostap Okhrin 44 of 58

45 Example Region r 1 r 2 r 3 C a(i, r 1 ) C a(i, r 2 ) C a(i, r 3 ) ILDF CHAM PICA HNOR CENT BNOR BOUR NOPC LORR ALSA FRAC PAYL BRET PCHA AQUI MIDI LIMO RHOA AUVE LARO PROV Ostap Okhrin 45 of 58

46 Example s 1 s 2 s 3 C a (j, s 1 ) C a (j, s 2 ) C a (j, s 3 ) A B C D E F G H Ostap Okhrin 46 of 58

47 Example (Interpretation) Die Bachelors B auf der einen und F auf der anderen Seite sind hauptsächlich verantwortlich für die Variation auf der ersten Achse. Die zweite Achse charakterisiert einen Widerspruch zwischen Bachelors A und C. Bezüglich der Regionen spielt Ile de France eine wichtige Rolle für jede Achse. Auf der ersten Achse ist sie gegensinnig zu Lorraine und Alsace, während sie auf der zweiten Achse zu Poitou-Charentes und Aquitaine widersprüchlich ist. Rechts sind die klassischen Bachelors und links eher die technischorientierten. Die Regionen auf der linken Seite haben folglich größere Gewichte im Bereich der technischorientierten Bachelors. Ostap Okhrin 47 of 58

48 Example Bemerke weiterhin, dass der Großteil der südlichen Regionen von Frankreich im unteren Bereich der Grafik, in der Nähe zur Bachelor A, konzentriert sind. Schlussendlich wird die dritte Achse durch Bachelor D (negatives Vorzeichen) und ebenso, in einem geringeren Ausmaß, durch Bachelor E (negativ) (Im Gegensatz zu A (positiv)) dominiert. Die dominierenden Regionen sind HWOR (positiv) (im Gegensatz zu NPAC (negatives Vorzeichen)). Beispielsweise ist HWOR arm an Bachelorabschlüssen D. Ostap Okhrin 48 of 58

49 Example US-Kriminalitätsdaten: Für ein Jahr (1985) wurden die gemeldeten Kriminalitätsfälle in den 50 Bundesstaaten aufgezeichnet. 7 Kategorien wurden unterschieden: Mord, Vergewaltigung, Raub, Überfall, Einbruch, Diebstahl and Autodiebstahl. λ j % Varianz kumulierte % Varianz Ostap Okhrin 49 of 58

50 Table 14.8: Eigenvalues and explained proportion of variance, Example US Crime Data mur 0.4 MS NC ass AR AL r 2,s ND SD ID WY MT IA UT WI SCrap VW TN FL LA VT GA TXbur ME NMOK MI OR VA MD KS WA AZ KY MO lar CA NH CO DE NV NE IL PA AK INCT OH MN NJ HI NY rob -0.2 RI aut MA r,s 1 1 Abbildung: Projektion von Zeilen (50 Bundesstaaten) und Spalten (die 7 Figure 14.4: Projection of rows (the 50 states) and columns (the 7 crime categories). Kategorien) MVAcorrcrime Looking at the absolute contributions (not reproduced here, see Exercise 14.6), it appears that the first axis is robbery (+) versus larceny (-) and auto-theft (-) axis and that the second Ostap Okhrin 50 of 58

51 Example (Interpretation) Es scheint so, dass auf der ersten Achse Raub (+) den Diebstählen (-) und den Autodiebstähle (-) gegenübersteht. Der zweite Faktor vergleicht Überfälle (-) mit Autodiebstählen. Die dominierenden Regionen der ersten Achse sind die nordöstlichen Bundesstaaten MA (+) und NY (+), verglichen mit den westlichen Bundesstaaten WY (-) und ID (-). Auf der zweiten Achse besteht ein Widerspruch zwischen den nördlichen Bundesstaaten (MA (+) und RI (+)) zu den südlichen Bundesstaaten AL (-), MS (-) und AR (-). Ostap Okhrin 51 of 58

52 Example (Arten von Unternehmen) Erinnerung: Die Zeilen entsprechen den Finanz-, Energie, Hightech-Branchen und Spalten den Orte Frankfurt, Berlin und München Wir wollen die Zeilen- und Spaltenindizes, sodass s j n r i p j=1 s j x ij x i. i=1 r i x ij x j und Ostap Okhrin 52 of 58

53 Example Companies HiTech Munich Finance Frankfurt Berlin Energy Abbildung: Beispiele für die Arten von Unternehmen. Ostap Okhrin 53 of 58

54 Biplots Biplots ist eine niedrigdimensionale Darstellungsform für eine Datenmatrix X, wobei die Zeilen und Spalten durch Punkte repräsentiert werden. Beispiel (10 5) Datenmatrix X Finde 10 Zeilenpunkte q i R k, k < p, i = 1,..., 10 und 5 Spaltenpunkte t j R k, j = 1,..., 5, sodass die 50 Skalarprodukte zwischen den Zeilen- und Spaltenvektoren angenähert die 50 korrespondieren Elemente der Datenmatrix ergeben. x ij = q i + ε ij Was ist die Verbindung zwischen der Korrespondenzanalyse und Biplots? Ostap Okhrin 54 of 58

55 Wiederherstellungsformel Erinnerung: (3) und überprüfe x ij = E ij 1 + R k=1 λ 1 2 k γ ik δ jk xi x j x Daraus erhalten wir Unterschiede zwischen den Zeilenprofilen und durchschnittlichen Zeilenprofilen. ( xij x ) j = x i x R k=1 ( ) λ 1 2 x j k γ ik δ jk x i x Der entsprechende Ausdruck gilt ebenso für die Spaltenprofile. Ostap Okhrin 55 of 58

56 Falls λ 1 λ 2 λ 3... gilt, können die Summen durch K-Terme approximiert werden: ( xij x ) j = x i x ( xij x ) i = x j x K k=1 K k=1 ( x j λk x s kj ) r ki + ε ij ( x i λk x r ki ) s kj + ε ij. Dabei entsprechen ε ij und ε ij den Fehlertermen. Das zeigt die Unterschiede zwischen den Zeilenprofilen und den mittleren Profilen. Ostap Okhrin 56 of 58

57 Zusammenfassung: Korrespondenzanalyse Korrespondenzanalyse ist eine faktorielle Zerlegung von Kontigenztabellen. Die p-dimensionalen Individuen und die n-dimensionalen Variablen können durch deren Projektionen auf Räume mit geringerer Dimension grafisch repräsentiert werden. Die Korrespondenzanalyse liefert eine grafische Darstellung des Assoziationsmaßes c ij = (x ij E ij ) 2 /E ij. Ostap Okhrin 57 of 58

58 Zusammenfassung: Korrespondenzanalyse Die praktische Berechnung besteht aus einer spektralen Zerlegung von A 1 X B 1 X und B 1 X A 1 X, deren erste p Eigenvektoren identisch sind. Die grafische Darstellung ist der Plot von λ 1 r 1 vs. λ 2 r 2 und λ 1 s 1 vs. λ 2 s 2. Beide Plots können im selben Graph dargestellt werden, wobei die Orientierung der Eigenvektoren r i, s j berücksichtigt wird. Ostap Okhrin 58 of 58

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten Frank Konietschke Abteilung für Medizinische Statistik Universität Göttingen 1 Übersicht Beispiele CGI (repeated measures) γ-gt

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 60 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen

Mehr

Darstellung der Rotation 2,85 / 0,08 1 / 3,5 3,62 / 0,40. α = 67,76 -1 / -1 -2,08 / 0,23-1,30 / 0,55

Darstellung der Rotation 2,85 / 0,08 1 / 3,5 3,62 / 0,40. α = 67,76 -1 / -1 -2,08 / 0,23-1,30 / 0,55 Darstellung der Rotation 2,85 /,8 1 / 3,5 3,62 /,4 α = 67,76-1 / -1-2,8 /,23-1,3 /,55 Material für die Übungen zur Hauptkomponenten- und Faktoranalyse Principal Components Analysis Analysis Summary Data

Mehr

5 Lineare Algebra (Teil 3): Skalarprodukt

5 Lineare Algebra (Teil 3): Skalarprodukt 5 Lineare Algebra (Teil 3): Skalarprodukt Der Begriff der linearen Abhängigkeit ermöglicht die Definition, wann zwei Vektoren parallel sind und wann drei Vektoren in einer Ebene liegen. Daß aber reale

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr? 1. Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr? A. Wenn n = 3 ist, sind mindestens zwei der drei Euler-Winkel einer Drehung kleiner oder gleich π. B. Wenn n = 2

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

BONUS MALUS SYSTEME UND MARKOV KETTEN

BONUS MALUS SYSTEME UND MARKOV KETTEN Fakultät Mathematik und Naturwissenschaften, Fachrichtung Mathematik, Institut für Mathematische Stochastik BONUS MALUS SYSTEME UND MARKOV KETTEN Klaus D. Schmidt Ringvorlesung TU Dresden Fakultät MN,

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Der χ 2 -Test (Chiquadrat-Test)

Der χ 2 -Test (Chiquadrat-Test) Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

MLAN1 1 MATRIZEN 1 0 = A T =

MLAN1 1 MATRIZEN 1 0 = A T = MLAN1 1 MATRIZEN 1 1 Matrizen Eine m n Matrix ein rechteckiges Zahlenschema a 11 a 12 a 13 a 1n a 21 a 22 a 23 a 2n a m1 a m2 a m3 amn mit m Zeilen und n Spalten bestehend aus m n Zahlen Die Matrixelemente

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Kategorielle Daten. Seminar für Statistik Markus Kalisch Kategorielle Daten Markus Kalisch 1 Phase 3 Studie: Wirksamer als Placebo? Medikament Placebo Total Geheilt 15 9 24 Nicht geheilt 10 11 21 Total 25 20 45 Grundfrage: Sind Heilung und Medikamentengabe unabhängig?

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Stochastische Analysis. Zufallsmatrizen. Roland Speicher Queen s University Kingston, Kanada

Stochastische Analysis. Zufallsmatrizen. Roland Speicher Queen s University Kingston, Kanada Stochastische Analysis für Zufallsmatrizen Roland Speicher Queen s University Kingston, Kanada Was ist eine Zufallsmatrix? Zufallsmatrix = Matrix mit zufälligen Einträgen A : Ω M N (C) Was ist eine Zufallsmatrix?

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007 Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Einführung in die statistische Datenanalyse I

Einführung in die statistische Datenanalyse I Einführung in die statistische Datenanalyse I Inhaltsverzeichnis 1. EINFÜHRUNG IN THEORIEGELEITETES WISSENSCHAFTLICHES ARBEITEN 2 2. KRITIERIEN ZUR AUSWAHL STATISTISCH METHODISCHER VERFAHREN 2 3. UNIVARIATE

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Dozent: Volker Krätschmer Fakultät für Mathematik, Universität Duisburg-Essen, WS 2012/13 1. Präsenzübung Aufgabe T 1 Sei (Z 1,...,

Mehr

Einfache statistische Testverfahren

Einfache statistische Testverfahren Einfache statistische Testverfahren Johannes Hain Lehrstuhl für Mathematik VIII (Statistik) 1/29 Hypothesentesten: Allgemeine Situation Im Folgenden wird die statistische Vorgehensweise zur Durchführung

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Übungsaufgaben Lösungen

Übungsaufgaben Lösungen Übungsaufgaben Lösungen Stochastische Matrizen, Markov-Prozesse MV5.1 Eine N N-Matrix P heißt stochastisch, wenn ihre Matrixelemente nicht-negativ sind und alle Zeilensummen 1 ergeben. In Formeln: P ij

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand Dr. Richard Herrmann, Köln Beurteilung der biometrischen Verhältnisse in einem Bestand 1 Fragestellung Methoden.1 Vergleich der Anzahlen. Vergleich

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Anne Neumann 21. Oktober 2015 Anne Neumann EWF 21. Oktober 2015 1 / 9 Inhaltsverzeichnis 1 Grobgliederung 2 Grundlagen Anne Neumann EWF 21. Oktober 2015 2 / 9 Grobgliederung

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Seminararbeit für das SE Reine Mathematik- Graphentheorie

Seminararbeit für das SE Reine Mathematik- Graphentheorie Seminararbeit für das SE Reine Mathematik- Graphentheorie Der binäre Rang, der symplektische Graph, die Spektralzerlegung und rationale Funktionen Vortrag am 24.01.2012 Heike Farkas 0410052 Inhaltsverzeichnis

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

7 Die Determinante einer Matrix

7 Die Determinante einer Matrix 7 Die Determinante einer Matrix ( ) a11 a Die Determinante einer 2 2 Matrix A = 12 ist erklärt als a 21 a 22 det A := a 11 a 22 a 12 a 21 Es ist S 2 = { id, τ}, τ = (1, 2) und sign (id) = 1, sign (τ) =

Mehr

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit 121 Zwei kategoriale Merkmale Homogenität Unabhängigkeit 122 Beispiel Gründe für die Beliebtheit bei Klassenkameraden 478 neun- bis zwölfjährige Schulkinder in Michigan, USA Grund für Beliebtheit weiblich

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen, ob die in diesem Datensatz untersuchte

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Korrelation, Regression und Signifikanz

Korrelation, Regression und Signifikanz Professur Forschungsmethodik und Evaluation in der Psychologie Übung Methodenlehre I, und Daten einlesen in SPSS Datei Textdaten lesen... https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://d15cw65ipcts

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 10: Lineare Algebra

Effiziente Algorithmen und Datenstrukturen I. Kapitel 10: Lineare Algebra Effiziente Algorithmen und Datenstrukturen I Kapitel 10: Lineare Algebra Christian Scheideler WS 2008 19.02.2009 Kapitel 10 1 Überblick Notation Arithmetik auf großen Zahlen (Addition und Multiplikation)

Mehr

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Die Poisson-Verteilung Jianmin Lu RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Ausarbeitung zum Vortrag im Seminar Stochastik (Wintersemester 2008/09, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: In der Wahrscheinlichkeitstheorie

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Abhängigkeiten zwischen Großschäden

Abhängigkeiten zwischen Großschäden Abhängigkeiten zwischen Großschäden Holger Drees, Universität Hamburg I. Typen von Abhängigkeiten II. Modelle für abhängige Großschäden III. Fallstudie: Dänische Feuerversicherung I. Typen von Abhängigkeiten

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Mehrere kategoriale Merkmale

Mehrere kategoriale Merkmale Kapitel 3 Mehrere kategoriale Merkmale 3.1 Wie kann man zwei kategoriale Merkmale numerisch beschreiben? Kontingenztafeln (Kreuztabellen) erzeugt man wiederum mit table: R> CMMRCIAL

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Hauptkomponentenanalyse PCA

Hauptkomponentenanalyse PCA Hauptkoponentenanalyse PCA Die Hauptkoponentenanalyse (Principal Coponent Analysis, PCA) ist eine Methode zur linearen Transforation der Variablen, so dass: öglichst wenige neue Variablen die relevante

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

4. Relationen. Beschreibung einer binären Relation

4. Relationen. Beschreibung einer binären Relation 4. Relationen Relationen spielen bei Datenbanken eine wichtige Rolle. Die meisten Datenbanksysteme sind relational. 4.1 Binäre Relationen Eine binäre Relation (Beziehung) R zwischen zwei Mengen A und B

Mehr

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne Inhalt Versuchsplanung Faktorielle Versuchspläne Dr. Tobias Kiesling Allgemeine faktorielle Versuchspläne Faktorielle Versuchspläne mit zwei Faktoren Erweiterungen Zweiwertige

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Definiere x t = Y t Y t 1. Y t p+1 Sylvia Frühwirth-Schnatter Econometrics III WS 2012/13 1-84 Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Mehr