Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Ähnliche Dokumente
Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Prof. Dr. Fred Böker

Herleitung der Hauptkomponenten: Y t = (Y 1,..., Y m ) Erwartung:µ Kovarianz:Σ. Z j = a 1j Y 1 + a 2j Y a mj Y m = a t j Y

Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ

Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Übungen zu Multivariate Verfahren WS 2009/10 1. Aufgabe 1 Betrachten Sie die folgenden beiden Vektoren und Matrizen

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Exkurs: Eigenwertproblem

Mathematik 2 Probeprüfung 1

Wichtige Definitionen und Aussagen

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Probeklausur zu Mathematik 3 für Informatik

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Multivariate Verfahren

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Varianzvergleiche bei normalverteilten Zufallsvariablen

Lösung Übungsblatt 5

x t2 y t = 160, y = 8, y y = 3400 t=1

Multivariate Verteilungen. Gerhard Tutz LMU München

3.6 Eigenwerte und Eigenvektoren

D-CHAB Frühlingssemester 2017 T =

6.1 Definition der multivariaten Normalverteilung

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Statistisches Testen

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Tests einzelner linearer Hypothesen I

Statistik II. Statistische Tests. Statistik II

Mathematik für Biologen

Musterlösung. Modulklausur Multivariate Verfahren

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

x+ 2y = 2 3x+ 3y+ 3z = 0

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 12. Aufgabe Herbstsemester Dr. V. Gradinaru D. Devaud.

Aufgabe Summe Note Punkte

Kapitel 3 Schließende Statistik

KLAUSUR. Name: Vorname: Matr. Nr./Studiengang: Versuch Nr.:

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

T2 Quantenmechanik Lösungen 7

Lineare Algebra und Numerische Mathematik für D-BAUG

Statistik II. Weitere Statistische Tests. Statistik II

Chi-Quadrat-Verteilung

Klausur zur Vorlesung

Einführung in die Induktive Statistik: Testen von Hypothesen

3) Testvariable: T = X µ 0

Wahrscheinlichkeit und Statistik BSc D-INFK

Statistik II. Statistische Tests. Statistik II

3 Grundlagen statistischer Tests (Kap. 8 IS)

Test 2, Musterlösung. Name, Klasse: Semester: 1 Datum: Teil ohne Matlab

Lineare Algebra für Ingenieure

Klausur zu Statistik II

Institut für Analysis und Scientific Computing E. Weinmüller WS 2017

5. Spezielle stetige Verteilungen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Mathematik für Biologen

Die n-dimensionale Normalverteilung

Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Institut für Analysis und Scientific Computing E. Weinmüller WS 2017

Statistik I für Betriebswirte Vorlesung 14

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Klassifikation von Signifikanztests

eine vom Nullvektor verschiedene Lösung hat. r heisst in diesem Fall Eigenvektor der Matrix A zum Eigenwert λ.

Statistik I für Betriebswirte Vorlesung 14

So berechnen Sie einen Schätzer für einen Punkt

1 Beispiele multivariater Datensätze... 3

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

5.Tutorium Multivariate Verfahren

Statistik und Wahrscheinlichkeitsrechnung

Klausur DI/LA F 2006 LA : 1

Institut für Analysis und Scientific Computing E. Weinmüller WS 2017

Goethe-Universität Frankfurt

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Probeklausur zu Mathematik 2 für Informatik

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: k = n (n + 1) 2

2.3 Intervallschätzung

1. Nennen Sie den für das Merkmal X geeigneten Skalentyp und begründen Sie Ihre Antwort.

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: n (2k 1) = n 2.

Musterlösung. Modulklausur Multivariate Verfahren

Nachklausur zur Vorlesung

Forschungsstatistik I

Übungsblatt

Multivariate Verfahren

Tutorium Mathematik II, M Lösungen

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

47 Singulärwertzerlegung

Klausur zur Vorlesung

Klausur zur Vorlesung Lineare Algebra I

Mathematik für Biologen

Lineare Algebra: Determinanten und Eigenwerte

3 Matrizenrechnung. 3. November

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

Wahrscheinlichkeit und Statistik BSc D-INFK

Mathematik I für MB und ME

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Transkript:

Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min Hinweise: Bitte runden Sie alle Ergebnisse auf drei Dezimalstellen. Runden Sie jedoch nur die Endergenisse und keine Zwischenergebnisse. Wenn Sie bereits abgefragte Ergebnisse in folgenden Berechnungen benötigen, verwenden Sie jedoch bitte die gerundeten Ergebnisse. Im Anhang finden Sie Tabellen der benötigten Verteilungen. Aufgabe 1 (Punkte: 7) Betrachten Sie die Varianz-Kovarianz-Matrix Σ für den zufälligen Vektor Y t (Y 1, Y 2, Y 3 ). 1 0 0.8 0 1 0 0.8 0 1 Die Kovarianzmatrix hat als zweiten Eigenwert λ 2 1 und als dritten Eigenvektor a t 3 (1/ 2, 0, 1/ 2). a) (Punkte: 5) Bestimmen Sie die übrigen Eigenwerte und Eigenvektoren von Σ. Man erhält die Eigenwerte der Kovarianzmatrix, indem man die Gleichung det(σ λi) 0 löst, d.h. hier 1 λ 0 0.8 det 0 1 λ 0 0 0.8 0 1 λ Wir entwickeln die Matrix nach der 2. Zeile und erhalten 1 λ 0 0.8 ( ) 1 λ 0.8 det 0 1 λ 0 ( 1) 2+2 (1 λ) det 0.8 1 λ 0.8 0 1 λ (1 λ) [(1 λ) 2 0.8 2 ] Für den Ausdruck in der eckigen Klammer verwenden wir die dritte binomische Formel a 2 b 2 (a + b)(a b), d.h. für die Determinante ergibt sich (1 λ)(1 λ + 0.8)(1 λ 0.8) (1 λ)(1.8 λ)(0.2 λ) 0 λ 1 1.8 oder λ 2 1 oder λ 3 0.2. Die Eigenwerte sind also λ 1 1.8, λ 2 1 und λ 3 0.2.

2 Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011 6 Kreditpunkte, 90 min Der Eigenvektor der Kovarianzmatrix zum Eigenwert λ muss die Gleichung (Σ λi)a 0 erfüllen, d.h. zu jedem Eigenwert λ i gehört ein Vektor a i, der Eigenvektor genannt wird, für den gilt: Σa i λ i a i. In unserer Aufgabe ist also für λ 1 1.8 das Gleichungssystem (Σ 1.8I)a 1 0 zu lösen. 1 0 0.8 1.8 0 0 0.8 0 0.8 Da Σ 1.8I 0 1 0 0 1.8 0 0 0.8 0 ist das 0.8 0 1 0 0 1.8 0.8 0 0.8 zu lösende Gleichungssystem 0.8a 11 + 0.8a 13 0 0.8a 12 0 0.8a 11 0.8a 13 0 Die 2. Gleichung gilt genau dann, wenn a 12 0. Die 1. und 3. Gleichung gilt genau dann, wenn a 11 a 13. Die Eigenvektoren müssen normiert sein, d.h. a 2 11 + a 2 12 + a 2 13 1 a 2 11 + 0 2 + a 2 11 1 2a 2 11 1 a 11 ±1/ 2 Als Eigenvektoren zu λ 1 1.8 kommen also a t 1 (1/ 2, 0, 1/ 2) oder a t 1 ( 1/ 2, 0, 1/ 2) in Frage. Wir rechnen im weiteren Verlauf mit a t 1 (1/ 2, 0, 1/ 2). 1 0 0.8 1 0 0 0 0 0.8 Für λ 2 1 ist Σ λ 2 I Σ I 0 1 0 0 1 0 0 0 0. 0.8 0 1 0 0 1 0.8 0 0 Das für a t 2 (a 21, a 22, a 23 ) zu lösende Gleichungssystem ist 0.8a 23 0 0.8a 21 0 Das bedeutet a 21 a 23 0, während a 22 beliebig gewählt werden kann, d.h. jeder Vektor a t 2 (0, a 22, 0) ist eine Lösung des Gleichungssystem. Der 2. Eigenvektor muss normiert sein und außerdem orthogonal zu a 1. Aus der Normiertheit folgt: a 2 21 + a 2 22 + a 2 22 1 0 + a 2 22 + 0 1 a 22 ±1 Ortogonalität zu a 1 bedeutet: das innere Produkt der Vektoren a t 2 (0, ±1, 0) und at 1 (1/ 2, 0, 1/ 2) muss gleich 0 sein, d.h. 0 1/ 2 + a 22 0 + 0 1/ 2 0, was für beide Werte von a 22 ±1 erfüllt ist. Wir rechnen im weiteren Verlauf der Aufgabe mit a t 2 (0, 1, 0). Für λ 3 0.2 das Gleichungssystem (Σ 0.2I)a 3 0 zu lösen. 1 0 0.8 0.2 0 0 0.8 0 0.8 Da Σ 0.2I 0 1 0 0 0.2 0 0 0.8 0 ist das zu 0.8 0 1 0 0 0.2 0.8 0 0.8 lösende Gleichungssystem

Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 3 0.8a 31 + 0.8a 33 0 0.8a 32 0 0.8a 31 + 0.8a 33 0 Aus der 2. Gleichung folgt a 32 0. Aus der 1. oder 3. Gleichung folgt a 31 a 33, d.h jeder Vektor a t 3 (a 31, 0, a 31 ) ist eine Lösung des Gleichungssystems. Der Vektor muss normiert sein, d.h. a 2 31 + a 2 32 + a 2 33 a 2 31 + 0 + a 2 33 2a 2 31 1 a 31 ±1/ 2 In unserer Aufgabe ist also a t 3 (1/ 2, 0, 1/ 2) eine normierte Lösung, die auch orthogonal zu a t 1 (1/ 2, 0, 1/ 2) t und a t 2 (0, 1, 0) ist. b) (Punkte: 2) Hat die zu Σ gehörige Korrelationsmatrix andere Eigenwerte und Eigenvektoren? Begründen Sie Ihre Antwort. Die Eigenwerte und Eigenvektoren der Korrelationsmatrix sind identisch, da Σ mit der Korrelationensmatrix übereinstimmt, denn alle Varianzen sind 1. Aufgabe 2 (Punkte: 14) Die Kovarianzmatrix des zufälligen Vektors Y t (Y 1, Y 2, Y 3 ) sei 3 1 0 Σ 1 2 1 0 1 3 Sei A 1/ 3 1/ 2 1/ 6 1/ 3 0 2/ 6 1/ 3 1/ 2 1/ 6 a) (Punkte: 2) Bestimmen Sie die Kovarianzmatrix von Z A t Y. Var(Z) Var(A t Y ) A t ΣA 1/ 3 1/ 3 1/ 3 1/ 2 0 1/ 2 1/ 6 2/ 6 1/ 6 4 0 0 0 3 0 0 0 1 3 1 0 1 2 1 0 1 3 1/ 3 1/ 2 1/ 6 1/ 3 0 2/ 6 1/ 3 1/ 2 1/ 6

4 Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011 6 Kreditpunkte, 90 min b) (Punkte: 1) Die Matrix A enthält in den Spalten die normierten und orthogonalen Eigenvektoren von Σ. Geben Sie möglichst unter Benutzung des Ergebnisses aus a) die Eigenwerte von Σ an. In a) wurde die Kovarianzmatrix der Hauptkomponenten berechnet. Die Varianzen stimmen mit den Eigenwerten überein. Daher ist λ 1 4, λ 2 3 und λ 3 1. c) (Punkte: 2) Welcher Anteil der Variation wird durch die einzelnen Hauptkomponenten erklärt? Wie viele Hauptkomponenten würden Sie verwenden, um mindestens 85% der Variation durch die verwendeten Hauptkomponenten zu erklären? Die 1. Hauptkomponente erklärt den Anteil λ 1 /(λ 1 +λ 2 +λ 3 4/8 1/2 0.5 50% Die 2. Hauptkomponente erklärt den Anteil λ 2 /(λ 1 + λ 2 + λ3 3/8 0.375 37.5% Die 3. Hauptkomponente erklärt den Anteil λ 3 /(λ 1 + λ 2 + λ3 1/8 0.125 12.5% Damit wird 50% der Variation durch die erste Hauptkomponente erklärt und 87.5% durch die beiden ersten Hauptkomponenten, d.h. man sollte die beiden ersten Hauptkomponenten verwenden, um mindestens 85% der Variation zu erklären. d) (Punkte: 1) Schreiben Sie die beiden ersten Hauptkomponeneten Z 1 und Z 2 als Linearkombination der ursprünglichen Variablen Y 1, Y 2, Y 3. Z 1 a t 1Y 1 3 Y 1 1 3 Y 2 + 1 3 Y 3 1 3 (Y 1 Y 2 + Y 3 ) Z 2 a t 2 Y 1 2 Y 1 + 0 Y 2 1 2 Y 3 1 2 (Y 1 Y 3 ) e) (Punkte: 1) Die gegebene Kovarianzmatrix wurde in R mit Sigma bezeichnet. Mit dem folgenden Befehl wurde in R die Korrelationsmatrix berechnet. > RHO<-cov2cor(Sigma) > RHO [1,] 1.0000000-0.4082483 0.0000000 [2,] -0.4082483 1.0000000-0.4082483 [3,] 0.0000000-0.4082483 1.0000000 Erläutern Sie, wie man die Zahlen 0.4082483 erhält. Die gegebenen Kovarianzen σ ij 1 sind durch das Produkt der Standardabweichungen σ i σ j zu dividieren. Das Produkt der Standardabweichungen ist in allen Fällen 3 2 6 und 1/ 6 0.4082483. f) (Punkte: 2) Mit der Korrelationsmatrix RHO wurden in R folgende Berechnungen durchgeführt:

Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 5 > RHO1<-eigen(RHO)$values[1]*eigen(RHO)$vectors[,1]%*%t(eigen(RHO)$vectors[,1]) > RHO2<-eigen(RHO)$values[2]*eigen(RHO)$vectors[,2]%*%t(eigen(RHO)$vectors[,2]) > RHO3<-eigen(RHO)$values[3]*eigen(RHO)$vectors[,3]%*%t(eigen(RHO)$vectors[,3]) > round(rho1,digits3) [1,] 0.394-0.558 0.394 [2,] -0.558 0.789-0.558 [3,] 0.394-0.558 0.394 > round(rho2,digits3) [1,] 0.5 0-0.5 [2,] 0.0 0 0.0 [3,] -0.5 0 0.5 > round(rho3,digits3) [1,] 0.106 0.149 0.106 [2,] 0.149 0.211 0.149 [3,] 0.106 0.149 0.106 Wie nennt man diese Darstellung und was geben die Zahlen an? Was ergibt die Summe RHO1+RHO2+RHO3? Spektralzerlegung der Korrelationsmatrix: Es gilt P 3 j1 P j mit P j : λ j a j a t j. Dabei ist P j der Beitrag der j-ten Hauptkomponente zur Korrelationsmatrix. g) (Punkte: 5) Im Rahmen einer Faktorenanalyse mit der Korrelationsmatrix RHO haben Sie die folgenden Berechnungen durchgeführt: > round(eigen(rho)$values,digits3) [1] 1.577 1.000 0.423 > round(eigen(rho)$vectors,digits3) [1,] -0.500 0.707 0.500 [2,] 0.707 0.000 0.707 [3,] -0.500-0.707 0.500 Sie verwenden die Hauptkomponentenmethode und haben sich entschieden, zwei Faktoren zu verwenden. Mit R haben Sie die folgende Faktorladungsmatrix Λ 2 berechnet: [,1] [,2] [1,] -0.63 0.71 [2,] 0.89 c? [3,] -0.63-0.71 Ergänzen Sie den fehlenden Wert c. Welche Bedeutung hat dieser Wert? Geben Sie anschliessend die Kommunalitäten und die Fehlermatrix Ψ 2 an. Verwenden Sie dabei die Hauptkomponentenmethode. Hinweis: Falls Sie c nicht bestimmen konnten, verwenden Sie in den Folgerechnungen c. Die Faktorladungsmatrix Λ 2 besteht aus den ersten beiden Spalten der Matrix der Komponentenladungen. Diese ist das Produkt AΛ 1/2, wobei A die Matrix der Eigenvektoren (in

6 Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011 6 Kreditpunkte, 90 min den Spalten) und Λ die Diagonalmatrix der Eigenwerte ist. Das fehlende Element ist das Produkt der 2. Zeile von A und der 2. Spalte von Λ 1/2, also 0.707 0+0 1+0.707 0 0. Dieser Wert ist die Korrelation zwischen der zweiten standardisierten Variable und dem zweiten Faktor. Diese sind somit unkorreliert. Die Kommunalitäten sind die Diagonalelemente von Λ 2 Λ t 2. Mit R ergab sich folgendes Ergebnis für dieses Matrizenprodukt. [1,] 0.9010-0.5607-0.1072 [2,] -0.5607 0.7921-0.5607 [3,] -0.1072-0.5607 0.9010 Die Kommunalitäten sind also 0.9010, 0.7921 und 0.9010. Damit sind die spezifischen Varianzen 1 0.9010 0.0990, 1 0.7921 0.2079 und 1 0.9010 0.0990. Aufgabe 3 (Punkte: 12) In einer zufälligen Stichprobe mit n 25 Realisierungen eines N 4 (µ, Σ)-verteilten Vektors X t (X 1, X 2, X 3, X 4 ) ergaben sich folgende Schätzer: x t (186; 151; 184; 149) S 95 53 70 46 54 51 35 101 57 45 a) (Punkte: 5) Testen Sie für die Zufallsvariablen X 1 und X 3 die Hypothese H 0 : µ t (µ 1, µ 3 ) µ t 0 (182, 182) bei unbekannter Kovarianzmatrix mit einem Signifikanzniveau α 0.05. Hinweis: Eine Formel zur Berechnung einer hier benötigten inversen Matrix finden Sie in der Formelsammlung! Da die wahre Kovarianzmatrix ( als unbekannt ) vorausgesetzt wird, müssen wir sie mit Hilfe 95 70 der Stichprobe durch S schätzen und folgende Teststatistik verwenden 70 101 T 2 n( x µ 0 ) t S 1 ( x µ 0 ) H 0 wird abgelehnt, wenn gilt: F m 2 und Die Inverse von S x µ 0 ( 95 70 70 101 ) (n m)t 2 m(n 1) ( ) 186 184 ist > F α (m, n m). Hier ist n 25 und ( ) ( ) 182 4 182 2 ( 1 101 70 det(s) 70 95 ) 1 ( 101 70 4 695 70 95 )

Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 7 Damit erhalten wir T 2 25 ( ) ( ) 101 70 4 4 695 (4, 2) 25 876 4.664537 4.665 70 95 2 4 695 Hier ist n 25 und m 2. Dann ist der zugehörige Wert F n m T 2 23 m(n 1) 4.664537 2.235091 2.235. Die Realisation unserer Teststatistik vergleichen wir mit dem 95%-Quantil der F-Verteilung mit m 2, n m 25 2 23 Freiheitsgraden. Aus der Tabelle der F -Verteilung ergibt sich der Wert 3.42. Da F 2.235 < 3.42, kann H 0 nicht verworfen werden. b) (Punkte: 2) Bestimmen Sie simultane Konfidenzintervalle für µ i, i 1, 2, 3, 4 zum Konfidenzniveau 1 α 0.95. s i Simultane Konfidenzintervalle: x i ± K α/2 n ( ) 1/2 4(25 1) wobei K α/2 (25 4) F 0.05(4, 25 4) µ 1 186 ± 3.603173 µ 2 151 ± 3.603173 µ 3 184 ± 3.603173 µ 4 149 ± 3.603173 ( 96 21 2.84 )1/2 3.603173 48 95/25 186 ± 7.024, d.h. µ 1 (178.976; 193.024) 54/25 151 ± 5.295, d.h. µ 2 (145.705; 156.295) 101/25 184 ± 7.242, d.h. µ 3 (176.758; 191.242) 45/25 149 ± 4.834, d.h. µ 4 (144.166; 153.834) c) (Punkte: 1) Wie ändert sich die Lage und die Länge der Konfidenzintervalle, wenn man das Wort simultane in der Aufgabenstellung weglässt? Lage ändert sich nicht, aber simultane Konfidenzintervalle sind länger. d) (Punkte: 4) Beschreiben Sie, wie man die Nullhypothese H 0 : 5µ 1 6µ 4 µ 2 2 µ 4 5µ 3 6µ 4 für α 0.01 testen kann. Schreiben Sie zunächst die Nullhypothese mit einer geeigneten Matrix C und geben Sie dann die Formel für Hotellings Prüfgröße T 2 an. Verwenden Sie dann für T 2 den Wert 48.7 und fällen Sie eine Entscheidung über den Testausgang, indem Sie F und den zugehörigen kritischen Wert für α 0.01 bestimmen. Die Nullhypothese kann geschrieben werden als 5µ 1 6µ 4 0 µ 2 µ 4 2 5µ 3 6µ 4 0

8 Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011 6 Kreditpunkte, 90 min µ 5 0 0 6 1 Mit C t µ 0 0 1 0 1 ; µ 2 µ 0 0 5 6 3 und φ 2 lautet die Nullhypothese 0 µ 4 C t µ φ. Die Teststatistik ist T 2 n(c t x φ) t (C t SC) 1 (C t x φ) Dann gilt F n p p(n 1) T 2 F(p, n p), wobei hier n 25 und p 3 ist. Wenn T 2 48.7 ist F 25 3 T 2 22 48.7 14.88056 14.881 3(25 1) 72 Die Realisation unserer Teststatistik ist mit dem 99%-Quantil der F -Verteilung mit p 3, n p 25 3 22 Freiheitsgraden zu vergleichen. Aus der Tabelle erhalten wir den kritischen Wert 4.82. Da F 14.881 > 4.82, muss H 0 verworfen werden. Aufgabe 4 (Punkte: 7) Aufgrund von drei Merkmalen sollen die Merkmalsträger einer von zwei Klassen (Klasse 1 und Klasse 2) zugeordnet werden. Dazu wurden jeweils 101 zufällig ausgewählte Merkmalsträger in beiden Klassen beobachtet. Der dreidimensionale Merkmalsvektor X sei normalverteilt mit den folgenden geschätzten Parametern 0.8 0.5 0.7 x t 1 (2.7, 1.6, 12.5) S 1 0.5 0.9 0.8 0.7 0.8 0.9 in der ersten Klasse und 1.1 0.5 0.7 x t 2 (1.5, 1.1, 8.2) S 2 0.5 1 0.9 0.7 0.9 1.1 in der zweiten Klasse. Welcher Klasse wird ein Merkmalsträgern mit den Werten (1.7, 1.3, 9.8) zugeordnet, wenn die Apriori-Wahrscheinlichkeit, dass der Merkmalsträger zur Klasse 1 gehört 0.3 beträgt und die Kosten einer Fehlklassifikation C(1 2) 20 und C(2 1) 100 sind. Verwenden Sie Fishers lineare Diskriminanzfunktion L t x. Welche Bedeutung hat L? Mit R wurden die folgenden Berechnungen durchgeführt: > ES1<-matrix(c(0.8,0.5,0.7,0.5,0.9,0.8,0.7,0.8,0.9),byrowT,nrow3) > ES1 [1,] 0.8 0.5 0.7 [2,] 0.5 0.9 0.8 [3,] 0.7 0.8 0.9 > ES2<-matrix(c(1.1,0.5,0.7,0.5,1,0.9,0.7,0.9,1.1),byrowT,nrow3) > ES2

Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 9 [1,] 1.1 0.5 0.7 [2,] 0.5 1.0 0.9 [3,] 0.7 0.9 1.1 > round(solve(es1+es2),digits2) [1,] 1.19 0.50-1.25 [2,] 0.50 2.41-2.39 [3,] -1.25-2.39 3.41 Mit π 1 0.3, π 2 0.7 und C(1 2) 20, C(2 1) 100 ist k ln[(π 2 C(1 2))/(π 1 C(2 1))] ( ) 0.7 20 ln ln(7/15) 0.76214. 0.3 100 Mit L S 1 ( x 1 x 2 ) ist die Entscheidungsregel: Wenn L t x 1 2 Lt ( x 1 + x 2 ) k, dann ordne ( ) 1 den Merkmalsträger der Klasse 1 zu, sonst 2. Dabei ist S 1 (n1 1)S 1 + (n 2 1)S 2 n 1 + n 2 2 ( ) 100 1 1.19 0.50 1.25 200 (S 1 + S 2 ) 2(S 1 + S 2 ) 1 2 0.50 2.41 2.39. Beachten Sie, dass die 1.25 2.39 3.41 Inverse von S 1 + S 2 in der R-Ausgabe gegeben ist. 1.19 0.50 1.25 1.2 7.394 Dann ist L S 1 ( x 1 x 2 ) 2 0.50 2.41 2.39 0.5 16.944. 1.25 2.39 3.41 4.3 23.936 1.7 Hier ist L t x ( 7.394 16.944 23.936) 1.3 199.9758 9.8 4.2 1 2 Lt ( x 1 + x 2 ) 0.5 ( 7.394 16.944 23.936) 2.7 209.3358 20.7 L t x 1 2 Lt ( x 1 + x 2 ) 199.9758 209.3358 9.36 < 0.76214, d.h. der Merkmalsträger wird Klasse 2 zugeordnet. L ist der Vektor, der am besten trennen kann zwischen den beiden Klassen.