Multivariate Verfahren

Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung (4V): Mo 8.30-10.00, M/E 21 Do 10.15-11.45, M/E 21 Übung (2Ü): Fr 10.15-11.45 M/E 25 Fr 14.15-15.45 M/E 27 M.Sc. Katrin Knies Raum 730 Email: knies@statistik.tu.de Leistungsnachweis Mündliche Prüfung Statistik: Spezialgebiete Datenwissenschaft Zulassungsvoraussetzungen zur mündlichen Prüfung 50% der Übungspunkte 50% der Punkte aus Übungen und Klausur (Gewichtung 80% Klausur) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-1 - Multivariate Verfahren Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik: Multivariate Statistik (Wintersemester 2006/07) Skript beruht teilweise auf früheren Skripten von Prof. Dr. Claudia Becker, Universität Halle-Wittenberg Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid Andere Literatur Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin 2003. Johnson, R.A. und D.W. Wichern, Applied Multivariate Statistical Analysis, 5. Auflage, New Jersey 2002. Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996. Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-2 -

Themengebiete der Vorlesung 0 Multivariate Analysemethoden 1 Multivariate Zufallsvariablen 2 Die multivariate Normalverteilung 3 Normalverteilungsmodelle 4 Hauptkomponentenanalyse 5 Faktorenanalyse 6 Kanonische Korrelationsanalyse 7 Korrespondenzanalyse 8 Clusteranalyse 9 Diskriminanzanalyse 10 Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-3 - 0. Multivariate Analysemethoden Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-4 -

Multivariate Analysemethoden Häufige Situation: mehrdimensionale (multivariate) Daten Beschreibung der Untersuchungsobjekte ( Individuen ) durch mehrere Variablen Multivariate Verfahren dienen zur Analyse solcher mehrdimensionaler Daten, insbesondere der Zusammenhänge unter den Variablen Beispiele Messwerte bei Menschen Alter, Geschlecht, Körpergröße, Gewicht, Puls, Blutdruck Risikofaktoren bei Krebspatienten Ausdehnung des Tumors, Vorhandensein von Metastasen, Rauchen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-5 - Multivariate Analysemethoden Auswahl geeigneter multivariater Analysemethoden Verschiedene Arten der Zusammenhangsanalyse adressieren verschiedene Fragestellungen Korrelationsanalyse Hypothesentests für eine oder mehrere Populationen Multivariate Varianzanalyse, multiple multivariate Regression Hauptkomponentenanalyse Faktorenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-6 -

Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots für Gewicht, Körpergröße und Alter von n = 21 Individuen Scatterplot kann als sehr einfaches multivariates Verfahren betrachtet werden Gewicht Körpergröße Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-7 - Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots Körpergröße Gewicht Alter Alter Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-8 -

Multivariate Analysemethoden Hypothesentests für eine oder mehrere Populationen Ziel: Unterscheidung von Populationen anhand von mehrdimensionalen Merkmalen Beispiel: Gefälschte Banknoten Daten: n e = 100 echte und n f = 100 falsche Schweizer Banknoten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-9 - Multivariate Analysemethoden Multivariate Varianzanalyse Frage: Wirken mehrere Variablen einzeln und/oder gemeinsam auf eine oder mehrere interessierende Merkmale? Beispiel Werkstatt Fertigung von Autorädern in verschiedenen Werkstätten mit jeweils mehreren Maschinen Zwei Qualitätsmerkmale zur Beurteilung der gefertigten Räder Gibt es Qualitätsunterschiede zwischen den Maschinen innerhalb einer Werkstatt, oder zwischen den Werkstätten? Multiple Multivariate Regression Funktionaler Zusammenhang zwischen mehreren Einfluss- und einer oder mehreren Zielgrößen Beispiel Prostatakrebs Untersuchung des Einflusses verschiedener Prädiktoren auf eine Zielvariable Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-10 -

Multivariate Analysemethoden Daten zum Prostatakrebs von Stamey et al. (1989) Prädiktoren: lcavol log cancer volume lweight log prostate weight age lbph log benign hyperplasia amount svi seminal vesicle invasion lcp log capsular penetration gleason gleason score pgg45 percent gleason scores 4 or 5 Zielvariable: log(psa) (prostate specific antigen) level Daten standardisiert auf Varianz 1 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-11 - Lineare Regression: Prostatakrebs Kovarianz-Matrix: lcavol lweight age lbph svi lcp gleason lweight 0.300 age 0.286 0.317 lbph 0.063 0.437 0.287 svi 0.593 0.181 0.129-0.139 lcp 0.692 0.157 0.173-0.089 0.671 gleason 0.426 0.024 0.366 0.033 0.307 0.476 pgg45 0.483 0.074 0.276 0.030 0.481 0.663 0.757 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-12 -

Lineare Regression: Prostatakrebs Modell für log PSA Prädiktoren auf Varianz 1 normalisiert Term Intercept Coefficient 2.48 Std. Error 0.09 Z Score 27.66 Test auf Ausschließung einer Gruppe von Termen durch F-test (ANOVA) lcavol lweight 0.68 0.30 0.13 0.11 5.37 2.75 Z-score misst somit den Effekt für das Entfernen einer Variable aus dem Modell lcp ist nicht signifikant wennlcalvol im Modell enthalten ist, ansonsten schon! age lbph svi lcp gleason pgg45-0.14 0.21 0.31-0.29-0.02 0.27 0.10 0.10 0.12 0.15 0.15 0.15-1.40 2.06 2.47-1.87-0.15 1.74 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-13 - Multivariate Analysemethoden Hauptkomponentenanalyse Bestimmung weniger Richtungen, die möglichst viel Varianz erklären Iterative Bestimmung orthogonaler Vektoren Erste Hauptkomponente entspricht der linearen Transformation der Daten auf die Richtung mit maximaler Varianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-14 -

Multivariate Analysemethoden Faktorenanalyse Ähneln sich mehrere Merkmale so stark, dass wir sie als ein einziges latentes Merkmal betrachten können? Beispiel Wichtige Charakteristika für Einstellungschancen von Bewerbern? Bei diesen Charakteristika kann es sich um abstrakte Faktoren handeln, wie etwa Kontaktfähigkeit oder emotionale Kompetenz. Korrespondenzanalyse Beziehungen zwischen kategoriellen Variablen an mehreren Individuen Beispiel Betrachtung der Haarfarbe und Augenfarbe von Menschen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-15 - Multivariate Analysemethoden Clusteranalyse Auffinden von Gruppen ähnlicher Objekte Beispiel Marketinganalyse zur Einteilung von Produkten in homogen Untergruppen Ein Handyhersteller stellt auf Basis einer Verbraucherbefragung fest, dass alle drei von ihm hergestellte Handytypen in die gleiche Untergruppe eingeordnet werden, sich aus Verbrauchersicht also kaum unterscheiden Einen oder zwei dieser Typen durch einen neuen, mit anderen Leistungsmerkmalen ausgestatteten Typen ersetzen, um so einen neuen Kundenkreis anzusprechen? Wichtigste Zutaten der Clusteranalyse Distanzmaß oder Ähnlichkeitsmaß zwischen Objekten Clusteralgorithmus zum Auffinden kompakter Gruppen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-16 -

Multivariate Analysemethoden Diskriminanzanalyse Einordnung von Objekten in gegebene Klassen Beispiel Kreditwürdigkeit Beurteilung der Kreditwürdigkeit von Firmen an Hand von Bilanzkennzahlen, unter Zurückgreifen auf Erfahrungswerte Betrachtung einer Lernstichprobe von Firmen mit bekannten Bilanzkennzahlen und Kreditwürdigkeit Entscheidung über die Kreditwürdigkeit eines neuen Antragstellers mit dieser Vorinformation Beispiel Krebsdiagnose Prognose von Therapieerfolg anhand von klinischen und genetischen Messungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-17 - Multivariate Analysemethoden Graphische Modelle Unterscheidung mittelbarer und unmittelbarer Zusammenhänge unter mehreren Variablen Beispiel Examensnoten in Mechanik Me, Vektorrechnung Ve, Algebra Al, Analysis An, Statistik St (gemessen in Prozentzahlen) von 88 Studenten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-18 -

1. Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-19 - Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Zufallsvektor: gemeinsame Darstellung d eindimensionaler Zufallsvariablen. Wie im univariaten Fall unterscheidet man zwischen diskret und stetig. Mischformen: Zufallsvektor mit diskreten und stetigen Merkmalen (Komponenten). Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-20 -

Multivariate Zufallsvariablen Beispiele für multivariate Verteilungen Biometrie Klinische Messungen bei Krebspatienten (Örtliche Ausdehnung des Primärtumors, Existenz von regionären Lymphknotenmetastasen, Existenz von Fernmetastasen, Blutwerte, Raucherstatus, genetische Mutationen) Genexpressionswerte (Messungen der Aktivität von Tausenden Genen gleichzeitig) Ökonometrie Aktienkurse verschiedener Unternehmen Daten zu Konsum, Investition, Import, Export (BIP) Technometrie Zur Risikoanalyse technischer Systeme Einstellungen verschiedener technischer Parameter, technologische Bauteilqualität Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-21 - Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-22 -

Multivariate Verteilungsfunktion Die folgende Definition d-variater Verteilungs- und Dichtefunktionen verallgemeinert die entsprechenden Begriffe f ur eindimensionale Zufallsvariablen: Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-23 - Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-24 -

Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-25 - Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-26 -

Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-27 - Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-28 -

Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-29 - Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-30 -

Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-31 -

Kovarianz Eine Kovarianzmatrix ist symmetrisch, damit diagonalisierbar (mittels Hauptachsentransformation) und folglich positiv semidefinit. Die Berechnungen erfolgen mittels einfacher Matrizenrechnung, meist unter Ausnutzung der Linearität des Erwartungswertes Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-1 - Bedingte Erwartungen Die bedingte Erwartung ist eines der tiefsten und wichtigsten Konzepte der Wahrscheinlichkeitstheorie, aber auch offensichtlich eines der am schwersten zu vermittelnden Konzepte Allgemeine Definition: Die Funktion Y=E(X ) heißt dann bedingte Erwartung von X Wir betrachten nur Spezialfälle Die σ-algebra wird ersetzt durch eine Zufallsvariable Die Zufallsvariable ist entweder stetig oder diskret verteilt Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-2 -

Bedingte Erwartungen E(XX 2 )-E(X)E(X 2 ) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-3 - Bedingte Erwartungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-4 -

Bedingte Erwartungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-5 - Bedingte Erwartungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-6 -

Bedingte Erwartungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-7 - Bedingte Erwartungen Interpretation des bedingten Erwartungswertes Bedingte Erwartung als orthogonale Projektion h(x 1 ) ist eine bzgl. X 1 messbare Funktion, die X 2 besonders gut approximiert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-8 -

Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-9 - Multivariate Zufallsvariablen Empirische Größen entsprechen den theoretischen Größen, wobei die multivariaten Verteilungen durch die empirischen Verteilungen ersetzt sind Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-10 -

Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-11 - Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-12 -

Multivariate Zufallsvariablen Für lineare Transformationen können Mittelwerte und Kovarianzen leicht berechnet werden Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-13 - Multivariate Zufallsvariablen Empirische Mittelwerte und Kovarianzen im (Größe/Gewicht)-Datensatz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-14 -

Multivariate Zufallsvariablen Wichtigste Transformation eines Datensatzes zur Normalisierung bzgl. Mittelwert und Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-15 - Multivariate Zufallsvariablen Jordan sche Zerlegung Charakterisierung von symmetrischen Matrizen Hilfsmittel zur Berechnung von Hauptkomponenten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-16 -

Multivariate Zufallsvariablen Beispiel 1.26 Beispiel 1.27 (Fortsetzung von Beispiel 1.2) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-17 - Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-18 -

Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-19 - Multivariate Zufallsvariablen Verallgemeinerung der inversen Matrix auf singuläre und nichtquadratische Matrizen Häufigste Anwendung: Lösung linearer Gleichungssysteme Kann mit Hilfe von Singulärwertzerlegung berechnet werden Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-20 -

Multivariate Zufallsvariablen Zusammenhang von theoretischen und empirischen Größen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-21 - Multivariate Zufallsvariablen Wichtigster Satz der Statistik: ZENTRALER GRENZWERTSATZ Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-22 -

Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-23 - Multivariate Zufallsvariablen Zentraler Grenzwertsatz für Transformationen des empirischen Mittelwerts Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-24 -

Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 16.10.2008-25 -

2. Die multivariate Normalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-1 - Theorie der Multinormalverteilung Multivariate Normalverteilung ist die wichtigste multivariate Verteilung Normalverteilung eignet sich zur Modellierung von Größen, die durch das Zusammenwirken vieler Zufallseinflüsse entstehen Messfehler, Abweichungen vom Sollwert, physikalische Größen wie Länge, Gewicht, Volumen etc. Die multivariate Normalverteilung ist die einzige multivariate Verteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist Eine multivariate Verteilung ist genau dann eine multivariate Normalverteilung, wenn alle Linearkombinationen der Komponenten univariate Normalverteilungen sind Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-2 -

Theorie der Multinormalverteilung Univariate Normalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-3 - Theorie der Multinormalverteilung Multivariate Normalverteilung Eindeutig bestimmt durch Erwartungswertvektor und Kovarianzmatrix Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-4 -

Theorie der Multinormalverteilung Standardnormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-5 - Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-6 -

Theorie der Multinormalverteilung Die Kovarianzmatrix ist symmetrisch und beinhaltet alle Kovarianzen von Paaren von den Komponenten der multivariaten Verteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-7 - Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-8 -

Theorie der Multinormalverteilung Höhenlinien bei der (Standard-)Normalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-9 - Theorie der Multinormalverteilung Höhenlinien Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-10 -

Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-11 - Theorie der Multinormalverteilung Lineare Transformationen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-12 -

Theorie der Multinormalverteilung Beweis durch Berechnung der Kovarianzmatrix mit gemischtem Term Σ 12 = AΣB T Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-13 - Theorie der Multinormalverteilung Approximation und bedingte Verteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-14 -

Theorie der Multinormalverteilung Für eine multivariate Normalverteilung ist die bedingte Erwartung linear in x 1 und die bedingte Varianz unabhängig von x 1. Die beste Approximation von X 2 durch X 1 fällt mit der besten linearen Approximation BX 1 +b von X 2 durch X 1 zusammen. Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-15 - Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-16 -

Theorie der Multinormalverteilung Spezialfall d=k+1 Multiple Korrelation: maximale Korrelation zwischen X d und einer Linearkombination BX 1, für k = 1 gewöhnliche Korrelation Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 20.10.2008-17 -

Theorie der Multinormalverteilung Multiple Korrelation zwischen X 1 und (X 2,X 3 ) ist (notwendigerweise) größer als die (univariaten) Korrelationen zwischen X 1 und X 2 und zwischen X 1 und X 3 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-1 - Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-2 -

Theorie der Multinormalverteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-3 - Stichprobenverteilungen Bei multivariaten Datenanalysen geht man oft von einer multivariaten Normalverteilung aus, kennt aber Erwartungswert und Kovarianzmatrix nicht. Übergang von theoretischen zu empirischen Größen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-4 -

Stichprobenverteilungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-5 - Stichprobenverteilungen Test, ob die Korrelation in einem bestimmten Intervall liegt (Konfidenzintervalle) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-6 -

Stichprobenverteilungen Übung: Nachrechnen mit r 12 = 0.73, n = 100 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-7 - Stichprobenverteilungen Bei der Kovarianzmatrix stoßen wir auf die Wishart-Verteilung (multivariate Erweiterung der χ 2 -Verteilung) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-8 -

Stichprobenverteilungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-9 - Stichprobenverteilungen (Im Wesentlichen Projektionsmatrizen) Ü: Warum folgt dies? Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 27.10.2008-10 -

Stichprobenverteilungen Hotteling s T 2 -Verteilung (multivariate Erweiterung der t-verteilung) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-1 - Stichprobenverteilungen Zusammenhang zwischen Hotteling s T 2 -Verteilung und F-Verteilung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-2 -

Schätztheorie Allgemeines Schätzen (mit parametrischen Familien) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-3 - Schätztheorie Scorefunktion und Fisher-Informationsmatrix für Normalverteilungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-4 -

Schätztheorie Der ML-Schätzer ist also unter Regularitätsbedingungen asymptotisch unverzerrt, effizient und normalverteilt. Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-5 - Schätztheorie Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-6 -

3. Normalverteilungsmodelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-7 - Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-8 -

Parametertests Asymptotische Verteilung für Likelihood-Quotienten (LR) Test Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-9 - Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-10 -

Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-11 - Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-12 -

Parametertests Hier wird das Maximum über alle Vektoren a gebildet, so dass das Konfidenzintervall für beliebiges festes a gilt Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-13 - Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-14 -

Parametertests Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-15 - Parametertests d = 0.5 2 3 = 3 p = 1- pchisq(2.7365,3) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 30.10.2008-16 -

Parametertests Spezialfall für Likelihood-Quotienten Test Test auf einen bestimmten Koeffizientenvektor im linearen Modell Exakte Verteilung der LR Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-1 - Lineare Restriktionen Testen von linearen Hypothesen (lineare Restriktionen) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-2 -

Lineare Restriktionen Es soll getestet werden, ob jeweils die i-te Komponente des Vektors (X 1,...,X k ) und des Vektors (X k+1,...,x d ) denselben Erwartungswert haben Linke Formulierung der Nullhypothese entspricht der anschaulichen Formulierung, rechte der Formulierung mit Kontrastmatrix C=(diag(1,...,1),diag(-1,...,-1)) mit jeweils k Einträgen 1 bzw. -1 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-3 - Lineare Restriktionen Banknoten-Beispiel: Sind die Abstände von inneren Rechteck zum unteren Rand (x 4 ) bzw. oberen Rand (x 5 ) gleich? signifikant wegen F 1,99 (13.638) = 0.00036 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-4 -

Lineare Restriktionen Es soll getestet werden, ob alle Komponenten des Vektos (X k+1,...,x d ) den Erwartungswert 0 haben Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-5 - Lineare Restriktionen Repeated Measures (wiederholte Messungen) n Beobachtungen mit d Messungen (Bedingungen, Behandlungen, Prüfungen, ) In Matrixschreibweise: Kovarianzmatrix unbekannt, siehe Satz 3.10 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-6 -

Lineare Restriktionen Repeated Measures (wiederholte Messungen) n Beobachtungen mit d Messungen (Bedingungen, Behandlungen, Prüfungen, ) Satz 3.5 lieferte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-7 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-8 -

Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-9 - Lineare Restriktionen Umschreiben der Teststatistik zeigt wiederum, dass man einen exakten F-Test verwenden kann: Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-10 -

Lineare Restriktionen Pivot-Statistik: Verteilung der Statistik hängt nicht vom unbekannten Parameter ab Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-11 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-12 -

Lineare Restriktionen Wert der Teststatistik ist hoch-signifikant Die meisten Konfidenzintervalle für die sechs Einzelhypothesen umschließen auch nicht die 0 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-13 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-14 -

Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-15 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-16 -

Lineare Restriktionen Zum Vergleich: Bei der Annahme gleicher Kovarianzmatrizen hatten wir folgende Konfidenzintervalle erhalten: Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-17 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-18 -

Lineare Restriktionen Übung: Nachrechnen der Signifikanzwerte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-19 - Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-20 -

Lineare Restriktionen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-21 - Lineare Restriktionen Sind Profile parallel? Keine Ablehnung Sind Profile gleich? Ablehnung Sind Profile horizontal? Ablehnung Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 3.11.2008-22 -

4. Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-1 - Hauptkomponentenanalyse Problemstellung Beobachtungen X 1,, X n von d quantitativen Merkmalen, n Objekte. Problem für großes d: schwere Überschaubarkeit / Strukturerkennung Lösungsansatz (Pearson, 1901, Hotelling, 1933): Konstruktion unkorrelierter Linearkombinationen (Hauptkomponenten, HK) der beobachteten Variablen, die sukzessive einen sinkenden Prozentsatz der Datenvariabilität erklären Durch Auswahl von p < d Hauptkomponenten Repräsentation der Daten in einem niedriger dimensionalen Raum mit möglichst kleinem Informationsverlust Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-2 -

Hauptkomponentenanalyse 1. Hauptkomponente: Richtung der größten Varianz 2. Hauptkomponente: Richtung der größten Varianz, orthogonal zur 1. Hauptkomponente Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-3 - Hauptkomponentenanalyse Beispiel mit d=2 und 2 Hauptkomponenten Zur Veranschaulichung, üblicherweise zur Dimensionsreduktion verwendetes Verfahren Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-4 -

Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-5 - Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-6 -

Hauptkomponentenanalyse Die Verkaufszahlen für beide Produkte sind positiv korreliert Geschäfte, die von einem Produkt viel verkaufen, verkaufen in der Regel auch viel von dem zweiten Produkt Somit ist die wesentliche Information in der summe der verkauften Produkte enthalten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-7 - Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-8 -

Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-11 - Hauptkomponentenanalyse Aus der Definition der Hauptkomponenten folgt direkt die Diagonalform der Kovarianzmatrix der transformierten Daten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-12 -

Hauptkomponentenanalyse Hauptkomponentenzerlegung entspricht der Spektralzerlegung der Kovarianzmatrix Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-13 - Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-14 -

Hauptkomponentenanalyse Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-15 - Hauptkomponentenanalyse Die totale Varianz von Y 1,...,Y d und der HKn stimmen überein Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 6.11.2008-16 -