Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung (4V): Mo 8.30-10.00, M/E 21 Do 10.15-11.45, M/E 21 Übung (2Ü): Fr 10.15-11.45 M/E 25 Fr 14.15-15.45 M/E 27 M.Sc. Katrin Knies Raum 730 Email: knies@statistik.tu.de Leistungsnachweis Mündliche Prüfung Statistik: Spezialgebiete Datenwissenschaft Zulassungsvoraussetzungen zur mündlichen Prüfung 50% der Übungspunkte 50% der Punkte aus Übungen und Klausur (Gewichtung 80% Klausur) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-1 - Multivariate Verfahren Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik: Multivariate Statistik (Wintersemester 2006/07) Skript beruht teilweise auf früheren Skripten von Prof. Dr. Claudia Becker, Universität Halle-Wittenberg Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid Andere Literatur Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin 2003. Johnson, R.A. und D.W. Wichern, Applied Multivariate Statistical Analysis, 5. Auflage, New Jersey 2002. Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996. Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-2 -
Themengebiete der Vorlesung 0 Multivariate Analysemethoden 1 Multivariate Zufallsvariablen 2 Die multivariate Normalverteilung 3 Normalverteilungsmodelle 4 Hauptkomponentenanalyse 5 Faktorenanalyse 6 Kanonische Korrelationsanalyse 7 Korrespondenzanalyse 8 Clusteranalyse 9 Diskriminanzanalyse 10 Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-3 - 0. Multivariate Analysemethoden Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-4 -
Multivariate Analysemethoden Häufige Situation: mehrdimensionale (multivariate) Daten Beschreibung der Untersuchungsobjekte ( Individuen ) durch mehrere Variablen Multivariate Verfahren dienen zur Analyse solcher mehrdimensionaler Daten, insbesondere der Zusammenhänge unter den Variablen Beispiele Messwerte bei Menschen Alter, Geschlecht, Körpergröße, Gewicht, Puls, Blutdruck Risikofaktoren bei Krebspatienten Ausdehnung des Tumors, Vorhandensein von Metastasen, Rauchen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-5 - Multivariate Analysemethoden Auswahl geeigneter multivariater Analysemethoden Verschiedene Arten der Zusammenhangsanalyse adressieren verschiedene Fragestellungen Korrelationsanalyse Hypothesentests für eine oder mehrere Populationen Multivariate Varianzanalyse, multiple multivariate Regression Hauptkomponentenanalyse Faktorenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-6 -
Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots für Gewicht, Körpergröße und Alter von n = 21 Individuen Scatterplot kann als sehr einfaches multivariates Verfahren betrachtet werden Gewicht Körpergröße Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-7 - Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots Körpergröße Gewicht Alter Alter Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-8 -
Multivariate Analysemethoden Hypothesentests für eine oder mehrere Populationen Ziel: Unterscheidung von Populationen anhand von mehrdimensionalen Merkmalen Beispiel: Gefälschte Banknoten Daten: n e = 100 echte und n f = 100 falsche Schweizer Banknoten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-9 - Multivariate Analysemethoden Multivariate Varianzanalyse Frage: Wirken mehrere Variablen einzeln und/oder gemeinsam auf eine oder mehrere interessierende Merkmale? Beispiel Werkstatt Fertigung von Autorädern in verschiedenen Werkstätten mit jeweils mehreren Maschinen Zwei Qualitätsmerkmale zur Beurteilung der gefertigten Räder Gibt es Qualitätsunterschiede zwischen den Maschinen innerhalb einer Werkstatt, oder zwischen den Werkstätten? Multiple Multivariate Regression Funktionaler Zusammenhang zwischen mehreren Einfluss- und einer oder mehreren Zielgrößen Beispiel Prostatakrebs Untersuchung des Einflusses verschiedener Prädiktoren auf eine Zielvariable Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-10 -
Multivariate Analysemethoden Daten zum Prostatakrebs von Stamey et al. (1989) Prädiktoren: lcavol log cancer volume lweight log prostate weight age lbph log benign hyperplasia amount svi seminal vesicle invasion lcp log capsular penetration gleason gleason score pgg45 percent gleason scores 4 or 5 Zielvariable: log(psa) (prostate specific antigen) level Daten standardisiert auf Varianz 1 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-11 - Lineare Regression: Prostatakrebs Kovarianz-Matrix: lcavol lweight age lbph svi lcp gleason lweight 0.300 age 0.286 0.317 lbph 0.063 0.437 0.287 svi 0.593 0.181 0.129-0.139 lcp 0.692 0.157 0.173-0.089 0.671 gleason 0.426 0.024 0.366 0.033 0.307 0.476 pgg45 0.483 0.074 0.276 0.030 0.481 0.663 0.757 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-12 -
Lineare Regression: Prostatakrebs Modell für log PSA Prädiktoren auf Varianz 1 normalisiert Term Intercept Coefficient 2.48 Std. Error 0.09 Z Score 27.66 Test auf Ausschließung einer Gruppe von Termen durch F-test (ANOVA) lcavol lweight 0.68 0.30 0.13 0.11 5.37 2.75 Z-score misst somit den Effekt für das Entfernen einer Variable aus dem Modell lcp ist nicht signifikant wennlcalvol im Modell enthalten ist, ansonsten schon! age lbph svi lcp gleason pgg45-0.14 0.21 0.31-0.29-0.02 0.27 0.10 0.10 0.12 0.15 0.15 0.15-1.40 2.06 2.47-1.87-0.15 1.74 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-13 - Multivariate Analysemethoden Hauptkomponentenanalyse Bestimmung weniger Richtungen, die möglichst viel Varianz erklären Iterative Bestimmung orthogonaler Vektoren Erste Hauptkomponente entspricht der linearen Transformation der Daten auf die Richtung mit maximaler Varianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-14 -
Multivariate Analysemethoden Faktorenanalyse Ähneln sich mehrere Merkmale so stark, dass wir sie als ein einziges latentes Merkmal betrachten können? Beispiel Wichtige Charakteristika für Einstellungschancen von Bewerbern? Bei diesen Charakteristika kann es sich um abstrakte Faktoren handeln, wie etwa Kontaktfähigkeit oder emotionale Kompetenz. Korrespondenzanalyse Beziehungen zwischen kategoriellen Variablen an mehreren Individuen Beispiel Betrachtung der Haarfarbe und Augenfarbe von Menschen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-15 - Multivariate Analysemethoden Clusteranalyse Auffinden von Gruppen ähnlicher Objekte Beispiel Marketinganalyse zur Einteilung von Produkten in homogen Untergruppen Ein Handyhersteller stellt auf Basis einer Verbraucherbefragung fest, dass alle drei von ihm hergestellte Handytypen in die gleiche Untergruppe eingeordnet werden, sich aus Verbrauchersicht also kaum unterscheiden Einen oder zwei dieser Typen durch einen neuen, mit anderen Leistungsmerkmalen ausgestatteten Typen ersetzen, um so einen neuen Kundenkreis anzusprechen? Wichtigste Zutaten der Clusteranalyse Distanzmaß oder Ähnlichkeitsmaß zwischen Objekten Clusteralgorithmus zum Auffinden kompakter Gruppen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-16 -
Multivariate Analysemethoden Diskriminanzanalyse Einordnung von Objekten in gegebene Klassen Beispiel Kreditwürdigkeit Beurteilung der Kreditwürdigkeit von Firmen an Hand von Bilanzkennzahlen, unter Zurückgreifen auf Erfahrungswerte Betrachtung einer Lernstichprobe von Firmen mit bekannten Bilanzkennzahlen und Kreditwürdigkeit Entscheidung über die Kreditwürdigkeit eines neuen Antragstellers mit dieser Vorinformation Beispiel Krebsdiagnose Prognose von Therapieerfolg anhand von klinischen und genetischen Messungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-17 - Multivariate Analysemethoden Graphische Modelle Unterscheidung mittelbarer und unmittelbarer Zusammenhänge unter mehreren Variablen Beispiel Examensnoten in Mechanik Me, Vektorrechnung Ve, Algebra Al, Analysis An, Statistik St (gemessen in Prozentzahlen) von 88 Studenten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-18 -
1. Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-19 - Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Zufallsvektor: gemeinsame Darstellung d eindimensionaler Zufallsvariablen. Wie im univariaten Fall unterscheidet man zwischen diskret und stetig. Mischformen: Zufallsvektor mit diskreten und stetigen Merkmalen (Komponenten). Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-20 -
Multivariate Zufallsvariablen Beispiele für multivariate Verteilungen Biometrie Klinische Messungen bei Krebspatienten (Örtliche Ausdehnung des Primärtumors, Existenz von regionären Lymphknotenmetastasen, Existenz von Fernmetastasen, Blutwerte, Raucherstatus, genetische Mutationen) Genexpressionswerte (Messungen der Aktivität von Tausenden Genen gleichzeitig) Ökonometrie Aktienkurse verschiedener Unternehmen Daten zu Konsum, Investition, Import, Export (BIP) Technometrie Zur Risikoanalyse technischer Systeme Einstellungen verschiedener technischer Parameter, technologische Bauteilqualität Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-21 - Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-22 -
Multivariate Verteilungsfunktion Die folgende Definition d-variater Verteilungs- und Dichtefunktionen verallgemeinert die entsprechenden Begriffe f ur eindimensionale Zufallsvariablen: Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-23 - Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-24 -
Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-25 - Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-26 -
Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-27 - Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-28 -
Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-29 - Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-30 -
Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-31 -