Multivariate Verfahren

Ähnliche Dokumente
Multivariate Verfahren

Multivariate Verfahren

Statistische Datenanalyse

Multivariate Lineare Modelle SS Einführung. 1. Organisation. 2. Übersicht. 3. Arbeiten mit SAS

1 Beispiele multivariater Datensätze... 3

Lehr- und Übungsbuch der angewandten Statistik. Von Dr. Bärbel Elpelt und. O. Prof. Dr. Joachim Hartung Fachbereich Statistik der Universität Dortmund

Ähnlichkeits- und Distanzmaße

Forschungsstatistik I

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Multivariate Statistik

Angewandte Statistik mit R

Vorlesung: Multivariate Statistik für Psychologen

1 Multivariate Zufallsvariablen

Angewandte Statistik mit R. Eine Einführung für Ökonomen und

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Statistik für Psychologen, Pädagogen und Mediziner

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Multivariate Analysemethoden

3.3 Wahlpichtmodule Mathematik

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis Einführung und deskriptive Statistik Grundlagen der Inferenzstatistik 1: Zufallsvariablen

Statistik für Human- und Sozialwissenschaftler

Multivariate Statistische Methoden

Empirische Forschungsmethoden

Multivariate statistische Analyseverfahren

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

1 Inhaltsverzeichnis. 1 Einführung...1

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

I. Deskriptive Statistik 1

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistik

Statistische Methoden in der Geographie

Inferenzstatistik verstehen

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

I Beschreibende Statistik 1

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Werkzeuge der empirischen Forschung

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Statistik, Datenanalyse und Simulation

Einführung in die computergestützte Datenanalyse

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Lehrbuch der Statistik

Chi-Quadrat-Verteilung

Vorwort zur 3. Auflage 15. Vorwort zur 2. Auflage 15. Vorwort 16 Kapitel 0 Einführung 19. Teil I Beschreibende Statistik 29

Kapitel IX - Mehrdimensionale Zufallsvariablen

ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Interdisziplinäres Seminar. Multivariate Statistik bei psychologischen Fragestellungen. Markus Bühner und Helmut Küchenhoff WS 2008/09

Lineare Regression 1 Seminar für Statistik

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Multivariate Verfahren

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Rainer Diaz-Bone. Statistik für. Soziologen. 3M erweiterte Auflage. UVK Verlagsgesellschaft mbh Konstanz mit UVK/Lucius München

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Musterlösung. Modulklausur Multivariate Verfahren

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Fünfte, verbesserte Auflage

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Mathematik für Informatiker

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Statistik in Geodäsie, Geoinformation und Bauwesen

Wirtschaftsstatistik für Studienanfänger

Hypothesentests mit SPSS

Modulklausur Multivariate Verfahren

Arbeitsbuch zur deskriptiven und induktiven Statistik

Beschreibende Statistik

JosefPuhani. Kleine Formelsammlung zur Statistik. 10. Auflage. averiag i

4 Statistik normalverteilter Daten

Statistik mit und ohne Zufall

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Der Mythos des Mittelwertes

Einer Reihe von Merkmalen zugrunde liegende, gemeinsame Faktoren ermitteln.

Wahrscheinlichkeitsrechnung und schließende Statistik

Prüfungsfächer: Die Prüfung erstreckt sich auf die folgenden Prüfungsfächer: Maß- und Integrationstheorie Wahrscheinlichkeitstheorie Statistik

Lehrinhalte Statistik (Sozialwissenschaften)

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Inhalt. Vorwort Univariate Verteilungen Verteilungen Die Normalverteilung... 47

Formelsammlung für Wirtschaftswissenschaftler

BSc Bioinformatik Wintersemester 2013/2014 Nachklausur zur Statistik I Freie Universität Berlin

Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse

Wahrscheinlichkeitsrechnung und schließende Statistik

Biostatistik 101 Korrelation - Regressionsanalysen

Literatur: Rudolf & Müller, S Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung Einführung SEM Folie Nr. 1

Statistik für das Psychologiestudium

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Wahrscheinlichkeitsrechnung und Statistik

Vorlesung: Multivariate Statistik für Psychologen

Transkript:

Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung (4V): Mo 8.30-10.00, M/E 21 Do 10.15-11.45, M/E 21 Übung (2Ü): Fr 10.15-11.45 M/E 25 Fr 14.15-15.45 M/E 27 M.Sc. Katrin Knies Raum 730 Email: knies@statistik.tu.de Leistungsnachweis Mündliche Prüfung Statistik: Spezialgebiete Datenwissenschaft Zulassungsvoraussetzungen zur mündlichen Prüfung 50% der Übungspunkte 50% der Punkte aus Übungen und Klausur (Gewichtung 80% Klausur) Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-1 - Multivariate Verfahren Wichtigste Grundlage der Vorlesung ist ein Skript von Prof. Dr. Roland Fried, TU Dortmund, Fakultät Statistik: Multivariate Statistik (Wintersemester 2006/07) Skript beruht teilweise auf früheren Skripten von Prof. Dr. Claudia Becker, Universität Halle-Wittenberg Prof. Dr. Isabel Molina, Universidad Carlos III de Madrid Andere Literatur Backhaus, K. et al., Multivariate Analysemethoden, 10. Auflage, Berlin 2003. Johnson, R.A. und D.W. Wichern, Applied Multivariate Statistical Analysis, 5. Auflage, New Jersey 2002. Fahrmeir, L., A. Hamerle und G. Tutz (Hrsg.), Multivariate statistische Verfahren, 2. Auflage, Berlin 1996. Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-2 -

Themengebiete der Vorlesung 0 Multivariate Analysemethoden 1 Multivariate Zufallsvariablen 2 Die multivariate Normalverteilung 3 Normalverteilungsmodelle 4 Hauptkomponentenanalyse 5 Faktorenanalyse 6 Kanonische Korrelationsanalyse 7 Korrespondenzanalyse 8 Clusteranalyse 9 Diskriminanzanalyse 10 Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-3 - 0. Multivariate Analysemethoden Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-4 -

Multivariate Analysemethoden Häufige Situation: mehrdimensionale (multivariate) Daten Beschreibung der Untersuchungsobjekte ( Individuen ) durch mehrere Variablen Multivariate Verfahren dienen zur Analyse solcher mehrdimensionaler Daten, insbesondere der Zusammenhänge unter den Variablen Beispiele Messwerte bei Menschen Alter, Geschlecht, Körpergröße, Gewicht, Puls, Blutdruck Risikofaktoren bei Krebspatienten Ausdehnung des Tumors, Vorhandensein von Metastasen, Rauchen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-5 - Multivariate Analysemethoden Auswahl geeigneter multivariater Analysemethoden Verschiedene Arten der Zusammenhangsanalyse adressieren verschiedene Fragestellungen Korrelationsanalyse Hypothesentests für eine oder mehrere Populationen Multivariate Varianzanalyse, multiple multivariate Regression Hauptkomponentenanalyse Faktorenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Graphische Modelle Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-6 -

Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots für Gewicht, Körpergröße und Alter von n = 21 Individuen Scatterplot kann als sehr einfaches multivariates Verfahren betrachtet werden Gewicht Körpergröße Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-7 - Multivariate Analysemethoden Korrelationsanalyse Ziel: Bestimmung von paarweisen, multiplen und partiellen Korrelationen Beispiel: Gewicht, Körpergröße und Alter von Personen Paarweise Scatterplots Körpergröße Gewicht Alter Alter Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-8 -

Multivariate Analysemethoden Hypothesentests für eine oder mehrere Populationen Ziel: Unterscheidung von Populationen anhand von mehrdimensionalen Merkmalen Beispiel: Gefälschte Banknoten Daten: n e = 100 echte und n f = 100 falsche Schweizer Banknoten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-9 - Multivariate Analysemethoden Multivariate Varianzanalyse Frage: Wirken mehrere Variablen einzeln und/oder gemeinsam auf eine oder mehrere interessierende Merkmale? Beispiel Werkstatt Fertigung von Autorädern in verschiedenen Werkstätten mit jeweils mehreren Maschinen Zwei Qualitätsmerkmale zur Beurteilung der gefertigten Räder Gibt es Qualitätsunterschiede zwischen den Maschinen innerhalb einer Werkstatt, oder zwischen den Werkstätten? Multiple Multivariate Regression Funktionaler Zusammenhang zwischen mehreren Einfluss- und einer oder mehreren Zielgrößen Beispiel Prostatakrebs Untersuchung des Einflusses verschiedener Prädiktoren auf eine Zielvariable Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-10 -

Multivariate Analysemethoden Daten zum Prostatakrebs von Stamey et al. (1989) Prädiktoren: lcavol log cancer volume lweight log prostate weight age lbph log benign hyperplasia amount svi seminal vesicle invasion lcp log capsular penetration gleason gleason score pgg45 percent gleason scores 4 or 5 Zielvariable: log(psa) (prostate specific antigen) level Daten standardisiert auf Varianz 1 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-11 - Lineare Regression: Prostatakrebs Kovarianz-Matrix: lcavol lweight age lbph svi lcp gleason lweight 0.300 age 0.286 0.317 lbph 0.063 0.437 0.287 svi 0.593 0.181 0.129-0.139 lcp 0.692 0.157 0.173-0.089 0.671 gleason 0.426 0.024 0.366 0.033 0.307 0.476 pgg45 0.483 0.074 0.276 0.030 0.481 0.663 0.757 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-12 -

Lineare Regression: Prostatakrebs Modell für log PSA Prädiktoren auf Varianz 1 normalisiert Term Intercept Coefficient 2.48 Std. Error 0.09 Z Score 27.66 Test auf Ausschließung einer Gruppe von Termen durch F-test (ANOVA) lcavol lweight 0.68 0.30 0.13 0.11 5.37 2.75 Z-score misst somit den Effekt für das Entfernen einer Variable aus dem Modell lcp ist nicht signifikant wennlcalvol im Modell enthalten ist, ansonsten schon! age lbph svi lcp gleason pgg45-0.14 0.21 0.31-0.29-0.02 0.27 0.10 0.10 0.12 0.15 0.15 0.15-1.40 2.06 2.47-1.87-0.15 1.74 Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-13 - Multivariate Analysemethoden Hauptkomponentenanalyse Bestimmung weniger Richtungen, die möglichst viel Varianz erklären Iterative Bestimmung orthogonaler Vektoren Erste Hauptkomponente entspricht der linearen Transformation der Daten auf die Richtung mit maximaler Varianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-14 -

Multivariate Analysemethoden Faktorenanalyse Ähneln sich mehrere Merkmale so stark, dass wir sie als ein einziges latentes Merkmal betrachten können? Beispiel Wichtige Charakteristika für Einstellungschancen von Bewerbern? Bei diesen Charakteristika kann es sich um abstrakte Faktoren handeln, wie etwa Kontaktfähigkeit oder emotionale Kompetenz. Korrespondenzanalyse Beziehungen zwischen kategoriellen Variablen an mehreren Individuen Beispiel Betrachtung der Haarfarbe und Augenfarbe von Menschen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-15 - Multivariate Analysemethoden Clusteranalyse Auffinden von Gruppen ähnlicher Objekte Beispiel Marketinganalyse zur Einteilung von Produkten in homogen Untergruppen Ein Handyhersteller stellt auf Basis einer Verbraucherbefragung fest, dass alle drei von ihm hergestellte Handytypen in die gleiche Untergruppe eingeordnet werden, sich aus Verbrauchersicht also kaum unterscheiden Einen oder zwei dieser Typen durch einen neuen, mit anderen Leistungsmerkmalen ausgestatteten Typen ersetzen, um so einen neuen Kundenkreis anzusprechen? Wichtigste Zutaten der Clusteranalyse Distanzmaß oder Ähnlichkeitsmaß zwischen Objekten Clusteralgorithmus zum Auffinden kompakter Gruppen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-16 -

Multivariate Analysemethoden Diskriminanzanalyse Einordnung von Objekten in gegebene Klassen Beispiel Kreditwürdigkeit Beurteilung der Kreditwürdigkeit von Firmen an Hand von Bilanzkennzahlen, unter Zurückgreifen auf Erfahrungswerte Betrachtung einer Lernstichprobe von Firmen mit bekannten Bilanzkennzahlen und Kreditwürdigkeit Entscheidung über die Kreditwürdigkeit eines neuen Antragstellers mit dieser Vorinformation Beispiel Krebsdiagnose Prognose von Therapieerfolg anhand von klinischen und genetischen Messungen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-17 - Multivariate Analysemethoden Graphische Modelle Unterscheidung mittelbarer und unmittelbarer Zusammenhänge unter mehreren Variablen Beispiel Examensnoten in Mechanik Me, Vektorrechnung Ve, Algebra Al, Analysis An, Statistik St (gemessen in Prozentzahlen) von 88 Studenten Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-18 -

1. Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-19 - Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Zufallsvektor: gemeinsame Darstellung d eindimensionaler Zufallsvariablen. Wie im univariaten Fall unterscheidet man zwischen diskret und stetig. Mischformen: Zufallsvektor mit diskreten und stetigen Merkmalen (Komponenten). Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-20 -

Multivariate Zufallsvariablen Beispiele für multivariate Verteilungen Biometrie Klinische Messungen bei Krebspatienten (Örtliche Ausdehnung des Primärtumors, Existenz von regionären Lymphknotenmetastasen, Existenz von Fernmetastasen, Blutwerte, Raucherstatus, genetische Mutationen) Genexpressionswerte (Messungen der Aktivität von Tausenden Genen gleichzeitig) Ökonometrie Aktienkurse verschiedener Unternehmen Daten zu Konsum, Investition, Import, Export (BIP) Technometrie Zur Risikoanalyse technischer Systeme Einstellungen verschiedener technischer Parameter, technologische Bauteilqualität Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-21 - Multivariate Zufallsvariablen Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-22 -

Multivariate Verteilungsfunktion Die folgende Definition d-variater Verteilungs- und Dichtefunktionen verallgemeinert die entsprechenden Begriffe f ur eindimensionale Zufallsvariablen: Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-23 - Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-24 -

Multivariate Dichte Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-25 - Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-26 -

Multivariate Verteilungsfunktion Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-27 - Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-28 -

Erwartungswert Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-29 - Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-30 -

Kovarianz Jörg Rahnenführer, Multivariate Verfahren, WS0809, TU Dortmund 13.10.2008-31 -