8. Methoden der klassischen multivariaten Statistik



Ähnliche Dokumente
9. Schätzen und Testen bei unbekannter Varianz

Willkommen zur Vorlesung Statistik

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Grundlagen der Inferenzstatistik

Statistik II für Betriebswirte Vorlesung 2

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Einfache Varianzanalyse für abhängige

Varianzanalyse (ANOVA: analysis of variance)

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Auswertung mit dem Statistikprogramm SPSS:

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Eine Einführung in R: Statistische Tests

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Varianzanalyse ANOVA

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Ein möglicher Unterrichtsgang

Webergänzung zu Kapitel 10

Tutorial: Homogenitätstest

Statistik II für Betriebswirte Vorlesung 3

Forschungsstatistik I

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Statistische Auswertung:

Willkommen zur Vorlesung Statistik (Master)

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

Teil I Beschreibende Statistik 29

Überblick über die Verfahren für Ordinaldaten

Korrelation (II) Korrelation und Kausalität

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

5. Schließende Statistik Einführung

Stichprobenauslegung. für stetige und binäre Datentypen

QM: Prüfen -1- KN

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Einfache statistische Auswertungen mit dem Programm SPSS

Business Value Launch 2006

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Kontingenzkoeffizient (nach Pearson)

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Übersicht: Modul 2. Methoden der empirischen Sozialforschung, Statistik und computergestützte Datenanalyse. Dr. H.-G. Sonnenberg

Einführung in die Algebra

Data Mining: Einige Grundlagen aus der Stochastik

Korrelation - Regression. Berghold, IMI

Prüfen von Mittelwertsunterschieden: t-test

Zeichen bei Zahlen entschlüsseln

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Statistik I für Betriebswirte Vorlesung 11

Beispiel Zusammengesetzte Zufallsvariablen

Prüfung eines Datenbestandes

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Einfache statistische Auswertungen mit dem TI-Nspire

Die Optimalität von Randomisationstests

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

9. StatistischeTests. 9.1 Konzeption

W-Rechnung und Statistik für Ingenieure Übung 11

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Auswertung und Darstellung wissenschaftlicher Daten (1)

1.3 Die Beurteilung von Testleistungen

Zusammenhänge zwischen metrischen Merkmalen

Nichtparametrische statistische Verfahren

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Binäre abhängige Variablen

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Professionelle Seminare im Bereich MS-Office

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Was meinen die Leute eigentlich mit: Grexit?

AUTOMATISIERTE HANDELSSYSTEME

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Überblick über die Tests

1 Darstellen von Daten

Statistische Thermodynamik I Lösungen zur Serie 1

3. LINEARE GLEICHUNGSSYSTEME

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Repetitionsaufgaben Wurzelgleichungen

Transkript:

8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von Merkmalsausprägungen zugeordnet sind "multivariate Statistik": mehrere Merkmale (Variablen; Attribute), d.h. J > 1 Merkmale können nominal, ordinal, Intervall- oder Ratioskaliert sein (siehe Kap. 1) "Beschreibende Statistik" beschreibt die Daten durch einzelne Werte, durch übersichtliche Tabellen oder durch grafische Darstellungen. (im Folgenden teilw. nach Schwenker 2004) Absolute und relative Häufigkeit: Darstellung durch Tabellen der absoluten oder relativen Häufigkeiten für jedes Merkmal und jede Ausprägung: beschreibt den Datensatz bei Vernachlässigung der Zusammenhänge zwischen Merkmalen

grafische Darstellungen bei 1 Merkmal ("univariater" Fall): Der Modalwert anschaulich: "Gipfel" im Balkendiagramm Verallgemeinerung des Balkendiagramms: Histogramm

Trägt man die empirischen Daten über den Klassen (also über den Intervallen) ab, so entsteht ein Histogramm.

Abhängigkeit des Histogramms von der gewählten Klasseneinteilung ungünstig gewählte Klasseneinteilung kann falsche Strukturen in den Daten vortäuschen Beispiel:

Deshalb in vielen Fällen vorzuziehen: Die (empirische bzw. kumulative) Verteilungsfunktion Vorteil der kumulativen Verteilungsfunktion: Unabhängigkeit von Klassierungsannahmen

Multivariater Fall: mehrere Merkmale in Analogie zum univariaten Histogramm: bivariates Histogramm (3D-Grafik)

bei mehr als 2 Merkmalen: alle Kombinationen in einzelnen Scatterplots erfassen

- oder: 3D-Scatterplots verwenden Mehr als 3 Merkmale sind nicht gleichzeitig in einer Grafik als Scatterplot darstellbar Fragestellung der mehrdimensionalen Skalierung: lässt sich eine niedrigdimensionale Darstellung für eine hochdimensionale Datenmenge (Attributzahl J groß) finden, so dass die Strukturen in den Daten weitgehend erhalten bleiben?

(aus Schukat-Talamazzini 2002)

Tabellarische Darstellungen multivariater Datensätze:

Die Randverteilungen können wieder durch Histogramme oder kumulative Verteilungsfunktionen dargestellt werden.

Bedingte Verteilungen: Auch die bedingten Verteilungen können durch Histogramme oder kumulative Verteilungsfunktionen veranschaulicht werden.

8.2. Kenngrößen der beschreibenden Statistik Lokalisations- (Lage-) Maße: Weiteres Lokalisationsmaß: Modus (Modalwert) schon für nominal skalierte Attribute definiert aber nicht immer eindeutig bestimmt

Streuungsmaße (Dispersionsmaße):

Kenngrößen für multivariate Daten (Betrachtung mehrerer Attribute zugleich):

Eigenschaften der Kovarianz: Kovarianzmatrix: Σ = (s xy ) x,y Merkmale (die Diagonalelemente s xx sind die Varianzen.)

r xy heißt auch Pearsonscher Korrelationskoeffizient. Auch: R. Korrelationsmatrix K = (r xy ) x,y Merkmale

Unabhängigkeit zweier Attribute (Merkmale): Zusammenhangsmaße:

(Schwenker 2004) 8.3. Statistische Tests Hypothesentests Ziel: Anhand empirischer Daten über ein Merkmal soll eine Entscheidung herbeigeführt werden zwischen zwei konträren Aussagen. Beispiel: a. Einstichprobenproblem (1-sample problem): Hat ein neuer Datensatz A einen mittleren Wert µ des betrachteten Attributs, der größer ist als der (bisher für dieses Attribut angenommene) Wert µ 0? Entscheidung anhand der Ergebnisse x 1,..., x n von n Messungen.

b. Zweistichprobenproblem (2-sample problem): Hat der Datensatz A im Mittel einen größeren Attributwert als der Datensatz B? Entscheidung anhand der Ergebnisse x 1,..., x na von Datensatz A und x 1,..., x nb von Datensatz B. Nullhypothese (null hypothesis) H 0 : µ µ 0 bzw. µ A µ B (2 Stichproben). Alternativhypothese (alternative hypothesis) H A : µ > µ 0 bzw. µ A > µ B (2 Stichproben). Vorgehensweise: Ergibt die Empirie einen ungewöhnlich großen Stichprobenmittelwert (d.h. im Ablehnungsbereich, kritischer Bereich), also ein Ergebnis, das unter der Nullhypothese H 0 : µ µ 0 sehr unwahrscheinlich wäre, so vermutet (schließt) man, daß H 0 wohl falsch ist, d.h. man entscheidet sich für H A. Bei diesem Schluß kann man sich irren: Fehler 1. Art (type I error) : Ablehnung von H 0 zu Unrecht, also obwohl H 0 zutrifft. Fehlerwahrscheinlichkeit α (wird vorgegeben, z.b. α = 0,05). α = "Risiko I", Signifikanzniveau; 1 α heißt statistische Sicherheit.

Liegt dagegen im Annahmebereich von H 0, ist also nicht zu groß, so wird H 0 als richtig angenommen. Auch hier kann es zum Irrtum kommen: Fehler 2. Art (type II error) : Annahme von H 0 zu Unrecht, also obwohl H A zutrifft. Fehlerwahrscheinlichkeit β, hängt ab vom wahren Erwartungswert µ. β = "Risiko II". (1 β heißt Schärfe des Tests.) ( Beachte: Entsprechendes gilt für die Nullhypothesen µ µ 0 oder µ = µ 0, die gegen H A : µ < µ 0 bzw. µ µ 0 geprüft werden.) Übersicht: Entscheidung für: H 0 H A Realität: H 0 stimmt richtige Entscheidung W'keit 1 α Fehler 1. Art W'keit α H A stimmt Fehler 2. Art W'keit β richtige Entscheidung W'keit 1 β Allgemein gilt: Verkleinerung von α führt zu Vergrößerung von β ("Antagonismus"). Einzige Möglichkeit, β bei festem α zu verkleinern: Stichprobenumfang n vergrößern.

Festlegung des Ablehnungs- und des Annahmebereichs: Man berechnet aus den Beobachtungen x 1,..., x n eine Prüfgröße (Teststatistik) T(x 1,..., x n ), bei der ein großer Wert eher für H A und ein kleinerer eher für H 0 spricht. Außerdem legt man einen kritischen Wert c 1 α fest, so daß P(T > c 1 α ) α gilt, wenn H 0 zutrifft. Dann wird entschieden: T > c 1 α H 0 wird abgelehnt T c 1 α H 0 wird akzeptiert. (Beim einseitigen Einstichproben-Gauß-Test (H 0 : µ µ 0 ) ist z.b. die Prüfgröße (= standardisierter Stichprobenmittelwert) und der kritische Wert c 1 α = u 1 α = (1 α)-quantil der Standard-Normalverteilung (Gaußverteilung). WICHTIG: In Statistik-Programmpaketen wie STATISTICA wird bei Hypothesentests der Wert p angegeben: p = P(Teststatistik T >= aktueller Wert von T) unter der Annahme der Nullhypothese. p gibt also das maximale α-niveau an, für das die Nullhypothese gerade noch akzeptiert werden kann: p < α: H 0 ablehnen p >= α: H 0 beibehalten. Je kleiner p ist, desto signifikanter ist die Abweichung von der Nullhypothese!

Beispiel: Der 2-Stichproben-t-Test Anwendung: Entscheidung der Frage, ob zwei Stichproben, bei denen jeweils 1 Merkmal gemessen wird, denselben Mittelwert aufweisen (bzw. ob der eine Mittelwert größer als der andere ist). Voraussetzungen: Das gemessene Merkmal muss als normalverteilt angenommen werden (d.h. approximierbar durch eine Gaußverteilung); die Varianz dieser Normalverteilung ist unbekannt, aber in beiden Stichproben gleich. Zweistichproben-t-Test (two-sample t-test) X 1,..., X na seien stochastisch unabh. N(µ A, σ²)-verteilungen, Y 1,..., Y nb seien stochastisch unabh. N(µ B, σ²)-verteilungen (entsprechend den beiden Stichproben). σ sei unbekannt, aber identisch bei beiden Verteilungen. S A, S B seien die empirischen Standardabweichungen für X bzw. Y,, die empirischen arithmetischen Mittelwerte. H 0 : µ A = µ B, d.h. die beiden Verteilungen sind identisch. Unter dieser Annahme ist die Prüfgröße t-verteilt mit n A + n B 2 Freiheitsgraden. (t-verteilung, auch Student-Verteilung: tabellierte Verteilung, Wahrscheinlichkeitsdichte darin ist n ein Parameter, die "Anzahl der Freiheitsgrade".),

H 0 wird abgelehnt. Analog kann man auch einseitig testen, d.h. H 0 : µ A µ B, dann Ablehnung von H 0 bei. Dabei ist t n,q das q-quantil der t-verteilung mit n Freiheitsgraden. 8.4 Die Varianzanalyse (Analysis of Variance; ANOVA) Verallgemeinerung der Fragestellung des 2-Stichproben-t-Tests Ziel: Unterschiede zwischen einzelnen (Teil-) Datensätzen feststellen statt 2 Stichproben jetzt also p Stichproben Voraussetzungen: die für die Unterscheidung verwendeten Attribute haben numerische Werte als Ausprägungen diese sind in den Teil-Datensätzen jeweils normalverteilt mit gleicher Varianz (Varianzhomogenität) die einzelnen Teil-Datensätze heißen auch Stufen, Faktorstufen, Varianten oder Behandlungsarten Gesamtzahl der Daten in allen Stufen: N = n 1 +... + n p Zeilen- (Stufen-) Mittelwerte Gesamt-Mittelwert

Zerlegung der Abweichung eines Beobachtungswertes vom Mittelwert: = Abweichung des i-ten Stufenmittels vom Gesamtmittelwert = Effekt des Einflussfaktors A (i-te Behandlungsart) = Abweichung des Beobachtungswertes vom zugehörigen Stufenmittel = "Restfehler". Beachte: Die Restfehler innerhalb einer Zeile summieren sich zu Null:

Entsprechende Zerlegung der Summe der Abweichungsquadrate (damit auch Zerlegung der Varianz "Varianzanalyse"): = SQ Effekt + 0 + SQ Fehler also SQ total = SQ Effekt + SQ Fehler, der Anteil von SQ Effekt misst den Einfluss des Faktors A auf die Gesamtstreuung. SQ Effekt = SS effect (sum of squares), SQ Fehler = SS error im Englischen. Zur Vergleichbarkeit muss man normieren, d.h. durch p 1 bzw. durch N p dividieren: FG Effekt = df effect = p 1 = Anzahl der Freiheitsgrade "zwischen den Stufen" FG Fehler = df error = N p = Anzahl der Freiheitsgrade "innerhalb der Stufen" (df = degrees of freedom) MQ Effekt = MS effect = den Stufen, = mittlere Quadratsumme zwischen

MQ Fehler = MS error = = mittlere Quadratsumme innerhalb der Stufen (mean sum of squares). Test auf Signifikanz der Mittelwertunterschiede: Voraussetzung: Die Restfehler ε ik sind stochastisch unabhängig und normalverteilt mit Mittelwert 0 und identischer Varianz σ ² (Varianzhomogenität). Dann folgt die Prüfgröße einer F-Verteilung mit den Parametern p 1 und N p (Quantile tabelliert bzw. in Statistik-Software abrufbar). Nullhypothese H 0 : µ 1 = µ 2 =... = µ p, d.h. kein Effekt des Faktors A, dagegen H A : wenigstens 2 der µ i unterscheiden sich. F > F p 1, N p, 1 α (Quantil der F-Verteilung): H 0 ablehnen. Varianzanalyse bei mehreren Einflussfaktoren multifactorial analysis of variance, MANOVA bei 2 Faktoren A, B hat man: - Effekt des Faktors A - Effekt des Faktors B - evtl. "Synergie-Effekt" von A und B, d.h. "Wechselwirkungs-Effekt" AB - Restfehler.

Entsprechend zerlegt man die Summe der Abweichungsquadrate SQ total in 4 Komponenten SQ A, SQ B, SQ AB und SQ Fehler und berechnet analog zur einfaktoriellen Analyse die Werte MQ und F (jeweils gesondert für A, B, AB). F > krit. Wert der F-Verteilung bedeutet einen signifikanten Einfluss des entsprechenden Faktors bzw. der Wechselwirkung. Analog bei mehr als 2 Faktoren (mit entsprechend mehr Wechselwirkungsmöglichkeiten: AB, AC, BC, ABC...).

8.5. Die Diskriminanzanalyse (vgl. Hartung & Elpelt 1999, S. 240 ff.) Ziel: Klassifikation Zuordnung von Instanzen zu Klassen unter Verwendung einer Lernstichprobe Voraussetzungen: alle Attribute sind numerische Größen und sind normalverteilt mit in allen Klassen gleicher Kovarianzmatrix

Ein Beispiel (aus Hartung & Elpelt 1999, S. 247 ff.):

ausführliches Beispiel: Hartung & Elpelt 1999, S. 253-257.