KOMPLEXE STATISTISCHE VERFAHREN

Ähnliche Dokumente
Einfache Varianzanalyse für abhängige

Überblick über die Verfahren für Ordinaldaten

Varianzanalyse (ANOVA: analysis of variance)

Willkommen zur Vorlesung Statistik

Fortgeschrittene Statistik Logistische Regression

Statistische Auswertung:

Tutorial: Homogenitätstest

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Einfache statistische Auswertungen mit dem Programm SPSS

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Quantitative Methoden der Bildungsforschung

Business Value Launch 2006

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

9. Schätzen und Testen bei unbekannter Varianz

Webergänzung zu Kapitel 10

Statistik II für Betriebswirte Vorlesung 2

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Korrelation - Regression. Berghold, IMI

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Nichtparametrische statistische Verfahren

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Auswertung mit dem Statistikprogramm SPSS:

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Repetitionsaufgaben Wurzelgleichungen

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

4. Erstellen von Klassen

Grundlagen der Inferenzstatistik

Kapitel 7: Varianzanalyse mit Messwiederholung

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

1.3 Die Beurteilung von Testleistungen

Willkommen zur Vorlesung Statistik (Master)


V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Multicheck Schülerumfrage 2013

Die Methode des Robusten Trends und der CAC40 (Frankreich)

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Was meinen die Leute eigentlich mit: Grexit?

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Grundlagen der Datenanalyse am Beispiel von SPSS

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Binäre abhängige Variablen

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

QM: Prüfen -1- KN

Übersicht: Modul 2. Methoden der empirischen Sozialforschung, Statistik und computergestützte Datenanalyse. Dr. H.-G. Sonnenberg

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

7 Rechnen mit Polynomen

Professionelle Seminare im Bereich MS-Office

B: bei mir war es ja die X, die hat schon lange probiert mich dahin zu kriegen, aber es hat eine Weile gedauert.

Statistik für Studenten der Sportwissenschaften SS 2008

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Hypothesentests mit SPSS

Florian Frötscher und Demet Özçetin

Anleitung. Empowerment-Fragebogen VrijBaan / AEIOU

1. Weniger Steuern zahlen

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

KOMPLEXE STATISTISCHE VERFAHREN (WS 2002/03) Dr.MMag. Ivo Ponocny

Informationsblatt Induktionsbeweis

Bewertung des Blattes

Korrelation (II) Korrelation und Kausalität

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

Umgekehrte Kurvendiskussion

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Ein möglicher Unterrichtsgang

Materialien für den Unterricht zum Film Crazy von Hans-Christian Schmid Deutschland 2000, 93 Minuten

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Einführung ins Experimentieren. Methodenpropädeutikum II Allgemeine Psychologie. Überlegungen zum exp. Design. Adrian Schwaninger & Stefan Michel

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Berechnung der Erhöhung der Durchschnittsprämien

Transkript:

1 1. THEORETISCHES: KOMPLEXE STATISTISCHE VERFAHREN Wofür braucht man komplexe statistische Verfahren? um objektivere Antworten auf Fragen (z.b. Schadet Rauen?) geben zu können Im Alltag hier oft Heranziehung von Einzelfällen (z.b. Opa = Kettenraucher, wurde 100, daher Rauchen schadet nicht) ABER: Einzelfall kann höchstens zeigen, dass etwas existiert kann hilfreich sein, ist aber nicht beweiskräftig ( anekdotisches Niveau ) aufgrund Einzelfalls Entscheidung nicht möglich Frage kann nicht global beantwortet werden (z.b. nie, immer,...), sondern immer mit bestimmter Wahrscheinlichkeit (eher, wahrscheinlich,...) Wofür braucht man komplexe statistische Verfahren? (= multivariate Verfahren) Variablen, die in Psychologie interessieren, sind kaum isolierbar, sondern meist Teil eines komplexen Ganzen (z.b. Sympathie, Leistung,...) komplexe Bedingungsgefüge, d.h. ob Vorhersage zutrifft oder nicht, hängt von X Bedingungen ab. Für Feststellung eines Zusammenhanges muss man daher viele Variablen miterhaben, um ihre Effekte auf den Zusammenhang ausschließen zu können (Beispiel: Kaiser Joseph II Mozart Salieri) Aufgaben statistischer Betrachtung: 1) Überblicksgewinnung: BEISPIEL: Was trägt zum Gelingen einer OP bei? aus vielen Daten Errechnung eines Durchschnitts, ABER: dabei kommt es zur Informationsreduktion! - ist gut, wenn aufs Wesentliche reduziert wird - ist schlechte, wenn Wichtiges übersehen wird BEISPIEL: Durchschnittsgehalt einer Minderheit kann durchschnittlich gleich hoch sein wie Durchschnittsgehalt der Mehrheit; ABER: Minderheit sehr inhomogen -> große Streuung; extreme Werte oben und unten, Mehrheit sehr homogen. 2) Objektivität: BEISPIEL: Gibt es Erdstrahlen? Zahlen sind Zahlen (viele Personen spüren an gleicher Stelle Erdstrahlen; DAHER: es gib sie eventuell)

2 3) Hypothesentesten: BEISPIEL: Parken Frauen schlechter als Männer ein? Qualitative vs. quantitative Verfahren: 1) quantitative Verfahren: hypothesentestend verwenden Statistik (z.b. t-test, VA, MW, SD,...) geschlossenes Antwortformat 2) qualitative Verfahren: hypothesenerkundend verwenden Interviews, Tagebücher,... offenes Antwortformat ideal = Kombination der beiden BEISPIEL: Ist Einkommen schuld an Straffälligkeit? - quantitatives Vorgehen: Korrelationen zwischen Einkommenshöhe und Anzahl der Straftaten ausrechen - qualitatives Vorgehen: Befragung der Leute (hier kriegt man andere Info [Meinungen,...]!) Ausrichtung statistischer Verfahren: 1) deskriptiv: = beschreibend arbeitet mit Häufigkeiten, MW, SD, Korrel,... 2) explorativ: = erforschend, strukturierend arbeitet mit FA, Clusteranalyse,... 3) inferenzstatistisch: = hypothesentestend arbeitet mit t-test, VA, Chi-Quadrat-Test,...

3 @ Inferenzstatistik: Wie funktioniert ein statistischer Test? BEISPIEL: Parkschaden: 6 x von Frauen, 5 x von Männern Frage: Sind Männer bessere Einparker oder ist das Zufall? D.h. Gibt es einen stochastischen Zusammenhang oder ist dieses Ergebnis ein Störrauschen in den Daten. Nullhypothese: Alternativhypothese: Es gibt keinen Zusammenhang zwischen Geschlecht und Einparkfähigkeiten Es gibt einen Zusammenhang; Frauen sind besser wissenschaftliches Prinzip: Hypothese bestätigt sich, solange sie richtige Vorhersagen trifft; ABER: dadurch ist sie NICHT bewiesen! BEISPIEL: These: 0 = 1 Obwohl richtiges Ergebnis Antithese: 1 = 0 herauskommt, sind die Thesen Synthese: 1 = 1 trotzdem falsch! Merke: 1) Hypothesen sind nicht beweisbar, sondern nur falsifizierbar (Grund: Um Hypothese verifizieren zu können, müssten ALLE Fälle, also gesamte Population untersucht werden -> ist unmöglich!) 2) Verschiedene Hypothesen können gleiche Vorhersagen treffen [können dann aber nicht H0 und dazugehörige H1 sein!] BEISPIEL: Turiner Grabtuch: - Flecken sind Blut (enthalten Eisen) - Flecken sind rote Farbe (enthält Eisen) 3) Hellseher Beispiel: - Hellseher behauptet, von 10 Münzwürfen 9x richtig vorherzusehen (p = 0.9) - ich behaupte, er kann maximal 5 Würfe vorhersehen (p = 0.5) dann 1 Münzwurf... BEIDE haben recht! 4) Hypothese Es gibt Unterschiede ist erst belegt, wenn Hypothese Es gibt keine Unterschiede falsifiziert. ABER: H0 ist nicht wirklich falsifizierbar, sondern kann nur unwahrscheinlicher gemacht werden.

4 H0 und H1: Ho: kein Unterschied, kein Zusammenhang, keine Abweichung von bestimmter Verteilung (= immer EINE Wahrscheinlichkeitsverteilung) H1: viele Möglichkeiten (z.b. Kreuztabelle) Frage: Wie wahrscheinlich / unwahrscheinlich ist Ho angesichts der erhobenen Daten? ABER: ist nicht direkt beobachtbar! Beim Hypothesentesten schaue ich, wie wahrscheinlich / unwahrscheinlich meine Ho ist Dabei indirekte Argumentation: Meine Annahme A = wohl falsch, wenn unter Annahme von A das beobachtete Ereignis (also meine Daten) sehr unwahrscheinlich ist. BEISPIEL: Ho: Es gibt keinen Unterschied zwischen Männern und Frauen hinsichtlich der Körpergröße Datenerhebung (= beobachtetes Ereignis) ergibt: - durchschnittliche Größe Männer = 1,85 cm - durchschnittliche Größe Frauen = 1,65 cm Angesichts dieser Daten ist es unwahrscheinlich, dass es keinen Unterschied zwischen Männern und Frauen hinsichtlich der Körpergröße gibt; DAHER: Ho ist wahrscheinlich falsch Aus dem Ereignisraum [= alle beobachteten Ereignisse] wählt man einen Verwerfungsbereich aus. Grenze dafür: Alpha = 5% oder Alpha = 1% Verwerfungsbereich hat unter Ho eine Wahrscheinlichkeit von maximal Alpha = 5% (oder 1%) H1 sagt ein Ereignis im Verwerfungsbereich vorher, was unter Ho zu unwahrscheinlich ist. Unter SPSS muss man keinen Verwerfungsbereich konstruieren, SPSS gibt automatisch p-wert an. BEISPIEL: Hat Herr P. hellseherische Fähigkeiten? 10 Münzwürfe -> wie viele ist wahrscheinlich, dass er errät? Man beginnt mit extremsten Ereignissen (d.h. den höchsten Testgrößen) - bei 10 Würfen hat er 10 richtige: p = 0.001 Summe = 0.051 - bei 10 Würfen hat er 9 richtige: p = 0.01 -> größer als Alpha - bei 10 Würfen hat er 8 richtige: p = 0.4 (0.05), daher: - bei 10 Würfen hat er 7 richtige, usw. Ho gilt

5 Berechnung: Binomialtest 1) Ratewahrscheinlichkeit bei 2 Möglichkeiten: p = günstige (z.b. Adler) / mögliche (Kopf + Adler) = 0.05 2) Binomialtest rechnen: Formel: (n über k) mal p hoch x mal q hoch 1-X n über k = n faktorielle durch x faktorielle mal (n X) faktorielle für 8 richtige: 10 8 * 0.5 8 * 0.5 2 = 45 * 0.0039 * 0.25 = 0.044 10 über 8 = 10 * 9 * 8! / 8! * 2! = 90/2 = 45 p Wert (Signifikanz) = Wahrscheinlichkeit, zufällig (also unter Ho) eingleich großes oder noch größeres Ergebnis zu erhalten. Grenze dafür = Alpha (ab da Verwerfungsbereich) Für Testung = Ho wichtig -> bestimmte Wahrscheinlichkeitsverteilung (oft NV) Alpha berechnet sich NUR nach Ho (aufpassen, wenn Verteilung falsch ist -> z.b. ich glaub, es ist NV, in Wirklichkeit ist es aber keine) Macht (= Wahrscheinlichkeit, mit der Test richtig vorhersagt) hängt ab von Ho UND H1 (bzw. von der Anzahl der n) Statistische Fehlurteile: Verwerfung der Ho, obwohl sie gilt (= Alpha Fehler) Beibehaltung der Ho, obwohl H1 gilt (= Beta Fehler) Kann zustande kommen bei: 1) Zufallsfehler: z.b. in meiner Stichprobe sind mehr Frauen, die schlecht einparken als in Population 2) Asymptotik schlecht / falsch gewählt: vor allem bei kleinen Stichproben bzw. bei komplexen Modellen) 3) Modellfehler: z.b. NV wurde angenommen, Variable ist aber NICHT normalverteilt 4) Modell = inhaltlich falsch

6 Modelltests (= Goodness for fit; Anpassung): z.b. Kolmogorow Smirnow Test (auf NV); NICHT SIGNIFIKANT!!! Levene Test (auf homogene Varianzen) (d.h. p > 0.05) Modelltest = signifikant (p kleiner als 0.05); das bedeutet: Modell gilt NICHT [d.h. keine NV, keine homogenen Varianzen, etc.] D.h. es gibt überzufällige Abweichungen vom Modell; daher ist bestimmtes Verfahren (z.b. VA) NICHT zulässig. Mach ich es trotzdem, dann riesiger Alpha Fehler. Gewählter Test kann Alpha Risiko nicht unter 5% kontrollieren. ACHTUNG: Nicht sagen: Es gilt NV, sondern Es kann näherungsweise NV angenommen werden. Grund: Modell kann nicht bewiesen werden, sondern nur widerlegt [vgl. Falsifizierbarkeit] Modelle = relativ robust, d.h. Abweichungen werden bis zu einem bestimmten Grad toleriert; ABER: Probleme wenn - Gruppengröße unter 10 - bei ungleichen Stichproben Problem des multiplen Testens: In Praxis meist viele Variablen erhoben (z.b. Geschlecht, Einkommen, Alter,...); ABER: wenn ich ALLE teste -> großer Alpha Fehler! (gilt für alle Tests, die Signifikanzniveau vorgeben, z.b. t-test, VA, U-Test,...). Bei k Tests: p = k mal Alpha (= Alpha Akkumulation). Außerdem bei vielen Tests mehr Gefahr, dass irgendwo ein Alpha Fehler. DAHER: 1) Hypothesenreduktion: - möglichst wenige Hypothesentests pro Untersuchung (nur sinnvolle Hypothesen testen!) - einzelne Variablen zusammenfassen zu Summenscores; FA zur Gewinnung von Subskalen - vorher überlegen, WAS man eigentlich wissen will [das testen, wo man sich einseitig testen trauen würde, weil man Richtung z.b. schon aus Theorie kennt; möglichst kein komplizierteres Verfahren für Haupthypothese als einfache VA-> Design überlegen!] 2) Kreuzvalidierung (d.h. ist das, was ich Stichprobe 1 signifikant ist, auch in Stichprobe 2 signifikant? vgl. Jackknife) 3) Alpha Adjustierung durchführen; ABER: Macht leidet darunter!

7 Alpha Adjustierung nach Bonferoni: Bei k Einzeltests prüfe Einzeltest nicht nach p kleiner als Alpha, sondern nach p kleiner Alpha durch k (p < α/k) BEISPIEL: 10 Einzeltests (z.b. Korrelationen), jeder davon getestet mit p = 0.05 / 10 = 0.005. Das ergibt insgesamt Alpha = 5% (= Wahrscheinlichkeit für mindestens 1 Alpha Fehler bei allen Einzeltests gemeinsam betrachtet) ungünstig dabei: Macht wird sehr klein, daher nur sehr große Unterschiede nachweisbar! Alpha Adjustierung nach Bonferoni Holm: = serielle Korrektur des Alpha kleinstes Testergebnis wird verglichen mit α/k, zweitkleinstes mit α/k-1, drittkleinstes mit α/k-2, usw. Solange diese Alpha kleiner als 0.05 sind -> alle Tests unter 0.05 weniger streng als Bonferoni Korrektur BEISPIEL: Gibt es Geschlechtsunterschiede beim Autofahren? UV = Geschlecht (Männer, Frauen) AV = Autofahren (6 Ausprägungen: Rasen, Auffahren, Rechtsüberholen, Falschparken, Einstellung zum Benzinverbrauch, Einstellung zum Rauchen im Auto) 1. AV (Rasen): p = 0.001 2. AV (Auffahren): p = 0.01 3. AV (Rechtsüberholen): p = 0.04 4. AV (Falschparken): p = 0.04 5. Einstellung Benzinverbrauch: p = 0.26 6. Einstellung Rauchen: p = 0.2 Fall 1: ohne Alpha Adjustierung alle p Werte der Einzeltests mit p = 0.05 vergleichen -> bei Test 1 4 ist p jeweils kleiner als 0.05, daher sind diese Tests signifikant. ABER: D.h. für die globale Ho gilt Folgendes: Alpha Akkumulierung, d.h. sehr großer Alpha Fehler, und zwar: α = p = 1 (1 α) m = 1 (1 0.05) 6 = 1 0.956 = 0.26 D.h. Mit 26% Wahrscheinlichkeit wird Ho verworfen, obwohl sie gilt.

8 Fall 2: mit Alpha Adjustierung nach Bonferoni p Werte der Einzeltests vom kleinsten zum größten aufschreiben: 0.001 0.01 0.015 0.04 0.2 0.26 korrigiertes Alpha ausrechnen: α/m = 0.05/6 = 0.0083 jetzt p Werte der Einzeltests damit vergleichen nur Test 1 = signifikant, da p = 0.001 < 0.0083; ABER: Gesamttest hat geringe Macht! Fall 3: mit Alpha Adjustierung nach Bonferoni Holm Testwerte vom kleinsten zum größten aufschreiben 0.001 0.01 0.015 0.04 0.2 0.26 korrigiertes Alpha für jeden Test ausrechnen, und zwar: - Test 1: p = α/m = 0.05/6 = 0.0083 - Test 2: p = α/m-1 = 0.05/5 = 0.01 - Test 3: p = α/m-2 = 0.0125 - Test 4: p = α/m-3 = 0.0167 - Test 5: p = α/m-4 = 0.025 - Test 6: p = α/m-5 = 0.05 jetzt jedes dieser korrigierten Alpha mit dem unkorrigierten vergleichen - Test 1: p = 0.001 < 0.0083 -> signifikant - Test 2: p = 0.01 = 0.01 -> signifikant - Test 3: p = 0.015 > 0.0125 -> nicht signifikant Test 1 + Test 2 = signifikant, alle andren nicht Fall 4: Nur einen Teil der Tests prüfen (mit Bonferoni Korrektur), z.b. Tests 1-3 0.001 0.01 0.015 Alpha korr = 0.05/3 = 0.017 alle 3 Tests = signifikant [ABER Alpha insgesamt = 14%!] Hätte man die Ausprägungen der AV (= Test 4, 5, 6) NICHT erhoben, wäre globale Ho zu verwerfen gewesen...

9 2. LINEARE MODELLE: Folgende Verfahren bauen auf linearen Modellen auf: t Test VA (X iv = µ + αi + εv) Regression (Y = ax + b) multiple Regression (Z = ax + by+.. + c) Kovarianzanalyse Diskriminationsanalyse lineare Regression partielle Regression multivariate VA kanonische Korrelation lineare Modelle bestehen aus unabhängigen Variablen, die mit Gewichtung zusammengezählt werden und eine AV erklären sollen Verteilungsannahme = NV sind vereinfachendere Annahmen (zu allgemeine Strukturen sind kaum untersuchbar) In Daten gibt es potentiell ALLE Zusammenhänge, aber: - linearer Zusammenhang ist am einfachsten; - NV in Natur sehr häufig; - robuste Verfahren; - Zusammenhänge zumindest annäherungsweise gerechtfertigt @ mögliche Zusammenhänge in den Daten: - linearer Zusammenhang - quadratischer, kubischer, polynomialer, exponentieller, log-linearer Zusammenhang - Clusterbildung - Loch in der Mitte - Dreieckszusammenhang (z.b. bei Intelligenz und Kreativität) - Streifen, Muster, usw. In Praxis können sehr viele davon Sinn machen und Unterschiede erklären!

10 1) Einfache Varianzanalyse: => wird verwendet bei: 1 UV mit mehr als 2 Ausprägungen 1 AV BEISPIEL: Test eines Medikaments: UV: Dosierung (Placebo / einfache Dosis / doppelte Dosis) AV: Befindlichkeit Hypothesen: Ho: Es gibt keine Unterschiede zwischen den Gruppen H1: Es gibt einen Unterschied zwischen den Gruppen Varianz der Mittelwerte der Gruppen ist zu groß, daher muss irgendwo ein signifikanter Unterschied sein! MERKE: Beim Verwerfen der Ho verwirft das gesamte Modell; Grund für Verwerfen können sein Mittelwertsunterschiede oder Modellfehler! Ob Modell passt, testet man, wenn man schaut, ob Voraussetzungen für VA erfüllt sind. Trotzdem kann es zu Modellfehlern kommen, weil Modelltest nur jede Gruppe einzeln prüft! [d.h. innerhalb der Gruppen kann zwar NV sein, insgesamt aber nicht...] => Modellannahme: X = µ + αi + ε D.h. Vorhergesagter Wert setzt sich zusammen aus allgemeinem Mittelwert, Effekt der Gruppe und Messfehler. Werte innerhalb jeder Gruppe = NV (d.h. Fehler streut zufällig um Gruppenmittelwert) Jede Gruppe hat dieselbe Varianz -> Streuung 1 wird angenommen, die bei allen Gruppen gleich sein muss [homogene Varianzen] Verwerfungsbereich bei allen Gruppen derselbe. D.h. Jede Gruppe ist eine Gauß sche Glocke (-> NV); Position auf der X Achse kann unterschiedlich sein (-> Mittelwertsunterschiede), aber Schiefe und Wölbung der Kurve muss gleich sein (-> gleiche Streuung!) => Voraussetzungen für VA: (überprüft durch Modelltests) NV innerhalb jeder Gruppe -> Kolmogorow Smirnow Test Homogenität der Varianzen -> Levene Test, Cochran Test, Bartlett Test wenn alles signifikant (also jeweiliges p > 0.05), dann KEINE NV, KEINE homogenen Varianzen -> parameterfreie Verfahren verwenden (z.b. Kruskal Wallis Test = Rangvarianzanalyse)

11 Merke: Modell = relativ robust, Probleme gibt s aber, wenn: - Gruppengröße unter 10 - ungleich große Stichproben => Mathematik der VA: Quadrierte Abweichungen vom Mittelwert werden in voneinander statistisch unabhängige Bestandteile zerlegt (= Quadratsummenzerlegung), und zwar: 1) in Abweichungen der Messwerte innerhalb der Gruppen vom jeweiligen Gruppenmittelwert (F Test prüft, ob Abweichungen zu groß) und 2) in Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert Quadratsummenzerlegung führt zu Chi - Quadrat-verteilter Größe; mit ihr sind Vergleiche auf F Test Basis möglich Varianz der Gruppenmittelwerte sollte: - unter Ho ca. so groß sein, wie die Varianz der Messwerte innerhalb der Gruppe, aber dividiert durch den Faktor Wurzel n - unter H1: eine Varianz größer, daher immer einseitige Testung => Interpretation der Unterschiede der VA: Signifikanz im F Test bedeutet: Es gibt irgendwo einen signifikanten Unterschied. Jetzt Frage: WO? Welche Gruppen unterscheiden sich? würde ich jetzt paarweise t Tests machen -> Alpha Kumulierung! DAHER: Lösung 1: A posteriori Test (post hoc) Nach der VA über die Daten laufen lassen; wird gemacht, wenn man noch nichts über die Unterschiede weiß (PC sucht sie mir), und zwar: Scheffé Test: adjustiert Daten so, dass Paarvergleich mit größtmöglichem F (und damit auch mit allen anderen!) auf demselben Niveau verwirft wie die VA macht Paarvergleiche (jede Gruppe mit jeder); ABER: bei zu vielen Vergleichen -> Verringerung der Macht!

12 Lösung 2: A priori Test = Kontraste: SPSS Output dazu: wenn man gezielte Hypothese, wo die Unterschiede liegen könnten, machen kann dafür weniger Paarvergleiche notwendig -> größere Macht ABER: Ich muss vorher richtig geraten haben, wo die Unterschiede liegen = Trendhypothese (z.b. Gruppe 1 ist besser als Gruppe 2 und 3) 1) Prüfen auf NV (Kolmogorow Smirnow Test): jede Gruppe 1x testen asymptotische Sign. (2 tailed) größer als 0.05 => Ho bleibt, d.h. NV darf angenommen werden. 2) Test auf Homogenität der Varianzen (Levene Test): detto 3) Varianzanalyse (ANOVA): Sign. < 0.05 => Ho verwerfen, d.h. es gibt einen Unterschied zwischen den Gruppen 4) Deskriptivstatistik: - schauen, wo MW am höchsten, niedrigsten, usw. - Stichprobengröße anschauen! (unter 10 schlecht, ungleiche n detto) 5) multiple comparisons (Scheffé Test): prüft, welche der Unterschiede signifikant sind (Paarvergleiche) -> Wert unter 0.05 = sign., d.h. dort sind Unterschiede 6) Kontraste (Contrast Test): jetzt Vergleich Gruppe 1 mit Gruppe 2 und 3; einmal mit, einmal ohne homogene Varianzen. Da Levene Test nicht signifikant war, Zeile mit homogenen Varianzen anschauen; wenn dort p < 0.05 ->sign. D.h. Gruppe 2 + 3 ist wirksamer als Gruppe 1 allein 7) ANOVA Trendhypothese: between groups: linear term (bei unterschiedlichen Gruppengrößen weighted anschauen!) Deviation bei linear term: wenn hier sign, d.h. es gibt nicht nur einen linearen Zusammenhang quadrativ term / weighted: wenn hier sign., schauen wo. Hier: Wirkung des Medikaments am besten bei schwacher Dosis.

13 8) Inhaltliche Bewertung: Signifikanz allein ist KEINE Aussage! (Merke: Bei großen Stichproben ist kleiner Unterschied bald signifikant...) wichtig = erklärter Varianzanteil (η 2 ): gibt an den Anteil der durch die Gruppenunterschiede erklärten Varianz an der Gesamtvarianz (der AV) = Bestimmtheitsmaß der VA (Eta- Quadrat) anderer Varianzanteil bleibt unerklärt Eta liegt zwischen 0 1: - Eta = 0 heißt: keine Gruppenunterschiede - Eta = 1 heißt: Gruppenunterschiede erklären Gesamtvarianz 2) Kovarianzanalyse => wird verwendet: wenn zusätzlich zur Gruppenzugehörigkeit noch quantitativ mögliche Einflussgrößen existieren (vor allem Alter) BEISPIEL: UV = Geschlecht AV = Glaube an Teufel Kovariate = Glaube an Gott => Kovariate = mögliche Einflussgröße, die linearen Effekt auf AV oder UV hat. Dieser wird analog zur linearen Regression herausgerechnet. BEISPIEL: UV = Bildungsstand (niedrig / hoch) AV = Antisemitismus (stark / schwach) Ergebnis: je höher Bildung, desto geringer Antisemitismus => Modellannahme: ABER: Bildung hängt auch zusammen mit Alter, Alter hängt zusammen mit Antisemitismus (= Kohorteneffekt!) DAHER: Rechne ich Alter heraus -> kein Zusammenhang zwischen Bildung und Anitsemitismus Y (AV) = Gesamtmittelwert + Gruppeneffekt (UV) + Einfluss der Kovariate (bx + a) + Messfehler

14 => Mathematische Erklärung: Kovarianzanalyse = VA über die Residuen bei der Vorhersage der aus Kontrollvariable. 1) Residuen berechnen (= alles, was nach Abzug des Effekts der Kovariate übrigbleibt) BEISPIEL: X = a (Alter) + b X (Messwert) X = (Residuen) Regression der Kovariate auf AV (X) ergibt vorhergesagtes X dann pro Person Differenzen (X X ) bilden = Residuen was da übrigbleibt, kann durch Kovariate nicht vorhergesagt werden, geht über deren Vorhersage hinaus (= das was eigentlich interessiert, wenn Kovariate kontrolliert wird). D.h. Einfluss des Alters ist bereinigt 2) Mit Residuen macht man eine normale VA => Voraussetzungen für Kovarianz Analyse: homogene Varianzen wie bei VA NV homogene Steigerung der Regressionsgeraden der einzelnen Gruppen SPSS Output dazu: Frage: Gibt es einen Zusammenhang zwischen Teufelsglauben und Geschlecht? UV = Geschlecht AV = Glaube an Teufel Kovariate = Glaube an Gott Effekt des Glaubens an Gott wird herausgerechnet, mit dem Rest VA korrigiertes Modell [= Kovarianzanalyse] (setzt sich aus allen Einflüssen zusammen). Hier sign. Unterschied zwischen den Gruppen (p = 0.00) 1) Frage: WO ist dieser? sign. Unterschied zwischen Teufelglauben und Gottglauben (p = 0.00). D.h. aus dem Glauben an den Teufel lässt sich den Glaube an Gott vorhersagen. kein sign. Unterschied zwischen Teufelsglauben und Geschlecht (p = 0.076). D.h. keine Unterschiede zwischen Männern und Frauen hinsichtlich des Glaubens an den Teufel

15 2) Einfluss der Kovariate (Gottglauben) auf das Resultat: VA OHNE Kovariate noch einmal rechnen und die beiden Ergebnisse vergleichen Geschlecht hier nicht sign. (p = 0.102), d.h. Geschlecht hat noch immer keinen Einfluss auf Teufelsglauben! ABER: Modell insgesamt ist NICHT mehr signifikant (korr. Modell jetzt p = 0.102), d.h. Glaube an Gott beeinflusst den Glauben an den Teufel kaum. 3) Mehrfache Varianzanalyse: => verwendet bei: mehr als 1 UV und 1 AV BEISPIEL: UV = Dosis von Medikament (Placebo / schwach / stark) UV = Art des Medikaments (A, B) AV = Befinden => Untersucht werden: = 2faktorielle VA ( 2*3 Design -> 6 Zellen) D.h. es geht um Abhängigkeit einer Variablen von mehreren Effekten. * Effekte von A [= 1. UV], Effekte von B [= 2. UV] (= Haupteffekte) und * Wechselwirkungen A x B (= Interaktionen) BEISPIEL: Haupteffekt: Medikament A ist bei gleicher Dosierung um 3 Punkte besser auf Befindlichkeitsskala [= Haupteffekt von 2. UV] => @ Wechselwirkung: Ww ja: je nach Dosis ändert sich, um wie viel Medikament A durchschnittlich besser ist als Medikament B keine Wechselwirkung heißt: mittlere Dosis ist bei jedem Medikament um durchschnittlich 3 Punkte besser. mögliche Wechselwirkungen in Bezug auf eine Zelle: => kombinierter Effekt auf AV ist: - noch höher als vorhergesagt (= multiplikativer Effekt) - nicht so hoch wie vorhergesagt (= Deckeneffekt) - Effekt verschwindet überhaupt (z.b. bei hohen Dosen kein Unterschied, bei niedrigen schon) - Effekt kehrt sich um (z.b. Medikament A in kleinen Dosen wirksamer, Medikament B in großen Dosen) bei mehr als 2 Faktoren kann es auch drei-, vierfache WW geben (hängt von Faktoranzahl ab)

16 => Modell: x ij = µ + α i + β j + αβ ij + ε ijm D.h. vorausgesagter Testwert setzt sich zusammen aus Gesamtmittelwert + Haupteffekt A + Haupteffekt B + WW AxB + Fehler => Voraussetzungen: Normalverteilung pro ZELLE! homogene Varianzen Intervallskalierte Daten, da Berechnung auf Unterschiede angelegt ist. => Problem: Bei 5 Variablen braucht man 2 5 = 32 VB, d.h. 32 Zellen (mit ca. 30 Personen wegen NV; bei weniger Personen -> hohe Zufallsschwankungen!) -> sehr hohe VPn - Zahlen! gesättigtes Modell: mit allen Haupteffekten und Wechselwirkungen Anpassung : Vergleich der WW wird unterdrückt (z.b. nur 2fache WW anschauen; 3-, 4-, 5fache nicht) Merke: Je größer die Stichprobe, umso mehr WW kann man zulassen. => ACHTUNG: Passt Modell nicht zu den Daten -> parameterfreie Verfahren; ABER: im SPSS gibt es keine... Lösung: Daten rangreihen und als 2-fache VA rechnen -> schwierige Interpretation (WW werden betrachtet als Differenzen von Differenzen ; geht aber NUR bei Intervallskala!) = rating after alignment: 1) für Berechnung der WW werden von Ursprungswerten, die durch die Haupteffekte erwarteten MW abgezogen, 2) dann rangreihen, 3) Kruksal-Wallis Test über die verschiedenen Zellen rechnen

17 SPSS Output dazu: UV1 = Geschlecht (M/W) UV2 = Religiosität AV = Glaube an Psy (erhoben mittels entsprechender Skala) 1) VA: korrigiertes Modell: p = 0.000 -> d.h. es gibt einen signifikanten Einfluss der UVs auf die AVs. als Kovariate dabei = Alter: p = 0.787 -> kein erkennbarere Einfluss auf AV WW zwischen Geschlecht und Religiosität wirken sich nicht aus (p = 0.085) 2) Interaktionsdiagramm dazu: deutet an, dass wenig religiöse Männer wenig an Psy glauben (weniger als wenig religiöse Frauen) [darf ich aber SO nicht behaupten, da WW nicht signifikant!] @ Interaktionsdiagramm: Was sehe ich an den Linien? parallele Linien = keine WW Scheren = z.b. Unterschiede zwischen Medikament 1 und Medikament 2 werden mit zunehmender Dosis größer / kleiner (Anstieg in 1 Gruppe kleiner / größer; Effekt verschiebt sich in einer Gruppe) Überkreuzungen = Umkehr der Effekte in Untergruppen Merke: Wenn es WW gibt, kann man nicht von Haupteffekten sprechen, besser = bedingte Haupteffekte. @ R2 = erklärte Varianz [steht unter der Tabelle mit der VA] = Anteil der Änderungen der AV durch Änderungen der UV Merke: Durch Quadratsummenzerlegung in voneinander unabhängige Teile passiert folgendes: -> unabhängige Tests werden durchgeführt, OHNE Alphaadjustierung. @ Post hoc Test bei mehrfachen VA: im SPSS einzeln pro Faktor durchgeführt (nur zwischen Subjektfaktoren) ebenso bei Kontrasten -> einzelne Haupteffekte bzw. WW des gesättigten Modells können so ausgeschlossen werden.

18 4) Einfache Varianzanalyse mit Messwiederholung: => wird verwendet bei: 1UV in mehr als 2 Zeitpunkten / Faktorstufen (bei 2 Ausprägungen der UV -> t Test für unabhängige Stichproben) 1AV BEISPIEL: UV = Therapieeffekt (vor / während / nach) bei jeweils EINER VP (d.h. hier wird jede VP 3x getestet) AV = Befindlichkeit => Vorteil: - man braucht weniger Personen - Fehlervarianz durch Zufallsunterschiede zwischen den Stichproben wird vermieden (= zufällige Unterschiede, die dadurch entstehen, welche VPn bei Randomisierung in welcher VG gelandet sind) Merke: unabhängige Stichproben: => Nachteil: unterschiedliche Ausgangslage bei den Gruppen, je nachdem, welche VPn bei Randomisierung in welcher VG gelandet sind. Verfahren berücksichtigen dies durch vorsichtigeres Vorgehen beim Verwerfen der Ho. abhängige Stichproben (bei Messwiederholung!): gleiche Ausgangslage zwischen den Gruppen, weil ja immer dieselbe Person getestet wird. Höhere Macht. - Reihenfolgeneffekte (Lösung = ausbalanciertes Design) - Lerneffekte - manches kann man so nicht testen (z.b. Person soll sich 2X Film mit derselben Ausgangserwartung ansehen) => Modell: Y= µ + α i + π m + απ im + s D.h. vorhergesagter Wert = globaler Erwartungswert + Effekt des Zeitpunkts + Person (Ausgangslage) + WW Zeit x Person + Fehler Annahme: Zeitpunkt wirkt auf jede Person gleich. = in Praxis unrealistisch (Person kann sich zwischen Zeitpunkten verbessern; Tagesverfassung schlecht -> Person kann normale Ausgangslage nicht erbringen) JEDE Person verbessert sich bei Vergleich 1. Testung mit 2. Testung und 3. Testung, in Wirklichkeit aber eine Person mehr, eine andere weniger...

19 => Mathematik: Varianzzerlegung 1) within subjects (innerhalb der Personen [also zwischen den Testzeitpunkten! = VA zwischen] = eigentlich interessante Varianz 2) between subjects (innerhalb der zu einem Zeitpunkt jeweils getesteten Gruppe [= VA innen] Gerechnet wird mit Messwertdifferenzen -> NV dieser Differenzen = Voraussetzung! Sphärizität: Bei mehr als 2 Zeitpunkten müssen Varianzen der Messwertdifferenzen zwischen den Zeitpunkten [also Zeitpunkt 1 Zeitpunkt 2, Zeitpunkt 1 Zeitpunkt 3, Zeitpunkt 2 Zeitpunkt 3] homogen sein. Wenn das nicht so ist, wird Verfahren progressiv, d.h. Alpha Fehler wird größer (Ho wird leicht verworfen!) Prüfung der Spärizität: 3) Mauchly Test: - wenn NICHT signifikant (p < 0.05) -> Varianzen der Messwertdifferenzen sind homogen - wenn signifikant (p > 0.05) -> Varianzen der Messwertdifferenzen sind nicht homogen. D.h. Werte korrelieren zu stark miteinander -> Folge: statistische Info wird weniger (redundant); F Test (Mauchly ist so einer) geht von unabhängigen Werten aus. Bei nicht homogenen Varianzen der Messwertdifferenzen: Verlust an Personen, an Freiheitsgraden. Ist Mauchly Test signifikant, dann: 4) Greenhouse Geisser Korrektur: - Freiheitsgrade werden beim F Test mit passendem Wert ε (zwischen 0 1; wird aus den Daten geschätzt) multipliziert. - Folge: o Freiheitsgrade werden kleiner o Progressivität wird verhindert - Nachteil: Bei kleinen Stichproben wird Korrektur konservativ (= schlecht)

20 DAHER bei kleinen Stichproben statt Greenhouse Giesser: 5) Huynh Feldt Korrektur: - wenn Stichprobe klein - immer wenn ε > 0.75 6) dann Scheffé Test (geht aber mit SPSS nicht...) => Sind Voraussetzungen für VA nicht erfüllt -> parameterfreies Verfahren: Friedmann Test [ABER weniger Macht als Kruskal Wallis im Verhältnis zu VA!!!]: 2. Messwiederholungen werden wie Faktoren behandelt. Nur sinnvoll, wenn jede Stufe des einen Faktors mit jeder Stufe des anderen kombiniert bei jeder VP beobachtet werden kann (dann werden WW geprüft). Voraussetzungen für Friedmann Test: SPSS Output dazu: UV = Zeitpunkte AV = Beschwerden - abhängige Daten - mehr als 2 Stichproben (Messzeitpunkte) - mindestens 5 Fälle pro Gruppe (Messzeitpunkt) 1) Mauchly Test auf Sphärizität: Intersubjekteffekt nicht signifikant (p = 0.25) -> Sphärizität ist gegeben, ε nahe 1. Korrektur mit Greenhouse Gneisser / Huyndt Feldt nicht notwendig (schadet aber auch nix) 2) Test der Intersubjekteffekte [= VA mit Messwiederholung] Da Sphärizität angenommen werden kann, bleiben Freiheitsgrade gleich (df = 2 bei 3 Gruppen). Darunter stehen die df bei den jeweiligen Korrekturen (wird ε korrigiert -> df werden kleiner). p = 0.000 -> signifikant; DAHER: Effekt ist signifikant (Beschwerden ändern sich während der Messzeitpunkte) 3) Intersubjekteffekte Kontraste: - bei linearem Trend: p = 0.000 -> signifikant; d.h. es gibt Trend zu einem linearen Zusammenhang - bei quadratischem Zusammenhang p = 0.588 nicht signifikant 4) Profildiagramm: hier sieht man auch den linearen Trend

21 5) Mehrfache Varianzanalyse mit Messwiederholung: => wird verwendet: mehr als 1 UV + mehr Zeitpunkte BEISPIEL: UV1 = Zeitpunkt (vor / während / nach) UV2 = Geschlecht (M / W) UV3 = Alter (jung / mittel / alt) AV = Befindlichkeit => Modell: Merke: dieselben Personen werden hier 3x getestet -> abhängige Stichproben Verbindung von Intersubjektfaktoren und Zwischensubjektfaktoren (eventuell mit Kovariaten); getestet werden: - Haupteffekte und - WW Effekte der UV und - Messwiederholungsvarianz Nachteil: je komplexer alles wir, umso größere Stichprobe braucht man, um Modell zuverlässig schätzen zu können! => Voraussetzungen: NV pro Zelle homogene Varianzen pro Zelle Sphärizität Homogenität der Kovarianzmatrix d.h. Kovarianzmatrizen der abhängigen Variable über die Gruppen müssen gleich sein -> schwierig bei kleinen Stichproben! wird geprüft mit: Box s M Test: ist er NICHT signifikant, so kann angenommen werden, dass die Strukturen in den Gruppen gleich sind.