Quantitative Methoden (Vertretung für Prof. Th. Pechmann) Inferenzstatistik I: Zusammenhänge (Korrelationen) Logik inferenzstatistischer Verfahren Andreas Opitz Universität Leipzig Institut für Linguistik
Fragen, die Sie nach der letzten Sitzung beantworten können sollten Welche Kennwerte der Dispersion kennen Sie? Wie werden sie berechnet? Was sind die Vorteile der Varianz gegenüber der Variationsbreite? Was versteht man unter dem Standardfehler (Stichprobenfehler)? Wieviel Prozent der Werte liegen bei einer Normalverteilung ca. im Bereich von Mittelwert +/- 2 Standardabweichungen?
Variationsbreite Differenz zwischen dem größten und kleinsten Messwert einer Verteilung: max(x) min(x) Varianz s 2 n i=1 = x i x 2 (n 1) (Summe der Abweichungsquadrate geteilt durch Anzahl der Messungen -1) Standardabweichung s = s 2 = n i=1 x i x 2 (n 1) (Wurzel aus der Varianz)
Vorteile von Varianz und Standardabweichung von zufälligen Extremwerten kaum beeinflusst hängen von allen Messwerten einer Verteilung ab sind zuverlässige Schätzwerte für die Streuung in der Grundgesamtheit für Prüfstatistik geeignet
Standardfehler Der Standardfehler des arithmetischen Mittels ist gleich σ X = σ n wobei σ die Standardabweichung einer einzelnen Messung bezeichnet. Der Standardfehler ist abhängig von der Standardabweichung der Grundgesamtheit und der Größe der Stichprobe (n). Differenz zwischen dem Kennwert einer Stichprobe und dem wahren Wert der entsprechenden Grundgesamtheit
Standardabweichung Konfidenzintervall Prozent innerhalb 0,674 490σ 50% 0,994 458σ 68% 1σ 68,269% 1,281 552σ 80% 1,644 854σ 90% 1,959 964σ 95% 2σ 95,45% 2,575 829σ 99% 3σ 99,73% 3,290 527σ 99,9% 3,890 592σ 99,99% 4σ 99,993 666%
diese Woche Zusammenhang: Korrelation Einführung in die Inferenzstatistik Grundlagen: Logik, Fehlerarten
Zusammenhang Korrelation Kovarianz Korrelationskoeffizient Signifikanz Regression Regressionslinie Identifikation von Prädiktoren Interpretation 8
Zusammenhang Funktionaler Zusammenhang Funktion Bsp.: Der Umfang eines Kreises verändert sich proportional zu seinem Radius: U = 2 π r probabilistischer Zusammenhang Bsp.: Es besteht ein Zusammenhang zwischen dem Alter, in dem ein Kind Dreiwortsätze produziert, und der Schulabschlussnote. 9
Zusammenhang Funktionaler Zusammenhang y lässt sich genau aus x vorhersagen Unterschiede in Y korrespondieren perfekt mit Unterschieden in X bei linearen Zusammenhängen gilt: y = a + b * x probabilistischer Zusammenhang y lässt sich zwar aus x vorhersagen, ist jedoch noch von anderen Variablen abhängig: Ungenauigkeiten Unterschiede in y korrespondieren mit Unterschieden in x, aber es treten im Einzelfall Ungenauigkeiten der Vorhersage auf bei linearen Zusammenhängen gilt: y = a + b * x + Fehler 10
Zusammenhang Besteht ein Zusammenhang zwischen Variablen, die ich nicht direkt beeinflussen kann? Im Gegensatz zum Experiment, denn dort: systematische Manipulation von unabhängigen Variablen (UV) Messung des Effekts auf die abhängige Variable (AV) Kontrolle von Störvariablen 11
Zusammenhang Zusammenhänge werden für nicht-experimentelle Daten ermittelt. Es gibt keine unabhängigen und abhängigen Variablen. ( Es gibt nur abhängige Variablen. ) Das Wirken von nicht berücksichtigten Variablen (Störvariablen) kann nicht ausgeschlossen werden. Bsp. Korpusdaten 12
Zusammenhang Zwei grundlegende formale Eigenschaften eines jeden Zusammenhangs zwischen Variablen: seine Stärke (seine Größe ) seine Zuverlässigkeit (seine Wahrhaftigkeit ) 13
Zusammenhang Stärke des Zusammenhangs: Wie stark hängt die Ausprägung der einen Variablen von der Ausprägung der anderen ab? (Wie nah liegen die einzelnen Messpunkte auf einer gedachten Linie?) Zuverlässigkeit des Zusammenhangs: Wie repräsentativ sind die Ergebnisse der Stichprobe für die Grundgesamtheit? (Wie ist die Wahrscheinlichkeit, dass ein ähnlicher Zusammenhang gefunden würde, wenn eine andere Stichprobe gezogen werden würde?) Die statistische Signifikanz (dazu später mehr) ist ein Maß dafür, inwieweit das Ergebnis wahr ist, das heißt repräsentativ für die Grundgesamtheit ist. 14
Zusammenhang im Folgenden Beschränkung auf zwei Variablen (Messwertpaare) intervallskalierte Daten lineare Zusammenhänge 15
Zusammenhang 16
Korrelation Kovarianz n i=1 (xi x)(y cov xy = i y) (n 1) vgl. Varianz: s 2 n i=1 = x i x 2 (n 1) 17
Korrelation Korrelationskoeffizient Kovarianz geteilt durch Produkt der Standardabweichungen r = cov xy s x s y r = i=1 n (x i x)(y i y) (n 1)s x s y 18
Korrelation Korrelationskoeffizient Wertebereich -1 bis +1 r = 0 keine Korrelation r > 0 positive Korrelation ( je größer x, desto größer y ) r < 0 negative Korrelation ( je größer x, desto kleiner y ) 19
Korrelation r =.89 r =.48 r = 1 r =.02 r = -.54 20 r = -1
Beispiel Zusammenhang: Körpergröße ~ Gewicht? Stichprobe: 24 Personen Messung 1 2 3 4 5 6 7 8 9 24 Größe 163 187 180 176 166 151 164 153 164 191 Gewicht 58.8 83.3 66.1 68.6 65.8 54.7 67.5 42.2 59.7 86.4
r = 0.824
r = 0.824
Regression Regressionslinie lineare Funktion, die am besten die Daten abbildet r = 0.824 t(22) = 6.8 p < 0.001 24
Regression Wir suchen eine Gerade, die den Zusammenhang zwischen den beiden Variablen möglichst gut beschreibt. Das heißt: Die gesuchte Gerade sollte derart beschaffen sein, dass die Abstände zwischen den empirisch beobachteten Werten (y) und der Geraden ( y)minimiert werden. n i=1 y i y i 2 = Minimum 25
Regression lineare Funktion: y = a + b x Vorhersage weiterer Daten x wird vor der Datenerhebung definiert und bei der Erhebung gemessen (Prädiktorvariable, vgl. unabhängige Variable), ŷ wird vorhergesagt, y wird gemessen (Kriteriumsvariable, vgl. abhängige Variable). Residuum (y - ŷ) Differenz zwischen vorhergesagtem und gemessenem Wert r 2 (der quadrierte Korrelationskoeffizient) liefert ein Maß für die Bestimmtheit der Vorhersage. Die konkrete Berechnung von a und b überlassen wir besser einer einschlägigen Statistik- Software. 26
Verhältnis von Stichprobengröße und Stärke der Beziehung Bei nur wenigen Beobachtungen gibt es auch nur wenig logisch mögliche Kombinationen von Variablenwerten. Die Wahrscheinlichkeit ist daher groß, dass rein zufällig ein starker Zusammenhang erscheint.
Verhältnis von Stichprobengröße und Stärke der Beziehung Beispiel: Zusammenhang IQ und Körpergröße Stichprobe 3 Personen Größe: 1.70, 1.75, 1.90 IQ: 90, 100, 115 6 mögliche (zufällige!) Kombinationen:
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636 3 115 90 100-0.349
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636 3 115 90 100-0.349 4 90 115 100 0.127
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636 3 115 90 100-0.349 4 90 115 100 0.127 5 100 90 115 0.795
Verhältnis von Stichprobengröße und Stärke der Beziehung 6 mögliche (zufällige!) Kombinationen: 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636 3 115 90 100-0.349 4 90 115 100 0.127 5 100 90 115 0.795 6 115 100 90-0.922
Korrelation Signifikanz Aus dem Wert des Korrelationskoeffizienten kann nicht direkt auf die Signifikanz (die Zuverlässigkeit) des Zusammenhangs geschlossen werden. vgl. Inferenzstatistik Ziel ist die Zurückweisung der Nullhypothese: Es besteht kein Zusammenhang. 38
Korrelation Signifikanz Zur Berechnung der Zuverlässigkeit muss ein inferenzstatistischer Test gerechnet werden. mehr dazu später wichtig jetzt: Ergebnis gilt als signifikant, wenn die Irrtumswahrscheinlichkeit p < 0.05 ist. 39
Verhältnis von Stichprobengröße und Stärke der Beziehung viele dieser Korrelationen sind stark (r-werte) keine dieser Korrelationen ist zuverlässig ( wahr ): siehe p-wert (Irrtumswahrscheinlichkeit) 1.70 1.75 1.90 r 1 90 100 115 0.986 2 100 115 90-0.636 3 115 90 100-0.349 4 90 115 100 0.127 5 100 90 115 0.795 6 115 100 90-0.922
Verhältnis von Stichprobengröße und Stärke der Beziehung viele dieser Korrelationen sind stark (r-werte) keine dieser Korrelationen ist zuverlässig ( wahr ) siehe p-wert (Irrtumswahrscheinlichkeit): kein Wert <.05 1.70 1.75 1.90 r p 1 90 100 115 0.986.11 2 100 115 90-0.636.56 3 115 90 100-0.349.72 4 90 115 100 0.127.92 5 100 90 115 0.795.42 6 115 100 90-0.922.25
Interpretation Vorsicht mit kausalen Interpretationen! Eine Korrelation bezeichnet einen statistischen Zusammenhang. Das Wirken von Störvariablen kann nicht ausgeschlossen werden. 42
Interpretation Mögliche Zusammenhänge: x beeinflusst y kausal. X Y y beeinflusst x kausal. Y X x und y werden von (einer) weiteren Variablen kausal beeinflusst. Z X ; Z Y x und y beeinflussen sich wechselseitig kausal. X Y zufälliger Zusammenhang Eine Korrelation zwischen zwei Variablen ist eine notwendige, aber keine hinreichende Voraussetzung für kausale Abhängigkeiten. (Bortz & Döring, 1999, S. 226) 43
Interpretation Bsp. Die Geburtenrate korreliert positiv mit der Anzahl von Störchen in einer Region. 44
Interpretation Bsp.: Einwohner und Störche in Oldenburg Jahr Einwohner Störche Zuwachsrate EW 1930 55300 132 0.012 1931 55400 142 0.002 1932 65000 166 0.173 1933 67700 188 0.041 1934 69800 240 0.031 1935 72300 250 0.036 1936 76000 252 0.051 r =.944; p =.0014 starker & zuverlässiger statistischer Zusammenhang 45
Interpretation r =.944; p =.0014 46
Interpretation Bsp. Die Schulabschlussnote korreliert positiv mit dem Alter, in dem ein Kind Dreiwortsätze produziert. 47
Interpretation Bsp. Die Anzahl von korrekt gebildeten Flexionsformen in der aphasischen Sprachproduktion korreliert positiv mit der Anzahl von verschiedenen Verben. 48
Quelle: spurious correlations; http://www.tylervigen.com/
Quelle: spurious correlations; http://www.tylervigen.com/
http://www.zeit.de/2014/46/zukunft-entscheidungensprache
Studie: es gibt einen Zusammenhang (eine Korrelation) zwischen der Anzahl der Stunden, die Menschen in der Woche mit pornografischem Material verbringen, und der Größe der grauen Substanz im Gehirn (genauer des Striatums): r = 0.432, p <.001 Kuhn & Gallinat (2014), Brain Structure and Functional Connectivity Associated with Pornography Consumption, JAMA Psychiatry, 71(7), 827-834.
Die österreichische Zeitschrift Der Standard berichtet über diese Studie mit dem Aufmacher: Studie: Häufiger Pornografiekonsum verkleinert graue Substanz im Gehirn! http://derstandard.at/2000001715092/studie-haeufiger-pornografiekonsum-verrringert-graue-substanz-im-gehirn Wieso ist diese Aussage der Zeitschrift so nicht haltbar? Was sind mögliche, alternative Ursachen dieses Zusammenhangs? Zusatzinfo: Für die untersuchte Gruppe von Menschen wurden auch noch andere Korrelationen gefunden. Und zwar zwischen: Pornografiekonsum und Alkoholabhängigkeit (r=0.25, p < 0.05) sowie zwischen Pornografiekonsum und Depression (r=0.295, p< 0.05) )
Inferenz-Statistik
Inferenz-Statistik Auf Messergebnisse werden i.d.r. statistische Tests angewandt, die aussagen, wie wahrscheinlich es ist, dass die beobachteten Ergebnisse zufällig sind oder ob sie auf die Grundgesamtheit verallgemeinert werden können. Liegt die ermittelte Irrtumswahrscheinlichkeit unter einem vorher festgelegten Niveau (Signifikanzniveau, i.d.r. < 5%), dann gelten die Ergebnisse als signifikant.
Grundlagen
Axiome der Wahrscheinlichkeitstheorie (Kolmogorov) (1) Der Wahrscheinlichkeit p für ein zufälliges Ereignis E wird ein Wert zwischen 0 und 1 zugewiesen. (2) Das sichere Ereignis erhält den Wert 1. (3) Die Wahrscheinlichkeit der Summe zufälliger Ereignisse, die einander wechselseitig ausschließen, ist gleich der Summe der Wahrscheinlichkeiten dieser Ereignisse. Beispiel: Wie ist die Wahrscheinlichkeit, mit einem sechsseitigen Würfel, eine 1 oder eine 2 zu würfeln? p (eine 1 zu würfeln) = 1/6 p (eine 2 zu würfeln) = 1/6 p (eine 1 oder eine 2 zu würfeln) = 2/6
Axiome der Wahrscheinlichkeitstheorie (Kolmogorov) Bei zwei voneinander unabhängigen Ereignissen (Eintreten oder Nichteintreten des einen Ereignisses hat keinen Einfluss auf das Eintreten oder Nichteintreten des anderen Ereignisses) gilt der Multiplikationssatz: Die Wahrscheinlichkeit des Durchschnitts von wechselseitig voneinander unabhängigen Ereignissen ist gleich dem Produkt ihrer Wahrscheinlichkeiten Beispiel: Wie ist die Wahrscheinlichkeit, mit zwei sechsseitigen Würfeln, je eine 1 und eine 2 zu würfeln? p (eine 1 zu würfeln) = 1/6 p (eine 2 zu würfeln) = 1/6 p (mit 2 Würfeln eine 1 und eine 2 zu würfeln) = 1/36
Axiome der Wahrscheinlichkeitstheorie (Kolmogorov) Der Durchschnitt zweier beliebiger Ereignisse E1 und E2 ist das Ereignis, das nur dann eintritt, wenn sowohl das eine als auch das andere (E1 und E2) eintreten. Der Durchschnitt zweier Ereignisse wird auch als logisches Produkt bezeichnet die Wahrscheinlichkeit mit zwei Würfeln beim einmaligen Werfen eine 1 und eine 2 zu würfeln: 1/6 * 1/6 = 1/36
Inferenz-Statistik Auf Messergebnisse werden i.d.r. statistische Tests angewandt, die aussagen, wie wahrscheinlich es ist, dass die beobachteten Ergebnisse zufällig sind oder ob sie auf die Grundgesamtheit verallgemeinert werden können. Liegt die ermittelte Irrtumswahrscheinlichkeit unter einem vorher festgelegten Niveau (Signifikanzniveau, i.d.r. < 5%), dann gelten die Ergebnisse als signifikant.
Inferenz-Statistik Auf Messergebnisse werden i.d.r. statistische Tests angewandt, die aussagen, wie wahrscheinlich es ist, dass unsere Messergebnisse verallgemeinert werden können (auf die Grundgesamtheit bezogen werden können). Liegt die ermittelte Irrtumswahrscheinlichkeit unter einem vorher festgelegten Niveau (Signifikanzniveau, i.d.r. < 5%), dann gelten die Ergebnisse als signifikant.
Wiederholung / Erinnerung Hypothesen
Arten von Hypothesen? universelle Hypothesen existentielle Hypothesen proportionale Hypothesen
Hypothesen im Experiment Theoretisch-inhaltliche Hypothese: Frequente Wörter werden leichter / schneller im mentalen Lexikon abgerufen als infrequente. Empirisch-inhaltliche Hypothese: Misst man die Reaktionszeiten bei lexikalischen Entscheidungen, so sind diese für infrequente Wörter länger als für frequente. Statistische Hypothese / Testhypothese: Nullhypothese: Mittelwert1 = Mittelwert2 Alternativhypothese: Mittelwert1 > Mittelwert2
Hypothesen im Experiment Theoretisch-inhaltliche Hypothese: Frequente Wörter werden leichter / schneller im mentalen Lexikon abgerufen als infrequente. Empirisch-inhaltliche Hypothese: Misst man die Reaktionszeiten bei lexikalischen Entscheidungen, so sind diese für infrequente Wörter länger als für frequente. Statistische Hypothese / Testhypothese: Nullhypothese: Mittelwert1 = Mittelwert2 Alternativhypothese: Mittelwert1 > Mittelwert2
Nullhypothese, Alternativhypothese Nullhypothese: Die untersuchten Stichproben entstammen derselben Grundgesamtheit. Beobachtete Differenzen zwischen ihren Kennwerten sind auf Zufallseinflüsse zurückzuführen Alternativhypothese: Die untersuchten Stichproben entstammen verschiedenen Grundgesamtheiten.
Inferenzstatistik Berechnung einer Irrtumswahrscheinlichkeit für die Aussage hinsichtlich des Vergleichs von: einer Grundgesamtheit und einer Stichprobe zwei Stichproben (exp. Bedingungen) miteinander einer Stichprobe und einer Verteilungsform
Grundgedanke Man will zum Beispiel ermitteln, ob eine Stichprobe der Grundgesamtheit entstammt. Man bestimmt den Kennwert einer Stichprobe (z.b. Mittelwert). Man vergleicht den Kennwert der Stichprobe mit dem entsprechenden Kennwert der Population. Man berechnet, wie wahrscheinlich es ist, dass die Differenz der Kennwerte (Stichprobe vs. Grundgesamtheit) zufällig ist. (Die Wahrscheinlichkeit, dass die gemessene Abweichung der Stichprobe von der Population zufällig ist)
Fehler erster und zweiter Art Alpha-Fehler (erster Art): eigentlich entstammen 2 Stichproben derselben Grundgesamtheit, wir entscheiden auf Unterschied Beta-Fehler (zweiter Art): eigentlich entstammen 2 Stichproben verschiedenen Grundgesamtheiten, wir entscheiden auf kein Unterschied Die obere Grenze für die Irrtumswahrscheinlichkeit wird konventionell auf 5% festgelegt: p < 0.05
Signifikanz / Hypothesentest wahrer Sachverhalt = H 0 wahrer Sachverhalt = H 1 Entscheidung für H 0 Richtige Entscheidung Fehler 2. Art (β-fehler) Entscheidung für H 1 Fehler 1. Art (α-fehler) Richtige Entscheidung Entscheidet man sich nach einem statistischen Test gegen die Nullhypothese (H 0 = es gibt keinen Unterschied), dann gibt man die Irrtumswahrscheinlichkeit an. Sie besagt, wie wahrscheinlich es ist, dass diese Entscheidung falsch wahr (Fehler der 1. Art, α-fehler). Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem (vorher definierten) Signifikanzniveau ist. Traditionell gilt: α < 5 % (p<0.05) = signifikant ; α < 1 % (p<0.01) = hoch signifikant
Irrtumswahrscheinlichkeit Signifikanzaussagen beziehen sich auf die Wahrscheinlichkeit eines α-fehlers, d.h. auf die Wahrscheinlichkeit, mit der man falsch die Nullhypothese zurückweist und die Alternativhypothese annimmt konventionelle Signifikanzniveaus p <.05 unter 5 % Irrtumswahrscheinlichkeit ( Standard ) p <.01 unter 1 % Irrtumswahrscheinlichkeit p <.001 unter 0,1 % Irrtumswahrscheinlichkeit
Fragen, die Sie nach der heutigen Sitzung beantworten können sollten Was sagt ein Korrelationskoeffizient von r = -1 aus? Warum darf man Korrelationen nicht kausal interpretieren? Was versteht man unter Null- und Alternativ-Hypothese? Was ist der Alpha- und der Beta-Fehler? Warum untersucht man in einem Experiment in der Regel die Alternativ-Hypothese? Warum versucht man in einem Experiment in der Regel die Nullhypothese zu falsifizieren?