Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Größe: px

Ab Seite anzeigen:

Download "Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister"

Oswalda Zimmermann
vor 7 Jahren
Abrufe

1 Quantitative Auswertung II Korpuslinguistik Heike Zinsmeister

2 Unterschiedstest Fall 1: unabhängige Stichproben Daten eine unabhängige Variable auf Nominal- oder Kategorialniveau eine abhängige Variable auf Nominal- oder Kategorialniveau unabhängige Stichproben Frage Haben die Ausprägungen der unabhängigen Variable einen Einfluss auf die beobachteten Häufigkeiten der abhängigen Variable? Test Chi-Quadrat-Unterschiedstest 1

3 Ablaufschema Formulieren der Hypothese Tabellierung der beobachteten Häufigkeiten; graphische Betrachtung Ermittlung der Häufigkeiten, die nach H 0 zu erwarten wären Testen der Voraussetzungen Berechnung der Abweichungsmaße für alle beobachteten Häufigkeiten Summierung der Abweichungsmaße zur Ermittlung der Prüfstatistik χ 2 Ermittlung der Freiheitsgrade df und der Irrtumswahrscheinlichkeit p. 2

4 Voraussetzungen Alle Beobachtungen sind voneinander unabhängig. 80% der erwarteten Häufigkeiten sind größer oder gleich 5 Alle erwarteten Häufigkeiten sind größer 1 3

5 Experiment die uns bekannten Verb-Partikel-Objekt-Daten abhängige Variable: KONSTRUKTION Verb-Partikel-Direktes_Objekt Verb-Direktes_Objekt-Partikel unabhängige Variable: BEKANNTHEIT Referent des direkten Objekts ist bekannt Referent des direkten Objekts ist unbekannt unabhängige Stichproben, da die Kategorisierung der einzelne Objekte nichts mit der Kategorisierung anderer Objekte zu tun hat 4

6 Hypothesen H 0 : Die Häufigkeiten der Variablenausprägungen der Variable KONSTRUKTION variiert nicht in Abhängigkeit von der Variable BEKANNTHEIT H 1 : Die Häufigkeiten der Variablenausprägungen der Variable KONSTRUKTION variiert in Abhängigkeit von der Variable BEKANNTHEIT 5

7 Tabellierung der beobachteten Häufigkeiten Experiment Beschreibungen von Bildern (Peters 2001) einschließlich Vorerwähntheit im Diskurs Referent des DO bekannt Referent des DO unbekannt Zeilensummen V DO Part V PART DO Spaltensummen

8 Graphische Betrachtung Ist der Unterschied signifikant? 7

9 Ermitteln der erwarteten Werte Erster Versuch: Gleichverteilung scheitert an Ungleichverteilung der Variablen ansich Referent des Referent des DO bekannt DO unbekannt Zeilensummen V DO Part V PART DO Spaltensumm en

10 Ermitteln der erwarteten Werte Zweiter Versuch Berücksichtigung der Randsummen Wahrscheinlichkeiten/Prozentwerte unabhängiges gemeinsames Auftreten p(a,b)=p(a)*p(b) Referent des DO bekannt Referent des DO unbekannt Zeilensummen V DO Part 150/397= 37,78% V PART DO 247/397= 62,22% Spaltensumm en 185/397= 46,60% 212/397= 53,40% 397 = 100% 9

11 Ermitteln der erwarteten Werte n erwarteterzellenwert = Zeilensumme Spaltensumme n n Zeilensumme Spaltensumme = n n V DO Part Referent des DO bekannt (150*185)/ 397 = 69,9 Referent des DO unbekannt Zeilensummen 150 V PART DO 247 Spaltensumm en

12 Ermitteln der erwarteten Werte n erwarteterzellenwert = Zeilensumme Spaltensumme n n Zeilensumme Spaltensumme = n n V DO Part V PART DO Spaltensumm en Referent des DO bekannt (150*185)/ 397 = 69,9 (247*185)/397= 115,1 Referent des DO unbekannt (150*212)/ 397= 80,1 (247*212)/397= 131,9 Zeilensummen

13 Hypothesen Gleichverteilung bedeutet hier nicht: "Die Häufigkeiten in den Tabellenzellen sind gleich groß" sondern: "Die Häufigkeiten in den unterschiedlichen Bedingungen sind gleich der Verhältnisse der Randsummen." 69,9/80,1 115,1/131,9 185/212 0, ,9/115,1 80,1/131,9 150/247 0,6073 R-DO bekannt R-DO unbekannt Zeilensummen V DO Part 69,9 80,1 150 V PART DO 115,1 131,9 247 Spaltensummen

14 Hypothesen H 0 : χ 2 = 0 H 1 : χ 2 > 0 Voraussetzungen? Es besteht Unabhängigkeit, da wir davon ausgehen, dass die Versuchspersonen die Sätze für die einzelnen Bilder unabhängig voneinander äußern. Anforderungen an die erwarteten Frequenzen? 13

15 Abweichungen ermitteln Chi Quadrat = χ 2 = ( beobachtet erwartet) 2 n i=1 erwartet R-DO bekannt R-DO unbekannt Zeilensummen V DO Part 3,26 2,85 V PART DO 1,98 1,73 Spaltensummen χ 2 = 9,82 Freiheitsgrade df =(Zeilenzahl-1) *(Spaltenzahl-1)=(2-1)*(2-1)=1 14

16 Einschub: Freiheitsgrade Werden die erwarteten Häufigkeiten aus beobachteten ermittelt gilt: df =(Zeilenzahl-1) *(Spaltenzahl-1) Werden sie aus einer bekannten Verteilung errechnet: df =(Zeilenzahl*Spaltenzahl)-1 15

17 Interpretation Kritische χ 2 -Werte für p zweiseitig p=0,05 p=0,01 p=0,001 df=1 3,841 6,635 10,827 df=2 5,991 9,21 13,815 df=3 7,815 11,345 16,266 mit χ 2 =9,82 gilt 0,001 < p <0,01 das Ergebnis ist signifikant, aber nicht hoch signifikant 16

18 Wie ermittelt man die Effektstärke? Problem Chi-Quadrat-Wert ist abhängig von der Stichprobengröße Lösung Korrelationskoeffizient φ bzw. CI = χ 2 ( [ ] 1) n min Zeilenzahl,Spaltenzahl φ: bei k 2/m 2-Tabellen Cramers V: bei k m-tabellen mit k,m>2 Grenzwerte: 0= Nullkorrelation, 1=perfekte Korrelation 17

19 Bestimmung der Effektstärke über den Korrelationskoeffizienten φ φ bzw. CI = χ 2 ( [ ] 1) n min Zeilenzahl,Spaltenzahl Hier: Interpretation: Zusammenhang eher zufällig 18

20 Für 2 2-Tabellen: Bestimmung der Effektstärke über die Odds Ratio Die Odds eines Ereignisses E (mit zwei Ausprägungen) odds = p E 1 p E Vergleiche Wahrscheinlichkeit P: Häufigkeit eines Ereignisses in Bezug auf die Gesamtheit aller Ereignisse Odds O:Wahrscheinlichkeit eines Ereignisses in Bezug auf Wahrscheinlichkeit seines Nicht-Eintretens Odds Ratio zweier Ereignisse O 1 /O 2 19

21 Einschub odds ratio Beispiel: Regentage vs. Sonnentage p(regentag) = 1-p(Sonnentag) Sei p(regentag_august) = 3/4= 0.75 p(regentag_juli) = 2/7 = dann gilt O(Regentag_August) = 0.75/0.25 = 3:1 O(Regentag_Juli)= (2/7)/1-(2/7)= 2:5 Eine Wahrscheinlichkeit von 0,75 oder 75% entspricht den odds von 3:1 ("3 zu 1") Auf dreimal das Ereignis kommt jeweils einmal das Nicht- Ereignis 3/1 odds ratio(regentag_august/regentag_juli) = 2 /5 = 7.5 O(Regentag_August) ist 7,5 mal größer als O(Regen_Juli) 20

22 Einschub odds ratio Grenzwerte Wahrscheinlichkeit zwischen 0 und 1 Odds zwischen 0 und O=1 entspricht p=0.5 Odds ratio zwischen 0 und O 1 /O 2 = 1 bedeutet, dass zwischen den Ereignissen kein Unterschied besteht 21

23 Referent des DO bekannt Referent des DO unbekannt Zeilensummen V DO Part V PART DO Spaltensumm en Odds ratio = 85/65 100/147 = Die Konstruktion V DO PART ist 1,9223 mal wahrscheinlicher, wenn der Referent des DOs bekannt ist, als wenn er es nicht ist. 22

24 Zusammenfassung "Unbekannte Objekte werden bevorzugt in der Verb- Partikel-Konstruktion eingesetzt, in der die Partikel direkt dem Verb folgt; sie dispräferieren die Verb- Partikel-Konstruktion, in der die Partikel dem direkten Objekt folgt. Demgegenüber werden bekannte Objekte vorzugsweise in die Verb-Partikel-Konstruktion eingesetzt, in der die Partikel dem direkten Objekt folgt; bekannte Objekte in der anderen Konstruktion werden dispräferiert. Diese Präferenz ist gemäß einem Chi-Quadrat-Unterschiedstest signifikant (χ 2 =9,82;df=1;p zweiseitig <0,001), aber der Effekt ist schwach(φ=0,157, odds ratio=1,9223)." 23

25 Von welchen Ausprägungen stammen signifikante Unterschiede? Quadrierung der Pearson Residuals χ 2 =3,841; df=1; p zweiseitig <0,05 BEKANNTHEIT KONSTRUKTION bekannt unbekannt V_DO_Part V_Part_DO χ 2 =3,841 24

26 Waren die einzelnen Werte größer oder kleiner als erwartet? Residuals ohne Quadrierung BEKANNTHEIT KONSTRUKTION bekannt unbekannt V_DO_Part V_Part_DO

27 Waren die einzelnen Werte größer oder kleiner als erwartet? 26

28 Online: Chi-Quadrat-Test der Test auf Vassar Statistics Frequency Data Chi-Square, Cramer's V, and Lambda Signifikanz: Chi-Quadrat-Wert, Freiheitsgrade (df), p-wert Effektstärke: Cramer's V Prozentuale Abweichung (Percentage Deviations) Standardisierte Residuale (Standardized Residuals) Bei zu kleinen Frequenzen Fisher's Exact Test 27

29 Ausblick: Fall: abhängige Stichproben Daten eine abhängige Variable auf Nominal- oder Kategorialniveau abhängige Stichproben Frage Haben die geänderten Bedingungen bei einer Versuchwiederholung Einfluss auf die Variablenverteilung? Methode McNemar-Test 28

Ähnliche Dokumente

Analytische Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Analytische Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Analytische Statistik II Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten