Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Transkript

1 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

2 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten Verteilung ab? Weicht der Mittelwert oder die Standardabweichung einer gegebenen Stichprobe signifikant von einem anderweitig gegebenen Mittelwert oder Standardabweichung ab? Unterschiedstests Weicht eine gegebene Verteilung signifikant von einer anderen ebenfalls gegebenen Verteilung ab?

3 Vorüberlegungen Testen über das Bilden einer Nullhypothese H 0, die widerlegt werden soll der statistische Test erzeugt eine Test- Statistik mit bekannter Verteilung Idee H 0 nimmt an, dass die Teststatistik keinen extremen Wert annimmt Hypothese H1 nimmt an, dass die Teststatistik einen extremen Wert annimmt extrem = weit außen in den Rändern/Flügeln der Distribution

4 Vorüberlegungen "weit draußen" p-wert: Wahrscheinlichkeit aller summierten Teststatistik-Werte vom statistischen Prüfwert q bis zum Ende der Kurve (bzw. Fläche unter der Kurve) Irrtumswahrscheinlichkeit, dass fälschlicherweise H 1 angenommen wird Festlegung: Signifikanzniveau α p=0.05 (95%) p=0.01 (99%) p=0.001 (99,9%)

5 Normalverteilung library(languager) shadenormal.fnc(qnts= c(0.025,0.975))

6 Schätzen des Mittelwerts Problem: die Varianz eines Merkmals in der Grundgesamtheit ist unbekannt Vorgehen: Schätzen aufgrund von einer Stichprobenvarianz Beobachtung: der standardisierte Mittelwert normalverteilter Daten ist bei dieser Schätzung nicht mehr normalverteilt, sondern weist für kleine Werte des Parameters n eine größere Breite und Flankenbetonung der Mittelwert ist t-verteilt ( Students t-verteilung ) Hypothesentests, bei denen die t-verteilung Verwendung wird: verschiedene t-tests

7 t-verteilung Code: siehe ab Folie 9. df = degrees of freedom. Anzahl der frei veränderbaren Parameter. Hier: n

8 t-verteilung

9 t-verteilung

10 t-verteilung mit zunehmender Anzahl an Freiheitsgraden df (d.h. veränderbaren Parametern), nähert sich die t-verteilung der Normalverteilung an ab df>30 ist der Unterschied redundant das heißt, ab einer Datengrundlage von mehr als 30 Dateneinheiten können selbst bei unbekannter Varianz Tests verwendet werden, die auf der Normalverteilung basieren

11 Code für die t-verteilungsfolien x=seq(-6,6,0.1) # Intitialisierung # par(mfrow=c(2,2)) # mehrere Diagramme y1=dt(x,2) # df=2 # 1. Diagramm plot(x,y1, xlab="x", ylab="dichte", ylim=c(0,0.4), type="l", main="t-verteilung (df=2)") # 2. Diagramm plot(x,y1, xlab="x", ylab="dichte", ylim=c(0,0.4), type="l", main="t-verteilung (df=2,df=5)") y2=dt(x,5) # df=5 lines(x,y2, type="l", lty= 2) # lty: line type # 3. Diagramm plot(x,y1, xlab="x", ylab="dichte", ylim=c(0,0.4), type="l", main="t-verteilung (df=2,df=5 vgl.dnorm)") lines(x,y2, type="l", lty= 2) y3=dnorm(x) # vgl. Normalverteilung lines(x,y3, type="l", lty= 3)

12 Anpassungstest Fall 1 eine abhängige Variable auf Verhältnisniveau Test: sind die Daten normalverteilt? Methode Shapiro-Wilk-Test, shapiro.test() Ablaufschema 1. Formulieren der Hypothesen 2. Graphische Betrachtung 3. Ermittlung der Prüfstatistik W und der Irrtumswahrscheinlichkeit p

13 Beispiel: Anpassungstest: Fall 1 Spracherwerbsdaten des Russischen zur Aspekthypothese (vgl. Stoll und Gries, Ms.) anfänglich starke Korrelation von Präsens und imperfektivem Aspekt sowie Präteritum und perfektivem Aspekt Frage: wie entwickelt sich das Korrelationsmaß über die Zeit? Test: sind die Korrelationsmaße von 117 Aufnahmen normalverteilt? eine abhängige Variable auf Verhältnisniveau Normalverteilung?

14 Anpassungstest: Fall 1 Hypothesen H 0 : Die Datenpunkte weisen eine Normalverteilung auf; W = 1. H 1 : Die Datenpunkte weisen keine Normalverteilung auf; W 1. eine abhängige Variable auf Verhältnisniveau Normalverteilung?

15 Anpassungstest: Fall 1 Graphische Betrachtung: eine abhängige Variable auf Verhältnisniveau Normalverteilung? # Datei: /Users/cluser/Korpuslinguistik/_sflwr/_inputfiles/g_data_chapters_1-5/ _tempus-aspekt.txt Russisch=read.table(file=file.choose(), header=t) attach(russisch) hist(tempus_aspekt, xlim=c(0, 1), freq=f, xlab="tempus-aspekt-korrelation", ylab="dichte", main="") 20. lines(density(tempus_aspekt))

16 Anpassungstest: Fall 1 Prüfstatistik shapiro.test(tempus_aspekt) eine abhängige Variable auf Verhältnisniveau Normalverteilung? Shapiro-Wilk normality test data: TEMPUS_ASPEKT W = , p-value = p>0.05 H 0 gilt: Daten sind normalverteilt H 1 darf nicht angenommen werden

17 Anpassungstest: Fall 1 eine abhängige Variable auf Verhältnisniveau Normalverteilung? Schriftliche Zusammenfassung der Ergebnisse "Die Verteilung der Cramers V-Werte [des Korrelationsmaßes] für die Tempus-Aspekt- Korrelation bei diesem Kind weicht gemäß einem Shapiro-Wilk-Test nicht signifikant von der Normalverteilung ab: W= 0,9942; p = 0,9132." (nach Gries 2008: 156)

18 Weiterer Test auf Normalverteilung Quantile-quantile Plot Quantilen der Standardnormalverteilung auf der x- Achse Quantilen der beobachteten Verteilung auf der y- Achse Bei Normalverteilung bildet Plot eine diagonale Linie (unabhängige von Mittelwert und Standardabweichung) ermöglicht eine intuitive "positive" Überprüfung von Normalverteilung, ersetzt aber nicht einen statistischen Test

19 Weiterer Test auf Normalverteilung Unsere Beispieldaten: qqnorm(tempus_aspekt) qqline(tempus_aspekt)

20 Anpassungstest: Fall 2 Fall 2 eine abhängige Variable auf Nominal- oder Kategorialniveau Frage: sind zwei Ausprägungen einer Variable gleich häufig? Test: sind die Daten so verteilt, dass sie einer bekannten Verteilung entsprechen? Methode: Chi-Quadrat-Test; chisq.test()

21 Anpassungstest: Fall 2 Methode: Chi-Quadrat-Test; chisq.test() Voraussetzungen Alle Beobachtungen sind von einander unabhängig 80% der erwarteten Häufigkeiten sind größer oder gleich 5 Alle erwarteten Häufigkeiten sind größer als

22 Anpassungstest: Fall 2 Methode: Chi-Quadrat-Test; chisq.test() Ablaufschema 1. Formulierung der Hypothesen 2. Tabellierung der beobachteten Häufigkeiten; graphische Betrachtung 3. Ermitteln der Häufigkeiten, die gemäß H 0 zu erwarten wären. 4. Testen der Voraussetzungen 5. Berechnen der Abweichungsmaße für alle beobachteten Häufigkeiten 6. Summierung der Abweichungsmaße zur Ermittlung der Prüfstatistik χ 2 7. Ermittlung der Freiheitsgrade df und der Irrtumswahrscheinlichkeit p

23 Anpassungstest: Fall 2 Beispiel Worstellungsalternation a. He picked up the book Verb-Partikel-direktes_Objekt b. He picked the book up Verb-direktes_Objekt-Partikel Frage Beide Konstruktionen werden von vielen für bedeutungsgleich gehalten. Sind sie gleich häufig?

24 Hypothesen Anpassungstest: Fall 2 H 0 : Die Häufigkeit der Variablenausprägungen der Variable Konstruktion sind identisch; die Variation in der gezogenen Stichprobe ist zufällig. H 1 : Die Häufigkeiten der Variablenausprägungen der Variable Konstruktion sind nicht identisch; die Variation in der Stichprobe ist nicht zufällig. In statistischer Form: H 0 : n V PART DO = n V DO PART H 1 : n V PART DO n V DO PART eine abhängige Variable auf Nominal-/Kategorialniveau Chi-Quadrat-Verteilung?

25 Anpassungstest: Fall 2 eine abhängige Variable auf Nominal-/Kategorialniveau Tabellierung der beobachteten Häufigkeiten Experiment Beschreibungen von Bildern (Peters 2001) Chi-Quadrat-Verteilung? Verb-Partikel-direktes_Objekt 247 Verb-direktes_Objekt-Partikel 150 pie(vpcs, labels=c("verb- Partikel-Direktes Objekt", "Verb-Direktes Objekt- Partikel"))

26 Anpassungstest: Fall 2 eine abhängige Variable auf Nominal-/Kategorialniveau Chi-Quadrat-Verteilung? Ermitteln der Häufigkeiten, die gemäß H 0 zu erwarten wären. Verb-Partikel-direktes_Objekt 198,5 Verb-direktes_Objekt-Partikel 198,5 In R: VPCs.erw<-rep(sum(VPCs)/length(VPCs), length(vpcs)) Testen der Voraussetzungen: OK

27 Anpassungstest: Fall 2 Berechnen der Abweichungsmaße für alle beobachteten Häufigkeiten und Summierung der Abweichungsmaße zur Ermittlung der Prüfstatistik χ 2 Chi " Quadrat = # 2 = In R: eine abhängige Variable auf Nominal-/Kategorialniveau Chi-Quadrat-Verteilung? ( beobachtet " erwartet) 2 $ n i=1 erwartet! sum(((vpcs-vpcs.erw)^2)/vpcs.erw) ca. 23,

28 Einschub: Werte von χ 2 Große Abweichung höherer Chi-Quadrat-Wert Keine Abweichung Chi-Quadrat-Wert = 0 Statistische Hypothesen - reformuliert H 0 : χ 2 = 0. H 1 : χ 2 >

29 Anpassungstest: Fall 2 Interpretation des Chi-Quadrat-Werts Ermittlung der Freiheitsgrade df und der Irrtumswahrscheinlichkeit p df =1 Kritische χ 2 -Werte für p zweiseitig eine abhängige Variable auf Nominal-/Kategorialniveau Chi-Quadrat-Verteilung? p=0,05 p=0,01 p=0,001 df=1 3,841 6,635 10,827 df=2 5,991 9,21 13,815 df=3 7,815 11,345 16,

30 Kritische Werte in R erstellen # ermittle den kritischen Chi-Quadrat-Wert fuer p=0,05, 0,01 und 0,001 (bei df=1) qchisq(c(0.05, 0.01, 0.001), 1, lower.tail=f) [1] # ermittle die kritischen Chi-Quadrat-Wert fuer p=0,05, 0,01 und 0,001 (bei df=1, df=2 und df=3) p.werte<-matrix(rep(c(0.05, 0.01, 0.001), 3), byrow=t, ncol=3) df.werte<-matrix(rep(1:3, 3), byrow=f, ncol=3) qchisq(p.werte, df.werte, lower.tail=f) [,1] [,2] [,3] [1,] [2,] [3,] (Gries 2008: 160)

31 Anpassungstest: Fall 2 Interpretation des Ergebnisses 23,7 > 10,827 Ablehnung der Nullhypothese "Die Verteilung der beiden Konstruktionen weicht gemäß einem Chi-Quadrat-Anpassungstest hoch signifikant von der erwarteten Gleichverteilung ab (χ 2 =23,7; df= 1; p zweiseitig < 0,001): Die Konstruktion V-PTK-DO wurde 247 Mal beobachtet, obwohl sie nur 199 Mal erwartet wurde. Die Konstruktion V-DO-PTK wurde nur 150 Mal beobachtet, obwohl sie 199 Mal erwartet wurde." (nach Gries 2008: 161)

32 Der Chi-Quadrat-Test in R Ermittlung des genauen p-werts in R pchisq(23.7, 1, lower.tail=f) [1] e-06 Der eigentliche Test chisq.test(vpcs, p=c(0.5, 0.5)) Chi-squared test for given probabilities data: VPCs X-squared = , df = 1, p-value = 1.126e

33 Der Chi-Quadrat-Test in R Ermittlung der gesamten Information von chisq.test() test<-chisq.test(vpcs, p=c(0.5, 0.5)) str(test) Daraus abgeleitet: die erwarteten Häufigkeiten test$expected [1]

34 Schlusskommentar Der Chi-Quadrat-Test ist ein zweiseitiger Test Bei df=1 ist auch ein einseitiger Test möglich durch Halbierung des pchisq()-werts Analoger Test für relative Häufigkeiten: prop.test() Test auf signifikante Abweichungen einer relativen Häufigkeit zu einer erwarteten relativen Häufigkeit