Deskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Ähnliche Dokumente
Deskriptive Statistik. Korpuslinguistik Heike Zinsmeister WS 2009/10

Deskriptive Statistik. Statistik mit R Heike Zinsmeister

Gundlagen empirischer Forschung & deskriptive Statistik. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Quantitative Auswertung. Korpuslinguistik Dr. Heike Zinsmeister

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Bitte am PC mit Windows anmelden!

Kapitel 1 Beschreibende Statistik

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Lage- und Streuungsparameter

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Deskriptive Statistik

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Fachrechnen für Tierpfleger

4 Statistische Maßzahlen

Statistik und Wahrscheinlichkeitsrechnung

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

3. Deskriptive Statistik

2. Deskriptive Statistik

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Einführung in die Statistik

Korrelation, Regression und Signifikanz

Empirische Verteilungsfunktion

Empirische Softwaretechnik. Boxplots. Graphische Darstellung. Median

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

4 Statistische Maßzahlen

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Statistik eindimensionaler Größen

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Einführung in Quantitative Methoden

Arbeitsblatt: Erstellen von Boxplots. Aufgabe: Frisörbesuch (Lernstandserhebung NRW 2008)

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

Statistik II: Grundlagen und Definitionen der Statistik

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Statistik und Wahrscheinlichkeitsrechnung

5 Exkurs: Deskriptive Statistik

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Deskriptive Statistik Erläuterungen

Kreisdiagramm, Tortendiagramm

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

W-Rechnung und Statistik für Ingenieure Übung 4

Univ.-Prof. Dr. Georg Wydra

Wiederholung. Statistik I. Sommersemester 2009

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistische Kennzahlen für die Lage

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Mathematische Statistik. Zur Notation

Statistik I für Betriebswirte Vorlesung 9

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Statistik und Wahrscheinlichkeitsrechnung

Beispiel 4 (Einige weitere Aufgaben)

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Grundlagen der empirischen Sozialforschung

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Maße der zentralen Tendenz

3. Lektion: Deskriptive Statistik

Mittelwert und Standardabweichung

Statistische Grundlagen I

Grundlagen der Statistik I

Das harmonische Mittel

Inhaltsverzeichnis DESKRIPTIVE STATISTIK. 1 Grundlagen Grundbegriffe Skalen... 15

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Einführung in die computergestützte Datenanalyse

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

1 Beschreibende Statistik

1 GRUNDLAGEN Grundbegriffe Skalen...15

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Statistik Skalen (Gurtner 2004)

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Bivariate Verteilungen. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Deskriptive Statistik Aufgaben und Lösungen

Deskriptive Statistik & grafische Darstellung

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Statistische Methoden in den Umweltwissenschaften

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Mathematische und statistische Methoden I

Statistische Methoden in den Umweltwissenschaften

Um die Güte die EZMW Prognosen abzuschätzen, wurden 2 Datensätze verwendet:

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Streuungsmaße von Stichproben

13,86. Schritt 4: Berechnung des Quartilsabstandes. Unteres Quartil! #5,5.

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Transkript:

Deskriptive Statistik II Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Übersicht Wiederholung Maße der zentralen Tendenz Streuungsmaße Zusammenfassung einer Verteilung tabellarisch graphisch 13. 11. 2008 2

Maße der zentralen Tendenz Modalwert (mode) Häufigster Wert einer Verteilung bei allen Datentypen einsetzbar, einschließlich nominalen/kategorialen Daten In R (nach Gries 2008: 113) > x <-c("kalt", "lau", "kalt", "kalt", "warm", "heiß", "warm", "kalt") > which.max(sort(table(x))) kalt 4 13. 11. 2008 3

Beispiel Durchschnittliche Temperaturen (in C ) in zwei Städten Jan Feb Mär Apr Mai Jun Jul Aug Sep Okt Nov Dez Stadt1-5 -12 5 12 15 18 22 23 20 16 8 1 Stadt2 6 7 8 9 10 12 16 15 11 9 8 7 (Gries 2008: 117f.) 13. 11. 2008 4

Maße der zentralen Tendenz Median (median) Zentralwert die Werte nach ihrer Größe sortieren und den Mittleren wählen bei einer geradzahligen Menge von Elementen das arithmetische Mittel der beiden Mittelwerte geeignet für Ordinal-, Intervall- und Verhältnisvariablen In R: > Stadt1= c(-5,-12,5,12,15,18,22,23,20,16,8,1) > median(stadt1) [1] 13.5 > Stadt2= c(6,7,8,9,10,12,16,15,11,9,8,7) > median(stadt2) [1] 9 13. 11. 2008 5

Maße der zentralen Tendenz Arithmetisches Mittel (arithmetic mean) Summe aller Werte geteilt durch die Anzahl n aller Werte angemessen nur für metrische Variablen (Intervall- und Verhältnisvariablen) > sum(stadt1)/length(stadt1) [1] 10.25 > mean(stadt1) [1] 10.25 > mean(stadt2) [1] 9.833333 > round(mean(stadt2),2) [1] 9.83 µ = n " x i i=1 n Eine alternative Notation für µ ("my") ist: x 13. 11. 2008 6

Streuungsmaße: Motivation > mean(stadt1) [1] 10.25 > mean(stadt2) [1] 9.833333 > plot(stadt1, type="b", xlab="monate", ylab="temperatur", col="darkgreen") > lines(c(rep(0,12)), col="lightgrey") > lines(stadt2, type="b", col="darkblue") 13. 11. 2008 7

Streuungsmaße Relativer Informationsgehalt / relative Entropie (relative entropy) z.b. Häufigkeitsverteilung von kategorialen Daten H=1, wenn die Werte maximal gleichmäßig über alle Ausprägungen verteilt sind n H=0, wenn alle Werte die selbe Ausprägung annehmen $ ( p (Zentralwert) i # ln p i ) Bsp.: 300 NPs, davon 164 ohne Artikel, 33 mit indefinitem, 103 mit definitem Artikel (Gries 2008:119) > artikel<-c(164, 33, 103) > prozente<-artikel/sum(artikel) > hrel<--sum(prozente*log(prozente))/log(length(prozente)); hrel [1] 0.8556091 H rel = " i=1 lnn 13. 11. 2008 8

Streuungsmaße Spannweite / Variationsbreite (range) Verhältnisskalierte Daten Differenz des höchsten und niedrigsten Wertes Einfach, aber empfindlich gegenüber Ausreißern > range(stadt1) [1] -12 23 > diff(range(stadt1)) # diff bildet paarweise Differenzen [1] 35 > max(stadt1)-min(stadt1) # alternative Berechnung [1] 35 > range(stadt1)[2]-range(stadt1)[1] # zweite Alternative [1] 35 > range(stadt2) [1] 6 16 > diff(range(stadt2)) # diff bildet paarweise Differenzen [1] 10 13. 11. 2008 9

Streuungsmaße Quantile Aufsteigend sortierte Werte Angabe, welcher Wert die niedrigsten x%, y% usw. abgrenzt > quantile(a, probs=c(0.05, 0.1, 0.5, 0.9, 0.95), type=1) 5% 10% 50% 90% 95% 5 10 50 90 95 Sonderfall: Quartile (= Default von quantile()) > quantile(stadt1) 0% 25% 50% 75% 100% -12.0 4.0 13.5 18.5 23.0 > IQR(Stadt1) # die Funktion fuer den Interquartilsabstand [1] 14.5 > quantile(stadt2) 0% 25% 50% 75% 100% 6.00 7.75 9.00 11.25 16.00 > IQR(Stadt2) [1] 3.5 13. 11. 2008 10

Durchschnittliche Abweichung averate deviation Für jeden Datenpunkt wird die Abweichung zum Mittelwert µ angegeben Die absoluten Abweichungen werden summiert und gemittelt (d.h. durch die Anzahl n der Datenpunkte geteilt). AD = n # i=1 ( x i " µ) n 13. 11. 2008 11

Durchschnittliche Abweichung Beispiel > Stadt1 [1] -5-12 5 12 15 18 22 23 20 16 8 1 > Stadt1-mean(Stadt1) [1] -15.25-22.25-5.25 1.75 4.75 7.75 11.75 12.75 9.75 [10] 5.75-2.25-9.25 > abs(stadt1-mean(stadt1)) # Absolutbeträge [1] 15.25 22.25 5.25 1.75 4.75 7.75 11.75 12.75 9.75 5.75 2.25 [12] 9.25 > mean(abs(stadt1-mean(stadt1))) [1] 9.041667 > mean(abs(stadt2-mean(stadt2))) [1] 2.472222 13. 11. 2008 12

Streuungsmaße Varianz Summe der quadratischen Abweichungen vom Mittelwert µ > var(stadt1) [1] 123.6591 > var(stadt2) [1] 9.969697 var = n # i=1 (x i " µ) 2 n 13. 11. 2008 13

Standardabweichung Wurzel der Varianz ist das meist verbreitete Streuungsmaß Nachteil Ist abhängig von der Höhe des Mittelwerts Schlechter Vergleich von Verteilungen mit unterschiedlichen Mittelwerten > sd(stadt1) [1] 11.12021 > sd(stadt2) [1] 3.157483 sd = n # i=1 (x i " µ) 2 n 13. 11. 2008 14

Variationskoeffizient Normalisiert die Standardabweichung in Bezug auf die Größe des Mittelwerts Division der Standardabweichung durch den Mittelwert > sd(stadt1) [1] 11.12021 > sd(stadt1*10) [1] 111.2021 # Vergleich nicht möglich > sd(stadt1)/mean(stadt1) [1] 1.084899 > sd(stadt1*10)/mean(stadt1*10) # nun erhalten wir den gleichen Wert [1] 1.084899 > sd(stadt2)/mean(stadt2) [1] 0.3210999 13. 11. 2008 15

Zusammenfassende Funktion > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max. -12.00 4.00 13.50 10.25 18.50 23.00 > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max. 6.000 7.750 9.000 9.833 11.250 16.000 13. 11. 2008 16

Zusammenfassende Darstellung Boxplot (siehe Gries 2008: 125) > boxplot(stadt1, Stadt2, notch=t) > text(1:2, c(mean(stadt1), mean(stadt2)), c("+", "+")) > summary(stadt1) Min. 1st Qu. Median Mean 3rd Qu. Max. -12.00 4.00 13.50 10.25 18.50 23.00 > summary(stadt2) Min. 1st Qu. Median Mean 3rd Qu. Max. 6.000 7.750 9.000 9.833 11.250 16.000 13. 11. 2008 17

Zusammenfassende Darstellung Boxplot horizontale fette Linie = Median horizontale Linie, die obere und untere Grenze der Box darstellen = obere und untere Hinges (ca. der 75%- und 25%-Quartil) die gestrichelte vertikale Linien mit den horizontalen Begrenzungen (Whiskers) markieren den höchsten und niedrigsten Werte, die nicht mehr als 1.5 Interquartilsabstände von der Box entfernt sind Ausreißer außerhalb der Whiskers werden mit einzelnem Punkt dargestellt die durch notch=true erzeugten Einschnürungen erstrecken sich über den Bereich ±1.58*IQR/sqrt(n): wenn sich die Einschnürungen nicht überlappen (sondern eine die andere einschließt), unterscheiden sich die Mediane wahrscheinlich nicht signifikant. 13. 11. 2008 18

Standardisierung (z-werte) Notwendig beim Vergleich von unterschiedlichen Skalen Bsp.: Noten aus unterschiedlichen Klassenarbeiten Güte zweier Noten, die zu zwei Verteilungen mit unterschiedlichen Durchschnitten (mean) gehören. Transformation der Abstände zum jeweiligen Mittelwert in die Anzahl der jeweiligen Standardabweichungen, die der Wert abweicht. Z-transformierte Werte besitzen einen Mittelwert von 0 und eine Standardabweichung von 1 Von ordinalskalierten Daten wie Schulnoten darf mathematisch gesehen eigentlich nur der Median gebildet werden. Im Alltag wird auch hier oft der Mittelwert verwendet. 13. 11. 2008 19

Standardisierung (z-werte) > a<-1:5 # Beispielverteilung > z.werte<-(a-mean(a))/sd(a); z.werte #"zu Fuß" [1] -1.2649111-0.6324555 0.0000000 0.6324555 1.2649111 > mean(z.werte) # standardisierter Mittelwert [1] 0 > sd(z.werte)# standardisierte Standardabweichung [1] 1 > scale(a) # Standardisierungsfunktion in R [,1] [1,] -1.2649111 [2,] -0.6324555 [3,] 0.0000000 [4,] 0.6324555 [5,] 1.2649111 attr(,"scaled:center") # Mittelwert der Eingabedaten [1] 3 attr(,"scaled:scale") # Standardabweichung der Eingabedaten [1] 1.581139 13. 11. 2008 20

Standardisierung (z-werte) Beispiel nach Gries (2008:127) Frage: Wenn Schüler X in Kurs A eine 2 erhalten hat und Schüler Y in Kurs B eine 3, ist Schüler X dann wirklich besser als Schüler Y? > Noten.vom.Kurs.A<-rep(1:6, 6:1); Noten.vom.Kurs.A > Noten.vom.Kurs.B<-rep(1:6, 1:6); Noten.vom.Kurs.B > scale(noten.vom.kurs.von.a) > scale(noten.vom.kurs.von.b) 13. 11. 2008 21