Grundlagen empirischer Forschung 27.10.2011 Statistik mit R Heike Zinsmeister WS 2010/11
Übersicht Grundlagen Beispiel für Übung 4 Operationalisierung Skalenniveaus Hypothesen Ur-Datensets 1
Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung des zu untersuchenden Phänomens Literaturstudien Erkundigungen (z.b. Gespräche mit Kollegen) Beobachtungen, um induktiv auf allgemeine Regularitäten zu schließen Deduktive Schlussfolgerungen (nach Gries 2008: 15) 2
Beispiel: L2-Erwerb des Vorfelds Phänomen Deutsch ist eine Verbzweit-Sprache Auf dieser Reise haben wir viel gelernt. Vorfeld finites Verb Mittelfeld Verbalkomplex Vorfeld linke Satzklam mer Mittelfeld rechte Satzklammer L2-Erwerb Wenig fortgeschrittene Lernende (L2-Lernende): Kanonisch (Subjekt-erst) oder Verbdritt Fortgeschrittene L2-Lernende: Verbzweit-Struktur ok, Verwendung des Vorfelds? Nachfeld 3
Verwendung des Vorfelds Alpha Presse Frankfurt zeigt Leuchtbücher und serielle Objekte. Die Arbeiten des ehemaligen Aktionskünstlers Wol Müller stehen im Zentrum. Das Material selbst interessiert ihn vor allem [..]. Alpha Presse Frankfurt zeigt Leuchtbücher und serielle Objekte. Im Zentrum stehen die Arbeiten des ehemaligen Aktionskünstlers Wol Müller. Ihn interessiert vor allem das Material selbst [..]. (nach TüBa-D/Z, 4, s13515ff.) 4
Verwendung des Vorfelds Kanonische Abfolge Subjekt finites Verb restlicher Satz Alpha Presse Frankfurt zeigt Leuchtbücher und serielle Objekte. Die Arbeiten des ehemaligen Aktionskünstlers Wol Müller stehen im Zentrum. Das Material selbst interessiert ihn vor allem [..]. Alpha Presse Frankfurt zeigt Leuchtbücher und serielle Objekte. Im Zentrum stehen die Arbeiten des ehemaligen Aktionskünstlers Wol Müller. Ihn interessiert vor allem das Material selbst [..]. Vorfeld - Verb-Zweit Beliebige Konstituente finites Verb restlicher Satz 11.11.2010 5
Verwendung des Vorfelds Die Wahl des Satzanfanges (=des Vorfeldelements) Nicht grammatisch determiniert Ausgangspunkt, Basis, von der her sich die (neue) Mitteilung der Einzeläußerung aufrollt Bindeglied zur vorhergegangenen Mitteilung, also ein wesentlicher Faktor der Satzverknüpfung. Thema -Funktion Subtiler Einfluss auf den Textfluss These Lernende von Deutsch als Fremdsprache (L2-Lernende) verwenden das Vorfeld anders als deutsche Muttersprachler (L1-Sprecher). 6
Operationalisierung L2-Lernende verwenden das Vorfeld anders als L1-Sprecher. Funktion: Subjekt, Objekt,... Kategorie: Nominalphrase, Adverbphrase,.. Gewicht Wortanzahl Buchstabenanzahl Morphemanzahl Silbenanzahl Vokalanzahl? Verhältnis Vorfeld / restlicher Satz 7
Operationalisierung Festlegung, an welchen beobachtbaren Ereignissen die Variablenausprägungen gemessen werden sollen. Beispiel.: Länge von Subjekt vs. Objekt (The younger bachelors) ate (the nice little parrot). Anzahl der Morpheme: 5 vs. 4 Anzahl Wörter: 3 vs. 4 Anzahl Buchstaben: 19 vs. 19 (nach Gries 2008:24) 8
Operationalisierung Beispiel: Informationsstatus von referenziellen Ausdrücken Hörer-alt Evoked (Referent ist im Text bereits eingeführt) Pronomen, vorerwähnte Eigennamen: er, S. Gries Unused (Allg. bekannte, aber) nicht-vorerwähnte Eigennamen Hörer-neu Brand-new Eigennamen, die von Relativsatz oder Apposition begleitet werden: Peter Jackson, der Regisseur von Herr der Ringe,... (vereinfacht nach Strube&Hahn 1999, basierend auf der Familiarity-Skala von Prince 1981, 92) 9
Ergebnis der Operationalisierung: Variablen Merkmal (Variable) ein Symbol für eine Menge von Merkmalsausprägungen kann in mindestens zwei Abstufungen vorkommen Bsp.: Kategorie Merkmalsausprägung (Wertelabel, Level) Bsp: Nominalphrase (NP), Adverbphrase (AdvP), Präpositionalphrase (PP), Satz (S),... Ausprägungen werden in R numerisch erfasst Wie gut sie in Zahlen erfasst werden können, liegt am Typ der Variable 10
Typen von Variablen: Skalenniveaus Skala Merkmal Beispiel Nichtmetrische Skala Metrische Skalen Nominal- / Kategorialskala Ordinalskala Intervallskala Ratioskala (Verhältnisskala) Rangwert mit Ordinalzahlen Skala mit gleich großen Abschnitten, ohne Nullpunkt Skala mit gleich großen Abschnitten, mit Nullpunkt Kategorie: NP, AdvP, PP, S qualitative Eigenschaftsausprägungen Vokabelschwierigkeit: leicht, mittel, schwer Celsius-Skala: -273..0..17,3... Kontoguthaben...-500..0..100,34.. Rechnerische Handhabung Bildung von Häufigkeiten Median, Quantile Subtraktion, Mittelwert Summe, Division, Multiplikation Häufigkeiten eines Wortes in Wertebereich einer verschiedenen Ratioskala: Subkorpora eines ganze Zahlen / Korpus: 0,...70... rationale Zahlen,... Minimum 11.11.2010 / Maximum (frei nach Backhaus et al. 2006: 6) 11
Übersicht Grundlagen Beispiel für Übung 4 Operationalisierung Skalenniveaus Hypothesen Ur-Datensets 12
Konditionale Hypothesen Kriterien Die Aussage ist allgemeingültig (All-Satz) der Aussage liegt die Formalstruktur eines Konditionalsatzes zu Grunde ( wenn-dann-satz oder je-desto-satz ) Der Konditionalsatz muss potenziell falsifizierbar sein. 13
Konditionale Hypothesen Aussagen über die Beziehung von zwei oder mehr Variablen Wenn/je U, dann/desto A Aus U folgt A : U A U: unabhängige Variable (independent variable) A: abhängige Variable (dependent variable) Beispiel Je kürzer eine Nominalphrase, desto häufiger wird sie als Subjekt verwendet. 14
Nicht-konditionale Hypothesen Aussage über die Ausprägungen oder Werte einer Variablen Werte verhalten sich wie eine bekannte mathematische Funktion Variable ist abhängig Keine unabhängige Variable Beispiel Die Häufigkeiten der Merkmalsausprägungen von Planungspausen (äh, ähm, Stille) in einer bestimmten Stichprobe sind nicht identisch; die Variation in der Stichprobe ist nicht zufällig. Falsifizierbarkeit 15
Hypothesen allgemein Aussagen oder Behauptungen über eine Variable Die Beziehung(en) zwischen zwei oder mehr Variablen in einem bestimmten Kontext Nullhypothese H 0 (Normalerweise) zu falsifizieren Alternativhypothese H 1 (Normalerweise) die Hypothese, für die man Evidenz sucht 16
Ungerichtete Alternativhypothese Nullhypothese H 0 : die Länge des Objekts (gemessen in Morphemen) unterscheidet sich nicht von der Länge des Subjekts. l objekt = l subjekt Ungerichtete Alternativhypothese H 1 : die Länge des Objekts (gemessen in Morphemen) unterscheidet sich von der Länge des Subjekts. l objekt l subjekt 17
Gerichtete Alternativhypothese Nullhypothese H 0 : die Länge des Objekts (gemessen in Morphemen) unterscheidet sich nicht von der Länge des Subjekts. l objekt = l subjekt Gerichtete Alternativhypothese H 1 : die Länge des Objekts (gemessen in Morphemen) ist länger als die Länge des Subjekts. l objekt > l subjekt 18
Übersicht Grundlagen Beispiel für Übung 4 Operationalisierung Skalenniveaus Hypothesen Ur-Datensets 19
Datensets Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) H 1 : die Länge des Objekts (gemessen in Morphemen) ist länger als die Länge des Subjekts. Fragen 1. Was sind die Variablen (deren Ausprägungen)? 2. Gibt es unabhängige Variablen? 3. Gibt es abhängige Variablen? 20
Datensets Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Länge: 1 Länge: 2 Länge: 3 Länge: 4 Funktion: Subjekt Funktion: Objekt 21
Datensets Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Länge: 1 Länge: 2 Länge: 3 Länge: 4 Funktion: Subjekt Funktion: Objekt 22
Datensets Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Fall Funktion Länge 1 Subjekt 1 2 Objekt 3 3 Subjekt 2 4 Subjekt 1 5 Objekt 1 6 Subjekt 2 23
Datensets Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Fall Satz-ID Funktion Länge 1 1 Subjekt 1 2 1 Objekt 3 3 2 Subjekt 2 4 3 Subjekt 1 5 3 Objekt 1 6 4 Subjekt 2 24
Referenzen Stefan Th. Gries. 2008. Statistik für Sprachwissenschaftler. Vandenhoeck & Ruprecht. Kapitel 1 und 3. Andere: K. Backhaus, W. Plinke und B. Erichson. 2006. Multivariate Analysemethoden Eine anwendungsorientierte Einführung, Berlin: Springer. Ellen F. Prince. 1981. Toward a taxonomy of given-new information. In Peter Cole (Hrsg.) Radical Pragmatics. New York: Academic Press. 223 255. Ellen F. Prince. 1999. How not to mark topics: Topicalization in English and Yiddish. 8 Texas Linguistics Forum. Lothar Sachs und Jürgen Hedderich. 2009. Angewandte Statistik, Berlin: Springer. 1-2 Michael Strube und Udo Hahn. 1999. Functional Centering Grounding Referential Coherence in Information Structure. Computational Linguistics, Volume 25, Number 3, September 1999. 309-344. 25