Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Ähnliche Dokumente
Wie kann man Unterschiede zwischen zwei Mengen von Texten modellieren?

Explorative Faktorenanalyse

6. Faktorenanalyse (FA) von Tests

Marktforschung und Datenanalyse

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

Bivariate Zusammenhänge

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Einführung in SPSS. Sitzung 5: Faktoranalyse und Mittelwertsvergleiche. Knut Wenzig. 22. Januar 2007

Multivariate Statistische Methoden

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Faktorenanalyse. Fakultät für Human und Sozialwissenschaften Professur für Forschungsmethodik und Evaluation in der Psychologie

Ein- und Zweistichprobentests

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

FAKULTÄT FÜR SPRACH-, LITERATUR- UND

Methodik für Linguisten

Biostatistik Erne Einfuhrung fur Biowissenschaftler

Sozialwissenschaftliche Methoden und Methodologie. Begriffe, Ziele, Systematisierung, Ablauf. Was ist eine Methode?

Der Barthel-Index zur Messung von Alltagskompetenzen bei Demenz

Angewandte Statistik 3. Semester

Multivariate Statistische Methoden und ihre Anwendung

Inhaltsverzeichnis. Vorwort

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller

Einführung in die Computerlinguistik Statistische Grundlagen

Aufgaben zu Kapitel 7:

Aufbau des Experiments Reihung von Versuchsitems und Distraktoren

Übungen (HS-2010): Urteilsfehler. Autor: Siegfried Macho

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Anwendungsaufgaben. Effektgröße bei df Zähler = df A = 1 und N = 40 (zu berechnen aus df Nenner ): Der aufgedeckte Effekt beträgt also etwa 23 %.

Forschungsstatistik I

Lehrbuch der Statistik

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Textsorten. Folien zum Tutorium Internationalisierung Go West: Preparing for First Contacts with the Anglo- American Academic World

Assoziation & Korrelation

Joint Master Programm Global Business

Mathematik für Wirtschaftswissenschaftler Kapitel 4-6. Universität Trier Wintersemester 2013 / 2014

Dr. / *) Brigitte Dreßler (Sprachgruppenleiterin Sonstige Sprachen)

Veranschaulichung: Einführung in die Faktorenanalyse mit SAS. 1. Faktorenanalyse: Wie? Inhalt. 1. Faktorenanalyse: Wozu?

9. Fortbildungsveranstaltung SINUS-Transfer Grundschule 12. September 2008 Wolfgang Grohmann Lessing-Grundschule Braunsbedra.

Florian Frötscher und Demet Özçetin

I Einführung 1. 1 Über den Umgang mit Statistik 3

Multivariate Analysemethoden

Deskriptive Statistik

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Landes-Eltern-Vereinigung

Statistik für Psychologen und Sozialwissenschaftler

Prüfungsordnung der Albert-Ludwigs-Universität für den Studiengang Bachelor of Arts (B.A.)

VS PLUS

Alte Klausur. Masterstudiengang Sportwissenschaften / Sportmanagement. Abschlussklausur Statistik. Sommersemester , 11:30 Uhr.

Gesprochene und geschriebene Sprache (1/8) je nach Medium: diamesische Varietät

Multivariate Statistik

III. Experteninterviews und qualitative Inhaltsanalyse. Jochen Gläser Grit Laudel. als Instrumente rekonstruierender Untersuchungen. 4.

Bericht über die Besichtigung des Flughafens

Assoziation & Korrelation

Rezeptive und produktive Grammatik im Lehrwerk Berliner Platz. 2. Entwicklung und Progression in Lehrwerken

der Zweitsprache Deutsch Vortrag auf dem DGFF-Kongress Inger Petersen, Universität Oldenburg

Umfrage, eine Methode für die Maturaarbeit. GM.my in Zusammenarbeit mit der Kantonsschule Olten

Vorlesungsverzeichnis für das SS 2015

Meine Diplomarbeit I 1

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Interdisziplinäres Seminar. Multivariate Statistik bei psychologischen Fragestellungen. Markus Bühner und Helmut Küchenhoff WS 2008/09

Korrespondenzanalyse

konvergent falls Sei eine allgemeine ("gutmütige") Funktion. Frage: kann man sie in der Nähe des Punktes darstellen mittels einer Potenzreihe in

Workshop Meta-Analysen bei der Arzneimittelbewertung. 55. GMDS-Jahrestagung, Mannheim, 2010

Das Identifikationsproblem

Die Diplomarbeit in der Betriebswirtschaftslehre

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Deutsch Gymnasium Klasse 9 und 10

Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren?

Miriam Schmuhl. Leitfaden zur Erstellung von Hausarbeiten

Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1

Beschreibende Statistik Zweidimensionale (bivariate) Daten

Webergänzung zu Kapitel 10

Multivariate Lieferantenbewertung

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Einführung in die Programmierung mit Java

CURRICULUM AUS ENGLISCH 1. Biennium FOWI/SOGYM/SPORT

Statistik für Psychologen und Sozialwissenschaftler

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Ökonomische Analyse von Kopplungsverträgen

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Strategien für eine nachhaltige Lieferantentwicklung für die Beschaffung aus Emerging Markets

Formulaic Sequences in German Essays: Comparing L1 with L2 data

Unternehmenskultur als

Gezielt fördern. wortgewandt & zahlenstark Lern- und Entwicklungsstand bei 4- bis 6-Jährigen

Lage- und Streuungsparameter

Studiengang Master of Arts (M.A.) Im Fach "English Language and Linguistics" sind insgesamt 120 ECTS-Punkte zu erwerben.

Übersicht Promotionsstudium (Stand: ) Änderungen möglich!

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

3. bis 5. April Schladming, Hotel Royer

Transkript:

GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen: funktionale Dimension Sprachwandel/Sprachvariation folgende Darstellung nach Biber, Conrad & Reppen (1998), Kapitel 6 Verfahren: multivariate Analyse, multidimensionale Analyse, Faktorenanalyse Registervariation Sprachveränderung Fragen Wie unterscheiden sich zwei (mehrere) Textsorten (zb Zeitungsartikel von linguistischen Fachtexten, DDR-Zeitungsartikel von BRD- Zeitungsartikeln,...)? Sprechen Frauen anders als Männer? Wie unterscheiden sich CDU-Wahlkampftexte von SPD-Wahlkampftexten? Wie unterscheiden sich Liebesbriefe aus dem 19. Jhd. von Liebesbriefen heute?... Fragen Wie unterscheiden sich Gebrauchstexte von linguistischen Fachtexten von Korrespondenz von Zeitungstexten von Literatur? GeKo! NB: Register Register wird bestimmt von einer (funktionalen) Situation Gespräch mit Freunden Referat Zeitungsartikel Geschäftsbrief wissenschaftlicher Text... (Unterschied zu Dialekt: bestimmt von einer Region (Gruppe))

Beispiel Beispiel (Beispiele zur Illustration auf Deutsch) Ein anderer Test prüft die Anti-Image Korrelation zwischen den Variablen. Dabei werden die Variablen geteilt in das Image (das ist der durch die anderen Variablen im Kontext einer multiplen Regressionsanalyse erklärte Varianzanteil) und das Anti-Image (also den von den anderen Variablen unabhängigen Teil). Die Anti-Image-Korrelation zweier Variablen ist dann gleich dem negativen Wert des partiellen Korrelationskoeffizienten dieser Variablen, bei dem der Einfluss der restlichen Variablen herausgerechnet ist. (http://141.35.2.84/svw/soz/adl/m3html/m3faktor.htm) dann denke ich, halten wir das fest, und dann fahren wir da und denn ja, könnten wir noch mal gucken, ob wir uns nachher vielleicht noch mal irgendwann treffen, um Nachbereitung zu machen und einfach mal auf ein Glas Wein, oder so. ja, das finde ich sehr richtig, noch hinterher noch mal darüber sprechen. da würde ich Ihnen vorschlagen, vielleicht sogar schon im August erst? vielleicht Anfang August? zwischen dem ersten und vierten, wäre Ihnen das recht? (http://www.ims.uni-stuttgart.de/projekte/verbmobil/dialogs/) inhaltlich (Veränderung/Unterschied im Thema) linguistisch/strukturell inhaltlich (Veränderung/Unterschied im Thema) linguistisch/strukturell quantitative Analyse aussagekräftig nur, wenn aufbauend auf einer detaillierten qualitativen Analyse! Vergleich eines Merkmals qualitativ M kommt vor/kommt nicht vor quantitativ Tendenzen (M kommt in T A häufiger vor als in T B.) man braucht Vergleichswerte (bottom line, 'normaler' Wert) Vergleich mehrerer Merkmale qualitativ M i kommt vor/kommt nicht vor Korrelationen (wenn M i vorkommt, kommt M j nicht vor) quantitativ Tendenzen (M i kommt in T A häufiger vor als in T B.) Korrelationen (In den Texten, in denen M i häufig vorkommt, kommt M j selten vor.)

Strukturelle Analyse von Textmerkmalen Satzlänge, Wörter pro Satz, Buchstaben pro Wort, Anzahl verschiedener Wörter, Type- Token-Verhältnis,... Anzahl von Pronomina, Anzahl von Relativsätzen, Anzahl von emotiven Verben, Anzahl unvollständige Sätze,...!!! Die Auswahl der Textmerkmale ist entscheidend für das Ergebnis!!! Strukturelle Analyse Annotation aufwändig (manuell oder automatisch) und fehleranfällig es ist nicht (schwer) möglich, manuell gleichzeitig mehrere Merkmale zu annotieren Strukturelle Analyse wenn der Vergleich von einem Merkmal nicht ausreicht und mehrere Merkmale gleichzeitig verglichen werden sollen: Darstellung, Gewichtung & Interpretation schwierig (was bedeutet zb Textsorte A hat längere Wörter, weniger emotive Verben, doppelt so viele Relativsätze und halb so viele Lemmatypen wie B?) Multidimensionale Analyse Grundidee: funktional interpretierte Dimensionen (Faktoren) (Faktoren sind selbst nicht messbar) messbare Merkmale werden einer Dimension zugeordnet (Kookkurrenz) Texte werden in einer Dimension verglichen Darstellung anhand einer Registeranalyse Fallstudie 1: Ziel und Material Ziel: Vergleich von unterschiedlichen gesprochenen und geschriebenen Registern Material: 481 Texte (960 000 Token), davon 340 Texte aus dem LOB-Corpus, verschiedene geschrieben Register (academic prose, mystery fiction, editorials,...) 148 Texte aus dem London-Lund-Corpus, verschiedene gesprochene Register (face-to-face, public conversation, prepared speeches...) Fallstudie 1: linguistische Analyse 16 Merkmalsgruppen werden gleichzeitig annotiert/gezählt (zb Tempus- und Aspektmarkierung, Fragen, Nominalisierungen, Modalverben, Nebensätze,...), 67 Einzelzählungen automatische Analyse und Zählung (zt speziell entwickelte Programme), manuelle Korrektur alle Merkmale werden in allen Texten gezählt

Fallstudie 1: linguistische Analyse Problem: zu viele Zählungen Lösung: Reduktion der Zählungen auf einige Faktoren Annahme: es gibt Zählungen, die voneinander abhängig sind/ miteinander korrelieren Fallstudie 1: Faktorenanalyse mithilfe der Faktorenanalyse können die korrelierenden Zählungen zu Faktoren zusammengefasst werden dh man findet die Merkmale, die besonders häufig zusammen vorkommen/korrelieren und die Merkmale, die besonders selten zusammen vorkommen (negative Korrelation) (Mathematischer Hintergrund: Faktorenanalyse, Principle Components Analysis etc. Biber 1988, siehe auch Backhaus et al. 1994; hier Magic) Fallstudie 1: Faktorenanalyse Fallstudie 1: Interpretation der Faktoren die Faktoren werden also rein quantitativ gefunden Faktoren werden dann funktional interpretiert Annahme: korrelierte Merkmale haben die gleiche Funktion Handout (aus Biber et al. 1998): 5 Dimensionen, positive und negative Korrelationen finde Funktionen, die die meisten positiven Merkmale teilen und die die negativen Merkmale nicht haben Faktor/Dimension 1: negative Faktoren: Präzision, Information positive Faktoren: Involviertheit, Emotionalität Fallstudie 1: Vergleich der Texte Fallstudien 2 und 3 jedes Merkmal eines Faktors hat eine bestimmte Ladung (ergibt sich bei der Faktorenanalyse) in einem gegebenen Text werden die einzelnen Merkmale gezählt und nach der Ladung gewichtet man kann den Durchschnittswert für alle Texte eines Registers bestimmen Handout (Dimensionen 1, 2; historische vs. biologische Fachtexte) Handout Fallstudie 2: biologische und historische Fachtexte Fallstudie 3: verschiedene Abschnitte in biologischen Fachtexten

Zusammenfassung multidimensionale Analysen sind ein gutes Mittel zum Textvergleich ist Voraussetzung (haben wir nicht angesprochen: Korpusgröße kann Ergebnis entscheidend beeinflussen) Literatur Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (1994 7 ) Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer, Berlin Biber, Douglas (1988) Variation Across Speech and Writing. Cambridge University Press, Cambridge Biber, Douglas; Conrad, Susan & Reppen, Randi (1998) Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge