GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Überblick Registervariation multidimensionale Analyse Register quantitative Analyse Dimensionen: funktionale Dimension Sprachwandel/Sprachvariation folgende Darstellung nach Biber, Conrad & Reppen (1998), Kapitel 6 Verfahren: multivariate Analyse, multidimensionale Analyse, Faktorenanalyse Registervariation Sprachveränderung Fragen Wie unterscheiden sich zwei (mehrere) Textsorten (zb Zeitungsartikel von linguistischen Fachtexten, DDR-Zeitungsartikel von BRD- Zeitungsartikeln,...)? Sprechen Frauen anders als Männer? Wie unterscheiden sich CDU-Wahlkampftexte von SPD-Wahlkampftexten? Wie unterscheiden sich Liebesbriefe aus dem 19. Jhd. von Liebesbriefen heute?... Fragen Wie unterscheiden sich Gebrauchstexte von linguistischen Fachtexten von Korrespondenz von Zeitungstexten von Literatur? GeKo! NB: Register Register wird bestimmt von einer (funktionalen) Situation Gespräch mit Freunden Referat Zeitungsartikel Geschäftsbrief wissenschaftlicher Text... (Unterschied zu Dialekt: bestimmt von einer Region (Gruppe))
Beispiel Beispiel (Beispiele zur Illustration auf Deutsch) Ein anderer Test prüft die Anti-Image Korrelation zwischen den Variablen. Dabei werden die Variablen geteilt in das Image (das ist der durch die anderen Variablen im Kontext einer multiplen Regressionsanalyse erklärte Varianzanteil) und das Anti-Image (also den von den anderen Variablen unabhängigen Teil). Die Anti-Image-Korrelation zweier Variablen ist dann gleich dem negativen Wert des partiellen Korrelationskoeffizienten dieser Variablen, bei dem der Einfluss der restlichen Variablen herausgerechnet ist. (http://141.35.2.84/svw/soz/adl/m3html/m3faktor.htm) dann denke ich, halten wir das fest, und dann fahren wir da und denn ja, könnten wir noch mal gucken, ob wir uns nachher vielleicht noch mal irgendwann treffen, um Nachbereitung zu machen und einfach mal auf ein Glas Wein, oder so. ja, das finde ich sehr richtig, noch hinterher noch mal darüber sprechen. da würde ich Ihnen vorschlagen, vielleicht sogar schon im August erst? vielleicht Anfang August? zwischen dem ersten und vierten, wäre Ihnen das recht? (http://www.ims.uni-stuttgart.de/projekte/verbmobil/dialogs/) inhaltlich (Veränderung/Unterschied im Thema) linguistisch/strukturell inhaltlich (Veränderung/Unterschied im Thema) linguistisch/strukturell quantitative Analyse aussagekräftig nur, wenn aufbauend auf einer detaillierten qualitativen Analyse! Vergleich eines Merkmals qualitativ M kommt vor/kommt nicht vor quantitativ Tendenzen (M kommt in T A häufiger vor als in T B.) man braucht Vergleichswerte (bottom line, 'normaler' Wert) Vergleich mehrerer Merkmale qualitativ M i kommt vor/kommt nicht vor Korrelationen (wenn M i vorkommt, kommt M j nicht vor) quantitativ Tendenzen (M i kommt in T A häufiger vor als in T B.) Korrelationen (In den Texten, in denen M i häufig vorkommt, kommt M j selten vor.)
Strukturelle Analyse von Textmerkmalen Satzlänge, Wörter pro Satz, Buchstaben pro Wort, Anzahl verschiedener Wörter, Type- Token-Verhältnis,... Anzahl von Pronomina, Anzahl von Relativsätzen, Anzahl von emotiven Verben, Anzahl unvollständige Sätze,...!!! Die Auswahl der Textmerkmale ist entscheidend für das Ergebnis!!! Strukturelle Analyse Annotation aufwändig (manuell oder automatisch) und fehleranfällig es ist nicht (schwer) möglich, manuell gleichzeitig mehrere Merkmale zu annotieren Strukturelle Analyse wenn der Vergleich von einem Merkmal nicht ausreicht und mehrere Merkmale gleichzeitig verglichen werden sollen: Darstellung, Gewichtung & Interpretation schwierig (was bedeutet zb Textsorte A hat längere Wörter, weniger emotive Verben, doppelt so viele Relativsätze und halb so viele Lemmatypen wie B?) Multidimensionale Analyse Grundidee: funktional interpretierte Dimensionen (Faktoren) (Faktoren sind selbst nicht messbar) messbare Merkmale werden einer Dimension zugeordnet (Kookkurrenz) Texte werden in einer Dimension verglichen Darstellung anhand einer Registeranalyse Fallstudie 1: Ziel und Material Ziel: Vergleich von unterschiedlichen gesprochenen und geschriebenen Registern Material: 481 Texte (960 000 Token), davon 340 Texte aus dem LOB-Corpus, verschiedene geschrieben Register (academic prose, mystery fiction, editorials,...) 148 Texte aus dem London-Lund-Corpus, verschiedene gesprochene Register (face-to-face, public conversation, prepared speeches...) Fallstudie 1: linguistische Analyse 16 Merkmalsgruppen werden gleichzeitig annotiert/gezählt (zb Tempus- und Aspektmarkierung, Fragen, Nominalisierungen, Modalverben, Nebensätze,...), 67 Einzelzählungen automatische Analyse und Zählung (zt speziell entwickelte Programme), manuelle Korrektur alle Merkmale werden in allen Texten gezählt
Fallstudie 1: linguistische Analyse Problem: zu viele Zählungen Lösung: Reduktion der Zählungen auf einige Faktoren Annahme: es gibt Zählungen, die voneinander abhängig sind/ miteinander korrelieren Fallstudie 1: Faktorenanalyse mithilfe der Faktorenanalyse können die korrelierenden Zählungen zu Faktoren zusammengefasst werden dh man findet die Merkmale, die besonders häufig zusammen vorkommen/korrelieren und die Merkmale, die besonders selten zusammen vorkommen (negative Korrelation) (Mathematischer Hintergrund: Faktorenanalyse, Principle Components Analysis etc. Biber 1988, siehe auch Backhaus et al. 1994; hier Magic) Fallstudie 1: Faktorenanalyse Fallstudie 1: Interpretation der Faktoren die Faktoren werden also rein quantitativ gefunden Faktoren werden dann funktional interpretiert Annahme: korrelierte Merkmale haben die gleiche Funktion Handout (aus Biber et al. 1998): 5 Dimensionen, positive und negative Korrelationen finde Funktionen, die die meisten positiven Merkmale teilen und die die negativen Merkmale nicht haben Faktor/Dimension 1: negative Faktoren: Präzision, Information positive Faktoren: Involviertheit, Emotionalität Fallstudie 1: Vergleich der Texte Fallstudien 2 und 3 jedes Merkmal eines Faktors hat eine bestimmte Ladung (ergibt sich bei der Faktorenanalyse) in einem gegebenen Text werden die einzelnen Merkmale gezählt und nach der Ladung gewichtet man kann den Durchschnittswert für alle Texte eines Registers bestimmen Handout (Dimensionen 1, 2; historische vs. biologische Fachtexte) Handout Fallstudie 2: biologische und historische Fachtexte Fallstudie 3: verschiedene Abschnitte in biologischen Fachtexten
Zusammenfassung multidimensionale Analysen sind ein gutes Mittel zum Textvergleich ist Voraussetzung (haben wir nicht angesprochen: Korpusgröße kann Ergebnis entscheidend beeinflussen) Literatur Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (1994 7 ) Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer, Berlin Biber, Douglas (1988) Variation Across Speech and Writing. Cambridge University Press, Cambridge Biber, Douglas; Conrad, Susan & Reppen, Randi (1998) Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge