Korpuslinguistik Grundlagen Korpora. Lyrik & Linguistik. Korpuslinguistik Grundlagen Korpora. Korpuslinguistik Grundlagen Korpora. Was ist ein Korpus?

Transkript

1 Lyrik & Linguistik Was ist ein Korpus? Stefan Engelberg & Christine Hummel Institut für Deutsche Sprache, Mannheim Universität Freiburg Hauptseminar, Uni Mannheim, FS 2008 Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, S. 7. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 1] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 2] Wozu? Was ist Korpuslinguistik? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, S. 9. werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet: Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur automatischen Ermittlung grammatischer Regularitäten. Lexikographie: Ermittlung von Worthäufigkeiten, Wendungen und typischen Verwendungskontexten, Sammlung authentischer Beispiele. Grammatikographie: Belege für grammatische Strukturen, deren Häufigkeit und Verteilung. Fremdsprachenunterricht: Analyse von Lernerfehlern, Ermittlung gebrauchshäufiger Phänomene, authentische Belege für Sprachverwendung. Übersetzung: Überprüfung von Übersetzungsstrategien in Parallelkorpora. Computerlinguistik: automatische Übersetzung, Spracherkennung, etc. Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 3] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 4] 1

2 Typen von lassen sich nach verschiedenen Kriterien typologisieren: Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, Sprachmedium: geschriebener / gesprochener Sprache Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) / Spezialkorpora Sprecherkompetenz: Lernerkorpora / zum Erstspracherwerb, Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierte Sprachstadium: historische / der Gegenwartssprache Sprachenanzahl: einsprachige / Parallelkorpora, Vergleichskorpora Einige verfügbare des Deutschen Deutsches Referenzkorpus (Institut für Deutsche Sprache): über Mio. Textwörter; Zeitungen, Belletristik, Sachtexte,, ab 1950; online verfügbar. Deutsches Korpus aus der Leipzig Corpus Collection: über 15 Mio. Textwörter; Sätze aus Zeitungen; kann downgeloadet werden. DWDS-Kernkorpus (Berlin-Brandenburgische Akademie): 100 Mio. Textwörter; Zeitungen, Belletristik, Fachtexte, gesprochene Sprache; Texte ab 1900; Grundlage für das DWDS-Wörterbuch. Historisches Korpus am IDS: 3 Mio. Textwörter (wachsend), Zeitungen, Bellestristik, Sachtexte,, Jh. TIGER-Korpus (Potsdam, Stuttgart, Saarbrücken); 0,9 Mio. Textwörter; Sätze mit grammatischen Strukturbeschreibungen. FALKO (Humboldt-Univ. Berlin): im Aufbau; fehlerannotiertes Lernerkorpus DaF. Vgl. die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 5] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 6] FRAGEN Welche Arten von Abweichungen in lyrischen Texten kommen vor, welche nicht? Welche Funktionen sind mit solchen Abweichungen verbunden? Welche linguistischen Konzepte sind hilfreich zur Beschreibung solcher Abweichungen? Wie können wir den typischen Sprachgebrauch in lyrischen Texten (oder in lyrischen Texten eines bestimmten Autors) ermitteln? Wie können wir den typischen Sprachgebrauch in anderen Texten ermitteln? Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von Schlüsselwörtern Berechnung diachroner Verläufe des Wortgebrauchs Im Folgenden werden die wichtigsten am Beispiel des Programms AntConc dargestellt. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 7] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 8] 2

3 Grundlegende Funktionalitäten in vielen Korpusrecherchesystemen (III) Ermittlung von Wortgruppen (V) Berechnung von Kookkurrenzen AntConc Entwickler: Laurence Anthony, Faculty of Science and Engineering,Waseda University, Japan. Version: 3.2.1w (Windows), Release March 10th, Recherche: Offline. Software: wird lokal installiert. Zugang: freier Download des Programms. : eigene Textsammlungen (txt-dateien). Sprachen: alle (Unicode); getestet: Deutsch, Englisch, Rumänisch, Mongolisch. URL: Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 9] (I) Erstellung von Konkordanzen (II) Berechnung von Häufigkeiten (IV) Ermittlung von Schlüsselwörtern Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 10] Konkordanzen Suche: Konkordanzen zu hilft in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Konkordanz Eine K. ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) um ein Schlüsselwort herum werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, S. 196f. KWIC Key word in context : Einzelner Kotext zu einem Schlüsselwort; in Programmen zur Konkordanzerzeugung ist die Kotextgröße meist wählbar. Suchausdruck (hier: hilft) Sortierung (hier: alphabetisch nach Wort direkt rechts vom Suchterm) Kotext (hier: 200 Zeichen) Treffermenge (hier: 32) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 11] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 12] 3

4 Index als traditionelles Mittel zur Konkordanzerstellung Textwort Gedichtband Gedichtnummer Zeilennummer Ausgabe der Ergebnisse als Textdatei. Nielsen, Karsten Hvidfelt & Harald Pors (1981): Index Zur Lyrik Paul Celans. München: Fink. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 13] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 14] Frequenzen Lexikalische Häufigkeitsberechnungen In lexikalischen Häufigkeitsberechnungen wird die Anzahl bestimmter Wortformen, Lexeme oder auch Wortgruppen in einem Korpus berechnet. Type-Token-Ratio Mit Type-Token-Ratio wird der Quotient aus der Anzahl aller sprachlichen Einheiten eines bestimmten Typs und der Anzahl aller Vorkommen dieser Einheiten in einem gegebenen Korpus bezeichnet. Gewöhnlich wird die Type-Token-Ratio für Wortlexeme oder Wortformen berechnet. Type-Token-Ratio (Lexeme): Anzahl aller verschiedenen Lexeme / Anzahl aller Realisierungen der verschiedenen Wortformen dieser Lexeme (Anzahl aller Textwörter). Type-Token-Ratio (Wortformen): Anzahl aller verschiedenen Wortformen / Anzahl aller Realisierungen dieser Wortformen. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 15] Start (kein Suchausdruck) Type-Token-Ratio (hier: : ,115) Wortliste (mit Rang und Frequenzangabe) Suche: Frequenzliste aller Wortformen und Type-Token-Ratio in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Sortierung (hier: nach Frequenz) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 16] 4

5 Wortgruppenanalyse Suche: Alle Cluster aus 3 Wörtern, die Tag enthalten, in einem Ausschnitt der Leipzig Corpus Collection. Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster aus 3 Konsonanten und sprach vor einem ein Wortcluster aus 3 Wörtern. Manche Korpusrechercheprogramme erlauben zu einem Suchwort die Ermittlung aller Cluster, in denen es vorkommt. Trigramm-Liste mit Rang und Frequenzangabe n-gramm Ein n-gramm ist eine Folge von n linguistischen Elementen gleichen Typs. (Kunze & Lemnitzer 2007: 190) Ein 5-Gramm von Wörtern ist eine Folge von 5 Wörtern. Ein n- Gramm ist also das gleiche wie ein n-cluster. Von n-grammen spricht man insbesondere, wenn es darum geht, alle n-wortcluster aus einem Korpus zu extrahieren. Suchtermposition (hier: beliebig) Suchterm (hier: Tag) Sortierung (hier: nach Häufigkeit des Clusters) Clustergröße (hier: Cluster aus 3 Wörtern) Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], S Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 17] Frequenzbedingung (hier: mindestens 1 Token; = alle) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 18] Suche: Trigramme mit mindestens 3 Token in einem Ausschnitt der Leipzig Corpus Collection. Suche: Schlüsselwörter (zum Beispiel sprachwissenschaftliche Termini in einem Korpus linguistischer Fachtexte). Trigramm-Liste mit Rang und Frequenzangabe Start (kein Suchterm; Einstellung: N-Gramm) Bestimmung von n (hier: n-gramme für n = 3) Laden eines Vergleichskorpus (hier eine Ausschnitt aus dem Ddeutschen LCC-Korpus) Sortierung (hier: nach Frequenzbedingung (hier: Häufigkeit des Trigramms) mindestens 3 Token) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 19] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 20] 5

6 Kookkurrenzanalyse Fachsprachliches Korpus Schlüsselwort- Funktion Ausschnitt aus der Schlüsselwortliste Kookkurrenz Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe bezeichnet. Dabei sind Kookkurrenzen dort linguistisch interessant, wo das gemeinsame Auftreten der Wörter häufiger zu beobachten ist, als bei einer Zufallsverteilung aller Wörter zu erwarten wäre. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], S. 391f. Kollokation Eine K. ist ein aus meist zwei sprachlichen Zeichen bestehender Ausdruck, in dem die beiden sprachlichen Zeichen in arbiträrer und konventionalisierter Form verbunden sind (z. B. blonde Haare, ein heikles Thema). Innerhalb der Kollokation kann man die Basis als semantisch autonomes Element (Haare, Thema) und den Kollokator (blond, heikel) als semantisch abhängiges Element unterscheiden. Kollokationen sind in gewisser Weise linguistisch interpretierte Kookkurrenzen. Engelberg, Stefan und Lothar Lemnitzer. Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen: Stauffenburg, S. 391f. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 21] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 22] Suche: Kookkurrenzen zu der Wortform knapp in einem Ausschnitt der Leipzig Corpus Coll. Ausgabe der Ergebnisse in eine txt-datei Suchterm (hier: knapp) Liste der Kookkurrenzpartner mit Rang und Frequenz- und Signifikanzangabe Bestimmung des Suchkontexts (hier: bis 2 Wörter nach dem Suchterm) Sortierung (hier: nach Signifikanz Frequenzbedingung (hier: der Kookkurrenz) mind. 3 Collocate-Token) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 23] Beobachtungen Zahlausdrücke (Million, Milliarde, Milliarde, hundert) zeigen ein stärkeres Kookkurrenzverhalten als Zeitausdrücke (Monaten, Wochen, Jahren), zumindest auf Wortformenbasis. Die Verbindung von knapp und behauptet ist als Kollokation einzustufen; knapp hat hier nicht die Bedeutung etwas weniger als, sondern so gerade / mit Mühe und kombiniert in dieser Bedeutung nur mit ausgewählten Verben. Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 24] 6

7 Resumee AntConc Konkordanz zu behauptet, sortiert nach dem unmittelbaren Vorgängerwort. zu empfehlen bei kleineren (bis 20 Mio. Textwörter) gut für sortierte Konkordanzen, Wortlistenerstellung, Wortgruppenanalyse und Schlüsselwortermittlung weniger nützlich für Kookkurrenzanalyse (zu langsam; man braucht größere ) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 25] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 26] COSMAS II & CCDB die beste Kookkurrenzanalyse zum Deutschen große mit vielfältigen Abfragemöglichkeiten Kookkurrenzanalyse zu in der CCDB (Funktionswörter in dieser Analyse nicht berücksichtigt) COSMAS II & CCDB Developer: Institut für Deutsche Sprache (CCDB: Cyil Belica). Version: Search: online. Software: installed locally (Client) or as web interface. Access: free download of the client (registration). Corpora: corpora of the IDS. Languages: German. URL: (COSMAS II) (CCDB) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 27] Primäre Kookkurrenzpartner zu (hier: Einkommen) Stärke der Verbindung zwischen den beiden Wörtern (hier: 796) Typische syntagmatische Muster, in denen die Verbindungen vorkommen, z. B. vom Einkommen Sekundäre Kookkurrenzpartner zu + Einkommen (hier: steuerpflichtigen, steuerbaren, versteuernden) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 28] 7

8 Kookkurrenzanalyse zu in der CCDB Korpusrecherchesystem IV: Corpus Browser (Funktionswörter in dieser Analyse nicht berücksichtigt; nach Verbindungsstärke sortiert) Truppen (aus ) unverrichteter Dinge wieder Korpusrecherchesystem IV: Corpus Browser vom Einkommen wurden Soldaten (aus ) abgezogen wurden zwei Punkte abgezogen eine Show den Zündschlüssel die Haut Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 29] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 30] Korpusrecherchesystem IV: Corpus Browser Korpusrecherchesystem IV: Corpus Browser aus 20 Metern Botschafter (aus ) Kapital (aus ) Gelder (aus ) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 31] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 32] 8

9 Korpusrecherchesystem IV: Corpus Browser von der Strafraumgrenze FRAGEN Welche Arten von Abweichungen in lyrischen Texten kommen vor, welche nicht? Welche Funktionen sind mit solchen Abweichungen verbunden? Welche linguistischen Konzepte sind hilfreich zur Beschreibung solcher Abweichungen? Wie können wir den typischen Sprachgebrauch in lyrischen Texten (oder in lyrischen Texten eines bestimmten Autors) ermitteln? Wie können wir den typischen Sprachgebrauch in anderen Texten ermitteln? Nehmen Sie an, Sie hätten als Textkorpus sämtliche Gedichte eines Autors. Wozu könnten Sie AntConc in Zusammenhang mit diesem Korpus nutzen? den Rauch lassen Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 33] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 34] Metadaten bei den Berechnungen ignorieren: Global Settings / Tag Settings / Hide tags Metadaten (ausgezeichnet durch tags: < >) Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 35] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 36] 9

10 Beispiel: Schlüsselwortanalyse Celan-Gedichtkorpus Beispiele: Schlüsselwortanalyse Kafka-Erzählungskorpus Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 37] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 38] Der Abend spricht mit lindem Schmeichelwort die Gassen In Schlummer und der Süße alter Wiegenlieder, Die Dämmerung hat breit mit hüllendem Gefieder Ein Riesenvogel sich auf blaue Firste hingelassen. Nun hat das Dunkel von den Fenstern allen Glanz gerissen, Die eben noch beströmt wie veilchenfarbne Spiegel standen, Die Häuser sind im Grau, durch das die ersten Lichter branden Wie Rümpfe großer Schiffe, die im Meer die Nachtsignale hissen. In späten Himmel tauchen Türme zart und ohne Schwere, Die Ufer hütend, die im Schoß der kühlen Schatten schlafen, Nun schwimmt die Nacht auf dunkel starrender Galeere Mit schwarzem Segel lautlos in den lichtgepflügten Hafen. Stadler, Ernst: Dämmerung in der Stadt. In: Ders.: Verstreute Gedichte aus den Jahren 1910 bis Die digitale Bibliothek der deutschen Lyrik. Frankfurt am Main: Zweitausendeins. Zugang zu Korpusressourcen AntConc: Download unter Lyrikkorpora: Die Gedichtkorpora (Trakl, Stadler, Stramm, Gedichte aus der Menschheitsdämmerung) sende ich Ihnen per . Zeitungskorpus: Das deutsche Zeitungskorpus aus der Leipzig Corpus Collection können Sie sich in der Woche vom von meiner Webseite herunterladen: Webseite_Lyrik_Linguistik/Lyrik_Linguistik.html. CCDB: Die Kookkurenzdatenbank des Instituts für Deutsche Sprache ist zu erreichen unter: Bitte eine Überlassungserklärung unterschreiben! Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 39] Stefan Engelberg & Christine Hummel, Lyrik & Linguistik, FS 2008, Uni Mannheim [Folie 40] 10