Korpuslinguistik Grundlagen Korpora

Was ist ein Korpus? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 7. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1] Was ist Korpuslinguistik? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 9. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 2] 1

Wozu? werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet: Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur automatischen Ermittlung grammatischer Regularitäten. Lexikographie: Ermittlung von Worthäufigkeiten, Wendungen und typischen Verwendungskontexten, Sammlung authentischer Beispiele. Grammatikographie: Belege für grammatische Strukturen, deren Häufigkeit und Verteilung. Fremdsprachenunterricht: Analyse von Lernerfehlern, Ermittlung gebrauchshäufiger Phänomene, authentische Belege für Sprachverwendung. Übersetzung: Überprüfung von Übersetzungsstrategien in Parallelkorpora. Computerlinguistik: automatische Übersetzung, Spracherkennung, etc. Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 3] Typen von lassen sich nach verschiedenen Kriterien typologisieren: Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Sprachmedium: geschriebener / gesprochener Sprache Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) / Spezialkorpora Sprecherkompetenz: Lernerkorpora / zum Erstspracherwerb, Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierte Sprachstadium: historische / der Gegenwartssprache Sprachenanzahl: einsprachige / Parallelkorpora, Vergleichskorpora Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 4] 2

Einige verfügbare des Deutschen Deutsches Referenzkorpus (Institut für Deutsche Sprache): über 3.000 Mio. Textwörter; Zeitungen, Belletristik, Sachtexte,, ab 1950; online verfügbar. Deutsches Korpus aus der Leipzig Corpus Collection: über 15 Mio. Textwörter; Sätze aus Zeitungen; kann downgeloadet werden. DWDS-Kernkorpus (Berlin-Brandenburgische Akademie): 100 Mio. Textwörter; Zeitungen, Belletristik, Fachtexte, gesprochene Sprache; Texte ab 1900; Grundlage für das DWDS-Wörterbuch. Historisches Korpus am IDS: ca. 45 Mio. Textwörter (wachsend), Zeitungen, Bellestristik, Sachtexte,, 17.-20. Jh. TIGER-Korpus (Potsdam, Stuttgart, Saarbrücken); 0,9 Mio. Textwörter; Sätze mit grammatischen Strukturbeschreibungen. FALKO (Humboldt-Univ. Berlin): im Aufbau; fehlerannotiertes Lernerkorpus DaF. Vgl. die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 5] Bearbeitung von Korpustexten Metadaten: Daten zum Korpustext (z. B. Autor, Entstehungsdatum, Titel, Publikationsort, ) Annotationen: linguistische Beschreibungen in (z. B. Wortartmarkierungen an allen Wörtern) Kodierter Korpustext (im XML-Format) aus GerManC (deutsches Zeitungskorpus 1650-1800) Annotationsbeispiel: <s> Satz </s> <foreign> Fremdwort </foreign> <rs> Name </rs> Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 6] 3

Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von Schlüsselwörtern Berechnung diachroner Verläufe des Wortgebrauchs Im Folgenden werden die wichtigsten am Beispiel des Programms AntConc dargestellt. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 7] AntConc Entwickler: Laurence Anthony, Faculty of Science and Engineering,Waseda University, Japan. Version: 3.2.1w (Windows), Release March 10th, 2007. Recherche: Offline. Software: wird lokal installiert. Zugang: freier Download des Programms. : eigene Textsammlungen (txt-dateien). Sprachen: alle (Unicode); getestet: Deutsch, Englisch, Rumänisch, Mongolisch. URL: http://www.antlab.sci.waseda.ac.jp/antconc_index.html. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 8] 4

Grundlegende Funktionalitäten in vielen Korpusrecherchesystemen (III) Ermittlung von Wortgruppen (IV) Berechnung von Kookkurrenzen (I) Erstellung von Konkordanzen (II) Berechnung von Häufigkeiten Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 9] Konkordanzen Konkordanz Eine K. ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) um ein Schlüsselwort herum werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 196f. KWIC Key word in context : Einzelner Kotext zu einem Schlüsselwort; in Programmen zur Konkordanzerzeugung ist die Kotextgröße meist wählbar. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 10] 5

Suche: Konkordanzen zu hilft in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Suchausdruck (hier: hilft) Sortierung (hier: alphabetisch nach Wort direkt rechts vom Suchterm) Kotext (hier: 200 Zeichen) Treffermenge (hier: 32) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 11] Ausgabe der Ergebnisse als Textdatei. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 12] 6

Frequenzen Lexikalische Häufigkeitsberechnungen In lexikalischen Häufigkeitsberechnungen wird die Anzahl bestimmter Wortformen, Lexeme oder auch Wortgruppen in einem Korpus berechnet. Type-Token-Ratio Mit Type-Token-Ratio wird der Quotient aus der Anzahl aller sprachlichen Einheiten eines bestimmten Typs und der Anzahl aller Vorkommen dieser Einheiten in einem gegebenen Korpus bezeichnet. Gewöhnlich wird die Type-Token-Ratio für Wortlexeme oder Wortformen berechnet. Type-Token-Ratio (Lexeme): Anzahl aller verschiedenen Lexeme / Anzahl aller Realisierungen der verschiedenen Wortformen dieser Lexeme. Type-Token-Ratio (Wortformen): Anzahl aller verschiedenen Wortformen / Anzahl aller Realisierungen dieser Wortformen. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 13] Type-Token-Ratio (hier: 108034:937245 0,115) Wortliste (mit Rang und Frequenzangabe) Suche: Frequenzliste aller Wortformen und Type-Token-Ratio in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Start (kein Suchausdruck) Sortierung (hier: nach Frequenz) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 14] 7

Wortgruppenanalyse Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster aus 3 Konsonanten und sprach vor einem ein Wortcluster aus 3 Wörtern. Manche Korpusrechercheprogramme erlauben zu einem Suchwort die Ermittlung aller Cluster, in denen es vorkommt. n-gramm Ein n-gramm ist eine Folge von n linguistischen Elementen gleichen Typs. (Kunze & Lemnitzer 2007: 190) Ein 5-Gramm von Wörtern ist eine Folge von 5 Wörtern. Ein n- Gramm ist also das gleiche wie ein n-cluster. Von n-grammen spricht man insbesondere, wenn es darum geht, alle n-wortcluster aus einem Korpus zu extrahieren. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], 2007. S. 190. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 15] Suche: Alle Cluster aus 3 Wörtern, die Tag enthalten, in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Sortierung (hier: nach Häufigkeit des Clusters) Suchtermposition (hier: beliebig) Suchterm (hier: Tag) Clustergröße (hier: Cluster aus 3 Wörtern) Frequenzbedingung (hier: mindestens 1 Token; = alle) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 16] 8

Suche: Trigramme mit mindestens 3 Token in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Start (kein Suchterm; Einstellung: N-Gramm) Bestimmung von n (hier: n-gramme für n = 3) Sortierung (hier: nach Häufigkeit des Trigramms) Frequenzbedingung (hier: mindestens 3 Token) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 17] Kookkurrenzanalyse Kookkurrenz Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe bezeichnet. Dabei sind Kookkurrenzen dort linguistisch interessant, wo das gemeinsame Auftreten der Wörter häufiger zu beobachten ist, als bei einer Zufallsverteilung aller Wörter zu erwarten wäre. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], 2007. S. 391f. Kollokation Eine K. ist ein aus meist zwei sprachlichen Zeichen bestehender Ausdruck, in dem die beiden sprachlichen Zeichen in arbiträrer und konventionalisierter Form verbunden sind (z. B. blonde Haare, ein heikles Thema). Innerhalb der Kollokation kann man die Basis als semantisch autonomes Element (Haare, Thema) und den Kollokator (blond, heikel) als semantisch abhängiges Element unterscheiden. Kollokationen sind in gewisser Weise linguistisch interpretierte Kookkurrenzen. Engelberg, Stefan und Lothar Lemnitzer. Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen: Stauffenburg, 2001. S. 391f. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 18] 9

Suche: Kookkurrenzen zu der Wortform alte in einem Ausschnitt der Leipzig Corpus Coll. Liste der Kookkurrenzpartner mit Rang und Frequenz- und Signifikanzangabe Suchausdruck (hier: alte) Bestimmung des Suchkontexts (hier: 1 Wort vor bis ein Wort nach dem Suchterm) Sortierung (hier: nach Signifikanz der Kookkurrenz) Frequenzbedingung (hier: mind. 3 Collocate-Token) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 19] Suche: Kookkurrenzen zu der Wortform knapp in einem Ausschnitt der Leipzig Corpus Coll. Suchterm (hier: knapp) Bestimmung des Suchkontexts (hier: bis 2 Wörter nach dem Suchterm) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 20] 10

Ausgabe der Ergebnisse in eine txt-datei Beobachtungen Zahlausdrücke (Million, Milliarde, Milliarde, hundert) zeigen ein stärkeres Kookkurrenzverhalten als Zeitausdrücke (Monaten, Wochen, Jahren), zumindest auf Wortformenbasis. Die Verbindung von knapp und behauptet ist als Kollokation einzustufen; knapp hat hier nicht die Bedeutung etwas weniger als, sondern so gerade / mit Mühe und kombiniert in dieser Bedeutung nur mit ausgewählten Verben. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 21] Konkordanz zu behauptet, sortiert nach dem unmittelbaren Vorgängerwort. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 22] 11

Resumee AntConc zu empfehlen bei kleineren (bis 20 Mio. Textwörter) gut für sortierte Konkordanzen, Wortlistenerstellung, Wortgruppenanalyse und Schlüsselwortermittlung weniger nützlich für Kookkurrenzanalyse (zu langsam; man braucht größere ) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 23] 12