Korpuslinguistik Grundlagen Korpora



Ähnliche Dokumente
Korpuslinguistik Grundlagen Korpusrecherchemethoden

linguistischer und literaturwissenschaftlicher Perspektive

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Emprirische Lexikologie

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren

Korpuslinguistik Grundlagen Korpora. Lyrik & Linguistik. Korpuslinguistik Grundlagen Korpora. Korpuslinguistik Grundlagen Korpora. Was ist ein Korpus?

Kookkurrenzanalyse Einführung

Daten Methoden Theorien Hypothesen

Valenz Syntaktische Valenz

Kollaborative Konstruktionsglossare im Fachfremdsprachenlernen Deutsch, Estnisch, Lettisch, Litauisch AntConc Arbeit mit digitalen Textsammlungen

Hueber Wörterbuch Deutsch als Fremdsprache Basiswissen kompakt

Grundbegriffe der Informatik

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Wie Sie mit Mastern arbeiten

A1.7: Entropie natürlicher Texte

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Professionelle Seminare im Bereich MS-Office

Zwischenablage (Bilder, Texte,...)

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Studieren- Erklärungen und Tipps

Erstellen von x-y-diagrammen in OpenOffice.calc

Geld Verdienen im Internet leicht gemacht

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Grundlagen der Theoretischen Informatik, SoSe 2008

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Zeichen bei Zahlen entschlüsseln

Eine Logikschaltung zur Addition zweier Zahlen

Anleitung für die Hausverwaltung

WinVetpro im Betriebsmodus Laptop

Microsoft Update Windows Update

Leichte-Sprache-Bilder

Statuten in leichter Sprache

Anleitung über den Umgang mit Schildern

Installation OMNIKEY 3121 USB

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Die Post hat eine Umfrage gemacht

Hinweise zur Installation der USB Treiber für Windows XP 32bit

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Part-of-Speech- Tagging

FORUM HANDREICHUNG (STAND: AUGUST 2013)

PowerPoint vertonen. by H.Schönbauer 1

Daten zum Wortschatz von Monate alten Kindern

Ein Bild in den Text einfügen

Eigenen WSUS Server mit dem UNI WSUS Server Synchronisieren

Was ist Leichte Sprache?

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

Windows 8.1. In 5 Minuten Was ist alles neu? Word

Umgang mit Schaubildern am Beispiel Deutschland surft

Nutzung von GiS BasePac 8 im Netzwerk

Das Leitbild vom Verein WIR

Erstellen der Barcode-Etiketten:

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

PowerPoint: Text. Text

mit dem TeXnicCenter von Andreas Both

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

~~ Swing Trading Strategie ~~

CSS-Grundlagen. Etwas über Browser. Kapitel. Die Vorbereitung

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

AutoTexte und AutoKorrektur unter Outlook verwenden

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Beschreibung des MAP-Tools

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

7. Bewässerung: Mehrmals pro Woche

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Doku zur Gebäudebrüter Datenbank

Hinzufügen zusätzlicher Aktivitäten/Angaben und Aktivieren von relevanten Feldern, um Angaben zu machen

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Formular»Fragenkatalog BIM-Server«

Hohe Kontraste zwischen Himmel und Landschaft abmildern

RIS Abbild mit aktuellen Updates

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

Anleitung. Download und Installation von Office365

Gimp Kurzanleitung. Offizielle Gimp Seite:

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Satzhilfen Publisher Seite Einrichten

Kurzanleitung OOVS. Reseller Interface. Allgemein

Überprüfung der digital signierten E-Rechnung

Hilfen zum Twitter-Hashtag-Marketing!

Datenbanken Kapitel 2

TEAMWORK-Uploader. Dokumentenaustausch mit dem PC

Installationsanleitung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Viele Bilder auf der FA-Homepage

Europäischer Fonds für Regionale Entwicklung: EFRE im Bundes-Land Brandenburg vom Jahr 2014 bis für das Jahr 2020 in Leichter Sprache

Erstellen einer in OWA (Outlook Web App)

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Flyer, Sharepics usw. mit LibreOffice oder OpenOffice erstellen

Quartalsabrechnung! " " " " " " " Stufe 1! Beheben von Abrechnungsfehlern" Stufe 2! Neue Abrechnung erstellen"

YouTube: Video-Untertitel übersetzen

Wie halte ich Ordnung auf meiner Festplatte?

Windows 10 > Fragen über Fragen

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Transkript:

Was ist ein Korpus? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 7. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1] Was ist Korpuslinguistik? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 9. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 2] 1

Wozu? werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet: Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur automatischen Ermittlung grammatischer Regularitäten. Lexikographie: Ermittlung von Worthäufigkeiten, Wendungen und typischen Verwendungskontexten, Sammlung authentischer Beispiele. Grammatikographie: Belege für grammatische Strukturen, deren Häufigkeit und Verteilung. Fremdsprachenunterricht: Analyse von Lernerfehlern, Ermittlung gebrauchshäufiger Phänomene, authentische Belege für Sprachverwendung. Übersetzung: Überprüfung von Übersetzungsstrategien in Parallelkorpora. Computerlinguistik: automatische Übersetzung, Spracherkennung, etc. Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 3] Typen von lassen sich nach verschiedenen Kriterien typologisieren: Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Sprachmedium: geschriebener / gesprochener Sprache Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) / Spezialkorpora Sprecherkompetenz: Lernerkorpora / zum Erstspracherwerb, Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierte Sprachstadium: historische / der Gegenwartssprache Sprachenanzahl: einsprachige / Parallelkorpora, Vergleichskorpora Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 4] 2

Einige verfügbare des Deutschen Deutsches Referenzkorpus (Institut für Deutsche Sprache): über 3.000 Mio. Textwörter; Zeitungen, Belletristik, Sachtexte,, ab 1950; online verfügbar. Deutsches Korpus aus der Leipzig Corpus Collection: über 15 Mio. Textwörter; Sätze aus Zeitungen; kann downgeloadet werden. DWDS-Kernkorpus (Berlin-Brandenburgische Akademie): 100 Mio. Textwörter; Zeitungen, Belletristik, Fachtexte, gesprochene Sprache; Texte ab 1900; Grundlage für das DWDS-Wörterbuch. Historisches Korpus am IDS: ca. 45 Mio. Textwörter (wachsend), Zeitungen, Bellestristik, Sachtexte,, 17.-20. Jh. TIGER-Korpus (Potsdam, Stuttgart, Saarbrücken); 0,9 Mio. Textwörter; Sätze mit grammatischen Strukturbeschreibungen. FALKO (Humboldt-Univ. Berlin): im Aufbau; fehlerannotiertes Lernerkorpus DaF. Vgl. die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 5] Bearbeitung von Korpustexten Metadaten: Daten zum Korpustext (z. B. Autor, Entstehungsdatum, Titel, Publikationsort, ) Annotationen: linguistische Beschreibungen in (z. B. Wortartmarkierungen an allen Wörtern) Kodierter Korpustext (im XML-Format) aus GerManC (deutsches Zeitungskorpus 1650-1800) Annotationsbeispiel: <s> Satz </s> <foreign> Fremdwort </foreign> <rs> Name </rs> Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 6] 3

Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von Schlüsselwörtern Berechnung diachroner Verläufe des Wortgebrauchs Im Folgenden werden die wichtigsten am Beispiel des Programms AntConc dargestellt. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 7] AntConc Entwickler: Laurence Anthony, Faculty of Science and Engineering,Waseda University, Japan. Version: 3.2.1w (Windows), Release March 10th, 2007. Recherche: Offline. Software: wird lokal installiert. Zugang: freier Download des Programms. : eigene Textsammlungen (txt-dateien). Sprachen: alle (Unicode); getestet: Deutsch, Englisch, Rumänisch, Mongolisch. URL: http://www.antlab.sci.waseda.ac.jp/antconc_index.html. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 8] 4

Grundlegende Funktionalitäten in vielen Korpusrecherchesystemen (III) Ermittlung von Wortgruppen (IV) Berechnung von Kookkurrenzen (I) Erstellung von Konkordanzen (II) Berechnung von Häufigkeiten Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 9] Konkordanzen Konkordanz Eine K. ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) um ein Schlüsselwort herum werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. S. 196f. KWIC Key word in context : Einzelner Kotext zu einem Schlüsselwort; in Programmen zur Konkordanzerzeugung ist die Kotextgröße meist wählbar. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 10] 5

Suche: Konkordanzen zu hilft in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Suchausdruck (hier: hilft) Sortierung (hier: alphabetisch nach Wort direkt rechts vom Suchterm) Kotext (hier: 200 Zeichen) Treffermenge (hier: 32) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 11] Ausgabe der Ergebnisse als Textdatei. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 12] 6

Frequenzen Lexikalische Häufigkeitsberechnungen In lexikalischen Häufigkeitsberechnungen wird die Anzahl bestimmter Wortformen, Lexeme oder auch Wortgruppen in einem Korpus berechnet. Type-Token-Ratio Mit Type-Token-Ratio wird der Quotient aus der Anzahl aller sprachlichen Einheiten eines bestimmten Typs und der Anzahl aller Vorkommen dieser Einheiten in einem gegebenen Korpus bezeichnet. Gewöhnlich wird die Type-Token-Ratio für Wortlexeme oder Wortformen berechnet. Type-Token-Ratio (Lexeme): Anzahl aller verschiedenen Lexeme / Anzahl aller Realisierungen der verschiedenen Wortformen dieser Lexeme. Type-Token-Ratio (Wortformen): Anzahl aller verschiedenen Wortformen / Anzahl aller Realisierungen dieser Wortformen. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 13] Type-Token-Ratio (hier: 108034:937245 0,115) Wortliste (mit Rang und Frequenzangabe) Suche: Frequenzliste aller Wortformen und Type-Token-Ratio in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Start (kein Suchausdruck) Sortierung (hier: nach Frequenz) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 14] 7

Wortgruppenanalyse Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster aus 3 Konsonanten und sprach vor einem ein Wortcluster aus 3 Wörtern. Manche Korpusrechercheprogramme erlauben zu einem Suchwort die Ermittlung aller Cluster, in denen es vorkommt. n-gramm Ein n-gramm ist eine Folge von n linguistischen Elementen gleichen Typs. (Kunze & Lemnitzer 2007: 190) Ein 5-Gramm von Wörtern ist eine Folge von 5 Wörtern. Ein n- Gramm ist also das gleiche wie ein n-cluster. Von n-grammen spricht man insbesondere, wenn es darum geht, alle n-wortcluster aus einem Korpus zu extrahieren. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], 2007. S. 190. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 15] Suche: Alle Cluster aus 3 Wörtern, die Tag enthalten, in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Sortierung (hier: nach Häufigkeit des Clusters) Suchtermposition (hier: beliebig) Suchterm (hier: Tag) Clustergröße (hier: Cluster aus 3 Wörtern) Frequenzbedingung (hier: mindestens 1 Token; = alle) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 16] 8

Suche: Trigramme mit mindestens 3 Token in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Start (kein Suchterm; Einstellung: N-Gramm) Bestimmung von n (hier: n-gramme für n = 3) Sortierung (hier: nach Häufigkeit des Trigramms) Frequenzbedingung (hier: mindestens 3 Token) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 17] Kookkurrenzanalyse Kookkurrenz Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe bezeichnet. Dabei sind Kookkurrenzen dort linguistisch interessant, wo das gemeinsame Auftreten der Wörter häufiger zu beobachten ist, als bei einer Zufallsverteilung aller Wörter zu erwarten wäre. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. Tübingen: Narr [E-Book], 2007. S. 391f. Kollokation Eine K. ist ein aus meist zwei sprachlichen Zeichen bestehender Ausdruck, in dem die beiden sprachlichen Zeichen in arbiträrer und konventionalisierter Form verbunden sind (z. B. blonde Haare, ein heikles Thema). Innerhalb der Kollokation kann man die Basis als semantisch autonomes Element (Haare, Thema) und den Kollokator (blond, heikel) als semantisch abhängiges Element unterscheiden. Kollokationen sind in gewisser Weise linguistisch interpretierte Kookkurrenzen. Engelberg, Stefan und Lothar Lemnitzer. Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen: Stauffenburg, 2001. S. 391f. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 18] 9

Suche: Kookkurrenzen zu der Wortform alte in einem Ausschnitt der Leipzig Corpus Coll. Liste der Kookkurrenzpartner mit Rang und Frequenz- und Signifikanzangabe Suchausdruck (hier: alte) Bestimmung des Suchkontexts (hier: 1 Wort vor bis ein Wort nach dem Suchterm) Sortierung (hier: nach Signifikanz der Kookkurrenz) Frequenzbedingung (hier: mind. 3 Collocate-Token) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 19] Suche: Kookkurrenzen zu der Wortform knapp in einem Ausschnitt der Leipzig Corpus Coll. Suchterm (hier: knapp) Bestimmung des Suchkontexts (hier: bis 2 Wörter nach dem Suchterm) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 20] 10

Ausgabe der Ergebnisse in eine txt-datei Beobachtungen Zahlausdrücke (Million, Milliarde, Milliarde, hundert) zeigen ein stärkeres Kookkurrenzverhalten als Zeitausdrücke (Monaten, Wochen, Jahren), zumindest auf Wortformenbasis. Die Verbindung von knapp und behauptet ist als Kollokation einzustufen; knapp hat hier nicht die Bedeutung etwas weniger als, sondern so gerade / mit Mühe und kombiniert in dieser Bedeutung nur mit ausgewählten Verben. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 21] Konkordanz zu behauptet, sortiert nach dem unmittelbaren Vorgängerwort. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 22] 11

Resumee AntConc zu empfehlen bei kleineren (bis 20 Mio. Textwörter) gut für sortierte Konkordanzen, Wortlistenerstellung, Wortgruppenanalyse und Schlüsselwortermittlung weniger nützlich für Kookkurrenzanalyse (zu langsam; man braucht größere ) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 23] 12