Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung
Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte Datengrundlage. Die Datengrundlage (=benötigte Texte) sollte anhand objektiver Kriterien zusammengestellt werden. Aus der (theoretischen) Grundgesamtheit muss eine Auswahl getroffen werden, die eine geeignete Stichprobe darstellt.
Datengewinnung Daten liegen in unterschiedlichen Formaten vor: unstrukturierte Daten: Bücher, Zeitungstexte, Grafiken, gesprochene Sprache (aufgezeichnet) etc. semistrukturierte Daten: Daten in XML- oder HTML-Struktur strukturierte Daten: Daten in Datenbanken Entsprechend unterscheiden sich die Arten der Datengewinnung und aufbereitung.
Unstrukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Semistrukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Strukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Datengewinnung Möglichkeit 1: gedruckte Texte abtippen oder einscannen Möglichkeit 2: digitalisierte Texte aus einer Quelle herauskopieren Möglichkeit 3: digitalisierte Dokumente manuell oder automatisiert herunterladen
Datenaufbereitung Schritt 1 Die gesammelten Texte werden in ein Textverarbeitungsprogramm kopiert und als txt-datei gespeichert. Empfehlenswert ist die Verwendung von Editor, Wordpad oder TextEdit Datenaufbereitung Schritt 2 Die txt-datei wird in eine xml-datei konvertiert.
Datenaufbereitung: xml Extensible Markup Language Metasprache: DTD, xml-schema definiert die vorkommenden Elemente und deren Hierarchie Wohlgeformtheit: Das Dokument hält alle XML-Regeln ein: ein Wurzelelement alle Elemente bestehen aus Beginn-Tag <Beispiel> und Ende- Tag </Beispiel> die Beginn- und Endtags sind ebenentreu-paarig verschachtelt Gültigkeit (Validität): Das Dokument entspricht den in der DTD/im Schema definierten Regeln
Beispiel: DTD Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Demonstration: Erstellung einer xml-datei im xmleditor Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Datenaufbereitung: xml Prinzipiell kann man sein eigenes XML-Format erfinden Grundsatz: so einfach, aber auch so generisch wie möglich! Oft besser: Orientierung an Standards (TEI, xces) Idee: Nachhaltige Speicherung der Daten, Weitergabe möglich Wichtig: Metadaten zum Korpus erfassen! Ziel: Überführung der Korpusdaten in ein einheitliches Format
Encoding Problem: Das ist ein blã des, übles Beispiel mit Ã! Korrekt: Das ist ein blödes, übles Beispiel mit Ä! Encoding: Dateiformat; Dateiformate sind: doc, rtf, html, xml, txt Codierung der Zeichen in Zahlencodes 1 Byte (8 Bit) pro Zeichen, 128 Zeichen oder: 2-4 Byte pro Zeichen (UTF-8)
Encoding ASCII: Zeichen:!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWX YZ[\]^_`abcdefghijklmnopqrstuvwxyz{ }~ für andere Sprachen: andere Zuordnungen UTF-8: eindeutige Zuordnungen der Codes zu Zeichen alle Zeichen abbildbar deshalb: UTF-8 als neuer Standard; wenn immer möglich verwenden! Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Encoding: Beispiel Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Datenaufbereitung: Encoding lässt sich im Texteditor festlegen html-seiten im Web geben normalerweise das Encoding im Code an
Überblick: Arbeitsschritte Daten beschaffen, abspeichern Daten konvertieren in txt-format, UTF-8-Encoding Daten ggf. mit Metadaten auszeichnen (XML) Daten ggf. linguistisch annotieren Daten in Korpusanalyse-Software importieren AntConc Corpus Workbench Wordsmith Tools
Übungssequenz: Wählen Sie eine Partei. Machen Sie deren Parteiprogramm(e) ausfindig. Speichern Sie den Text/die Texte als txt-datei. Konvertieren Sie die txt-datei in eine xml-datei mit Metadaten.
Metadaten <?xml version="1.0"?> <doc id=1> <header> <author></author> <header> </header> <body> </body> </doc> enthält Metadaten enthält Primärdaten <texttype></texttype> <date></date> <place></place> <url></url> <title></title> </header>
Datenaufbereitung: Verarbeitungsschritte Download von HTML-Dokumenten (z.b. mit DownThemAll! ) HTML-Dokumente in XML konvertieren. POS-Tagging der XML-Dokumente erzeugt sog. vrt-dateien. Schritt 1 Schritt 2 Ziel Schritt 3 (Import in die CWB)
Beispiel: vrt-datei <?xml version="1.0" encoding="utf-8"?> <text id="abend" title="abendlied" type="poem" author_fullname="j.w. v. Goethe" author="goethe" booktitle="" publisher="" year="" sender="hille@abc.de"> Über APPR über allen PIAT alle Gipfeln NN Gipfel Ist VAFIN sein Ruh NN Ruh, $,, In APPR in allen PIAT alle Wipfeln NN Wipfel [ ] </text>