Ich baue ein eigenes Korpus

Ähnliche Dokumente
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Anleitung für PlugIn DownThemAll

Textauszeichnung mit XML

Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten

Es gibt situationsabhängig verschiedene Varianten zum Speichern der Dokumente. Word bietet im Menü DATEI unterschiedliche Optionen an.

XML/TEI eine Einführung

XML steht für Extensible Markup Language. Helmut Vonhoegen (2007) beschreibt XML unter anderem so:

Die Corpus Workbench und ihre Syntax. Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A.

Musterlösung Übungsblatt 14

Agenda GRUNDKURS INFORMATIK 8 BESCHREIBUNG VON DATEN XML. Von SGML zu XML. Grundbegriffe XML Dokument. XML Beispiel

LAUDATIO-Repository für Anwender. Carolin Odebrecht Humboldt-Universität zu Berlin LAUDATIO-repository.org

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik

XML 1. Einführung, oxygen. Ulrike Henny. IDE Summer School 2013, Chemnitz

... MathML XHTML RDF

Kurzanleitung. Zeiterfassung. Version Datum 01/2017 Log. Adatis GmbH & Co. KG Seite 1 von 7

X-Technologien. Ein Überblick. Ulrike Henny. IDE Summer School 2013, Chemnitz

Tobias Hauser. XML-Standards. schnell+kompakt

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

2. XML 2.1 XML 1.0 und XML Schema. Jörg Schwenk Lehrstuhl für Netz- und Datensicherheit

Import von Daten aus Word nach KlasseDozent

censhare Training Falstaff Verlag Januar 2015 For customers or partners with NDA

Dr. Thomas Meinike Hochschule Merseburg

1 Was ist XML? Hallo XML! Kommentare in XML 52

Bausteine einer VRE für die Linguistik - Beispiel:

How to: Importieren einer Texttranskription

Übersicht über 1. Vorlesungsabschnitt Form und Darstellung von Informationen

Inhaltsverzeichnis. Teil 1 - XM L Einleitung Motivation...15

Sonstige Daten importieren.

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder

Dokumentautomation mit XML am Beispiel einer Banddiskografie

Tutorial: Verwendung von Visual Studio 2005 als XML-Werkzeug

HTML5. Wie funktioniert HTML5? Tags: Attribute:

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

WISO steuer:mac 2012 Konvertierung von Projektdateien von WISO Steuer-Sparbuch 2012 zu WISO steuer:mac 2012 und umgekehrt. V 1.0 /

Kurzeinführung in Citavi 5

Strukturierung von Inhalten

Erstellen von Web-Seiten HTML und mehr...

Erstellen von PDF-Dokumenten für Business-Anwendungen mit XSL-FO


Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Danksagung...6. Einleitung 7

Ablaufbeschreibung für den Export von Daten über eine eigene Suche

1. Briefing zur Übung IT-Systeme

XML. Eine Einführung. XML (C) J.M.Joller 1

Metadatenqualität und - interoperabilität

Semistrukturierte Daten

Starten sie WordPad über das Startmenü von Windows. WordPad finden Sie im Ordner Zubehör.

Softwareentwicklung mit Komponenten

Citavi. Einführung in Ihr persönliches Literaturverwaltungsprogramm. Dezernat Digitale Bibliothek

Contentmanagement. Dipl.- Inf. Benjamin Bock Topic Maps Lab, Universität Leipzig leipzig.de. Schlüsselqualifika6on 10

Kurze Einführung in XML

Dokumentation Down- und Upload Programm von ABAP und DDIC Elementen

U M S T I E G MICROSOFT OFFICE WORD 2003 WORD auf. Einführungsschulung - So finden Sie Sich im neuen Layout zurecht. ZID/D. Serb/ Jän.

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester Fachbereich MNI Technische Hochschule Mittelhessen

Ressourcen-Beschreibung im Semantic Web

Document Engineering. Zeichen- und Fontmanagement Realisierung in Dateiformaten. Daniel Weber. Document Engineering p. 1

XML IDML. InDesign Roboter. Satz. Automatisierung. Workflows. Templates XSLT. XML-Rules. 16. September 2011 Swiss Publishing Week

Kennen, können, beherrschen lernen was gebraucht wird

Verordnung über den elektronischen Rechtsverkehr in Mecklenburg-Vorpommern (ERVVO M-V) * Vom 5. Januar 2007

TEI und XSLT. Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011

Daten- und Metadatenstandards Wintersemester 2011 / November 2011 XML II: DTD

Beschreibung UTF-8 Codierung

Containerformat Spezifikation

Python 3.6. Erste Schritte auf dem Mac. Syshack. 22. Juni 2017 Version 2.0. Python Erste Schritte auf dem Mac Syshack, 22.

Internet und Webseiten-Gestaltung

XML in der Praxis: Technische Dokumentation

Reguläre Ausdrücke. Reguläre Ausdrücke = Regular Expressions = reg.exp./regexp/regexp = RE

Workshop Was nicht passt, wird passend gemacht? tekom, Frühjahrstagung 2014 Augsburg, icms GmbH

Abschlussprüfung. für die Berufsausbildung in der Geoinformationstechnologie im Ausbildungsberuf Geomatiker/in. PB3 Geoinformationstechnik

Einführung in XML. Von Klammern, Schachteln und gefüllten Keksen. Hier im Folienmaster Präsentationstitel eintragen

Textkodierung mit XML

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis

Wie können Anwendereinstellungen in eine neue Autodesk Advance Steel Version übernommen werden?

Metadaten für multimodale Corpora

Verordnung für den elektronischen Rechtsverkehr mit Gerichten und Staatsanwaltschaften im Saarland

XML Extensible Markup Language

Webdesign mit HTML und CSS Einführungsabend

Benutzerhandbuch. Gästebuch Software - YellaBook v1.0 Stand: by YellaBook.de - Alle Rechte vorbehalten.

XML und SOAP Einführung und Grundlagen

Technische Dokumentation mit DocBook eine Einführung

Das Grundlagenbuch zu FileMaker Pro 7- Datenbanken erfolgreich anlegen und verwalten

Archivierung von digitalen Daten Lösungsansätze mit SIARD und OAIS

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

Importdatei Grobkoordinaten mit Excel erstellen und bearbeiten

Mein Freund der Content Server, mehr als nur eine Dateiablage!

2. Word-Dokumente verwalten

Transkript:

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung

Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte Datengrundlage. Die Datengrundlage (=benötigte Texte) sollte anhand objektiver Kriterien zusammengestellt werden. Aus der (theoretischen) Grundgesamtheit muss eine Auswahl getroffen werden, die eine geeignete Stichprobe darstellt.

Datengewinnung Daten liegen in unterschiedlichen Formaten vor: unstrukturierte Daten: Bücher, Zeitungstexte, Grafiken, gesprochene Sprache (aufgezeichnet) etc. semistrukturierte Daten: Daten in XML- oder HTML-Struktur strukturierte Daten: Daten in Datenbanken Entsprechend unterscheiden sich die Arten der Datengewinnung und aufbereitung.

Unstrukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Semistrukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Strukturierte Daten: Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Datengewinnung Möglichkeit 1: gedruckte Texte abtippen oder einscannen Möglichkeit 2: digitalisierte Texte aus einer Quelle herauskopieren Möglichkeit 3: digitalisierte Dokumente manuell oder automatisiert herunterladen

Datenaufbereitung Schritt 1 Die gesammelten Texte werden in ein Textverarbeitungsprogramm kopiert und als txt-datei gespeichert. Empfehlenswert ist die Verwendung von Editor, Wordpad oder TextEdit Datenaufbereitung Schritt 2 Die txt-datei wird in eine xml-datei konvertiert.

Datenaufbereitung: xml Extensible Markup Language Metasprache: DTD, xml-schema definiert die vorkommenden Elemente und deren Hierarchie Wohlgeformtheit: Das Dokument hält alle XML-Regeln ein: ein Wurzelelement alle Elemente bestehen aus Beginn-Tag <Beispiel> und Ende- Tag </Beispiel> die Beginn- und Endtags sind ebenentreu-paarig verschachtelt Gültigkeit (Validität): Das Dokument entspricht den in der DTD/im Schema definierten Regeln

Beispiel: DTD Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Demonstration: Erstellung einer xml-datei im xmleditor Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Datenaufbereitung: xml Prinzipiell kann man sein eigenes XML-Format erfinden Grundsatz: so einfach, aber auch so generisch wie möglich! Oft besser: Orientierung an Standards (TEI, xces) Idee: Nachhaltige Speicherung der Daten, Weitergabe möglich Wichtig: Metadaten zum Korpus erfassen! Ziel: Überführung der Korpusdaten in ein einheitliches Format

Encoding Problem: Das ist ein blã des, übles Beispiel mit Ã! Korrekt: Das ist ein blödes, übles Beispiel mit Ä! Encoding: Dateiformat; Dateiformate sind: doc, rtf, html, xml, txt Codierung der Zeichen in Zahlencodes 1 Byte (8 Bit) pro Zeichen, 128 Zeichen oder: 2-4 Byte pro Zeichen (UTF-8)

Encoding ASCII: Zeichen:!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWX YZ[\]^_`abcdefghijklmnopqrstuvwxyz{ }~ für andere Sprachen: andere Zuordnungen UTF-8: eindeutige Zuordnungen der Codes zu Zeichen alle Zeichen abbildbar deshalb: UTF-8 als neuer Standard; wenn immer möglich verwenden! Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Encoding: Beispiel Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Datenaufbereitung: Encoding lässt sich im Texteditor festlegen html-seiten im Web geben normalerweise das Encoding im Code an

Überblick: Arbeitsschritte Daten beschaffen, abspeichern Daten konvertieren in txt-format, UTF-8-Encoding Daten ggf. mit Metadaten auszeichnen (XML) Daten ggf. linguistisch annotieren Daten in Korpusanalyse-Software importieren AntConc Corpus Workbench Wordsmith Tools

Übungssequenz: Wählen Sie eine Partei. Machen Sie deren Parteiprogramm(e) ausfindig. Speichern Sie den Text/die Texte als txt-datei. Konvertieren Sie die txt-datei in eine xml-datei mit Metadaten.

Metadaten <?xml version="1.0"?> <doc id=1> <header> <author></author> <header> </header> <body> </body> </doc> enthält Metadaten enthält Primärdaten <texttype></texttype> <date></date> <place></place> <url></url> <title></title> </header>

Datenaufbereitung: Verarbeitungsschritte Download von HTML-Dokumenten (z.b. mit DownThemAll! ) HTML-Dokumente in XML konvertieren. POS-Tagging der XML-Dokumente erzeugt sog. vrt-dateien. Schritt 1 Schritt 2 Ziel Schritt 3 (Import in die CWB)

Beispiel: vrt-datei <?xml version="1.0" encoding="utf-8"?> <text id="abend" title="abendlied" type="poem" author_fullname="j.w. v. Goethe" author="goethe" booktitle="" publisher="" year="" sender="hille@abc.de"> Über APPR über allen PIAT alle Gipfeln NN Gipfel Ist VAFIN sein Ruh NN Ruh, $,, In APPR in allen PIAT alle Wipfeln NN Wipfel [ ] </text>