Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Ähnliche Dokumente
Annotation des Wittgenstein-Korpus mit Wortart-Information

Tutorial: Automatische Textannotation mit WebLicht

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Tagging von Online-Blogs

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Einführung in die Computerlinguistik

Part-of-Speech- Tagging

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

Einführung in die Computerlinguistik

Erkennung von Teilsatzgrenzen

Part-of-Speech Tagging. Stephanie Schuldes

Nutzungshinweise zu den Lemmalisten für das Teilkorpus DEU_L1_EV. September 2015 David Stoppel, Franziska Wallner

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007

Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

NLP Eigenschaften von Text

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Das Zusammenspiel interpretativer und automatisierbarer Verfahren bei der Aufbereitung und Auswertung mündlicher Daten

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Programmierkurs Python II

Sprachsynthese: Part-of-Speech-Tagging

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

Linguistische Forschungsdaten

I. Erste Schritte in CATMA

Titel. Hamdiye Arslan Éva Mújdricza-Maydt

Algorithmen und Formale Sprachen

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Der Digitale Assistent

WS 2009/

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

How to: Verwendung des Partitur-Editors mit geschriebenen Daten

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Automatische Schlagwortvergabe aus der SWD für

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Inaugural-Dissertation. Philosophie

Aufgabe 3 (Wortmeldung erforderlich) Nennen Sie in hierarchischer Anordnung vom Großen zum Kleinen fünf grammatische Beschreibungsebenen der Sprache.

WebApps - Einführung (Daten)

Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE

MEDIENRESONANZANALYSE DO-IT-YOURSELF

Aufgaben aus Kegli 2 (Korpuslinguistik)

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Überlegungen zur Modifikation und Erweiterung von STTS für das Tagging von Korpora zur internetbasierten Kommunikation

Relation Extraction zur. deutschsprachiger Firmendossiers. Diplomarbeit. Martin Had

Kurze literarische Texte in literaturwissenschaftlicher und linguistischer Perspektive. Lyrik seit den 1990er Jahren

XML als Beschreibungssprache syntaktisch annotierter Korpora

DWDS: Hilfe Kurzübersicht

Kontextualisierung von Sprachressourcen und -technologie in der geisteswissenschaftlichen Forschung

Korpuslinguistik in der linguistischen Lehre Erfolge und Misserfolge

INFORMATIONSEXTRAKTION

Warum Named Entities für die Chunk-Analyse wichtig sind

Einführung in die Computerlinguistik

Wortartannotation für die digitalen Geisteswissenschaften

. Syntaktische und semantische Annotation frühneuhochdeutscher Hexenverhörprotokolle. Fabian Barteld


Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Einführung Syntaktische Funktionen

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Eigennamenerkennung mit großen lexikalischen Ressourcen. Jörg Didakowski BBAW

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Computerlinguistik und Sprachtechnologie

NLP - Analyse des Wissensrohstoffs Text

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Whitepaper Bio-Mode. Quelle:

Wortarten und Korpus

Modulhandbuch. Module des beantragten Master-Studiengangs Sprach- und Texttechnologie (Nebenfach) im Fachbereich II an der Universität Trier SWS:

Korpuslinguistik & das Web

Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC.

Vorlesung Maschinelles Lernen

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina

Inhaltsverzeichnis. Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis

Metadaten für multimodale Corpora

Metadaten I: XMP & Co

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister

Superstrukturen. präsentiert von Esther Müller

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Grammatik des Standarddeutschen III. Michael Schecker

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Klassifikation im Bereich Musik

Aus Alt mach Neu Einführung eines Redaktionssystems unter Berücksichtigung von Altdaten

Die Aufarbeitung und Analyse der Daten in Lernerkorpora

Modulhandbuch. für das Bachelor Nebenfach Computerlinguistik gültig ab Wintersemester (Version: )

Grammatik im engen Sinn: Grammatik = Syntax Von syntaxis = Zusammenordnung.


Kaufmännische Berufsmatura im Kanton Zürich

Inhalt.

Transkript:

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung

Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen

Annotationen Im sprachwissenschaftlichen Kontext sind mit Annotationen linguistische Annotationen gemeint ( Metadaten). Typisch für in der Korpuslinguistik verwendete Korpora ist, dass sie nur zusammenhängende und vollständige Texte aus natürlichen Produktionssituationen beinhalten; typisch für Korpora, die als linguistisch bezeichnet werden, dass sie die oben genannten linguistischen Annotationen enthalten. (Perkuhn/Keibel/Kupietz 2012: 46) Elemente unterhalb der Textebene werden mit linguistischen Informationen angereichert

Annotationen i.d.r. morphosyntaktische Annotierung (Wortarten, Lemmainformationen ) Tags Die Annotation macht implizite Informationen explizit und ermöglicht oder erleichtert die Suche nach abstrakten sprachlichen Phänomenen. Sie kann manuell, maschinell oder halbautomatisch erfolgen. (mittels POS-Tagger, z.b. TreeTagger)

Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

Beispiel Tokenisieren Eine norwegische Delegation will die Regierung und [ ] Opfer der Flutkatastrophe bewegen. Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

1. Tokenisieren a) Wortbestandteile festlegen (a-z, A-Z, 0-9, Umlaute) b) Worttrenner festlegen (Leerzeichen, Umbruch,?.,! usw.) c) Sonderfälle festlegen (z.b., usw. ) Problemfälle: U-Boot, mp3, deutsch-amerikanisch, CDU/CSU km/h, 4x100m-Staffel, R n B wird s Training oder manuelle Anpassung des Tokenisierers möglich Erstellung einer Bestandsliste des Korpus: Welche Token wie oft an welcher Position

Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

Beispiel Satzgrenzenerkennung <s> Eine norwegische Delegation will [ ] Opfer der Flutkatastrophe bewegen. </s>

2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.

Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

Beispiel Tagging zu APPR zu einer ART ein Kooperation NN Kooperation bei APPR bei der ART d Hilfe NN Hilfe für APPR für die ART d Opfer NN Opfer der ART d Flutkatastrophe NN Flutkatastrophe bewegen VVFIN bewegen. $.

3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Tagset = Liste der verwendeten Wortartenlabel Als Standard für deutschsprachige Korpora hat sich das Stuttgart- Tübingen Tagset (kurz: STTS) durchgesetzt. Das sogenannte kleine Tagset ohne explizite Tags für Flexionsmorphologie umfasst 54 Tags. (Lemnitzer/Zinsmeister 2010: 66) Jedes Token erhält genau einen Tag.

3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Getaggt werden: Wortart, syntaktische Position bzw. Distribution, grammatische Funktion, morphologische oder semantische Eigenschaften (Adj. wird attributiv/prädikativ verwendet, Präposition vs. Postposition, finites/nicht-finites Verb, Normales Nomen oder Eigenname) sowie bspw. Satzzeichen. Hierarchische Struktur von der allgemeineren Information zur spezifischeren Beispiel: PIS / PIAT Beispiel: VVFIN / VAFIN / VMFIN

3. Tagging Funktionsweise eines POS-Taggers: 1. Tokenisierung 2. Lexicon Look-Up Problem: Nicht alle Wörter stehen im Lexikon 3. Guesser Problem: Viele Wörter haben mehr als ein Label erhalten 4. Disambiguierung Beispiel einen : ART ein PIS ein VVFIN einen VVINF einen Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

3. Tagging Disambiguierung: Klassifiziert werden Tagger vor allem danach, wie sie bei der Disambiguierung also bei der Auswahl einer von mehreren möglichen Interpretationen eines Wortes vorgehen. (Perkuhn/Keibel/Kupietz 2012: 59) Symbolische Tagger verwenden Regeln Stochastische Tagger verwenden Wahrscheinlichkeiten Hybride/Transformationsbasierte Tagger Kombination von Regeln und Wahrscheinlichkeiten

3. Tagging Problematik: POS-Tagger machen Fehler. TreeTagger (D) annotiert ~ 95% korrekt (je nach Textsorte!) Das bedeutet: Bei 15-Wort-Sätzen ist die Wahrscheinlichkeit, dass ein Satz vollständig korrekt ist: 0,95 15 = 0,46 weniger als jeder zweite Satz ist komplett korrekt! Bei komplexeren Phänomenen (wo auch Menschen unterschiedlicher Meinung sind), ist die Fehlerrate deutlich höher

3. Tagging Fehlertypen: Wir suchen etwas, z.b. Adjektive Richtig-Positive Treffer: Tatsächlich Adjektive Richtig-Negative: Wörter, die wir zu Recht nicht gefunden haben, die also keine Adjektive sind. Falsche Treffer Falsch-Positive, Fehler 1. Art, α-fehler: Wörter, die keine Adjektive sind können wir (manuell) herausfiltern, relativ unproblematisch Falsch-Negative, Fehler 2. Art, β-fehler: Wörter, die Adjektive sind, die wir aber nicht gefunden haben Wie finden wir die?

3. Tagging Precision und Recall: Klassische Standardmaße des Information Retrieval Evaluation von Treffergenauigkeit und/oder Annotation (Vergabe von Tags) Precision: Anteil der zu Recht vergebenen unter den insgesamt vergebenen Tags t Recall: Anteil der zu Recht vergebenen unter den insgesamt zu vergebenden Tags t

3. Tagging Precision: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind Richtig- Positive, das Tag t wurde also immer zu Recht vergeben. Falsch-Positive (zu Unrecht gefunden) und Richtig-Positive Tags t werden betrachtet. Recall: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind richtigpositive Treffer und es gibt keine Falsch-Negativen. Falsch-Negative (zu Unrecht nicht gefunden) und richtig positive Tags t werden betrachtet.

Fazit [I]nterpretative Anreicherungen von Korpusdaten [sind] häufig sinnvoll oder sogar unverzichtbar, häufig aber auch falsch oder potenziell irreführend. Die einzige Möglichkeit damit umzugehen, ist deshalb meist, sie möglichst reflektiert zu verwenden. (Perkuhn/Keibel/Kupietz 2012: 62) Reflektiert und toolkritisch arbeiten!

Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)

5. Parsing Die Annotation auf Satzebene setzt eine Satzanalyse voraus, die nach dem englischen to parse syntaktisch analysieren Parsing genannt wird. (Scherer 2006: 58) Zentrale Analyseeinheit ist der Satz bzw. kleinere syntaktische Einheiten (z.b. die Phrase). Annotiert werden vor allem phrasale Kategorien und syntaktische Funktionen. Auf Satzebene annotierte Korpora werden Baumbanken genannt. Deutschsprachige Baumbanken sind das NEGRA-Korpus, das TIGER- Korpus und die Tübinger Baumbanken TüBa-D/Z, TüPP-D/Z, TüBa-D/S.

5. Parsing SB: Subjekt HD: Head (verbaler Kopf) OA: Akkusativobjekt NK: Nominales Element AC : adpositionale Kasusmarkierung MNR: postnominale Modifikation

5. Parsing Parser analysieren die Struktur von Sätzen und fügen Informationen auf Satzebene in den Text ein. [ ] Die Voraussetzung für das Parsen eines Korpus ist, dass die Texte bereits getaggt sind. [ ] Die Annotation eines elektronischen Korpus wird heutzutage häufig maschinell vorgenommen, allerdings mit unterschiedlichem Erfolg. Während die meisten Tagger bis zu 98% aller Textwörter korrekt annotieren, liegt die Erfolgsrate von Parsern mit bis zu 80% deutlich niedriger. Aus diesem Grund werden viele Korpora nicht maschinell, sondern [ ] computergestützt geparst. Der hohe Aufwand bei der Annotation auf Satzebene ist auch der Grund dafür, warum die Zahl und der Umfang der geparsten Korpora insgesamt relativ gering ist. (Scherer 2006: 72f.)

Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen

Metadaten Metadaten beschreiben die Primärdaten eines Korpus, es sind also im Grunde Daten über Daten. Sie sollten so umfassend wie möglich sein. Typische Elemente sind beispielsweise: Autor, Datum der Veröffentlichung, Titel, Genre bzw. Textsorte, Quelle Sie beziehen sich auf Texte/Textsammlungen Textebene oder auch auf Korpora Korpusebene (= Dokumentation Metadaten?)

Metadaten Wozu? Dokumentation/Überblick: Textentstehung und Korpuszusammenstellung ist nachvollziehbar Wiederverwendbarkeit und Überprüfbarkeit Distributionelle Suche wird ermöglicht Möglichkeit, Teil- bzw. Subkorpora zu bilden: Teile der Daten werden nach bestimmten Kriterien ausgewählt

Metadaten Übungssequenz

Metadaten Freq per M 200,00 Freiheit Mittelwerte (Jahrzehnte) 175,00 150,00 125,00 100,00 75,00 50,00 25,00 0,00 1947 1950 1953 1956 1958 1960 1963 1966 1968 1970 1973 1976 1978 1980 1983 1986 1988 1990 1993 1996 1998 2000 2003 2006 2008 2010

Metadaten Standards für Metadaten: TEI (Text Encoding Initiative) international und interdisziplinär für (korpus)linguistische Belange geeignet relevant sind v.a. die Kapitel TEI Header und Language Corpora http://www.tei-c.org/release/doc/tei-p5-doc/de/html/index.html CES (Corpus Encoding Standard) bzw. XCES (xml Schema für CES) entwickelt für Korpora in sprachtechnologischen Projekten für (korpus)linguistische Belange geeignet angelehnt an TEI Konventionen http://www.xces.org/

Metadaten <?xml version="1.0"?> <doc> <header> </header> <body> </body> </doc> enthält Metadaten enthält Primärdaten

Metadaten <header> <author></author> <texttype></texttype> <date></date> <place></place> <url></url> <title></title> </header>

Metadaten Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.

Metadaten Übungssequenz: Wählen Sie eine Partei. Machen Sie deren Parteiprogramm(e) ausfindig. Speichern Sie den Text/die Texte als txt-datei. Konvertieren Sie die txt-datei in eine xml-datei mit Metadaten.

Exkurs: Das Web als Korpus? Die Beantwortung der Frage Ist das WWW ein Korpus? ist abhängig von der Definition von Korpus. Für die Verwendung des Web als Korpus spricht: o Qualitative Abfragen möglich o Authentische Sprachdaten o Große Datenmenge verfügbar Gegen die Verwendung des Web als Korpus spricht: Keine quantitativen Abfragen möglich Blackbox (Umfang? Zusammensetzung? Qualität?) Kaum/keine Metadaten Stark eingeschränkte Abfragemöglichkeiten

Exkurs: Das Web als Korpus? Dennoch ist es möglich, das Web mit seinen Vorteilen (immense und umfassende Datenmenge, authentische und mehrsprachige Daten) zu nutzen: Zusammenstellung eines Korpus aus Webtexten Beschreibung und Bereinigung der Daten erforderlich Systematische Internetsuche mithilfe von Konkordanzprogrammen (z.b. WebConc, WebCorp, DeWaC) Urheberrecht beachten Literatur zum Thema: siehe Lemnitzer/Zinsmeister 2010: 44