Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung
Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen
Annotationen Im sprachwissenschaftlichen Kontext sind mit Annotationen linguistische Annotationen gemeint ( Metadaten). Typisch für in der Korpuslinguistik verwendete Korpora ist, dass sie nur zusammenhängende und vollständige Texte aus natürlichen Produktionssituationen beinhalten; typisch für Korpora, die als linguistisch bezeichnet werden, dass sie die oben genannten linguistischen Annotationen enthalten. (Perkuhn/Keibel/Kupietz 2012: 46) Elemente unterhalb der Textebene werden mit linguistischen Informationen angereichert
Annotationen i.d.r. morphosyntaktische Annotierung (Wortarten, Lemmainformationen ) Tags Die Annotation macht implizite Informationen explizit und ermöglicht oder erleichtert die Suche nach abstrakten sprachlichen Phänomenen. Sie kann manuell, maschinell oder halbautomatisch erfolgen. (mittels POS-Tagger, z.b. TreeTagger)
Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)
Beispiel Tokenisieren Eine norwegische Delegation will die Regierung und [ ] Opfer der Flutkatastrophe bewegen. Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
1. Tokenisieren a) Wortbestandteile festlegen (a-z, A-Z, 0-9, Umlaute) b) Worttrenner festlegen (Leerzeichen, Umbruch,?.,! usw.) c) Sonderfälle festlegen (z.b., usw. ) Problemfälle: U-Boot, mp3, deutsch-amerikanisch, CDU/CSU km/h, 4x100m-Staffel, R n B wird s Training oder manuelle Anpassung des Tokenisierers möglich Erstellung einer Bestandsliste des Korpus: Welche Token wie oft an welcher Position
Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)
Beispiel Satzgrenzenerkennung <s> Eine norwegische Delegation will [ ] Opfer der Flutkatastrophe bewegen. </s>
2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.
2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.
2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.
2. Satzgrenzenerkennung Für die automatische Erkennung von Satzgrenzen stellt die Disambiguierung des Punktzeichens [ ] eine Herausforderung dar, die über Regeln und Statistiken gelöst werden muss. (Lemnitzer/Zinsmeister 2010: 64) Beispiele: Prof. Dr. Marga Reis eröffnete die Konferenz am 2. Februar mit einem Grußwort. Es begann 2002.
Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)
Beispiel Tagging zu APPR zu einer ART ein Kooperation NN Kooperation bei APPR bei der ART d Hilfe NN Hilfe für APPR für die ART d Opfer NN Opfer der ART d Flutkatastrophe NN Flutkatastrophe bewegen VVFIN bewegen. $.
3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Tagset = Liste der verwendeten Wortartenlabel Als Standard für deutschsprachige Korpora hat sich das Stuttgart- Tübingen Tagset (kurz: STTS) durchgesetzt. Das sogenannte kleine Tagset ohne explizite Tags für Flexionsmorphologie umfasst 54 Tags. (Lemnitzer/Zinsmeister 2010: 66) Jedes Token erhält genau einen Tag.
3. Tagging Exkurs: Das Stuttgart-Tübingen Tagset Getaggt werden: Wortart, syntaktische Position bzw. Distribution, grammatische Funktion, morphologische oder semantische Eigenschaften (Adj. wird attributiv/prädikativ verwendet, Präposition vs. Postposition, finites/nicht-finites Verb, Normales Nomen oder Eigenname) sowie bspw. Satzzeichen. Hierarchische Struktur von der allgemeineren Information zur spezifischeren Beispiel: PIS / PIAT Beispiel: VVFIN / VAFIN / VMFIN
3. Tagging Funktionsweise eines POS-Taggers: 1. Tokenisierung 2. Lexicon Look-Up Problem: Nicht alle Wörter stehen im Lexikon 3. Guesser Problem: Viele Wörter haben mehr als ein Label erhalten 4. Disambiguierung Beispiel einen : ART ein PIS ein VVFIN einen VVINF einen Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
3. Tagging Disambiguierung: Klassifiziert werden Tagger vor allem danach, wie sie bei der Disambiguierung also bei der Auswahl einer von mehreren möglichen Interpretationen eines Wortes vorgehen. (Perkuhn/Keibel/Kupietz 2012: 59) Symbolische Tagger verwenden Regeln Stochastische Tagger verwenden Wahrscheinlichkeiten Hybride/Transformationsbasierte Tagger Kombination von Regeln und Wahrscheinlichkeiten
3. Tagging Problematik: POS-Tagger machen Fehler. TreeTagger (D) annotiert ~ 95% korrekt (je nach Textsorte!) Das bedeutet: Bei 15-Wort-Sätzen ist die Wahrscheinlichkeit, dass ein Satz vollständig korrekt ist: 0,95 15 = 0,46 weniger als jeder zweite Satz ist komplett korrekt! Bei komplexeren Phänomenen (wo auch Menschen unterschiedlicher Meinung sind), ist die Fehlerrate deutlich höher
3. Tagging Fehlertypen: Wir suchen etwas, z.b. Adjektive Richtig-Positive Treffer: Tatsächlich Adjektive Richtig-Negative: Wörter, die wir zu Recht nicht gefunden haben, die also keine Adjektive sind. Falsche Treffer Falsch-Positive, Fehler 1. Art, α-fehler: Wörter, die keine Adjektive sind können wir (manuell) herausfiltern, relativ unproblematisch Falsch-Negative, Fehler 2. Art, β-fehler: Wörter, die Adjektive sind, die wir aber nicht gefunden haben Wie finden wir die?
3. Tagging Precision und Recall: Klassische Standardmaße des Information Retrieval Evaluation von Treffergenauigkeit und/oder Annotation (Vergabe von Tags) Precision: Anteil der zu Recht vergebenen unter den insgesamt vergebenen Tags t Recall: Anteil der zu Recht vergebenen unter den insgesamt zu vergebenden Tags t
3. Tagging Precision: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind Richtig- Positive, das Tag t wurde also immer zu Recht vergeben. Falsch-Positive (zu Unrecht gefunden) und Richtig-Positive Tags t werden betrachtet. Recall: Ein Wert von 100% bedeutet: Alle zugeordneten Tags t sind richtigpositive Treffer und es gibt keine Falsch-Negativen. Falsch-Negative (zu Unrecht nicht gefunden) und richtig positive Tags t werden betrachtet.
Fazit [I]nterpretative Anreicherungen von Korpusdaten [sind] häufig sinnvoll oder sogar unverzichtbar, häufig aber auch falsch oder potenziell irreführend. Die einzige Möglichkeit damit umzugehen, ist deshalb meist, sie möglichst reflektiert zu verwenden. (Perkuhn/Keibel/Kupietz 2012: 62) Reflektiert und toolkritisch arbeiten!
Schritte einer Annotierung 1. Tokenisieren/Tokenizing: Finden der Wortgrenzen 2. Satzgrenzenerkennung 3. Tagging (i.d.r. Part-of-Speech -Tagging) 4. (evtl. Parsing)
5. Parsing Die Annotation auf Satzebene setzt eine Satzanalyse voraus, die nach dem englischen to parse syntaktisch analysieren Parsing genannt wird. (Scherer 2006: 58) Zentrale Analyseeinheit ist der Satz bzw. kleinere syntaktische Einheiten (z.b. die Phrase). Annotiert werden vor allem phrasale Kategorien und syntaktische Funktionen. Auf Satzebene annotierte Korpora werden Baumbanken genannt. Deutschsprachige Baumbanken sind das NEGRA-Korpus, das TIGER- Korpus und die Tübinger Baumbanken TüBa-D/Z, TüPP-D/Z, TüBa-D/S.
5. Parsing SB: Subjekt HD: Head (verbaler Kopf) OA: Akkusativobjekt NK: Nominales Element AC : adpositionale Kasusmarkierung MNR: postnominale Modifikation
5. Parsing Parser analysieren die Struktur von Sätzen und fügen Informationen auf Satzebene in den Text ein. [ ] Die Voraussetzung für das Parsen eines Korpus ist, dass die Texte bereits getaggt sind. [ ] Die Annotation eines elektronischen Korpus wird heutzutage häufig maschinell vorgenommen, allerdings mit unterschiedlichem Erfolg. Während die meisten Tagger bis zu 98% aller Textwörter korrekt annotieren, liegt die Erfolgsrate von Parsern mit bis zu 80% deutlich niedriger. Aus diesem Grund werden viele Korpora nicht maschinell, sondern [ ] computergestützt geparst. Der hohe Aufwand bei der Annotation auf Satzebene ist auch der Grund dafür, warum die Zahl und der Umfang der geparsten Korpora insgesamt relativ gering ist. (Scherer 2006: 72f.)
Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen
Metadaten Metadaten beschreiben die Primärdaten eines Korpus, es sind also im Grunde Daten über Daten. Sie sollten so umfassend wie möglich sein. Typische Elemente sind beispielsweise: Autor, Datum der Veröffentlichung, Titel, Genre bzw. Textsorte, Quelle Sie beziehen sich auf Texte/Textsammlungen Textebene oder auch auf Korpora Korpusebene (= Dokumentation Metadaten?)
Metadaten Wozu? Dokumentation/Überblick: Textentstehung und Korpuszusammenstellung ist nachvollziehbar Wiederverwendbarkeit und Überprüfbarkeit Distributionelle Suche wird ermöglicht Möglichkeit, Teil- bzw. Subkorpora zu bilden: Teile der Daten werden nach bestimmten Kriterien ausgewählt
Metadaten Übungssequenz
Metadaten Freq per M 200,00 Freiheit Mittelwerte (Jahrzehnte) 175,00 150,00 125,00 100,00 75,00 50,00 25,00 0,00 1947 1950 1953 1956 1958 1960 1963 1966 1968 1970 1973 1976 1978 1980 1983 1986 1988 1990 1993 1996 1998 2000 2003 2006 2008 2010
Metadaten Standards für Metadaten: TEI (Text Encoding Initiative) international und interdisziplinär für (korpus)linguistische Belange geeignet relevant sind v.a. die Kapitel TEI Header und Language Corpora http://www.tei-c.org/release/doc/tei-p5-doc/de/html/index.html CES (Corpus Encoding Standard) bzw. XCES (xml Schema für CES) entwickelt für Korpora in sprachtechnologischen Projekten für (korpus)linguistische Belange geeignet angelehnt an TEI Konventionen http://www.xces.org/
Metadaten <?xml version="1.0"?> <doc> <header> </header> <body> </body> </doc> enthält Metadaten enthält Primärdaten
Metadaten <header> <author></author> <texttype></texttype> <date></date> <place></place> <url></url> <title></title> </header>
Metadaten Blockseminar Einführung in die Korpuslinguistik TU Dresden, Juni 2015 Seminarleitung: Yvonne Krämer, M.A.
Metadaten Übungssequenz: Wählen Sie eine Partei. Machen Sie deren Parteiprogramm(e) ausfindig. Speichern Sie den Text/die Texte als txt-datei. Konvertieren Sie die txt-datei in eine xml-datei mit Metadaten.
Exkurs: Das Web als Korpus? Die Beantwortung der Frage Ist das WWW ein Korpus? ist abhängig von der Definition von Korpus. Für die Verwendung des Web als Korpus spricht: o Qualitative Abfragen möglich o Authentische Sprachdaten o Große Datenmenge verfügbar Gegen die Verwendung des Web als Korpus spricht: Keine quantitativen Abfragen möglich Blackbox (Umfang? Zusammensetzung? Qualität?) Kaum/keine Metadaten Stark eingeschränkte Abfragemöglichkeiten
Exkurs: Das Web als Korpus? Dennoch ist es möglich, das Web mit seinen Vorteilen (immense und umfassende Datenmenge, authentische und mehrsprachige Daten) zu nutzen: Zusammenstellung eines Korpus aus Webtexten Beschreibung und Bereinigung der Daten erforderlich Systematische Internetsuche mithilfe von Konkordanzprogrammen (z.b. WebConc, WebCorp, DeWaC) Urheberrecht beachten Literatur zum Thema: siehe Lemnitzer/Zinsmeister 2010: 44