Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09

Ähnliche Dokumente
Part-Of-Speech-Tagging mit Viterbi Algorithmus

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Algorithmische Bioinformatik

Künstliche Intelligenz

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

"What's in the news? - or: why Angela Merkel is not significant

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

1 Part-of-Speech Tagging

Tagging von Online-Blogs

Algorithms for graph visualization

Listening Comprehension: Talking about language learning

Informationsextraktion

Context-adaptation based on Ontologies and Spreading Activation

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

Mitglied der Leibniz-Gemeinschaft

1. General information Login Home Current applications... 3

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Einführung in die Linguistik, Teil 4

SELF-STUDY DIARY (or Lerntagebuch) GER102

Beschreibung. Process Description: Sartorius Bestellnummer / Order No.:

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Verzeichnisdienste in heterogenen Systemen

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

Part-of-Speech- Tagging

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Statistische Verfahren:

Shock pulse measurement principle

WAS IST DER KOMPARATIV: = The comparative

Einführung in die Computerlinguistik Statistische Grundlagen

Customer-specific software for autonomous driving and driver assistance (ADAS)

eurex rundschreiben 094/10

Praktikum Entwicklung von Mediensystemen mit ios

Programmentwicklung ohne BlueJ

Nachdem Sie die Datei (z.b. t330usbflashupdate.exe) heruntergeladen haben, führen Sie bitte einen Doppelklick mit der linken Maustaste darauf aus:

Automatisches Lernen von Regeln zur quellseitigen Umordnung

Geometrie und Bedeutung: Kap 5

Jan 2014 Rev C

MATLAB driver for Spectrum boards

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Softwareschnittstellen

Extended Ordered Paired Comparison Models An Application to the Data from Bundesliga Season 2013/14

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

ReadMe zur Installation der BRICKware for Windows, Version ReadMe on Installing BRICKware for Windows, Version 6.1.2

Der Viterbi-Algorithmus.

Assessment of disgn-flows in water management, Classical methods, nonstationary and multidimensional extensions of Extreme Value Modeling (EVM)

Textmining Information Extraction (probabilistisch)

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

ISO Reference Model

Presentation of a diagnostic tool for hybrid and module testing

Software development with continuous integration

Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt

Linguistic Annotation of Computer-Mediated Communication (not only) an Explorative Analysis

Challenges for the future between extern and intern evaluation

Getting started with MillPlus IT V530 Winshape


Software Engineering verteilter Systeme. Hauptseminar im WS 2011 / 2012

Seminar: Software Engineering verteilter Systeme

RailMaster New Version 7.00.p26.01 /

Darstellung und Anwendung der Assessmentergebnisse

Infrastructure as a Service (IaaS) Solutions for Online Game Service Provision

Asynchronous Generators

Prediction Market, 28th July 2012 Information and Instructions. Prognosemärkte Lehrstuhl für Betriebswirtschaftslehre insbes.

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Power-Efficient Server Utilization in Compute Clouds

Algorithms & Datastructures Midterm Test 1

Frequently asked Questions for Kaercher Citrix (apps.kaercher.com)

Invitation - Benutzerhandbuch. User Manual. User Manual. I. Deutsch Produktübersicht Beschreibung... 2

Seminar: Software Engineering verteilter Systeme

Überblick. Diagnose: warum? wie? Theoretischer Rahmen: Processability Theory Erwerbsbasierte Diagnose: Rapid Profile

SanStore: Kurzanleitung / SanStore: Quick reference guide

Themen für Seminararbeiten WS 15/16

IFRIC Draft Interpretation D3 Determing whether an Arrangement contains a Lease

Preisliste für The Unscrambler X

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Restschmutzanalyse Residual Dirt Analysis

Release Notes BRICKware Copyright 23. March 2010 Funkwerk Enterprise Communications GmbH Version 1.0

Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg

German Geography Cookie Unit Haley Crittenden Gordon German Teacher Lee High School & Key Middle School (adapted from Angelika Becker)

HIR Method & Tools for Fit Gap analysis

Titelbild1 ANSYS. Customer Portal LogIn

Labour law and Consumer protection principles usage in non-state pension system

Walter GPS Global Productivity System

Making quality visible. National Quality Certificate for Old Age and Nursing Homes in Austria (NQC)

MOVILISE-Beruflich Englisch Sprachkurs mit innovative Techniken für Schiedsrichter - Trainer - Sportler

TVHD800x0. Port-Weiterleitung. Version 1.1

Kontakte gesucht Kooperationspartner gefunden!

Franke & Bornberg award AachenMünchener private annuity insurance schemes top grades

How-To-Do. Hardware Configuration of the CC03 via SIMATIC Manager from Siemens

UNIGRAZONLINE. With UNIGRAZonline you can organise your studies at Graz University. Please go to the following link:

Sustainability Balanced Scorecard as a Framework for Eco-Efficiency Analysis

Wenn Russland kein Gas mehr liefert

Klausur Verteilte Systeme

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

DOWNLOAD. Englisch in Bewegung. Spiele für den Englischunterricht. Britta Buschmann. Downloadauszug aus dem Originaltitel:

There are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25

ONLINE LICENCE GENERATOR

ColdFusion 8 PDF-Integration

Transkript:

Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09

Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl von Wörtern einer Sprache unendlich Anzahl von Wortarten in einer Sprache endlich Klassisch: 8 Wortarten Wortartenklassifikation in der Computerlinguistik: 50-200, je nach Sprache und Anwendungskontext 19. 11. 2008 1

Motivation Large number of rare events: LNRE- Verteilung von Wörtern in Korpora 19. 11. 2008 2

Motivation Token Wortvorkommnisse im Korpus Anzahl aller Token = Korpusgröße Typen Unterschiedliche Tokentypen unterschiedliche Abstraktionen Groß-/Kleinschreibung Lemmatisierung Anzahl aller Typen = Vokabulargröße offene Wortklassen viele Typen geschlossene Wortklassen wenig Typen aber normalerweise hohe Tkenanzahl 19. 11. 2008 3

Motivation Suche auf ungetaggtem versus getaggtem Korpus CQP-Online-Demo http://www.ims.unistuttgart.de/projekte/cqpdemos/cqpdemo.html Gehen Sie auf "CQP Mode" Suchen Sie nach [word=kernkraft] Wechseln Sie auf " CQPMode" [pos="nn"][pos="appr"] ([])? [word="kernkraft"] 19. 11. 2008 4

Motivation Vorverarbeitungsschritt für viele Anwendungen Ambiguität saw => N saw => V 19. 11. 2008 5

Motivation PoS-Tags versus Wörter: höherer Abstraktionsgrad Suche Frequenzzählungen Wie hoch ist die Wahrscheinlichkeit, dass auf "einem" "unvergessenen" "Rückenschwimmer" "qualmen" folgt? Wie hoch ist die Wahrscheinlichkeit, dass auf einen Artikel ein Adjektiv Nomen Verb folgt? 19. 11. 2008 6

Motivation PoS-Tags erlauben Rückschlüsse auf syntaktische Eigenschaften einer Wortfolge PWAV VVAFIN PPER VVPP ART NN VVFIN NN KON NN PPER VVFIN VVIZU 19. 11. 2008 7

Motivation Anwendungen Textindizierung für Information Retrieval Nomen und Adjektive sind informativer als als Adverbien, Verben oder Präpositionen Sprachgenerierung unterschiedliche Betonung bei Homographen verschiedener Wortarten contact, that,.. 19. 11. 2008 8

Architektur eines PoS-Tagger roher Text Vorverarbeitung tokenisierter Text Lexicon Look-Up ambige Analyse Guesser (Lücken) ambige Analyse Disambiguierung (aller Token) vollständig und eindeutig getaggter Text 19. 11. 2008 9

Architektur eines PoS-Tagger roher Text Vorverarbeitung tokenisierter Text Lexicon Look-Up ambige Analyse Guesser (Lücken) ambige Analyse Disambiguierung (aller Token) vollständig und eindeutig getaggter Text 19. 11. 2008 10

Architektur eines PoS-Tagger roher Text Vorverarbeitung tokenisierter Text Lexicon Look-Up ambige Analyse Guesser (Lücken) ambige Analyse Disambiguierung (aller Token) vollständig und eindeutig getaggter Text 19. 11. 2008 11

Architektur eines PoS-Tagger roher Text Vorverarbeitung tokenisierter Text Lexicon Look-Up ambige Analyse Guesser (Lücken) ambige Analyse Disambiguierung (aller Token) vollständig und eindeutig getaggter Text 19. 11. 2008 12

Architektur eines PoS-Tagger roher Text Vorverarbeitung tokenisierter Text Lexicon Look-Up ambige Analyse Guesser (Lücken) ambige Analyse Disambiguierung (aller Token) vollständig und eindeutig getaggter Text 19. 11. 2008 13

Herausforderungen unbekannte Wörter Fremdwörter Ambiguitäten seltene Konstruktionen ungrammatischer Input (Tokenisierung) 19. 11. 2008 14

Evaluierung Geschwindigkeit Speicherbedarf Informationsgehalt (informativeness) des Tagsets Größe des Tagsets Ambiguitätsrate im Lexikon Spezifizierbarkeit (specifiability) des Tagsets interjudge agreement Akkuratheit der Tagzuweisung (accuracy) Vergleich mit "Goldstandard" (auch: benchmark corpus) 19. 11. 2008 15

Spezifizierbarkeit Inter-Judge Agreement/ Inter-Annotator Agreement Übereinstimmung zwischen 2 oder mehr Annotatoren Intra-Annotator Agreement zeitlich versetzte Doppelannotation des selben Annotators 19. 11. 2008 16

Kappa Measure of agreement / reliability n coders place some kind of units into m exclusive classes The kappa coefficient measures pairwise agreement among a set of coders making category judgements, correcting for expected chance agreement: κ = p(a) - p(e) / 1 - p(e) p(a) is the proportion of times that the coders agree. p(e) is the proportion of times that the coders are expected to agree by chance. 19. 11. 2008 17

Kappa Beispiel es gibt 4 Wortartentags, die alle gleich wahrscheinlich sind: 0.25 zufällige Übereinstimmung von zwei Annotatoren: ebenfalls 25 % der Fälle bei 25% => k=0 bei 50% => k= 0.333 50 ist ein Drittel der Spanne zwischen 25 und 100 19. 11. 2008 18

Kappa-Skala Do the coders reach a satisfying level of agreement when they perform the same coding task? κ range: 0 κ 1 Agreement is not different from chance: κ = 0 Perfect agreement: κ = 1 Scale to evaluate kappa values (Krippendorff, 1980): κ 0.67 : to be discarded 0.67 κ 0.80 : allows tentative conclusions 0.80 κ : allows definite conclusions 19. 11. 2008 19

Kappa-Parameter p(e) depends on whether the distribution of proportions over the categories is taken to be equal for the judges: κ Cohen (Cohen, 1960): personal distributions for coders, κ S&C (Siegel and Castellan, 1988): one distribution for all κ is affected by skewed distributions of categories (the prevalence problem) and by the degree to which the coders disagree (the bias problem). Extension to several coders, e.g. Krippendorff s alpha 19. 11. 2008 20

Evaluation Model ( selected ) tn Gold Standard ( target ) fp tp fn tp: true positives fp: false positives system target actual target tn: true negatives fn: false negatives selected selected tp fn fp tn 19. 11. 2008 21

Evaluation Klassische Maße des Document Retrieval Precision:» proportion of selected items that the system got right ( fp» P = tp / (tp + Recall:» proportion of the target items that the system selected ( fn» R = tp / (tp + F-Score:» trade-off between precision and recall ( 1/R» F = 1 / (α 1/P + (1-α) ( mean» α = 0.5 (weighted harmonic ( R» F = (2 P R) / (P + 19. 11. 2008 22

Evaluierungsergebnis Akkuratheit beim PoS-Tagging: 95-98 % Wie viele Fehler sind das auf Satzebene? eine Akkuratheit von 96 % bedeutet für eine Satz von 20 Wörter Länge: Einen so heißen Sommer, hat... 0.96 * 0.96 * 0.96 * 0.96 * 0.96 * 0.96 *... (0.96) 20 44 % der Sätze mit 20 Wörtern sind korrekt. 19. 11. 2008 23

Folien von Stefanie Dipper 19. 11. 2008 24

Einschub: n-gramme n-gram: sequence of n words» bigram: sequence of 2 words» trigram: sequence of 3 words... n-grams are the basis for language models, to predict the next word given the previous word(s): p(w n ) = p(w n w 1,,w n-1 ) Restrictions on n:» number of parameters and sparse data» full-form words vs. lemmata» corpus transfer Application (examples): spelling correction, machine translation, speech recognition 19. 11. 2008 25

Tagging mit Markov-Modellen Sequence of tags in a text is regarded a Markov chain. Limited horizon: A word s tag only depends on the previous tag: p(x i+1 = t j x 1,..., x i ) = p (x i+1 = t j x i ) Time invariant: This dependency does not change over time: p(x i+1 = t j x i ) = p(x 2 = t j x 1 ) Task: Find the most probable tag sequence for a sequence of words. Maximum likelihood estimate of tag t k following t j : p(t k t j ) = f(t j,t k ) / f(t j ) Optimal tags for a sentence: t^1,n = arg max p(t 1,n w 1,n ) = p(w i t i ) p(t i t i-1 ) 19. 11. 2008 26

Grundlagen: Markov-Ketten Endlicher Automat (Finite State Automata, FSA) mit Übergangswahrscheinlichkeiten? -- 0,9-- 0,5-- 0,4-- 0,8 -- 0,1-- a 0,5 -- b? -- b Wohlgeformtheitsbedingung? Wahrscheinlichkeit der Sequenz baa!? Welcher Pfad wurde durch die Zustände genommen? 19. 11. 2008 27

Grundlagen: HMM Frage: Welche Sequenz ist wahrscheinlicher? 19. 11. 2008 28

Grundlagen: HMM Hidden Markov Model erlauben effiziente Berechnung Erweiterung der Markovkette um Ambiguitäten, so dass Pfad durch die Zustände nicht von der beobachtbaren Sequenz ableitbar ist z.b. Wörter (=beobachtbar), die ambig zwischen mehreren Wortarten (=Zustand) sind Emissions-Wahrscheinlichkeiten, dass beobachtbares Ereignis durch einen gegebenen Zustand i hervorgerufen wurde. z.b. Wahrscheinlichkeit P( race VB), dass race durch VB bedingt ist versus P( race NN), dass race durch NN bedingt ist. auch: observation likelihoods 19. 11. 2008 29

Grundlagen: HMM (1) Secretariat is expected to race tomorrow. Frage Welche Tagsequenz passt am besten zu dieser Wortfolge? 19. 11. 2008 30

Umformen Bayes Gesetz 19. 11. 2008 31

Vereinfachen (1) Die Wahrscheinlichkeit für die Wortkette P(w) ist für alle Kandidaten t gleich 19. 11. 2008 32

Vereinfachen (2) Markov-Annahmen Wort ist nur von seinem Wortart-Label ( tag ) abhängig und unabhängig von den anderen Wörtern und Wortarten Worarten-Tag ist nur vom vorhergehenden Tag abhängig und unabhängig von den restlichen vorhergehenden Tags (Bigram). 19. 11. 2008 33

Bigramm-Tagger Zwei Wahrscheinlichkeiten tag transition probabilities word likelihoods 19. 11. 2008 34

Ermitteln der Wahrscheinlichkeiten Quelle: 45-Tag Brown-Korpus 19. 11. 2008 35

Grundlagen: HMM Frage: Welche Sequenz ist wahrscheinlicher? 19. 11. 2008 36

Grundlagen: HMM Hidden Markov Model Frequenzzählungen auf dem 1 Mill. Brown Korpus 19. 11. 2008 37

Grundlagen: HMM Hidden Markov Model Frequenzzählungen auf dem 1 Mill. Brown Korpus 19. 11. 2008 38

HMM: Definition Hidden Markov Model 19. 11. 2008 39

Übergangswahrscheinlichkeiten Hidden States 19. 11. 2008 40

Übergangswahrscheinlichkeiten Hidden States 19. 11. 2008 41

Emissions-Wahrscheinlichkeiten 19. 11. 2008 42

Emissions-Wahrscheinlichkeiten 19. 11. 2008 43

Viterbi-Algorithmus findet die beste Sequenz durch die versteckten Zustände (gegeben eine Sequenz von beobachtbaren Ereignissen und ein HMM) Anwendung des dynamischen Programmierens (vgl. Minimum Edit Distance) 19. 11. 2008 44

Viterbi-Algorithmus Input HMM Sequenz von beobachtbaren Ereignissen, hier: Wortsequenz Output Sequenz der wahrscheinlichsten Zustände, hier: Wortarten-Tags, und ihre Wahrscheinlichkeit 19. 11. 2008 45

Viterbi-Algorithmus Wahrscheinlichkeitsmatrix Spalten: Beobachtung zu Zeitpunkt t Reihen: Zustände s Initialisierung Pseudowort in Zustand 0 Übergänge zu Zustand 1 s 0,1 = 1, wenn s1 der definierte Startzustand ist, andernfalls s 0,1 = 0 19. 11. 2008 46

Viterbi-Algorithmus 19. 11. 2008 47

Viterbi-Algorithmus notiert in jeden Zustand q zum Zeitpunkt t den wahrscheinlichsten Übergang, der zu q geführt hat: [q,t] Maximierung viterbi wobei 19. 11. 2008 48

Trellis 19. 11. 2008 49

Algorithmen Finden der wahrscheinlichsten versteckten Sequenz Viterbi-Algorithmus Optimieren der Überganswahrscheinlichkeiten forward/backward-algorithmus (Variante des Expectation-Maximization (EM)-Algorithmus) 19. 11. 2008 50

Tagging mit Markov Modellen TnT - Trigram Tagger www.coli.uni-saarland.de/~thorsten/tnt/ Thorsten Brants (2000): "TnT - A statistical part-of-speech tagger." In Proceedings of the 6th Applied Natural Language Processing Conference. 19. 11. 2008 51

Transformation-based Tagging Tags can be conditioned on words and on more context: TbT exploits a range of lexical and syntactic regularities. TbT encodes interdependencies between words and tags by selecting and sequencing transformations that transform an imperfect tagging into one with fewer errors. Components:» specification of transformations» learning algorithm Procedure: 1. Each word is tagged with its most frequent tag. 2.The learning algorithm constructs a ranked list of transformations. 19. 11. 2008 52

Transformation-based Tagger A transformation consists of two parts:» triggering environment» rewrite rule Examples: Triggering Environment Source Tag Target Tag previous tag is PTKZU next tag is VAFIN next tag is ADJD one of previous words is VVFIN NN VVFIN ADJA VVFIN VVINF VVPP ADJD VVINF 19. 11. 2008 53

Transformation-based Tagging Ranking der Transformationen Greedy search for the optimal transformation sequence Steps: 1. Each word is tagged with its most frequent tag. 2. The transformation that reduces the error rate most is chosen. 3. Step 2 is repeated iteratively until no transformation is left that reduces the error rate by more than a prespecified threshold. The error rate is measured as the number of mistagged words. 19. 11. 2008 54

Transformation-based Tagging Brill Tagger www.cs.jhu.edu/~brill Eric Brill (1995): "Transformation-based error-driven learning and Natural Language Processing: A case study in part-of-speech tagging". Computational Linguistics, 21(4):543-565. 19. 11. 2008 55

TreeTagger ein statistischer Tagger PoS- und Lemmainformation Parameterdateien für Deutsch, Englisch, Italienisch, (Alt-)Französisch,Spanisch, Bulgarisch, Russisch, Griechisch, Portugiesisch Verzeichnisinhalte bin - die eigentlichen Programme cmd -Shell-Skripte zum Aufruf des Taggers, einschließlich einer Präprozessierung doc - relevante Aufsätze lib - gespeicherte Modelle 19. 11. 2008 56

TreeTagger The decision tree automatically determines the appropriate size of the context to estimate the part-of speech transition probabilities. Possible contexts include bigrams, trigrams, etc., as well as negations of them, such as tag-1 DET. The probability of an n-gram is determined by following the corresponding path through the tree until a leaf is reached. Improves on sparse data, compared to Markov Models; avoids zero frequencies 19. 11. 2008 57

TreeTagger Disambiguierung über einen trainierten Entscheidungsbaum 19. 11. 2008 58

TreeTagger Eingabe im Verzeichnis TreeTagger cmd/tree-tagger-english Text liest robust von der Standardeingabe. Der Text muss praktisch nicht vorverarbeitet sein. Ausgabeformat 19. 11. 2008 59

TreeTagger Tree Tagger www.ims.uni-stuttgart.de/projekte/corplex/treetagger/ Helmut Schmid (1994): "Probabilistic Part-of-Speech Tagging Using Decision Trees". In Proceedings of the International Conference on New Methods in Language Processing. 19. 11. 2008 60

Referenzen Dipper, Stefanie. 2007. POS-Tagging. Universität Potsdam. Seminarfolien. Frank, Anette. 2007. Einführung in die Computerlinguistik. Seminar für CL, Universität Heidelberg. Seminarfolien. Reiter, Nils. 2008. Methoden-Vorkurs. Seminar für CL, Universität Heidelberg. Foliensatz 4. Schmid, Helmut. 1994. Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing Schulte im Walde. 2006. Introduction to Corpus Resources, Annotation and Access. ESSLLI summer school 2006, Málaga, Spanien. Seminarfolien. Voutilainen, Atro. 2003. Part-of-Speech Tagging. In Ruslan Mitkov (Hrsg.) The Oxford Handbook of Computational Linguistics. OUP. Kapitel 11. 19. 11. 2008 61