Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010

Transkript

1 Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech Tagging und die Entwicklung einer Interface- Hierarchie von Wortarten für das Projekt TESLA vorgelegt von: Mandy Neumann Matrikelnr.: Köln, den

2 Inhaltsverzeichnis 1. Einleitung Part-of-Speech Tagging Parts of Speech Tagging Tagsets Praxis: Entwurf einer Interface-Hierarchie für TESLA Zielsetzung Umsetzung Fazit Bibliographie... 12

3 1. Einleitung Gegenstand der vorliegenden Arbeit ist das sogenannte Part-of-Speech-Tagging, ein Teilbereich der maschinellen Sprachverarbeitung (Natural Language Processing NLP), sowie eine damit verbundene praktische Implementation einer Wortartenhierarchie in TESLA. Die Arbeit ist wie folgt aufgebaut: Zunächst wird der Begriff Part-of-Speech-Tagging in seinen Bestandteilen erläutert (2.). Dabei wird oberflächlich auf Geschichte und Modellierungsansätze von Taggern eingegangen sowie anschließend ein Überblick über verschiedene aktuelle und bedeutende Tagsets gegeben. Anschließend wird die für TESLA entworfene Interface-Hierarchie vorgestellt und ihre Entwicklung und ihr Design in einigen Punkten beispielhaft erläutert (3.). Den Abschluss der Arbeit bildet das Fazit mit einem Ausblick, wie die Hierarchie weiter verbessert und angepasst werden könnte (4.). 2

4 2. Part-of-Speech Tagging 2.1 Parts of Speech Mit Parts of Speech, wörtlich "Redeteile", bezeichnet man in Sprachwissenschaft und Sprachverarbeitung die verschiedenen Wortarten. Die Idee, sprachliche Zeichen nach bestimmten Kriterien in Klassen einzuteilen, ist eine der ältesten in der Linguistik sie reicht bis in die Antike zurück. Die ersten bekannten Einteilungen gehen auf Platon und Aristoteles zurück, die klassische Lehre der acht Wortarten 1, auf der die weiteren Klassifizierungsversuche basieren, begründete Dyonisius Thrax (2. Jh. v. Chr.). Heute schwankt die Zahl der Wortklassen bei verschiedenen Grammatikern, da die Einteilungskriterien sehr uneinheitlich sind. So lassen sich Wörter nach morphologischen, syntaktischen oder semantischen Kriterien klassifizieren, wobei es zu Überlappungen und Widersprüchen kommen kann. Gängig ist allerdings die Einteilung nach (morpho-)syntaktischen Gesichtspunkten: "[T]he most valid criteria for parts of speech seem to be grammatical (rather than semantic): (i) syntactic distribution, (ii) syntactic function and (iii) the morphological and syntactic classes that different parts of speech can be assigned to." (Voutilainen 2003:220) Eine grundsätzliche Differenzierung zwischen den Wortarten besteht in der Abgrenzung von offenen und geschlossenen Klassen. Geschlossene Klassen sind solche, deren Inhalte eher starr und historisch gewachsen sind, während offene Klassen ständig produktiv durch Wortbildungsmechanismen erweitert werden können. Zu den geschlossenen Klassen zählen also beispielsweise Pronomina und Konjunktionen, zu den offenen Nomina, Adjektive und Verben. Eine universale Bestimmung von Wortarten scheint bisher unmöglich. So gibt es beispielsweise Sprachen, die keine Adjektive im Sinne der lateinischen Schulgrammatik haben oder solche, bei denen keine Nomen-Verb-Distinktion bestimmbar ist. Die Grammatiker dieser Sprachen können die klassischen Wortartensysteme daher nicht einfach übertragen. 2.2 Tagging Der Begriff Tagging bezeichnet einen Vorgang, Daten jeglicher Art mit einem Bezeichner, dem sogenannten Tag, zu annotieren. Im konkreten Fall des Part-of-Speech-Taggings (kurz: PoS-Tagging, im spezifischen Kontext kann man auch einfach von Tagging sprechen) werden Wörter 2 Textkorpora mit Tags versehen, die ihre jeweilige Wortart kennzeichnen. Der Vorgang erfolgt automatisch mit Hilfe eines Taggers. "A part-of-speech (POS) tagger is a program which annotates in 1 Nomina, Konjunktionen, Verben, Artikel, Partizipien, Präpositionen, Pronomina und Adverbien. 2 Genauer: Tokens. 3

5 text with part-of-speech information." (Schmid 2008:540) Die Tags beinhalten allerdings meist noch etwas mehr Information als allein die Wortart, mehr dazu siehe Abschnitt 2.3. PoS-Tagging ist deshalb ein wichtiger Bereich in der maschinellen Sprachverarbeitung, weil viele Systeme auf dieser Art von "low-level" Information aufbauen. So kann ein guter Tagger beispielsweise Präprozessor für weitere abstrakte Analysen sein (Voutilainen 2003:220). Mit linguistischer Information angereicherte Korpora seien im Allgemeinen wertvolle Forschungsressourcen (Voutilainen 2003, Atwell 2008). Technologien wie Information Retrieval (Voutilainen 2003), Information Extraction, Fragebeantwortung (Manning & Schütze 2003), Eigennamenerkennung, Parsing (Biemann 2010, Poel et al. 2007) etc. profitieren ebenfalls von dieser Art gegebener Information. Manning und Schütze weisen allerdings auch darauf hin, dass inzwischen gut entwickelte Parser sogar besser auf ungetaggtem als auf getaggtem Text operieren können (vgl. Manning & Schütze 2003). Voutilainen datiert den Beginn der Beschäftigung mit Tagging in der maschinellen Sprachverarbeitung auf die späten 50er des vorigen Jahrhunderts. "The earliest disambiguators used hand-codes disambiguation rules." In den späten 70ern seien dann die datengesteuerten statistischen Tagger der nächste große Schritt gewesen. Im weiteren Verlauf habe es viele verschiedene Ansätze gegeben, um Tagging möglichst effizient zu gestalten. Kürzlich seien auch hybride Lösungen untersucht worden, in denen Methoden der regelbasierten und der statistischen Ansätze für größere Effizienz kombiniert werden. (vgl. Voutilainen 2003:232f.) "Today, there is a wide range of statistical taggers * +, rule-based taggers using manually written rules * + and automatically induced rules * +, and other types of taggers" (Schmid 2008:541) Für das Design eines Taggers gibt es also zwei grundsätzliche Typen von Ansätzen: die regelbasierten sowie die statistischen (oder auch: probabilistische und non-probabilistische) Ansätze, wobei auch nach Nugues die regelbasierten Ansätze die älteren sind. "Part-of-speech tagging with rules is relatively old * +. In the beginning, rules were hand-coded and yielded good results at the expense of thoroughly and painfully crafting the rules * +. The field has been completely renewed by Brill * +, who proposed a very simple scheme to tag a text with rules and an algorithm to learn automatically the rules from annotated corpora. A good deal of the current work on part-of-speech tagging with rules is now inspired by his foundational work." (Nugues 2006:149) Im Prinzip handelt es sich bei Tagging um eine Form der Disambiguierung viele Wörter sind zunächst hinsichtlich ihrer Wortart ambig, können also je nach Kontext unterschiedlichen Wortarten zugehörig sein, und diese Ambiguität wird aufgelöst, indem über einen bestimmten Algorithmus bestimmt wird, welches die korrekte Wortart im spezifischen Kontext ist. (vgl. Voutilainen 2003:222, 4

6 Manning & Schütze 2003:341) Poel bezeichnet PoS-Tagging daher auch als word class disambiguation (Poel 2007:274). In non-probabilistischen Modellen erfolgt die Disambiguierung über (handgeschriebene oder automatisch erlernte) Regeln, die den rechten und linken Kontext eines Wortes betrachten und anhand dessen entscheiden, ob ein bestimmtes Tag verworfen bzw. ersetzt werden muss. Der bekannteste Vertreter regelbasierter Tagger ist das sogenannte Transformation-based Tagging von E. Brill. Probabilistische Modelle verwenden Statistiken über Tags und Tagsequenzen, um einem Wort sein wahrscheinlichstes Tag zuzuweisen. Selbst Wörter, die mehreren Wortarten zugehörig sein können, haben stets eine starke Präferenz für eine bestimmte Wortart, und diese Präferenz wird im statistischen Modell als Wahrscheinlichkeit eines bestimmten Tags berechnet. Hinzu kommt die Berechnung der Wahrscheinlichkeit einer Tagsequenz, also des Auftretens bestimmter Tags in einer Reihe. Die Wahrscheinlichkeit einer Tagsequenz für eine gegebene Wortsequenz ist also das Produkt kontextueller und lexikalischer Wahrscheinlichkeiten. Die Tagsequenz ist meist nur zwei bis drei Glieder lang, dennoch liefern die Tagger damit sehr exakte Ergebnisse. Dass ein so beschränkter Kontext ausreicht, wurde bereits Ende des 19. Jahrhunderts von Andrei Markov untersucht, weshalb man eine solche Kette Markov-Kette und das entsprechende Modell Markov-Modell nennt. Eine Weiterentwicklung des Markov-Modells ist das Hidden-Markov-Model (HMM), mit dessen Hilfe der Tagger auch ohne ein bereits annotiertes Trainingskorpus trainiert werden kann. Auf die Einzelheiten der Algorithmen soll an dieser Stelle nicht weiter eingegangen werden. Es gibt viele Argumente für und wider die Anwendung einer bestimmten Art von Tagger. Letztlich muss zwischen den Vor- und Nachteilen eines bestimmten Modells abgewogen werden. What finally decides which tagger to use is often its suitability for the intended application. (Voutilainen 2003:223) Bis heute werden Tagger ständig modifiziert, um ihre Präzision weiter zu erhören und damit schließlich nahezu zu 100% korrekt getaggte Korpora zu erhalten. Bisher liegt die Genauigkeit der Tagger im Bereich 95-97% Tagsets Damit der Tagger die Wörter eines gegebenen Textkorpus mit linguistischer Information annotieren kann, müssen die zu verwendenden Tags natürlich im Vorfeld definiert werden. Die definierte Liste der grammatischen Labels nennt man Tagset. Hierbei gibt es nicht ein bestimmtes Tagset für alle Tagger, sondern eine Reihe mitunter sehr verschiedener. Kein Tagset beschränkt sich tatsächlich nur 3 Die Genauigkeit von 90% ist die sogenannte "Base Line" (Quelle), die jeder Tagger allein dadurch erreicht, dass für ein Wort seine einzige bzw. seine am häufigsten auftretende Wortart ausgewählt wird, ohne andere Faktoren zu beachten (vgl. Nugues 2006:148). 5

7 auf die acht Wortarten der lateinischen Schulgrammatik: In Fact, parts of speech usually are only a part of the information that POS taggers produce. Inflectional and lexico-semantic information (e.g. the distinction between common and proper noun) is also often produced (Voutilainen 2003:220; vgl. auch Atwell 2008:504f.). Die verschiedenen Tagsets unterscheiden sich daher dahingehend, wie fein sie verschiedene Unterscheidungen ausdrücken und wo ihre Schwerpunkte liegen. Atwell fasst die Kriterien zusammen, die bei der Entwicklung eines Tagsets beachtet werden: [C]riteria used in development of English 4 corpus part-of-speech tag sets: mnemonic tag names; underlying linguistic theory; classification by form or function; analysis of idiosyncratic words; categorization problems; tokenisation issues: defining what counts as a word; multi-word lexical items; target user and/or application; availability and/or adaptability of tagger software; adherence to standards; variations in genre, register, or type of language; and degree of delicacy of the tag set. (Atwell 2008:502) Ein Tagset ist außerdem immer sprachspezifisch, da die Entscheidung, mit welchem Tag ein Wort versehen wird und wie die Tags voneinander abzugrenzen sind, von den grammatischen Gegebenheiten abhängt. "Although it is sometimes possible to map tagsets from one language to another, there is no universal scheme, even within the same language." (Nugues 2006:156) Des Weiteren hängt das Design des Tagsets sicher auch davon ab, an welcher linguistischen Theorie man sich orientiert. Ein in dieser Hinsicht neutrales Tagset könne es nicht geben (vgl. Atwell 2008:507). Die Einteilung der Tags erfolgt meist über Funktion, teilweise auch über Form. Die intendierte Anwendung übt schließlich auch einen gewissen Einfluss auf das Design des Tagsets aus. Die im Set festgelegten Tags müssen des Weiteren genau spezifiziert werden. Hierfür verwendet man das sogenannte "tagging scheme" (Atwell 2008:501f.) bzw. "tagging guidelines" (Schmid 2008:547). Sie gewährleisten Konsistenz und dienen zur Dokumentation. Idealerweise wird ein Korpus zunächst von mehreren Linguisten per Hand annotiert und anschließend das Ergebnis diskutiert. Am Ende sollte ein Tagset stehen, in dem jedes Tag klar definiert ist und es weder Überschneidungen noch offene Fälle gibt. Auch wenn alle Tagsets deutlich über acht Tags hinausgehen, sollte schließlich noch ein weiteres Kriterium gewahrt werden: "All tags in the tagset must be frequent enough to allow the tagger to learn their disambiguation from the training data." (Schmid 2008:546f.) Die meisten der bekanntesten Tagsets wurden für das Englische entwickelt. Historisch am einflussreichsten war das Brown Tag Set, für britisches Englisch waren und sind die Tagsets des BNC 5, genannt CLAWS, weit verbreitet. Heute wird auch das Penn Treebank Tag Set häufig verwendet. Im deutschsprachigen Raum hat sich vor allem das STTS (Stuttgart-Tübingen Tagset) durchgesetzt. 4 Englisch war die erste von Korpuslinguisten untersuchte Sprache, daher existieren für das Englische besonders viele verschiedene Tagsets. 5 British National Corpus. 6

8 Das Tagset für das BNC wurde unter dem Namen CLAWS1 in den späten 1970er Jahren an der Universität von Lancester entwickelt (vgl. Voutilainen 2003:224). Es wurde mehrfach überarbeitet und liegt aktuell in den Versionen CLAWS5 ("BNC Basic Tagset") und CLAWS7 ("BNC Enriched Tagset") vor 6. CLAWS5 weist 62 Tags auf, wobei besonders feine Unterscheidungen für Verben ausgedrückt werden. Noch größer und detailreicher ist CLASW7. Im Tagset für das Deutsche, STTS 7, finden sich 52 Tags, von denen die meisten für Formen von Verben und Pronomina verwendet werden. Die Tags sind in fünfzehn "Grundtags" eingeteilt, hier wird also ebenfalls die klassische Wortartenlehre erweitert (beispielsweise um Kardinalzahlen als eigene Kategorie zu behandeln). Das Penn Treebank Tagset 8 ist von den bekannteren und in dieser Arbeit verwendeten Tagsets eines der kleineren mit nur 36 verschiedenen Tags. Die Tagsets bilden oft implizit eine gewisse Beziehung zwischen mehreren Tags ab. Die Tags werden nicht einfach mit einem beliebigen Code bezeichnet die Namen folgen meist bestimmten Regeln und sind oft symbolisch und damit intuitiv verständlich. So besteht beispielsweise ein Tag in CLAWS aus drei Zeichen, wobei die ersten beiden die generelle Wortart angeben (z.b. DT für Determiner oder AJ für Adjective) und das dritte Zeichen eine Subkategorie angibt (z.b. AJC für Comparative Adjective). Die Tags im STTS folgen einem ähnlichen Schema beispielsweise bezeichnen alle Tags, die mit einem P beginnen, eine Art von Pronomen, konkret z.b. PDS ein substituierendes, PDA ein attribuierendes Demonstrativpronomen

9 3. Praxis: Entwurf einer Interface-Hierarchie für TESLA 3.1 Zielsetzung "Tesla (Text Engineering Software Laboratory) ist ein virtuelles Labor, das eine grundlegende Infrastruktur für die Verarbeitung beliebiger textueller Daten bereitstellt." (Hermes, Schwiebert) Damit stellt Tesla Sprachforschern ein komponenten- und rollenbasiertes Framework zur Verfügungung, mit dem sich Komponenten zur sprachlichen Textverarbeitung entwickeln (und miteinander verknüpfen) lassen. Im Gegensatz zu den bisher existierenden Anwendungen, UIMA und GATE, nutzt Tesla serverseitig Java APIs und clientseitig Eclipse. Die Nutzung dieser Technologien ermöglicht (in zukünftigen Versionen) u.a. Clustering (die Verarbeitung von großen Textmengen auf mehreren Servern) wodurch sich eine höhere Leistung erzielen lässt. Das System ist aus mehreren Bestandteilen aufgebaut, unter anderem gibt es die sogenannten Komponenten (components) und Rollen (roles). Komponenten in Tesla bilden spezialisierte Verarbeitungsmethoden mit Eingabe- und Ausgabemodulen ab, die mit jeweils anderen Komponenten verknüpft sind. Beispiele für Komponenten wären ein Tokenizer oder ein Lemmatisierer. Einzelne Aufgaben in der Komponente werden durch Rollen beschrieben. Die hier vorgestellte Interface-Hierarchie soll es ermöglichen, Texte aus verschiedenen Korpora, die entsprechend mit unterschiedlichen Tagsets getaggt wurden, einheitlich weiterzuverarbeiten. In Tesla gehört sie zur Rolle des Categorizers. Die Interfaces repräsentieren Wortarten und sind hierarchisch gegliedert, um die in 2.3 angesprochenen feineren Unterteilungen ebenfalls zu repräsentieren. Eine weitere Komponente, ein Parser, soll darauf aufbauend für die Eingliederung der Wörter aus den Korpora in die jeweilige Kategorie sorgen. 3.2 Umsetzung Grundlage für den Aufbau der Hierarchie waren folgende Tagsets: CLAWS5, STTS Tagset, Penn Treebank Tagset, TIGER Corpus Tagset sowie das Morphologiesystem MORPHY. Um einen Überblick zu erhalten wurden die Tagsets zunächst hinsichtlich ihrer Granulation betrachtet und mögliche Wortklassen mit Subkategorien notiert, so zum Beispiel die Wortklasse "Pronomen" mit den Subklassen "Demonstrativpronomen", "Personalpronomen", "Relativpronomen" etc. Des Weiteren wurden sämtliche Tags aus den verschiedenen Tagsets zu den jeweiligen Grundklassen zugeordnet diese Einteilung bildet die Grundlage für die Entwicklung eines entsprechenden Parsers (nicht Bestandteil dieser Arbeit). Um die Wortarten schließlich hierarchisieren zu können, mussten nicht nur Klassen und Subklassen gebildet, sondern auch gemeinsame und unterschiedliche Eigenschaften der jeweiligen Klassen 8

10 betrachtet werden. Hierfür wurden linguistische Fachlexika sowie persönliches linguistisches Wissen zu Rate gezogen. So ergab sich beispielsweise für die Wortart Adjektiv eine Unterteilung in attributive und prädikative Adjektive, die sich dahingehend unterscheiden, dass attributive Adjektive in Kasus, Numerus und Genus flektiert werden, während prädikative Adjektive unveränderbar sind. Beide teilen dagegen die Eigenschaft, dass sie komparierbar (steigerungsfähig) sind (Abb. 3.1). Abb. 3.1: Hierarchische Struktur des Adjektivs Ähnliche Skizzen wurden auch für die weiteren Wortarten angefertigt: Adposition, Adverb, Konjunktion, Determinierer, Interjektion, Nomen, Partikel, Pronomen und Verb. Die Strukturen wurden dann folgendermaßen in Eclipse abgebildet: Für jede der Basiswortarten wurde ein Interface definiert, wobei jedes Interface vom Marker-Interface IHierarchicalSyntacticalCategory erbt. Speziellere Wortarten erben nun von ihren Basiswortarten, beispielsweise IAttributive von IAdjective. Zusätzlich zu den Interfaces für Wortarten wurden spezielle Marker-Interfaces definiert, die Eigenschaften der Wortarten repräsentieren und teilweise Methoden bereitstellen, so etwa das Interface HasGender, von dem alle Wortarten erben, die nach Genus flektieren, und welches Methoden zur Ausgabe (getgender()) des Genus oder zum Abgleich mit dem Genus eines anderen Wortes bereitstellt. Die Basis-Interfaces sind größtenteils inhaltsleer oder stellen wie ausgeführt einige Grundoperationen zur Verfügung. Dies ist auf dem Anspruch der Allgemeingültigkeit und Erweiterbarkeit der Hierarchie begründet. Prinzipiell soll es möglich sein, eine Hierarchie für eine spezielle Sprache oder Sprachfamilie zu entwerfen, die von der Basishierarchie abgeleitet ist und 9

11 zusätzlich zur bereits gegebenen Modellierung morphologische Eigenheiten der jeweiligen Sprache (Sprachfamilie) abbildet. Im hier vorgestellten Entwurf wurde dies bereits für die Indoeuropäische Sprachfamilie durchgeführt. Der Effekt lässt sich am Beispiel des Kasus demonstrieren: Während das Basis-Interface IsCaseAware lediglich Methoden zur Ausgabe und zum Vergleich von Kasus bereitstellt (da darüber hinaus keine weiteren allgemeingültigen Aussagen zum Kasus in allen Sprachen getroffen werden kann), ist es über die Implementation von IsIndoEuCase bereits möglich, auf bestimmte Kasus zu testen, d.h. zu testen, ob ein Wort in einem der acht indoeuropäischen Kasus 9 steht. Die Hierarchie ist in dem hier vorgestellten Zustand noch nicht komplett so muss beispielsweise noch eine genaue Dokumentation hinzugefügt werden. Auch ist es möglich, dass die Struktur stellenweise noch verändert werden muss, was sich erst in zukünftigen Tests zeigen wird. 9 Nominativ, Genitiv, Dativ, Akkusativ, Lokativ, Vokativ, Instrumental und Ablativ. 10

12 4. Fazit Part-of-speech Tagging wird bereits seit mehreren Jahrzehnten im NLP untersucht und bis heute wird viel in diesem Bereich geforscht und entwickelt. Über immer neue Ansätze (z.b. über Support Vector Machines oder Entscheidungsbäume) und die Kombinierung bereits vorhandener Ideen versuchen Computerlinguisten, die Ergebnisse ihrer Tagger weiter zu verbessern. Die für das Tagging verwendeten Tagsets sind sehr uneinheitlich und unterscheiden sich in mehreren Punkten wie im Umfang und in der Schwerpunktsetzung. Einige Tagsets erlauben es dem Tagger auch, die endgültige Entscheidung für eine Wortart dem Benutzer zu überlassen, indem die Kombination mehrerer Tags möglich ist. Vergleiche zwischen mit verschiedenen Tagsets getaggten Korpora sind nicht möglich. Außerdem besteht zwar in vielen Tagsets eine implizite, aber keine explizite Strukturierung, sodass kein direkter Zusammenhang zwischen beispielsweise einem Partizip und einem Infinitiv erkennbar ist, obwohl beide infinite Verbformen sind und damit gewisse Eigenschaften teilen. Die hier vorgestellte Interfacehierarchie für das System Tesla versucht, dieses Problem zu lösen. Wörter aus Korpora, die mit verschiedenen Tagsets annotiert wurden, werden über einen Parser in eine einheitliche Hierarchie überführt, über die weitere linguistische Analysen einheitlich möglich gemacht werden. Die Lösung ist bisher unvollständig und möglicherweise auch teilweise verbesserungswürdig. Es wird sich erst in der Zukunft zeigen, ob eine solche allgemeine Hierarchie als Modell auch für alle Sprachen bzw. Sprachfamilien außer der Indoeuropäischen verwendet werden kann. 11

13 5. Bibliographie ATWELL, Eric "Development of Tag Sets for Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton BIEMANN, Chris "Unsupervised Part-of-Speech Tagging in the Large." In: GABBAY, D.M. & Shuly WINTNER (eds.). Research on Language & Computation. (RoLC, 7). Dordrecht: Springer URL: HERMES, Jürgen & Stephan SCHWIEBERT. TESLA. Köln: Universität, Institut für Linguistik. URL: MANNING, Christopher D. & Hinrich SCHÜTZE Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. NUGUES, Pierre M An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German. (Cognitive Technologies). Berlin u.a.: Springer. POEL, Mannes et al "A Support Vector Machine Approach to Dutch Part-of-Speech Tagging." In: BERTHOLD, Michael R. et al. (eds.). Advances in Intelligent Data Analysis VII: 7th International Symposium on Intelligent Data Analysis, IDA 2007, Ljubljana, Slovenia, September 6-8, Proceedings. (Lecture Notes in Computer Science, 723.) Berlin u.a.: Springer SCHMID, Helmut "Tokenizing and Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton VOUTILAINEN, Atro "Part-of-Speech Tagging." In: Mitkov, Ruslan (ed.). The Oxford Handbook of Computational Linguistics. Oxford u.a.: Oxford University Press