Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010

Größe: px
Ab Seite anzeigen:

Download "Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010"

Transkript

1 Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech Tagging und die Entwicklung einer Interface- Hierarchie von Wortarten für das Projekt TESLA vorgelegt von: Mandy Neumann Matrikelnr.: Köln, den

2 Inhaltsverzeichnis 1. Einleitung Part-of-Speech Tagging Parts of Speech Tagging Tagsets Praxis: Entwurf einer Interface-Hierarchie für TESLA Zielsetzung Umsetzung Fazit Bibliographie... 12

3 1. Einleitung Gegenstand der vorliegenden Arbeit ist das sogenannte Part-of-Speech-Tagging, ein Teilbereich der maschinellen Sprachverarbeitung (Natural Language Processing NLP), sowie eine damit verbundene praktische Implementation einer Wortartenhierarchie in TESLA. Die Arbeit ist wie folgt aufgebaut: Zunächst wird der Begriff Part-of-Speech-Tagging in seinen Bestandteilen erläutert (2.). Dabei wird oberflächlich auf Geschichte und Modellierungsansätze von Taggern eingegangen sowie anschließend ein Überblick über verschiedene aktuelle und bedeutende Tagsets gegeben. Anschließend wird die für TESLA entworfene Interface-Hierarchie vorgestellt und ihre Entwicklung und ihr Design in einigen Punkten beispielhaft erläutert (3.). Den Abschluss der Arbeit bildet das Fazit mit einem Ausblick, wie die Hierarchie weiter verbessert und angepasst werden könnte (4.). 2

4 2. Part-of-Speech Tagging 2.1 Parts of Speech Mit Parts of Speech, wörtlich "Redeteile", bezeichnet man in Sprachwissenschaft und Sprachverarbeitung die verschiedenen Wortarten. Die Idee, sprachliche Zeichen nach bestimmten Kriterien in Klassen einzuteilen, ist eine der ältesten in der Linguistik sie reicht bis in die Antike zurück. Die ersten bekannten Einteilungen gehen auf Platon und Aristoteles zurück, die klassische Lehre der acht Wortarten 1, auf der die weiteren Klassifizierungsversuche basieren, begründete Dyonisius Thrax (2. Jh. v. Chr.). Heute schwankt die Zahl der Wortklassen bei verschiedenen Grammatikern, da die Einteilungskriterien sehr uneinheitlich sind. So lassen sich Wörter nach morphologischen, syntaktischen oder semantischen Kriterien klassifizieren, wobei es zu Überlappungen und Widersprüchen kommen kann. Gängig ist allerdings die Einteilung nach (morpho-)syntaktischen Gesichtspunkten: "[T]he most valid criteria for parts of speech seem to be grammatical (rather than semantic): (i) syntactic distribution, (ii) syntactic function and (iii) the morphological and syntactic classes that different parts of speech can be assigned to." (Voutilainen 2003:220) Eine grundsätzliche Differenzierung zwischen den Wortarten besteht in der Abgrenzung von offenen und geschlossenen Klassen. Geschlossene Klassen sind solche, deren Inhalte eher starr und historisch gewachsen sind, während offene Klassen ständig produktiv durch Wortbildungsmechanismen erweitert werden können. Zu den geschlossenen Klassen zählen also beispielsweise Pronomina und Konjunktionen, zu den offenen Nomina, Adjektive und Verben. Eine universale Bestimmung von Wortarten scheint bisher unmöglich. So gibt es beispielsweise Sprachen, die keine Adjektive im Sinne der lateinischen Schulgrammatik haben oder solche, bei denen keine Nomen-Verb-Distinktion bestimmbar ist. Die Grammatiker dieser Sprachen können die klassischen Wortartensysteme daher nicht einfach übertragen. 2.2 Tagging Der Begriff Tagging bezeichnet einen Vorgang, Daten jeglicher Art mit einem Bezeichner, dem sogenannten Tag, zu annotieren. Im konkreten Fall des Part-of-Speech-Taggings (kurz: PoS-Tagging, im spezifischen Kontext kann man auch einfach von Tagging sprechen) werden Wörter 2 Textkorpora mit Tags versehen, die ihre jeweilige Wortart kennzeichnen. Der Vorgang erfolgt automatisch mit Hilfe eines Taggers. "A part-of-speech (POS) tagger is a program which annotates in 1 Nomina, Konjunktionen, Verben, Artikel, Partizipien, Präpositionen, Pronomina und Adverbien. 2 Genauer: Tokens. 3

5 text with part-of-speech information." (Schmid 2008:540) Die Tags beinhalten allerdings meist noch etwas mehr Information als allein die Wortart, mehr dazu siehe Abschnitt 2.3. PoS-Tagging ist deshalb ein wichtiger Bereich in der maschinellen Sprachverarbeitung, weil viele Systeme auf dieser Art von "low-level" Information aufbauen. So kann ein guter Tagger beispielsweise Präprozessor für weitere abstrakte Analysen sein (Voutilainen 2003:220). Mit linguistischer Information angereicherte Korpora seien im Allgemeinen wertvolle Forschungsressourcen (Voutilainen 2003, Atwell 2008). Technologien wie Information Retrieval (Voutilainen 2003), Information Extraction, Fragebeantwortung (Manning & Schütze 2003), Eigennamenerkennung, Parsing (Biemann 2010, Poel et al. 2007) etc. profitieren ebenfalls von dieser Art gegebener Information. Manning und Schütze weisen allerdings auch darauf hin, dass inzwischen gut entwickelte Parser sogar besser auf ungetaggtem als auf getaggtem Text operieren können (vgl. Manning & Schütze 2003). Voutilainen datiert den Beginn der Beschäftigung mit Tagging in der maschinellen Sprachverarbeitung auf die späten 50er des vorigen Jahrhunderts. "The earliest disambiguators used hand-codes disambiguation rules." In den späten 70ern seien dann die datengesteuerten statistischen Tagger der nächste große Schritt gewesen. Im weiteren Verlauf habe es viele verschiedene Ansätze gegeben, um Tagging möglichst effizient zu gestalten. Kürzlich seien auch hybride Lösungen untersucht worden, in denen Methoden der regelbasierten und der statistischen Ansätze für größere Effizienz kombiniert werden. (vgl. Voutilainen 2003:232f.) "Today, there is a wide range of statistical taggers * +, rule-based taggers using manually written rules * + and automatically induced rules * +, and other types of taggers" (Schmid 2008:541) Für das Design eines Taggers gibt es also zwei grundsätzliche Typen von Ansätzen: die regelbasierten sowie die statistischen (oder auch: probabilistische und non-probabilistische) Ansätze, wobei auch nach Nugues die regelbasierten Ansätze die älteren sind. "Part-of-speech tagging with rules is relatively old * +. In the beginning, rules were hand-coded and yielded good results at the expense of thoroughly and painfully crafting the rules * +. The field has been completely renewed by Brill * +, who proposed a very simple scheme to tag a text with rules and an algorithm to learn automatically the rules from annotated corpora. A good deal of the current work on part-of-speech tagging with rules is now inspired by his foundational work." (Nugues 2006:149) Im Prinzip handelt es sich bei Tagging um eine Form der Disambiguierung viele Wörter sind zunächst hinsichtlich ihrer Wortart ambig, können also je nach Kontext unterschiedlichen Wortarten zugehörig sein, und diese Ambiguität wird aufgelöst, indem über einen bestimmten Algorithmus bestimmt wird, welches die korrekte Wortart im spezifischen Kontext ist. (vgl. Voutilainen 2003:222, 4

6 Manning & Schütze 2003:341) Poel bezeichnet PoS-Tagging daher auch als word class disambiguation (Poel 2007:274). In non-probabilistischen Modellen erfolgt die Disambiguierung über (handgeschriebene oder automatisch erlernte) Regeln, die den rechten und linken Kontext eines Wortes betrachten und anhand dessen entscheiden, ob ein bestimmtes Tag verworfen bzw. ersetzt werden muss. Der bekannteste Vertreter regelbasierter Tagger ist das sogenannte Transformation-based Tagging von E. Brill. Probabilistische Modelle verwenden Statistiken über Tags und Tagsequenzen, um einem Wort sein wahrscheinlichstes Tag zuzuweisen. Selbst Wörter, die mehreren Wortarten zugehörig sein können, haben stets eine starke Präferenz für eine bestimmte Wortart, und diese Präferenz wird im statistischen Modell als Wahrscheinlichkeit eines bestimmten Tags berechnet. Hinzu kommt die Berechnung der Wahrscheinlichkeit einer Tagsequenz, also des Auftretens bestimmter Tags in einer Reihe. Die Wahrscheinlichkeit einer Tagsequenz für eine gegebene Wortsequenz ist also das Produkt kontextueller und lexikalischer Wahrscheinlichkeiten. Die Tagsequenz ist meist nur zwei bis drei Glieder lang, dennoch liefern die Tagger damit sehr exakte Ergebnisse. Dass ein so beschränkter Kontext ausreicht, wurde bereits Ende des 19. Jahrhunderts von Andrei Markov untersucht, weshalb man eine solche Kette Markov-Kette und das entsprechende Modell Markov-Modell nennt. Eine Weiterentwicklung des Markov-Modells ist das Hidden-Markov-Model (HMM), mit dessen Hilfe der Tagger auch ohne ein bereits annotiertes Trainingskorpus trainiert werden kann. Auf die Einzelheiten der Algorithmen soll an dieser Stelle nicht weiter eingegangen werden. Es gibt viele Argumente für und wider die Anwendung einer bestimmten Art von Tagger. Letztlich muss zwischen den Vor- und Nachteilen eines bestimmten Modells abgewogen werden. What finally decides which tagger to use is often its suitability for the intended application. (Voutilainen 2003:223) Bis heute werden Tagger ständig modifiziert, um ihre Präzision weiter zu erhören und damit schließlich nahezu zu 100% korrekt getaggte Korpora zu erhalten. Bisher liegt die Genauigkeit der Tagger im Bereich 95-97% Tagsets Damit der Tagger die Wörter eines gegebenen Textkorpus mit linguistischer Information annotieren kann, müssen die zu verwendenden Tags natürlich im Vorfeld definiert werden. Die definierte Liste der grammatischen Labels nennt man Tagset. Hierbei gibt es nicht ein bestimmtes Tagset für alle Tagger, sondern eine Reihe mitunter sehr verschiedener. Kein Tagset beschränkt sich tatsächlich nur 3 Die Genauigkeit von 90% ist die sogenannte "Base Line" (Quelle), die jeder Tagger allein dadurch erreicht, dass für ein Wort seine einzige bzw. seine am häufigsten auftretende Wortart ausgewählt wird, ohne andere Faktoren zu beachten (vgl. Nugues 2006:148). 5

7 auf die acht Wortarten der lateinischen Schulgrammatik: In Fact, parts of speech usually are only a part of the information that POS taggers produce. Inflectional and lexico-semantic information (e.g. the distinction between common and proper noun) is also often produced (Voutilainen 2003:220; vgl. auch Atwell 2008:504f.). Die verschiedenen Tagsets unterscheiden sich daher dahingehend, wie fein sie verschiedene Unterscheidungen ausdrücken und wo ihre Schwerpunkte liegen. Atwell fasst die Kriterien zusammen, die bei der Entwicklung eines Tagsets beachtet werden: [C]riteria used in development of English 4 corpus part-of-speech tag sets: mnemonic tag names; underlying linguistic theory; classification by form or function; analysis of idiosyncratic words; categorization problems; tokenisation issues: defining what counts as a word; multi-word lexical items; target user and/or application; availability and/or adaptability of tagger software; adherence to standards; variations in genre, register, or type of language; and degree of delicacy of the tag set. (Atwell 2008:502) Ein Tagset ist außerdem immer sprachspezifisch, da die Entscheidung, mit welchem Tag ein Wort versehen wird und wie die Tags voneinander abzugrenzen sind, von den grammatischen Gegebenheiten abhängt. "Although it is sometimes possible to map tagsets from one language to another, there is no universal scheme, even within the same language." (Nugues 2006:156) Des Weiteren hängt das Design des Tagsets sicher auch davon ab, an welcher linguistischen Theorie man sich orientiert. Ein in dieser Hinsicht neutrales Tagset könne es nicht geben (vgl. Atwell 2008:507). Die Einteilung der Tags erfolgt meist über Funktion, teilweise auch über Form. Die intendierte Anwendung übt schließlich auch einen gewissen Einfluss auf das Design des Tagsets aus. Die im Set festgelegten Tags müssen des Weiteren genau spezifiziert werden. Hierfür verwendet man das sogenannte "tagging scheme" (Atwell 2008:501f.) bzw. "tagging guidelines" (Schmid 2008:547). Sie gewährleisten Konsistenz und dienen zur Dokumentation. Idealerweise wird ein Korpus zunächst von mehreren Linguisten per Hand annotiert und anschließend das Ergebnis diskutiert. Am Ende sollte ein Tagset stehen, in dem jedes Tag klar definiert ist und es weder Überschneidungen noch offene Fälle gibt. Auch wenn alle Tagsets deutlich über acht Tags hinausgehen, sollte schließlich noch ein weiteres Kriterium gewahrt werden: "All tags in the tagset must be frequent enough to allow the tagger to learn their disambiguation from the training data." (Schmid 2008:546f.) Die meisten der bekanntesten Tagsets wurden für das Englische entwickelt. Historisch am einflussreichsten war das Brown Tag Set, für britisches Englisch waren und sind die Tagsets des BNC 5, genannt CLAWS, weit verbreitet. Heute wird auch das Penn Treebank Tag Set häufig verwendet. Im deutschsprachigen Raum hat sich vor allem das STTS (Stuttgart-Tübingen Tagset) durchgesetzt. 4 Englisch war die erste von Korpuslinguisten untersuchte Sprache, daher existieren für das Englische besonders viele verschiedene Tagsets. 5 British National Corpus. 6

8 Das Tagset für das BNC wurde unter dem Namen CLAWS1 in den späten 1970er Jahren an der Universität von Lancester entwickelt (vgl. Voutilainen 2003:224). Es wurde mehrfach überarbeitet und liegt aktuell in den Versionen CLAWS5 ("BNC Basic Tagset") und CLAWS7 ("BNC Enriched Tagset") vor 6. CLAWS5 weist 62 Tags auf, wobei besonders feine Unterscheidungen für Verben ausgedrückt werden. Noch größer und detailreicher ist CLASW7. Im Tagset für das Deutsche, STTS 7, finden sich 52 Tags, von denen die meisten für Formen von Verben und Pronomina verwendet werden. Die Tags sind in fünfzehn "Grundtags" eingeteilt, hier wird also ebenfalls die klassische Wortartenlehre erweitert (beispielsweise um Kardinalzahlen als eigene Kategorie zu behandeln). Das Penn Treebank Tagset 8 ist von den bekannteren und in dieser Arbeit verwendeten Tagsets eines der kleineren mit nur 36 verschiedenen Tags. Die Tagsets bilden oft implizit eine gewisse Beziehung zwischen mehreren Tags ab. Die Tags werden nicht einfach mit einem beliebigen Code bezeichnet die Namen folgen meist bestimmten Regeln und sind oft symbolisch und damit intuitiv verständlich. So besteht beispielsweise ein Tag in CLAWS aus drei Zeichen, wobei die ersten beiden die generelle Wortart angeben (z.b. DT für Determiner oder AJ für Adjective) und das dritte Zeichen eine Subkategorie angibt (z.b. AJC für Comparative Adjective). Die Tags im STTS folgen einem ähnlichen Schema beispielsweise bezeichnen alle Tags, die mit einem P beginnen, eine Art von Pronomen, konkret z.b. PDS ein substituierendes, PDA ein attribuierendes Demonstrativpronomen

9 3. Praxis: Entwurf einer Interface-Hierarchie für TESLA 3.1 Zielsetzung "Tesla (Text Engineering Software Laboratory) ist ein virtuelles Labor, das eine grundlegende Infrastruktur für die Verarbeitung beliebiger textueller Daten bereitstellt." (Hermes, Schwiebert) Damit stellt Tesla Sprachforschern ein komponenten- und rollenbasiertes Framework zur Verfügungung, mit dem sich Komponenten zur sprachlichen Textverarbeitung entwickeln (und miteinander verknüpfen) lassen. Im Gegensatz zu den bisher existierenden Anwendungen, UIMA und GATE, nutzt Tesla serverseitig Java APIs und clientseitig Eclipse. Die Nutzung dieser Technologien ermöglicht (in zukünftigen Versionen) u.a. Clustering (die Verarbeitung von großen Textmengen auf mehreren Servern) wodurch sich eine höhere Leistung erzielen lässt. Das System ist aus mehreren Bestandteilen aufgebaut, unter anderem gibt es die sogenannten Komponenten (components) und Rollen (roles). Komponenten in Tesla bilden spezialisierte Verarbeitungsmethoden mit Eingabe- und Ausgabemodulen ab, die mit jeweils anderen Komponenten verknüpft sind. Beispiele für Komponenten wären ein Tokenizer oder ein Lemmatisierer. Einzelne Aufgaben in der Komponente werden durch Rollen beschrieben. Die hier vorgestellte Interface-Hierarchie soll es ermöglichen, Texte aus verschiedenen Korpora, die entsprechend mit unterschiedlichen Tagsets getaggt wurden, einheitlich weiterzuverarbeiten. In Tesla gehört sie zur Rolle des Categorizers. Die Interfaces repräsentieren Wortarten und sind hierarchisch gegliedert, um die in 2.3 angesprochenen feineren Unterteilungen ebenfalls zu repräsentieren. Eine weitere Komponente, ein Parser, soll darauf aufbauend für die Eingliederung der Wörter aus den Korpora in die jeweilige Kategorie sorgen. 3.2 Umsetzung Grundlage für den Aufbau der Hierarchie waren folgende Tagsets: CLAWS5, STTS Tagset, Penn Treebank Tagset, TIGER Corpus Tagset sowie das Morphologiesystem MORPHY. Um einen Überblick zu erhalten wurden die Tagsets zunächst hinsichtlich ihrer Granulation betrachtet und mögliche Wortklassen mit Subkategorien notiert, so zum Beispiel die Wortklasse "Pronomen" mit den Subklassen "Demonstrativpronomen", "Personalpronomen", "Relativpronomen" etc. Des Weiteren wurden sämtliche Tags aus den verschiedenen Tagsets zu den jeweiligen Grundklassen zugeordnet diese Einteilung bildet die Grundlage für die Entwicklung eines entsprechenden Parsers (nicht Bestandteil dieser Arbeit). Um die Wortarten schließlich hierarchisieren zu können, mussten nicht nur Klassen und Subklassen gebildet, sondern auch gemeinsame und unterschiedliche Eigenschaften der jeweiligen Klassen 8

10 betrachtet werden. Hierfür wurden linguistische Fachlexika sowie persönliches linguistisches Wissen zu Rate gezogen. So ergab sich beispielsweise für die Wortart Adjektiv eine Unterteilung in attributive und prädikative Adjektive, die sich dahingehend unterscheiden, dass attributive Adjektive in Kasus, Numerus und Genus flektiert werden, während prädikative Adjektive unveränderbar sind. Beide teilen dagegen die Eigenschaft, dass sie komparierbar (steigerungsfähig) sind (Abb. 3.1). Abb. 3.1: Hierarchische Struktur des Adjektivs Ähnliche Skizzen wurden auch für die weiteren Wortarten angefertigt: Adposition, Adverb, Konjunktion, Determinierer, Interjektion, Nomen, Partikel, Pronomen und Verb. Die Strukturen wurden dann folgendermaßen in Eclipse abgebildet: Für jede der Basiswortarten wurde ein Interface definiert, wobei jedes Interface vom Marker-Interface IHierarchicalSyntacticalCategory erbt. Speziellere Wortarten erben nun von ihren Basiswortarten, beispielsweise IAttributive von IAdjective. Zusätzlich zu den Interfaces für Wortarten wurden spezielle Marker-Interfaces definiert, die Eigenschaften der Wortarten repräsentieren und teilweise Methoden bereitstellen, so etwa das Interface HasGender, von dem alle Wortarten erben, die nach Genus flektieren, und welches Methoden zur Ausgabe (getgender()) des Genus oder zum Abgleich mit dem Genus eines anderen Wortes bereitstellt. Die Basis-Interfaces sind größtenteils inhaltsleer oder stellen wie ausgeführt einige Grundoperationen zur Verfügung. Dies ist auf dem Anspruch der Allgemeingültigkeit und Erweiterbarkeit der Hierarchie begründet. Prinzipiell soll es möglich sein, eine Hierarchie für eine spezielle Sprache oder Sprachfamilie zu entwerfen, die von der Basishierarchie abgeleitet ist und 9

11 zusätzlich zur bereits gegebenen Modellierung morphologische Eigenheiten der jeweiligen Sprache (Sprachfamilie) abbildet. Im hier vorgestellten Entwurf wurde dies bereits für die Indoeuropäische Sprachfamilie durchgeführt. Der Effekt lässt sich am Beispiel des Kasus demonstrieren: Während das Basis-Interface IsCaseAware lediglich Methoden zur Ausgabe und zum Vergleich von Kasus bereitstellt (da darüber hinaus keine weiteren allgemeingültigen Aussagen zum Kasus in allen Sprachen getroffen werden kann), ist es über die Implementation von IsIndoEuCase bereits möglich, auf bestimmte Kasus zu testen, d.h. zu testen, ob ein Wort in einem der acht indoeuropäischen Kasus 9 steht. Die Hierarchie ist in dem hier vorgestellten Zustand noch nicht komplett so muss beispielsweise noch eine genaue Dokumentation hinzugefügt werden. Auch ist es möglich, dass die Struktur stellenweise noch verändert werden muss, was sich erst in zukünftigen Tests zeigen wird. 9 Nominativ, Genitiv, Dativ, Akkusativ, Lokativ, Vokativ, Instrumental und Ablativ. 10

12 4. Fazit Part-of-speech Tagging wird bereits seit mehreren Jahrzehnten im NLP untersucht und bis heute wird viel in diesem Bereich geforscht und entwickelt. Über immer neue Ansätze (z.b. über Support Vector Machines oder Entscheidungsbäume) und die Kombinierung bereits vorhandener Ideen versuchen Computerlinguisten, die Ergebnisse ihrer Tagger weiter zu verbessern. Die für das Tagging verwendeten Tagsets sind sehr uneinheitlich und unterscheiden sich in mehreren Punkten wie im Umfang und in der Schwerpunktsetzung. Einige Tagsets erlauben es dem Tagger auch, die endgültige Entscheidung für eine Wortart dem Benutzer zu überlassen, indem die Kombination mehrerer Tags möglich ist. Vergleiche zwischen mit verschiedenen Tagsets getaggten Korpora sind nicht möglich. Außerdem besteht zwar in vielen Tagsets eine implizite, aber keine explizite Strukturierung, sodass kein direkter Zusammenhang zwischen beispielsweise einem Partizip und einem Infinitiv erkennbar ist, obwohl beide infinite Verbformen sind und damit gewisse Eigenschaften teilen. Die hier vorgestellte Interfacehierarchie für das System Tesla versucht, dieses Problem zu lösen. Wörter aus Korpora, die mit verschiedenen Tagsets annotiert wurden, werden über einen Parser in eine einheitliche Hierarchie überführt, über die weitere linguistische Analysen einheitlich möglich gemacht werden. Die Lösung ist bisher unvollständig und möglicherweise auch teilweise verbesserungswürdig. Es wird sich erst in der Zukunft zeigen, ob eine solche allgemeine Hierarchie als Modell auch für alle Sprachen bzw. Sprachfamilien außer der Indoeuropäischen verwendet werden kann. 11

13 5. Bibliographie ATWELL, Eric "Development of Tag Sets for Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton BIEMANN, Chris "Unsupervised Part-of-Speech Tagging in the Large." In: GABBAY, D.M. & Shuly WINTNER (eds.). Research on Language & Computation. (RoLC, 7). Dordrecht: Springer URL: HERMES, Jürgen & Stephan SCHWIEBERT. TESLA. Köln: Universität, Institut für Linguistik. URL: MANNING, Christopher D. & Hinrich SCHÜTZE Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. NUGUES, Pierre M An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German. (Cognitive Technologies). Berlin u.a.: Springer. POEL, Mannes et al "A Support Vector Machine Approach to Dutch Part-of-Speech Tagging." In: BERTHOLD, Michael R. et al. (eds.). Advances in Intelligent Data Analysis VII: 7th International Symposium on Intelligent Data Analysis, IDA 2007, Ljubljana, Slovenia, September 6-8, Proceedings. (Lecture Notes in Computer Science, 723.) Berlin u.a.: Springer SCHMID, Helmut "Tokenizing and Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton VOUTILAINEN, Atro "Part-of-Speech Tagging." In: Mitkov, Ruslan (ed.). The Oxford Handbook of Computational Linguistics. Oxford u.a.: Oxford University Press

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Einführung in die Computerlinguistik. Morphologie III

Einführung in die Computerlinguistik. Morphologie III Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III

Mehr

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines

Mehr

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Lexikalisch-semantische Disambiguierung mit WordNet

Lexikalisch-semantische Disambiguierung mit WordNet Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische

Mehr

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Natürlichsprachliche Systeme I Materialien zur Vorlesung Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische

Mehr

Proseminar Linguistische Annotation

Proseminar Linguistische Annotation Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation

Mehr

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen

Mehr

Knowledge-Based system. Inference Engine. Prof. Dr. T. Nouri.

Knowledge-Based system. Inference Engine. Prof. Dr. T. Nouri. 12.01.2008 Knowledge-Based system Inference Engine Prof. Dr. T. Nouri Taoufik.Nouri@FHN.CH 2 / 30 Inhalt Grundlagen Wozu Inference? Aufbau Knowledge Based System Strategien für Folgerungen Suchstrategien

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Einführung in die Grammatik der deutschen Gegenwartssprache

Einführung in die Grammatik der deutschen Gegenwartssprache Karl-Ernst Sommerfeldt / Günter Starke Einführung in die Grammatik der deutschen Gegenwartssprache 3., neu bearbeitete Auflage unter Mitwirkung von Werner Hackel Max Niemeyer Verlag Tübingen 1998 Inhaltsverzeichnis

Mehr

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier: Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das Grammatikfundament: Wortarten Das komplette Material finden Sie hier: School-Scout.de Uta Livonius Das Grammatikfundament: Wortarten

Mehr

Deutsche Grammatik Grundfragen und Abriß

Deutsche Grammatik Grundfragen und Abriß Gerhard Heibig Deutsche Grammatik Grundfragen und Abriß iudicium vertag INHALTSVERZEICHNIS 1. ZUM BEGRIFF DER GRAMMATIK 11 2. DAS WORT 14 2.1. Wortarteneinteilung 14 2.1.1. Kriterien für die Wortartenklassifizierung

Mehr

Computer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen

Computer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen Research Collection Doctoral Thesis Computer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen Author(s): Klossner, Jürg Publication Date: 1985 Permanent Link: https://doi.org/10.3929/ethz-a-000342601

Mehr

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria

Mehr

Supplementary material for Who never tells a lie? The following material is provided below, in the following order:

Supplementary material for Who never tells a lie? The following material is provided below, in the following order: Supplementary material for Who never tells a lie? The following material is provided below, in the following order: Instructions and questionnaire used in the replication study (German, 2 pages) Instructions

Mehr

Zurich Open Repository and Archive. Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen in gerichteten Netzwerken

Zurich Open Repository and Archive. Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen in gerichteten Netzwerken University of Zurich Zurich Open Repository and Archive Winterthurerstr. 190 CH-8057 Zurich http://www.zora.uzh.ch Year: 2008 Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Einführung in die Computerlinguistik POS-Tagging

Einführung in die Computerlinguistik POS-Tagging Einführung in die Computerlinguistik POS-Tagging Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2013 POS Tags (1) POS = part-of-speech Tags sind morphosyntaktische Kategorien von Wortformen.

Mehr

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Einführung Computerlinguistik. Was ist ein Wort?

Einführung Computerlinguistik. Was ist ein Wort? Einführung Computerlinguistik Was ist ein Wort? Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-18 Schütze & Zangenfeind: Was ist ein Wort? 1

Mehr

Einführung in die Computerlinguistik. Morphologie II

Einführung in die Computerlinguistik. Morphologie II Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1

Mehr

RESI A Natural Language Specification Improver

RESI A Natural Language Specification Improver Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 RESI A Natural Language Specification Improver Dipl. Inform. Sven J. Körner Torben Brumm Prof. Dr. Walter F. Tichy Institute for Programming

Mehr

Harry gefangen in der Zeit Begleitmaterialien

Harry gefangen in der Zeit Begleitmaterialien Episode 011 Grammar 1. Plural forms of nouns Most nouns can be either singular or plural. The plural indicates that you're talking about several units of the same thing. Ist das Bett zu hart? Sind die

Mehr

Die Dokumentation kann auf einem angeschlossenen Sartorius Messwertdrucker erfolgen.

Die Dokumentation kann auf einem angeschlossenen Sartorius Messwertdrucker erfolgen. Q-App: USP V2 Bestimmung des Arbeitsbereiches von Waagen gem. USP Kapitel 41. Determination of the operating range of balances acc. USP Chapter 41. Beschreibung Diese Q-App ist zur Bestimmung des Arbeitsbereiches

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive

Mehr

ABSCHNITT I EINLEITUNG

ABSCHNITT I EINLEITUNG 1 ABSCHNITT I EINLEITUNG A. Hintergrund des Problems Sprache wird von allen genutzt, um ihre Wünsche, Ideen und Überlegungen zu äußern. Außerdem benutzen Menschen auch Sprache, damit sie miteinander in

Mehr

TnT - Statistischer Part-of- Speech Tagger

TnT - Statistischer Part-of- Speech Tagger TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen

Mehr

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28

Mehr

Vorbesprechung Mathe III

Vorbesprechung Mathe III Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung

Mehr

ENGLISCHER SPRACHGEBRAUCH UND ENGLISCHE SCHULGRAMMATIK

ENGLISCHER SPRACHGEBRAUCH UND ENGLISCHE SCHULGRAMMATIK ENGLISCHER SPRACHGEBRAUCH UND ENGLISCHE SCHULGRAMMATIK i Beobachtungen und Ergänzungen von FRITZ FIEDLER LANGENSCHEIDT BERLIN MÜNCHEN ZÜRICH INHALTSVERZEICHNIS Seite Geleitwort 5 Vorwort 7 Inhaltsverzeichnis

Mehr

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Inhalt.

Inhalt. Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes Falko Error annotations in Falko 2.x Marc Reznicek & Cedric Krummes Symposium What s Hard in German? Structural Difficulties, Research Approaches and Pedagogic Solutions Bangor University Monday and Tuesday,

Mehr

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive

Mehr

atttributive Adjektive das die attributiven Adjektive attributive adjectives das blaue Haus --- ist nicht relevant--

atttributive Adjektive das die attributiven Adjektive attributive adjectives das blaue Haus --- ist nicht relevant-- Substantiv Die Substantive Das Pronomen, Nomen noun Lehrerin, der Spiegel, Dorf, Freiheit Groß geschrieben, Genus, Kasus, und dekliniert oder flektiertgroß geschrieben, Genus, Kasus, und dekliniert oder

Mehr

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung. Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen

Mehr

"What's in the news? - or: why Angela Merkel is not significant

What's in the news? - or: why Angela Merkel is not significant "What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um

Mehr

Vorlesung Morphologie Flexion

Vorlesung Morphologie Flexion Vorlesung Morphologie 13.6. - Flexion Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 Vertretung: Hagen Hirschmann Flexion Inhalte heute Flexionskategorien & Paradigmata Nomen Adjektive

Mehr

Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung

Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung functions in SysML 2.0 La Jolla, 22.05.2014 12/10/2015 Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung Dipl. Wirtsch.-Ing. Christian Muggeo Dipl. Wirtsch.-Ing. Michael

Mehr

Grade 12: Qualifikationsphase. My Abitur

Grade 12: Qualifikationsphase. My Abitur Grade 12: Qualifikationsphase My Abitur Qualifikationsphase Note 1 Punkte Prozente Note 1 15 14 13 85 % 100 % Note 2 12 11 10 70 % 84 % Note 3 9 8 7 55 % 69 % Note 4 6 5 4 40 % 54 % Note 5 3 2 1 20 % 39

Mehr

Der Viterbi Algorithmus

Der Viterbi Algorithmus M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes

Mehr

RAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB.

RAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB. Ansätze des Tagging Ein Seminarreferat, vorgestellt von Alexander Valet, Christian Pretzsch und Vanessa Micelli im Rahmen des Hauptseminars Parsing bei Dr. Karin Haenelt im SS 2003 an der Ruprecht-Karls

Mehr

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

Exploring the knowledge in Semi Structured Data Sets with Rich Queries Exploring the knowledge in Semi Structured Data Sets with Rich Queries Jürgen Umbrich Sebastian Blohm Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 www.kit.ed Overview

Mehr

Informationsextraktion

Informationsextraktion Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Paul Prasse Michael Großhans NLP- (Natural Language Processing-) Pipeline Folge von Verarbeitungsschritten

Mehr

Lehrveranstaltungen im Wintersemester 2012/2013

Lehrveranstaltungen im Wintersemester 2012/2013 Lehrveranstaltungen im Wintersemester 2012/2013 Information Systems and Machine Learning Lab (ISMLL) Prof. Dr. Dr. Lars Schmidt-Thieme Hildesheim, Juli 2012 1 / 1 Übersicht Praktika Hildesheim, Juli 2012

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung

Mehr

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora

Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was

Mehr

Java Tools JDK. IDEs. Downloads. Eclipse. IntelliJ. NetBeans. Java SE 8 Java SE 8 Documentation

Java Tools JDK. IDEs.  Downloads. Eclipse. IntelliJ. NetBeans. Java SE 8 Java SE 8 Documentation Java Tools JDK http://www.oracle.com/technetwork/java/javase/ Downloads IDEs Java SE 8 Java SE 8 Documentation Eclipse http://www.eclipse.org IntelliJ http://www.jetbrains.com/idea/ NetBeans https://netbeans.org/

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo Matthias Grimm, Dr. Michael Meyer zu Hörste Vortragstitel > 11. Juni 2010 > Folie 1 Agenda

Mehr

Maschinelle Sprachverarbeitung Tokenisierung

Maschinelle Sprachverarbeitung Tokenisierung Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die

Mehr

Semi-automatische Ontologieerstellung mittels TextToOnto

Semi-automatische Ontologieerstellung mittels TextToOnto Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Seminar: Software Engineering verteilter Systeme

Seminar: Software Engineering verteilter Systeme Seminar: Software Engineering verteilter Systeme Hauptseminar im Sommersemester 2011 Programmierung verteilter Systeme Institut für Informatik Universität Augsburg 86135 Augsburg Tel.: +49 821 598-2118

Mehr

A Schema for Augmented Text

A Schema for Augmented Text Appendix A Schema for Augmented Text This schema defines the elements and attributes that are added to a document during linguistic preprocessing (cf. Sec. 12.1). # A RELAX NG compact syntax pattern for

Mehr

WAS IST DER KOMPARATIV: = The comparative

WAS IST DER KOMPARATIV: = The comparative DER KOMPATATIV VON ADJEKTIVEN UND ADVERBEN WAS IST DER KOMPARATIV: = The comparative Der Komparativ vergleicht zwei Sachen (durch ein Adjektiv oder ein Adverb) The comparative is exactly what it sounds

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München

Centrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München # 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Embedded Computing Conference 2017 Abstracts Stream 1 "Hardware"

Embedded Computing Conference 2017 Abstracts Stream 1 Hardware Abstracts Stream 1 "" Abstract en Email Firma Entscheidungsträger Entwickler Produktmanager Beschreibung (mind.200-300 Zeichen) Seite 1 von 1 Abstract Hochschulen en Email Hochschule Entscheidungsträg

Mehr

Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann

Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann Institut für Informationssysteme Technische Universität Braunschweig Example: Main Tower Main

Mehr

Wort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert

Wort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert Wort flektierbar nicht flektierbar nach Person, Numerus, Modus, Tempus, Genus verbi flektiert genufest nach Genus, Kasus, Numerus flektiert genusveränderlich komparierbar nicht komparierbar Verb Substantiv

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09 Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl

Mehr

FAKULTÄT FÜR SPRACH-, LITERATUR- UND

FAKULTÄT FÜR SPRACH-, LITERATUR- UND Dr. Max Mustermann Lehrstuhl Referat Kommunikation für Medieninformatik & Marketing FAKULTÄT Verwaltung FÜR SPRACH-, LITERATUR- UND Introducing PaLaFra A Project on the Creation and Analysis of an Electronic

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr