Hausarbeit. Seminar: Computerlinguistik II. Dozent: Jürgen Hermes M.A. Sommersemester 2010
|
|
- Insa Flater
- vor 6 Jahren
- Abrufe
Transkript
1 Universität zu Köln Institut für Linguistik Abteilung Sprachliche Informationsverarbeitung Hausarbeit Seminar: Computerlinguistik II Dozent: Jürgen Hermes M.A. Sommersemester 2010 Thema: Part-of-Speech Tagging und die Entwicklung einer Interface- Hierarchie von Wortarten für das Projekt TESLA vorgelegt von: Mandy Neumann Matrikelnr.: Köln, den
2 Inhaltsverzeichnis 1. Einleitung Part-of-Speech Tagging Parts of Speech Tagging Tagsets Praxis: Entwurf einer Interface-Hierarchie für TESLA Zielsetzung Umsetzung Fazit Bibliographie... 12
3 1. Einleitung Gegenstand der vorliegenden Arbeit ist das sogenannte Part-of-Speech-Tagging, ein Teilbereich der maschinellen Sprachverarbeitung (Natural Language Processing NLP), sowie eine damit verbundene praktische Implementation einer Wortartenhierarchie in TESLA. Die Arbeit ist wie folgt aufgebaut: Zunächst wird der Begriff Part-of-Speech-Tagging in seinen Bestandteilen erläutert (2.). Dabei wird oberflächlich auf Geschichte und Modellierungsansätze von Taggern eingegangen sowie anschließend ein Überblick über verschiedene aktuelle und bedeutende Tagsets gegeben. Anschließend wird die für TESLA entworfene Interface-Hierarchie vorgestellt und ihre Entwicklung und ihr Design in einigen Punkten beispielhaft erläutert (3.). Den Abschluss der Arbeit bildet das Fazit mit einem Ausblick, wie die Hierarchie weiter verbessert und angepasst werden könnte (4.). 2
4 2. Part-of-Speech Tagging 2.1 Parts of Speech Mit Parts of Speech, wörtlich "Redeteile", bezeichnet man in Sprachwissenschaft und Sprachverarbeitung die verschiedenen Wortarten. Die Idee, sprachliche Zeichen nach bestimmten Kriterien in Klassen einzuteilen, ist eine der ältesten in der Linguistik sie reicht bis in die Antike zurück. Die ersten bekannten Einteilungen gehen auf Platon und Aristoteles zurück, die klassische Lehre der acht Wortarten 1, auf der die weiteren Klassifizierungsversuche basieren, begründete Dyonisius Thrax (2. Jh. v. Chr.). Heute schwankt die Zahl der Wortklassen bei verschiedenen Grammatikern, da die Einteilungskriterien sehr uneinheitlich sind. So lassen sich Wörter nach morphologischen, syntaktischen oder semantischen Kriterien klassifizieren, wobei es zu Überlappungen und Widersprüchen kommen kann. Gängig ist allerdings die Einteilung nach (morpho-)syntaktischen Gesichtspunkten: "[T]he most valid criteria for parts of speech seem to be grammatical (rather than semantic): (i) syntactic distribution, (ii) syntactic function and (iii) the morphological and syntactic classes that different parts of speech can be assigned to." (Voutilainen 2003:220) Eine grundsätzliche Differenzierung zwischen den Wortarten besteht in der Abgrenzung von offenen und geschlossenen Klassen. Geschlossene Klassen sind solche, deren Inhalte eher starr und historisch gewachsen sind, während offene Klassen ständig produktiv durch Wortbildungsmechanismen erweitert werden können. Zu den geschlossenen Klassen zählen also beispielsweise Pronomina und Konjunktionen, zu den offenen Nomina, Adjektive und Verben. Eine universale Bestimmung von Wortarten scheint bisher unmöglich. So gibt es beispielsweise Sprachen, die keine Adjektive im Sinne der lateinischen Schulgrammatik haben oder solche, bei denen keine Nomen-Verb-Distinktion bestimmbar ist. Die Grammatiker dieser Sprachen können die klassischen Wortartensysteme daher nicht einfach übertragen. 2.2 Tagging Der Begriff Tagging bezeichnet einen Vorgang, Daten jeglicher Art mit einem Bezeichner, dem sogenannten Tag, zu annotieren. Im konkreten Fall des Part-of-Speech-Taggings (kurz: PoS-Tagging, im spezifischen Kontext kann man auch einfach von Tagging sprechen) werden Wörter 2 Textkorpora mit Tags versehen, die ihre jeweilige Wortart kennzeichnen. Der Vorgang erfolgt automatisch mit Hilfe eines Taggers. "A part-of-speech (POS) tagger is a program which annotates in 1 Nomina, Konjunktionen, Verben, Artikel, Partizipien, Präpositionen, Pronomina und Adverbien. 2 Genauer: Tokens. 3
5 text with part-of-speech information." (Schmid 2008:540) Die Tags beinhalten allerdings meist noch etwas mehr Information als allein die Wortart, mehr dazu siehe Abschnitt 2.3. PoS-Tagging ist deshalb ein wichtiger Bereich in der maschinellen Sprachverarbeitung, weil viele Systeme auf dieser Art von "low-level" Information aufbauen. So kann ein guter Tagger beispielsweise Präprozessor für weitere abstrakte Analysen sein (Voutilainen 2003:220). Mit linguistischer Information angereicherte Korpora seien im Allgemeinen wertvolle Forschungsressourcen (Voutilainen 2003, Atwell 2008). Technologien wie Information Retrieval (Voutilainen 2003), Information Extraction, Fragebeantwortung (Manning & Schütze 2003), Eigennamenerkennung, Parsing (Biemann 2010, Poel et al. 2007) etc. profitieren ebenfalls von dieser Art gegebener Information. Manning und Schütze weisen allerdings auch darauf hin, dass inzwischen gut entwickelte Parser sogar besser auf ungetaggtem als auf getaggtem Text operieren können (vgl. Manning & Schütze 2003). Voutilainen datiert den Beginn der Beschäftigung mit Tagging in der maschinellen Sprachverarbeitung auf die späten 50er des vorigen Jahrhunderts. "The earliest disambiguators used hand-codes disambiguation rules." In den späten 70ern seien dann die datengesteuerten statistischen Tagger der nächste große Schritt gewesen. Im weiteren Verlauf habe es viele verschiedene Ansätze gegeben, um Tagging möglichst effizient zu gestalten. Kürzlich seien auch hybride Lösungen untersucht worden, in denen Methoden der regelbasierten und der statistischen Ansätze für größere Effizienz kombiniert werden. (vgl. Voutilainen 2003:232f.) "Today, there is a wide range of statistical taggers * +, rule-based taggers using manually written rules * + and automatically induced rules * +, and other types of taggers" (Schmid 2008:541) Für das Design eines Taggers gibt es also zwei grundsätzliche Typen von Ansätzen: die regelbasierten sowie die statistischen (oder auch: probabilistische und non-probabilistische) Ansätze, wobei auch nach Nugues die regelbasierten Ansätze die älteren sind. "Part-of-speech tagging with rules is relatively old * +. In the beginning, rules were hand-coded and yielded good results at the expense of thoroughly and painfully crafting the rules * +. The field has been completely renewed by Brill * +, who proposed a very simple scheme to tag a text with rules and an algorithm to learn automatically the rules from annotated corpora. A good deal of the current work on part-of-speech tagging with rules is now inspired by his foundational work." (Nugues 2006:149) Im Prinzip handelt es sich bei Tagging um eine Form der Disambiguierung viele Wörter sind zunächst hinsichtlich ihrer Wortart ambig, können also je nach Kontext unterschiedlichen Wortarten zugehörig sein, und diese Ambiguität wird aufgelöst, indem über einen bestimmten Algorithmus bestimmt wird, welches die korrekte Wortart im spezifischen Kontext ist. (vgl. Voutilainen 2003:222, 4
6 Manning & Schütze 2003:341) Poel bezeichnet PoS-Tagging daher auch als word class disambiguation (Poel 2007:274). In non-probabilistischen Modellen erfolgt die Disambiguierung über (handgeschriebene oder automatisch erlernte) Regeln, die den rechten und linken Kontext eines Wortes betrachten und anhand dessen entscheiden, ob ein bestimmtes Tag verworfen bzw. ersetzt werden muss. Der bekannteste Vertreter regelbasierter Tagger ist das sogenannte Transformation-based Tagging von E. Brill. Probabilistische Modelle verwenden Statistiken über Tags und Tagsequenzen, um einem Wort sein wahrscheinlichstes Tag zuzuweisen. Selbst Wörter, die mehreren Wortarten zugehörig sein können, haben stets eine starke Präferenz für eine bestimmte Wortart, und diese Präferenz wird im statistischen Modell als Wahrscheinlichkeit eines bestimmten Tags berechnet. Hinzu kommt die Berechnung der Wahrscheinlichkeit einer Tagsequenz, also des Auftretens bestimmter Tags in einer Reihe. Die Wahrscheinlichkeit einer Tagsequenz für eine gegebene Wortsequenz ist also das Produkt kontextueller und lexikalischer Wahrscheinlichkeiten. Die Tagsequenz ist meist nur zwei bis drei Glieder lang, dennoch liefern die Tagger damit sehr exakte Ergebnisse. Dass ein so beschränkter Kontext ausreicht, wurde bereits Ende des 19. Jahrhunderts von Andrei Markov untersucht, weshalb man eine solche Kette Markov-Kette und das entsprechende Modell Markov-Modell nennt. Eine Weiterentwicklung des Markov-Modells ist das Hidden-Markov-Model (HMM), mit dessen Hilfe der Tagger auch ohne ein bereits annotiertes Trainingskorpus trainiert werden kann. Auf die Einzelheiten der Algorithmen soll an dieser Stelle nicht weiter eingegangen werden. Es gibt viele Argumente für und wider die Anwendung einer bestimmten Art von Tagger. Letztlich muss zwischen den Vor- und Nachteilen eines bestimmten Modells abgewogen werden. What finally decides which tagger to use is often its suitability for the intended application. (Voutilainen 2003:223) Bis heute werden Tagger ständig modifiziert, um ihre Präzision weiter zu erhören und damit schließlich nahezu zu 100% korrekt getaggte Korpora zu erhalten. Bisher liegt die Genauigkeit der Tagger im Bereich 95-97% Tagsets Damit der Tagger die Wörter eines gegebenen Textkorpus mit linguistischer Information annotieren kann, müssen die zu verwendenden Tags natürlich im Vorfeld definiert werden. Die definierte Liste der grammatischen Labels nennt man Tagset. Hierbei gibt es nicht ein bestimmtes Tagset für alle Tagger, sondern eine Reihe mitunter sehr verschiedener. Kein Tagset beschränkt sich tatsächlich nur 3 Die Genauigkeit von 90% ist die sogenannte "Base Line" (Quelle), die jeder Tagger allein dadurch erreicht, dass für ein Wort seine einzige bzw. seine am häufigsten auftretende Wortart ausgewählt wird, ohne andere Faktoren zu beachten (vgl. Nugues 2006:148). 5
7 auf die acht Wortarten der lateinischen Schulgrammatik: In Fact, parts of speech usually are only a part of the information that POS taggers produce. Inflectional and lexico-semantic information (e.g. the distinction between common and proper noun) is also often produced (Voutilainen 2003:220; vgl. auch Atwell 2008:504f.). Die verschiedenen Tagsets unterscheiden sich daher dahingehend, wie fein sie verschiedene Unterscheidungen ausdrücken und wo ihre Schwerpunkte liegen. Atwell fasst die Kriterien zusammen, die bei der Entwicklung eines Tagsets beachtet werden: [C]riteria used in development of English 4 corpus part-of-speech tag sets: mnemonic tag names; underlying linguistic theory; classification by form or function; analysis of idiosyncratic words; categorization problems; tokenisation issues: defining what counts as a word; multi-word lexical items; target user and/or application; availability and/or adaptability of tagger software; adherence to standards; variations in genre, register, or type of language; and degree of delicacy of the tag set. (Atwell 2008:502) Ein Tagset ist außerdem immer sprachspezifisch, da die Entscheidung, mit welchem Tag ein Wort versehen wird und wie die Tags voneinander abzugrenzen sind, von den grammatischen Gegebenheiten abhängt. "Although it is sometimes possible to map tagsets from one language to another, there is no universal scheme, even within the same language." (Nugues 2006:156) Des Weiteren hängt das Design des Tagsets sicher auch davon ab, an welcher linguistischen Theorie man sich orientiert. Ein in dieser Hinsicht neutrales Tagset könne es nicht geben (vgl. Atwell 2008:507). Die Einteilung der Tags erfolgt meist über Funktion, teilweise auch über Form. Die intendierte Anwendung übt schließlich auch einen gewissen Einfluss auf das Design des Tagsets aus. Die im Set festgelegten Tags müssen des Weiteren genau spezifiziert werden. Hierfür verwendet man das sogenannte "tagging scheme" (Atwell 2008:501f.) bzw. "tagging guidelines" (Schmid 2008:547). Sie gewährleisten Konsistenz und dienen zur Dokumentation. Idealerweise wird ein Korpus zunächst von mehreren Linguisten per Hand annotiert und anschließend das Ergebnis diskutiert. Am Ende sollte ein Tagset stehen, in dem jedes Tag klar definiert ist und es weder Überschneidungen noch offene Fälle gibt. Auch wenn alle Tagsets deutlich über acht Tags hinausgehen, sollte schließlich noch ein weiteres Kriterium gewahrt werden: "All tags in the tagset must be frequent enough to allow the tagger to learn their disambiguation from the training data." (Schmid 2008:546f.) Die meisten der bekanntesten Tagsets wurden für das Englische entwickelt. Historisch am einflussreichsten war das Brown Tag Set, für britisches Englisch waren und sind die Tagsets des BNC 5, genannt CLAWS, weit verbreitet. Heute wird auch das Penn Treebank Tag Set häufig verwendet. Im deutschsprachigen Raum hat sich vor allem das STTS (Stuttgart-Tübingen Tagset) durchgesetzt. 4 Englisch war die erste von Korpuslinguisten untersuchte Sprache, daher existieren für das Englische besonders viele verschiedene Tagsets. 5 British National Corpus. 6
8 Das Tagset für das BNC wurde unter dem Namen CLAWS1 in den späten 1970er Jahren an der Universität von Lancester entwickelt (vgl. Voutilainen 2003:224). Es wurde mehrfach überarbeitet und liegt aktuell in den Versionen CLAWS5 ("BNC Basic Tagset") und CLAWS7 ("BNC Enriched Tagset") vor 6. CLAWS5 weist 62 Tags auf, wobei besonders feine Unterscheidungen für Verben ausgedrückt werden. Noch größer und detailreicher ist CLASW7. Im Tagset für das Deutsche, STTS 7, finden sich 52 Tags, von denen die meisten für Formen von Verben und Pronomina verwendet werden. Die Tags sind in fünfzehn "Grundtags" eingeteilt, hier wird also ebenfalls die klassische Wortartenlehre erweitert (beispielsweise um Kardinalzahlen als eigene Kategorie zu behandeln). Das Penn Treebank Tagset 8 ist von den bekannteren und in dieser Arbeit verwendeten Tagsets eines der kleineren mit nur 36 verschiedenen Tags. Die Tagsets bilden oft implizit eine gewisse Beziehung zwischen mehreren Tags ab. Die Tags werden nicht einfach mit einem beliebigen Code bezeichnet die Namen folgen meist bestimmten Regeln und sind oft symbolisch und damit intuitiv verständlich. So besteht beispielsweise ein Tag in CLAWS aus drei Zeichen, wobei die ersten beiden die generelle Wortart angeben (z.b. DT für Determiner oder AJ für Adjective) und das dritte Zeichen eine Subkategorie angibt (z.b. AJC für Comparative Adjective). Die Tags im STTS folgen einem ähnlichen Schema beispielsweise bezeichnen alle Tags, die mit einem P beginnen, eine Art von Pronomen, konkret z.b. PDS ein substituierendes, PDA ein attribuierendes Demonstrativpronomen
9 3. Praxis: Entwurf einer Interface-Hierarchie für TESLA 3.1 Zielsetzung "Tesla (Text Engineering Software Laboratory) ist ein virtuelles Labor, das eine grundlegende Infrastruktur für die Verarbeitung beliebiger textueller Daten bereitstellt." (Hermes, Schwiebert) Damit stellt Tesla Sprachforschern ein komponenten- und rollenbasiertes Framework zur Verfügungung, mit dem sich Komponenten zur sprachlichen Textverarbeitung entwickeln (und miteinander verknüpfen) lassen. Im Gegensatz zu den bisher existierenden Anwendungen, UIMA und GATE, nutzt Tesla serverseitig Java APIs und clientseitig Eclipse. Die Nutzung dieser Technologien ermöglicht (in zukünftigen Versionen) u.a. Clustering (die Verarbeitung von großen Textmengen auf mehreren Servern) wodurch sich eine höhere Leistung erzielen lässt. Das System ist aus mehreren Bestandteilen aufgebaut, unter anderem gibt es die sogenannten Komponenten (components) und Rollen (roles). Komponenten in Tesla bilden spezialisierte Verarbeitungsmethoden mit Eingabe- und Ausgabemodulen ab, die mit jeweils anderen Komponenten verknüpft sind. Beispiele für Komponenten wären ein Tokenizer oder ein Lemmatisierer. Einzelne Aufgaben in der Komponente werden durch Rollen beschrieben. Die hier vorgestellte Interface-Hierarchie soll es ermöglichen, Texte aus verschiedenen Korpora, die entsprechend mit unterschiedlichen Tagsets getaggt wurden, einheitlich weiterzuverarbeiten. In Tesla gehört sie zur Rolle des Categorizers. Die Interfaces repräsentieren Wortarten und sind hierarchisch gegliedert, um die in 2.3 angesprochenen feineren Unterteilungen ebenfalls zu repräsentieren. Eine weitere Komponente, ein Parser, soll darauf aufbauend für die Eingliederung der Wörter aus den Korpora in die jeweilige Kategorie sorgen. 3.2 Umsetzung Grundlage für den Aufbau der Hierarchie waren folgende Tagsets: CLAWS5, STTS Tagset, Penn Treebank Tagset, TIGER Corpus Tagset sowie das Morphologiesystem MORPHY. Um einen Überblick zu erhalten wurden die Tagsets zunächst hinsichtlich ihrer Granulation betrachtet und mögliche Wortklassen mit Subkategorien notiert, so zum Beispiel die Wortklasse "Pronomen" mit den Subklassen "Demonstrativpronomen", "Personalpronomen", "Relativpronomen" etc. Des Weiteren wurden sämtliche Tags aus den verschiedenen Tagsets zu den jeweiligen Grundklassen zugeordnet diese Einteilung bildet die Grundlage für die Entwicklung eines entsprechenden Parsers (nicht Bestandteil dieser Arbeit). Um die Wortarten schließlich hierarchisieren zu können, mussten nicht nur Klassen und Subklassen gebildet, sondern auch gemeinsame und unterschiedliche Eigenschaften der jeweiligen Klassen 8
10 betrachtet werden. Hierfür wurden linguistische Fachlexika sowie persönliches linguistisches Wissen zu Rate gezogen. So ergab sich beispielsweise für die Wortart Adjektiv eine Unterteilung in attributive und prädikative Adjektive, die sich dahingehend unterscheiden, dass attributive Adjektive in Kasus, Numerus und Genus flektiert werden, während prädikative Adjektive unveränderbar sind. Beide teilen dagegen die Eigenschaft, dass sie komparierbar (steigerungsfähig) sind (Abb. 3.1). Abb. 3.1: Hierarchische Struktur des Adjektivs Ähnliche Skizzen wurden auch für die weiteren Wortarten angefertigt: Adposition, Adverb, Konjunktion, Determinierer, Interjektion, Nomen, Partikel, Pronomen und Verb. Die Strukturen wurden dann folgendermaßen in Eclipse abgebildet: Für jede der Basiswortarten wurde ein Interface definiert, wobei jedes Interface vom Marker-Interface IHierarchicalSyntacticalCategory erbt. Speziellere Wortarten erben nun von ihren Basiswortarten, beispielsweise IAttributive von IAdjective. Zusätzlich zu den Interfaces für Wortarten wurden spezielle Marker-Interfaces definiert, die Eigenschaften der Wortarten repräsentieren und teilweise Methoden bereitstellen, so etwa das Interface HasGender, von dem alle Wortarten erben, die nach Genus flektieren, und welches Methoden zur Ausgabe (getgender()) des Genus oder zum Abgleich mit dem Genus eines anderen Wortes bereitstellt. Die Basis-Interfaces sind größtenteils inhaltsleer oder stellen wie ausgeführt einige Grundoperationen zur Verfügung. Dies ist auf dem Anspruch der Allgemeingültigkeit und Erweiterbarkeit der Hierarchie begründet. Prinzipiell soll es möglich sein, eine Hierarchie für eine spezielle Sprache oder Sprachfamilie zu entwerfen, die von der Basishierarchie abgeleitet ist und 9
11 zusätzlich zur bereits gegebenen Modellierung morphologische Eigenheiten der jeweiligen Sprache (Sprachfamilie) abbildet. Im hier vorgestellten Entwurf wurde dies bereits für die Indoeuropäische Sprachfamilie durchgeführt. Der Effekt lässt sich am Beispiel des Kasus demonstrieren: Während das Basis-Interface IsCaseAware lediglich Methoden zur Ausgabe und zum Vergleich von Kasus bereitstellt (da darüber hinaus keine weiteren allgemeingültigen Aussagen zum Kasus in allen Sprachen getroffen werden kann), ist es über die Implementation von IsIndoEuCase bereits möglich, auf bestimmte Kasus zu testen, d.h. zu testen, ob ein Wort in einem der acht indoeuropäischen Kasus 9 steht. Die Hierarchie ist in dem hier vorgestellten Zustand noch nicht komplett so muss beispielsweise noch eine genaue Dokumentation hinzugefügt werden. Auch ist es möglich, dass die Struktur stellenweise noch verändert werden muss, was sich erst in zukünftigen Tests zeigen wird. 9 Nominativ, Genitiv, Dativ, Akkusativ, Lokativ, Vokativ, Instrumental und Ablativ. 10
12 4. Fazit Part-of-speech Tagging wird bereits seit mehreren Jahrzehnten im NLP untersucht und bis heute wird viel in diesem Bereich geforscht und entwickelt. Über immer neue Ansätze (z.b. über Support Vector Machines oder Entscheidungsbäume) und die Kombinierung bereits vorhandener Ideen versuchen Computerlinguisten, die Ergebnisse ihrer Tagger weiter zu verbessern. Die für das Tagging verwendeten Tagsets sind sehr uneinheitlich und unterscheiden sich in mehreren Punkten wie im Umfang und in der Schwerpunktsetzung. Einige Tagsets erlauben es dem Tagger auch, die endgültige Entscheidung für eine Wortart dem Benutzer zu überlassen, indem die Kombination mehrerer Tags möglich ist. Vergleiche zwischen mit verschiedenen Tagsets getaggten Korpora sind nicht möglich. Außerdem besteht zwar in vielen Tagsets eine implizite, aber keine explizite Strukturierung, sodass kein direkter Zusammenhang zwischen beispielsweise einem Partizip und einem Infinitiv erkennbar ist, obwohl beide infinite Verbformen sind und damit gewisse Eigenschaften teilen. Die hier vorgestellte Interfacehierarchie für das System Tesla versucht, dieses Problem zu lösen. Wörter aus Korpora, die mit verschiedenen Tagsets annotiert wurden, werden über einen Parser in eine einheitliche Hierarchie überführt, über die weitere linguistische Analysen einheitlich möglich gemacht werden. Die Lösung ist bisher unvollständig und möglicherweise auch teilweise verbesserungswürdig. Es wird sich erst in der Zukunft zeigen, ob eine solche allgemeine Hierarchie als Modell auch für alle Sprachen bzw. Sprachfamilien außer der Indoeuropäischen verwendet werden kann. 11
13 5. Bibliographie ATWELL, Eric "Development of Tag Sets for Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton BIEMANN, Chris "Unsupervised Part-of-Speech Tagging in the Large." In: GABBAY, D.M. & Shuly WINTNER (eds.). Research on Language & Computation. (RoLC, 7). Dordrecht: Springer URL: HERMES, Jürgen & Stephan SCHWIEBERT. TESLA. Köln: Universität, Institut für Linguistik. URL: MANNING, Christopher D. & Hinrich SCHÜTZE Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. NUGUES, Pierre M An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German. (Cognitive Technologies). Berlin u.a.: Springer. POEL, Mannes et al "A Support Vector Machine Approach to Dutch Part-of-Speech Tagging." In: BERTHOLD, Michael R. et al. (eds.). Advances in Intelligent Data Analysis VII: 7th International Symposium on Intelligent Data Analysis, IDA 2007, Ljubljana, Slovenia, September 6-8, Proceedings. (Lecture Notes in Computer Science, 723.) Berlin u.a.: Springer SCHMID, Helmut "Tokenizing and Part-of-Speech Tagging." In: LÜDELING, Anke & Merja KYTÖ (eds.). Corpus Linguistics. An International Handbook. (HSK, 29/1). Den Haag: De Gruyter Mouton VOUTILAINEN, Atro "Part-of-Speech Tagging." In: Mitkov, Ruslan (ed.). The Oxford Handbook of Computational Linguistics. Oxford u.a.: Oxford University Press
Tagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrLinguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets
Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrWortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines
MehrVertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind
Vertiefung der Grundlagen der Computerlinguistik Semesterüberblick und Einführung zur Dependenz Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 17.10.2017 Zangenfeind:
MehrKAPITEL I EINLEITUNG
KAPITEL I EINLEITUNG A. Der Hintergrund Die Wortklasse oder part of speech hat verschiedene Merkmale. Nach dem traditionellen System werden die deutschen Wortklassen in zehn Klassen unterteilt (Gross,
MehrInformation Retrieval and Semantic Technologies
Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen
MehrLexikalisch-semantische Disambiguierung mit WordNet
Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische
MehrNatürlichsprachliche Systeme I Materialien zur Vorlesung
Natürlichsprachliche Systeme I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg WS 2010/11, 19. Oktober 2010,
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrKnowledge-Based system. Inference Engine. Prof. Dr. T. Nouri.
12.01.2008 Knowledge-Based system Inference Engine Prof. Dr. T. Nouri Taoufik.Nouri@FHN.CH 2 / 30 Inhalt Grundlagen Wozu Inference? Aufbau Knowledge Based System Strategien für Folgerungen Suchstrategien
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrEinführung in die Grammatik der deutschen Gegenwartssprache
Karl-Ernst Sommerfeldt / Günter Starke Einführung in die Grammatik der deutschen Gegenwartssprache 3., neu bearbeitete Auflage unter Mitwirkung von Werner Hackel Max Niemeyer Verlag Tübingen 1998 Inhaltsverzeichnis
MehrDeutsch Grammatik Sekundarstufe 1 Die 5 Wortarten
Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten Theorie und Klassenübungen (mit Lösungen) Geeignet für 8. bis 10. Schuljahr MSV- Unterricht ILF- Unterricht Als Skript verwendbar Mit Kommentaren und Erklärungen
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Das Grammatikfundament: Wortarten Das komplette Material finden Sie hier: School-Scout.de Uta Livonius Das Grammatikfundament: Wortarten
MehrDeutsche Grammatik Grundfragen und Abriß
Gerhard Heibig Deutsche Grammatik Grundfragen und Abriß iudicium vertag INHALTSVERZEICHNIS 1. ZUM BEGRIFF DER GRAMMATIK 11 2. DAS WORT 14 2.1. Wortarteneinteilung 14 2.1.1. Kriterien für die Wortartenklassifizierung
MehrComputer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen
Research Collection Doctoral Thesis Computer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen Author(s): Klossner, Jürg Publication Date: 1985 Permanent Link: https://doi.org/10.3929/ethz-a-000342601
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrSupplementary material for Who never tells a lie? The following material is provided below, in the following order:
Supplementary material for Who never tells a lie? The following material is provided below, in the following order: Instructions and questionnaire used in the replication study (German, 2 pages) Instructions
MehrZurich Open Repository and Archive. Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen in gerichteten Netzwerken
University of Zurich Zurich Open Repository and Archive Winterthurerstr. 190 CH-8057 Zurich http://www.zora.uzh.ch Year: 2008 Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen
MehrHidden Markov Models
Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung
MehrEinführung in die Computerlinguistik POS-Tagging
Einführung in die Computerlinguistik POS-Tagging Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2013 POS Tags (1) POS = part-of-speech Tags sind morphosyntaktische Kategorien von Wortformen.
MehrMorphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle
Morphologische Merkmale Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle Merkmale Das Wort 'Merkmal' ' bedeutet im Prinzip soviel wie 'Eigenschaft'
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrEinführung Computerlinguistik. Was ist ein Wort?
Einführung Computerlinguistik Was ist ein Wort? Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-10-18 Schütze & Zangenfeind: Was ist ein Wort? 1
MehrEinführung in die Computerlinguistik. Morphologie II
Einführung in die Computerlinguistik Morphologie II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 30.11.2015 Schütze & Zangenfeind: Morphologie II 1
MehrRESI A Natural Language Specification Improver
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 RESI A Natural Language Specification Improver Dipl. Inform. Sven J. Körner Torben Brumm Prof. Dr. Walter F. Tichy Institute for Programming
MehrHarry gefangen in der Zeit Begleitmaterialien
Episode 011 Grammar 1. Plural forms of nouns Most nouns can be either singular or plural. The plural indicates that you're talking about several units of the same thing. Ist das Bett zu hart? Sind die
MehrDie Dokumentation kann auf einem angeschlossenen Sartorius Messwertdrucker erfolgen.
Q-App: USP V2 Bestimmung des Arbeitsbereiches von Waagen gem. USP Kapitel 41. Determination of the operating range of balances acc. USP Chapter 41. Beschreibung Diese Q-App ist zur Bestimmung des Arbeitsbereiches
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
MehrABSCHNITT I EINLEITUNG
1 ABSCHNITT I EINLEITUNG A. Hintergrund des Problems Sprache wird von allen genutzt, um ihre Wünsche, Ideen und Überlegungen zu äußern. Außerdem benutzen Menschen auch Sprache, damit sie miteinander in
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrViterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes
Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28
MehrVorbesprechung Mathe III
Vorbesprechung Mathe III Dr. Vera Demberg, Prof. Dr. Enrico Lieblang (HTW) Universität des Saarlandes April 19th, 2012 Vera Demberg (UdS) Vorbesprechung Mathe III April 19th, 2012 1 / 20 Formalien Pflichtveranstaltung
MehrENGLISCHER SPRACHGEBRAUCH UND ENGLISCHE SCHULGRAMMATIK
ENGLISCHER SPRACHGEBRAUCH UND ENGLISCHE SCHULGRAMMATIK i Beobachtungen und Ergänzungen von FRITZ FIEDLER LANGENSCHEIDT BERLIN MÜNCHEN ZÜRICH INHALTSVERZEICHNIS Seite Geleitwort 5 Vorwort 7 Inhaltsverzeichnis
MehrInhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis
Inhaltsverzeichnis Inhaltsverzeichnis Abkürzungen... 9 Niveaustufentests... 10 Tipps & Tricks... 18 1 Der Artikel... 25 1.1 Der bestimmte Artikel... 25 1.2 Der unbestimmte Artikel... 27 2 Das Substantiv...
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrInhalt.
Inhalt EINLEITUNG II TEIL A - THEORETISCHE ASPEKTE 13 GRAMMATIK 13 Allgemeines 13 Die sprachlichen Ebenen 15 MORPHOLOGIE 17 Grundbegriffe der Morphologie 17 Gliederung der Morpheme 18 Basis- (Grund-) oder
MehrNamed Entity Recognition auf Basis von Wortlisten
Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -
MehrFalko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes
Falko Error annotations in Falko 2.x Marc Reznicek & Cedric Krummes Symposium What s Hard in German? Structural Difficulties, Research Approaches and Pedagogic Solutions Bangor University Monday and Tuesday,
MehrWortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten
Wortarten Merkblatt Veränderbare Wortarten Deklinierbar (4 Fälle) Konjugierbar (Zeiten) Unveränderbare Wortarten Nomen Konjunktionen (und, weil,...) Artikel Verben Adverbien (heute, dort,...) Adjektive
Mehratttributive Adjektive das die attributiven Adjektive attributive adjectives das blaue Haus --- ist nicht relevant--
Substantiv Die Substantive Das Pronomen, Nomen noun Lehrerin, der Spiegel, Dorf, Freiheit Groß geschrieben, Genus, Kasus, und dekliniert oder flektiertgroß geschrieben, Genus, Kasus, und dekliniert oder
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
Mehr"What's in the news? - or: why Angela Merkel is not significant
"What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrLösungsvorschlag für das Übungsblatt 4. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 4. Aufgabe 1. Im CISLEX sind für das deutsche Kernlexikon 206.000 Lemmata, 1.300.000 en und 2.350.000 Lesarten kodiert. Wichtiger ist aber die Herangehensweise, um
MehrVorlesung Morphologie Flexion
Vorlesung Morphologie 13.6. - Flexion Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2008 Vertretung: Hagen Hirschmann Flexion Inhalte heute Flexionskategorien & Paradigmata Nomen Adjektive
MehrTechnische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung
functions in SysML 2.0 La Jolla, 22.05.2014 12/10/2015 Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung Dipl. Wirtsch.-Ing. Christian Muggeo Dipl. Wirtsch.-Ing. Michael
MehrGrade 12: Qualifikationsphase. My Abitur
Grade 12: Qualifikationsphase My Abitur Qualifikationsphase Note 1 Punkte Prozente Note 1 15 14 13 85 % 100 % Note 2 12 11 10 70 % 84 % Note 3 9 8 7 55 % 69 % Note 4 6 5 4 40 % 54 % Note 5 3 2 1 20 % 39
MehrDer Viterbi Algorithmus
M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes
MehrRAW TEXT TOKENIZATION + PRE - TAGGING LEXICAL RESSOURCES REFERENCE CORPUS AMBIGUOUSLY ANNOTATED TEXT TRANSITION TABLES + WORD TAG PROBAB.
Ansätze des Tagging Ein Seminarreferat, vorgestellt von Alexander Valet, Christian Pretzsch und Vanessa Micelli im Rahmen des Hauptseminars Parsing bei Dr. Karin Haenelt im SS 2003 an der Ruprecht-Karls
MehrExploring the knowledge in Semi Structured Data Sets with Rich Queries
Exploring the knowledge in Semi Structured Data Sets with Rich Queries Jürgen Umbrich Sebastian Blohm Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 www.kit.ed Overview
MehrInformationsextraktion
Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Paul Prasse Michael Großhans NLP- (Natural Language Processing-) Pipeline Folge von Verarbeitungsschritten
MehrLehrveranstaltungen im Wintersemester 2012/2013
Lehrveranstaltungen im Wintersemester 2012/2013 Information Systems and Machine Learning Lab (ISMLL) Prof. Dr. Dr. Lars Schmidt-Thieme Hildesheim, Juli 2012 1 / 1 Übersicht Praktika Hildesheim, Juli 2012
MehrEinführung in die Computerlinguistik Überblick
Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 Schütze & Zangenfeind: Überblick 1 / 19 Was
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrJava Tools JDK. IDEs. Downloads. Eclipse. IntelliJ. NetBeans. Java SE 8 Java SE 8 Documentation
Java Tools JDK http://www.oracle.com/technetwork/java/javase/ Downloads IDEs Java SE 8 Java SE 8 Documentation Eclipse http://www.eclipse.org IntelliJ http://www.jetbrains.com/idea/ NetBeans https://netbeans.org/
MehrInterdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen
Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache
MehrGAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo
GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo Matthias Grimm, Dr. Michael Meyer zu Hörste Vortragstitel > 11. Juni 2010 > Folie 1 Agenda
MehrMaschinelle Sprachverarbeitung Tokenisierung
Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die
MehrSemi-automatische Ontologieerstellung mittels TextToOnto
Semi-automatische Ontologieerstellung mittels TextToOnto Mark Hall SE Computational Linguistics 14. Juni 2004 Zusammenfassung Das Erstellen von Ontologien ist ein komplexer und langwieriger Prozess. Um
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrSeminar: Software Engineering verteilter Systeme
Seminar: Software Engineering verteilter Systeme Hauptseminar im Sommersemester 2011 Programmierung verteilter Systeme Institut für Informatik Universität Augsburg 86135 Augsburg Tel.: +49 821 598-2118
MehrA Schema for Augmented Text
Appendix A Schema for Augmented Text This schema defines the elements and attributes that are added to a document during linguistic preprocessing (cf. Sec. 12.1). # A RELAX NG compact syntax pattern for
MehrWAS IST DER KOMPARATIV: = The comparative
DER KOMPATATIV VON ADJEKTIVEN UND ADVERBEN WAS IST DER KOMPARATIV: = The comparative Der Komparativ vergleicht zwei Sachen (durch ein Adjektiv oder ein Adverb) The comparative is exactly what it sounds
MehrEinführung in die Computerlinguistik Statistische Grundlagen
Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
Mehrxii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis
Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....
MehrDeutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können
Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler
MehrAutomatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen
Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrEmbedded Computing Conference 2017 Abstracts Stream 1 "Hardware"
Abstracts Stream 1 "" Abstract en Email Firma Entscheidungsträger Entwickler Produktmanager Beschreibung (mind.200-300 Zeichen) Seite 1 von 1 Abstract Hochschulen en Email Hochschule Entscheidungsträg
MehrAnalyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann
Analyse von Beurteilungen räumlicher Objekte in natürlich sprachlichen Texten Sarah Tauscher, Karl Neumann Institut für Informationssysteme Technische Universität Braunschweig Example: Main Tower Main
MehrWort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert
Wort flektierbar nicht flektierbar nach Person, Numerus, Modus, Tempus, Genus verbi flektiert genufest nach Genus, Kasus, Numerus flektiert genusveränderlich komparierbar nicht komparierbar Verb Substantiv
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrPart-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09
Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl
MehrFAKULTÄT FÜR SPRACH-, LITERATUR- UND
Dr. Max Mustermann Lehrstuhl Referat Kommunikation für Medieninformatik & Marketing FAKULTÄT Verwaltung FÜR SPRACH-, LITERATUR- UND Introducing PaLaFra A Project on the Creation and Analysis of an Electronic
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
Mehr