Part-of-Speech-Tagging mit Transduktoren
|
|
- Ralf Bösch
- vor 6 Jahren
- Abrufe
Transkript
1 Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria Andris, Elena Frick, Eva Sourjikova
2 Agenda 1. Einführung 2. Brill's Tagger 2.1 Transformationsregeln 2.2 Transformation-Based Error-Driven Learning 2.3 Ablauf des Taggings 3. Tagger nach Roche/Schabes 3.1 Brill s Regeln als Transduktor 3.2 Local Extension 3.3 Komposition 3.4 Determinisierung 4. Zusammenfassung
3 Tagging Die Zuordnung der korrekten Wortart (Nomen, Verb, Adjektiv usw.) für jedes Wort eines Satzes ( Etikettieren ) Tagset-abhängig (Definition der Wortarten, die unterschieden werden sollen)
4 Tagset - Beispiel IMS Stuttgart und SfS Tübingen 54 Part-of-Speech Tags für Deutsch ADJA attributives Adjektiv APPR Präposition ART Artikel NN normales Nomen NE Eigenname PPER Personalpronomen VVFIN finites Vollverb VAFIN finites Auxiliarverb PTKNEG Negationspartikel ITJ Interjektion $. Satz-beendende Interpunktion
5 Einsatzgebiete für Tagger Eingabe für weitere Verarbeitungsschritte (Parser, Extraktionsregeln, Übersetzung) Sprachsynthese Spracherkennung Information Retrieval Lexikographie Syntax (Vorverarbeitung)
6 Schritte der Wortartenzuweisung Tokenisieren - Segmentierung mit endlichem Automat Lexikalische Analyse (alle möglichen Wortarten für das Eingabewort bestimmen) Disambiguirung Wortart passend zum Kontext auswählen (mit statistischen Methoden)
7 Tagging-Verfahren Regelbasierte Tagger - Anhand einer vorgegebenen Menge deklarativer Regeln wird entschieden, welches Tag einem zugeordnet wird. Stochastische Tagger - Anhand eines manuell getaggten Trainingskorpus wird die Übergangsgeschwindigkeit von Wortarten gelernt
8 Der Brill-Tagger Eric Brill, Tagger und Tagger-Dokumentation Brill-Tagger für das Deutsche
9 Der Brill-Tagger Der Brill-Tagger (1992) basiert auf der Kombination von regelbasierten und statistischen Verfahren: Training Transformation-Based Error-Driven Learning (=Automatisches Erzeugen von Regeln für den Tagger auf Grundlage von manuell getaggtem Text und Fehleranalyse) Tagging Anwendung auf den zu annotierenden Text: - Zuweisung des Tags bei isolierten Wörtern - Anwendung der Transformationsregel
10 Transformationsregeln Eine Transformation besteht aus zwei Teilen: -Rewriterules: what to replace change tag a to tag b -Triggeringenvironment: when to replace Non-lexicalized templates: 1. The preceding (following) word is tagged t a. 2. The word two before (after) is tagged t a. 3. One of the two preceding (following) words is tagged t a. 4. One of the three preceding (following) words is tagged t a. 5. The preceding word is tagged t a and the following word is tagged t b. 6. The preceding (following) word is tagged t a and the word two before (after) is tagged t b. Lexicalized templates: 1. The preceding (following) word is w a. 2. The word two before (after) is w a. 3. One of the two preceding (following) words is w a. 4. The current word is w and the preceding (following) word is w b. 5. The current word is w a and the preceding (following) word is tagged t a. 6. The current word is w a. 7. The preceding (following) word is w a and the preceding (following) tag is t a. 8. The current word is w a, the preceding (following) word is w b and the preceding (following) tag is t a.
11 Kontext-Regeln Beispiel: VB NN PREVTAG DT Change the tag from VB to NN if the word is tagged VB and the preceding word is tagged DT falsche Annotation: John/Eigenname caught/verb a/artikel fly/verb./satzende nach der Anwendung der Transformation: John/Eigenname caught/verb a/artikel fly/substantiv./satzende
12 Lexikalische Regeln Beispiel: bar hassuf 3 ADJD 5 If a word has the suffix bar (of length 3 characters), tag it as ADJD z.b. brauchbar, machbar
13 Transformation-Based Error-Driven Learning
14 Transformation-Based Error-Driven Learning Lernphase des Taggers Zunächst werden POS-Wahrscheinlichkeiten aus einem getaggten Korpus ermittelt. Damit wird ein Vollformenlexikon aufgebaut. (z.b. die höchste Wahrscheinlichkeit für run ist Verb) Präffix- und Suffixwahrscheinlichkeiten werden aus einem getaggten Korpus automatisch ermittelt. (z.b. ein Wort auf ous ist wahrscheinlich Adjektiv) Generieren von Transformationsregeln Transformationen prüfen + lernen Herausfinden, welche Transformationen die besten Ergebnisse liefern Anwenden auf Korpus Transformation wird zur Liste der geordneten Transformationen hinzugefügt und auf Trainingskorpus angewendet. Iteration bis es keine Transformation mehr gibt, die Ergebnis verbessern würde
15 Ablauf des Taggings Anwendungsphase des Taggers a lexical tagger - Jedem Wort wird das nach dem Lexikon wahrscheinlichste Tag zugewiesen. an unknown word tagger - Jedes unbekannte Wort bekommt zuerst Eigenname zugewiesen, falls es mit einem Großbuchstaben beginnt - Unbekannte Wörter, die mit einem Kleinbuchstaben beginnen, werden aufgrund der lexikalischen Regeln klassifiziert. a contextual tagger - Anwendung von Kontextregeln auf bekannte Wörter
16 Zusammenfassung Brills Tagger: Lernt Regeln selbständig Kommt ohne externes Lexikon aus (baut eigenes Lexikon auf) Basiert auf einem getaggten Corpus
17 Nachteile von Brill's Tagger Im kontextuellen Tagger... jede Regel wird im Input Wort nach Wort angewendet viele Wörter werden mehrmals geprüft "naive pattern matching algorithm" alle Regeln werden Reihe nach an jeden Satz angewendet Regeln können miteinander interagieren =>grosse Verlangsammung aufgrund unnötigen Operationen
18 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger
19 Tagger nach Roche/Schabes I. Lexical Tagger = der grösste Teil des gesamten Taggers (Speicherplatz) kompakte Repräsentation + schnelle Suche nötig Lösung: Wörterbuch als endlicher Automat (Aus: Roche/Schabes 1995)
20 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor repräsentiert 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger
21 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor repräsentiert 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger
22 Tagger nach Roche/Schabes II. Kontextueller Tagger 1.Brill s Regeln als Transduktor Jede Kontext-Regel aus dem Brill s Tagger wird als Transduktor modelliert Beispiel: "ersetze vbn durch vbd wenn der vorherige Tag np ist np/np vbn vbd PRETAG np vbn/vbd np vbn vbd proper noun past participle past tense Chapman killed John Lennon Problem: jede Regel muss in jeder Input-Position angwendet werden = nicht effizient
23 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor repräsentiert 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger
24 Tagger nach Roche/Schabes II. Kontextueller Tagger 2. Local Extension lokal funktionierender Transduktor (bei jedem Vorkommen der entsprechenden Zeichenkette im Input neu gestartet) global funktionierender Transduktor (Regelanwendungen auf alle aufeinanderfolgende Anwendungspositionen im Input nur einmal angewendet sein muss) Beispiel: vbn vbd PRETAG np?/? np/np np/np 0 vbn/vbd 1?/? Beispieleingabe: "pps vbd np vbd np vbn pps np vbn vbd " Ausgabe: "ppsvbdnpvbdnpvbd pps np vbd vbd "
25 Tagger nach Roche/Schabes II. Kontextueller Tagger 2. Local Extension Regeln: ab bc b d a/b 1 b/c 0 b/d 2 Input: d c a b Output1: d c b c Output2: d c a d Idee von "local extension" ist alle mögliche Outputs in einem Lauf zu erfassen!
26 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 b/c 0 b/d 2 Input: d c a d a a b
27 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 b/c 0 b/d 2 Input: d c a d a a b d
28 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. b/c 0 Identity b/d 2 Transd. a/a 0,1 Identity Identity-Zustände Kanten, die zu diesen Zuständen führen, machen keine Ersetzungen und stellen Alternativ- Kanten dar.
29 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 Transd. Transduction-Zustände Kanten, die zu diesen Zuständen führen, ersetzen Eingabezeichen durch Ausgabezeichen nach Regeln, die der "alte" Transduktor darstellt b/c 0 Identity b/d 2 Transd. a/a 0,1 Identity Identity-Zustände Kanten, die zu diesen Zuständen führen, machen keine Ersetzungen und stellen Alternativ- Kanten dar.
30 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? a/b 1 Transd. b/c 0 Identity b/d 2 Transd. a/a?/? 0,1 Input: d c a d a a b Identity
31 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c 0 Identity b/d 2 Transd. a/a?/? 0,1 Identity Input: d c a d a a b d a/a
32 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c {0} b/d 2 Identity b/d Transd. a/a?/? {0,1} Identity Input: d c a a d a a b d a/a
33 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? 1 a/b Transd. a/b b/c {0} b/d 2 Identity b/d Transd.?/? a/a {0,1} Identity b/b a/a {} Transd. Trash-Zustand verschlingt unnötige Kanten, keine Kanten führen aus dem Trash-Zustand raus ein "schwarzer Loch"
34 Tagger nach Roche/Schabes 2. Local Extension Regeln: ab bc b d?/? ε/ε a/b 1 Transd. a/b b/c {0} b/d 2 Identity b/d Transd.?/? a/a {0,1} Identity b/b {} Transd. a/a Input: d c a a d a a b
35 Tagger nach Roche/Schabes 2. Local Extension Eva Sourjikova (2005). Local Extension Algorithmus nach Roche und Schabes (Part-of-Speech-Tagging mit Transduktoren). Referat kontext.fraunhofer.de/haenelt/kurs/referate/andris_frick_sourjikova/localexten sion_algorithm.ppt / pdf
36 3. Tagger nach Roche/Schabes I. Lexical Tagger II. Contextual Tagger 1. kontextuelle Regeln als Transduktor 2. globale Regelanwendung mit Hilfe von "local extension" 3. Komposition von Transduktoren 4. Determinisierung III. Unknown-Word-Tagger
37 Tagger nach Roche/Schabes 3. Komposition Komposition: T3 = LocExt(T1) LocExt(T2)
38 Tagger nach Roche/Schabes 4. Determinisierung Subsequential form for T3
39 Evaluation Stochastic Tagger Rule-Based Tagger Finite- State Tagger Speed 1,200 w/s 500 w/s 10,800 w/s Space 2,158 KB 379 KB 815 KB
40 Zusammenfassung Brill-Tagger : RCn Schritte R- Regeln C- Tokens n- Wörteranzahl Tagger nach Roche/Schabes : n Schritte unabhängig von der Regelanzahl und vom Kontext
41 Literatur Helmert, Malte (2000): Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging. Freiburg. Brill, Eric (1995): Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In: Computational Linguistics. Bd. 21, Nr. 4, S Klabunde, Ralf (2001): Automatentheorie und formale Sprachen. In: Carstensen at al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg/Berlin: Spektrum Akademischer Verlag, Roche, Emmanuel und Schabes, Ives (1995): Deterministic Part-of- Speech Tagging with Finite-State Transducers. In: Computational Linguistics. Bd. 21, Nr. 2, S Roche, Emmanuel und Yves Schabes (Eds.) (1997): Finite-State Language Processing. Cambridge (Mass.) und London: MIT Press. S
42 Weitere Quellen Brill-Tagger für das Deutsche Eric Brill, Tagger und Tagger-Dokumentation. Gerold Schneider, Wortarten im Kontext (Tagging) TaggerVorlesung.pdf Stefan Geißler/ Anke Holler, Tagging. taggingah.pdf
43 Für weitere Fragen... Eva Sourjikova Elena Frick Maria Andris
44 Das war s!!! DANKE für Eure Aufmerksamkeit! Die Diskussion ist hiermit eröffnet!
Part-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrAnnotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrSprachsynthese: Part-of-Speech-Tagging
Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes
MehrKI-Kolloquium am 23.10.2006. Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk
Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am 23.10.2006 Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk Übersicht Aufgabenstellung
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen
MehrOperationen auf endlichen Automaten und Transduktoren
Operationen auf endlichen Automaten und Transduktoren Kursfolien Karin Haenelt 1 Notationskonventionen L reguläre Sprache A endlicher Automat DEA deterministischer endlicher Automat NEA nichtdeterministischer
MehrPOS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007
POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrMachine Translation with Inferred Stochastic Finite-State Transducers
Machine Translation with Inferred Stochastic Finite-State Transducers von Klaus Suttner HS: Endliche Automaten Dozentin: Karin Haenelt Seminar für Computerlinguistik Universität Heidelberg 29.06.09 Finite-state
MehrEinführung in die Computerlinguistik Statistische Grundlagen
Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume
MehrInformationsextraktion
Informationsextraktion Bestimmte Anwendungen bei der semantischen Verarbeitung erfordern keine tiefe linguistische Analyse mit exakter Disambiguierung (= eine einzige und korrekte Lesart). Hierzu gehört
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrKorpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes
Mehr"What's in the news? - or: why Angela Merkel is not significant
"What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2
MehrErkennung von Teilsatzgrenzen
Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen
MehrEinführung in die Computerlinguistik reguläre Sprachen und endliche Automaten
Einführung in die Computerlinguistik reguläre Sprachen und endliche Automaten Dozentin: Wiebke Petersen May 3, 2010 Wiebke Petersen Einführung CL (SoSe2010) 1 Operationen auf Sprachen Seien L Σ und K Σ
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Thomas Vanck NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion, Übersetzung,
MehrComputerlinguistik und Sprachtechnologie
Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrOperationen auf endlichen Akzeptoren und Transduktoren
Operationen auf endlichen Akzeptoren und Transduktoren Definitionen, Algorithmen, Erläuterungen und Beispiele - eine Übersicht Karin Haenelt, 28.5.2010 ( 1 25.04.2004) Operationen auf endlichen Akzeptoren
MehrGliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute
Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation
MehrEinführung in PERL 2 Reguläre Ausdrücke
Einführung in PERL 2 Reguläre Ausdrücke BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER und dem Buch `Einführung in Perl (Lama Buch) von RL Schwartz&T Phoenix sowie hwp://de.sel[tml.org/perl/sprache/regexpr.htm
MehrHEALTH Institut für Biomedizin und Gesundheitswissenschaften
HEALTH Institut für Biomedizin und Gesundheitswissenschaften Konzept zur Verbesserung eines klinischen Information Retrieval Systems unter Verwendung von Apache UIMA und medizinischen Ontologien Georg
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrZiele und Herausforderungen
Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische
MehrEarley Parsing. Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann
Earley Parsing Parsing - WS 2012 / 2013 Lisa Orszullok & Anika Stallmann 12.12.2012 Agenda Basics Komponenten Earley Parsing - Recognizer Earley Parsing - Parser Vor- und Nachteile Parsing WS 2012/2013
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrÜbung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie
Übung zur Vorlesung Einführung in die Computerlinguistik und Sprachtechnologie Wintersemester 2009/10, Prof. Dr. Udo Hahn, Erik Fäßler Übungsblatt 6 vom 10.12.2009 Abgabe bis 15.12.2009, 23:59 Uhr; per
MehrVon Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte
Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und
MehrOperationen auf endlichen Automaten und Transduktoren
Operationen auf endlichen utomaten und Transduktoren en, lgorithmen, Erläuterungen und e - eine Übersicht Karin Haenelt, 5.4.4 Vorbemerkung... Notationskonventionen... 3 Übersicht der Operationen...3 4
MehrAutomatentheorie und formale Sprachen rechtslineare Grammatiken
Automatentheorie und formale Sprachen rechtslineare Grammatiken Dozentin: Wiebke Petersen 17.6.2009 Wiebke Petersen Automatentheorie und formale Sprachen - SoSe09 1 Pumping lemma for regular languages
MehrFormale Sprachen und Grammatiken
Formale Sprachen und Grammatiken Jede Sprache besitzt die Aspekte Semantik (Bedeutung) und Syntax (formaler Aufbau). Die zulässige und korrekte Form der Wörter und Sätze einer Sprache wird durch die Syntax
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrSemantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils
Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils Isabel Fuhrmann, Alexander Geyken, Lothar Lemnitzer Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften
MehrAutomatisches Lernen von Regeln zur quellseitigen Umordnung
Automatisches Lernen von Regeln zur quellseitigen Umordnung E I N A N S AT Z V O N D M I T R I Y G E N Z E L Duwaraka Murugadas Fortgeschrittene Methoden der statistischen maschinellen Übersetzung (Miriam
MehrAutomaten und Formale Sprachen Endliche Automaten und Reguläre sprachen
Automaten und Formale Sprachen Endliche Automaten und Reguläre sprachen Ralf Möller Hamburg Univ. of Technology Literatur Gottfried Vossen, Kurt-Ulrich Witt: Grundkurs Theoretische Informatik, Vieweg Verlag
MehrAutomaten und formale Sprachen. Lösungen zu den Übungsblättern
Automaten und formale Sprachen zu den Übungsblättern Übungsblatt Aufgabe. (Sipser, exercise.3) M = ({q, q2, q3, q4, q5}, {u, d}, δ, q3, {q3}) δ: u d q q q 2 q 2 q q 3 q 3 q 2 q 4 q 4 q 3 q 5 q 5 q 4 q
MehrMultilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval
Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrFachbereich Informatik Institut für Computervisualistik DIPLOMARBEIT. Evaluation von Syntaxanalysemethoden angewendet auf
Fachbereich Informatik Institut für Computervisualistik DIPLOMARBEIT Evaluation von Syntaxanalysemethoden angewendet auf Datenmaterial aus transliterierten Schulaufsätzen Eingereicht von: Fränkel, Caroline
MehrVorlaugeGuidelinesfurdasTaggingdeutscherTextcorpora AnneSchiller,SimoneTeufel,ChristineStockert mitstts InstitutfurmaschinelleSprachverarbeitung UniversitatStuttgart SeminarfurSprachwissenschaft UniversitatTubingen
MehrINFORMATIONSEXTRAKTION
INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.
MehrTutorial: Automatische Textannotation mit WebLicht
Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...
MehrAutomaten und Formale Sprachen alias Theoretische Informatik. Sommersemester 2013
Automaten und Formale Sprachen alias Theoretische Informatik Sommersemester 2013 Dr. Sander Bruggink Übungsleitung: Jan Stückrath Sander Bruggink Automaten und Formale Sprachen 1 Deterministische Kellerautomaten
MehrProgrammieren in natürlicher Sprache: Alice-Kontrollstrukturen
Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Bachelorarbeit betreut von Mathias Landhäußer Ronny Hug 20. August 2014 IPD TICHY KIT Universität des Landes Baden-Württemberg und nationales
MehrDWDS: Hilfe Kurzübersicht
DWDS: Hilfe Kurzübersicht (auch online unter http://www.dwds.de/?corpus=1&opt=hilfe&qu) Voreinstellungen Lemmasuche: Suchwörter werden automatisch zum Lemma expandiert. Vorsicht: befindet sich das Suchwort
MehrMorphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming
Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 24.11.2014, 9 c.t. Zangenfeind: Morphologie 1 / 18 Wdh.: Klassifizierung
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrReguläre Ausdrücke. Karin Haenelt
Reguläre Ausdrücke Karin Haenelt 25.04.2010 1 Inhalt Einführung Definitionen Kleene-Theorem Schreibweisen regulärer Ausdrücke Eigenschaften regulärer Sprachen 2 Was sind reguläre Ausdrücke? Reguläre Ausdrücke
MehrWMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou
WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?
MehrFAKULTÄT FÜR SPRACH-, LITERATUR- UND
Dr. Max Mustermann Lehrstuhl Referat Kommunikation für Medieninformatik & Marketing FAKULTÄT Verwaltung FÜR SPRACH-, LITERATUR- UND Introducing PaLaFra A Project on the Creation and Analysis of an Electronic
MehrNLP - Analyse des Wissensrohstoffs Text
NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:
MehrPersonalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.
Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen
MehrEXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN
EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,
MehrToken, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)
Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistikbasiertes Tagging) Morphologieanalyse und Lexikonaufbau (6. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist ein Token? Was
MehrWhy learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt
Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt Marc Reznicek and Heike Zinsmeister Workshop: Modeling non-standardized writing DGfS Jahrestagung, Potsdam
MehrInformationsextraktion. Karin Haenelt 1.12.2012
Informationsextraktion Karin Haenelt 1.12.2012 Informationsextraktion Ziel Identifikation bestimmter Information (Daten) in einem unstrukturierten oder teilstrukturierten textuellen Dokument Transformation
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrProgrammieren in natürlicher Sprache: Automatische Code-Generierung
Programmieren in natürlicher Sprache: Automatische Code-Generierung Artem Titarenko Betreut von Mathias Landhäußer IPD Tichy, Fakultät für Informatik KIT Universität des Landes Baden-Württemberg und nationales
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrIntroduction to Computational Linguistics
Introduction to Computational Linguistics PD Dr. Frank Richter fr@sfs.uni-tuebingen.de. Seminar für Sprachwissenschaft Eberhard-Karls-Universität Tübingen Germany NLP Intro WS 2005/6 p.1 Incremental Linguistic
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Bisher haben wir verschiedene Automatenmodelle kennengelernt. Diesen Automaten können Wörter vorgelegt werden, die von den Automaten gelesen und dann akzeptiert oder abgelehnt
MehrSprachen/Grammatiken eine Wiederholung
Sprachen/Grammatiken eine Wiederholung Was sind reguläre Sprachen? Eigenschaften regulärer Sprachen Sprachen Begriffe Symbol: unzerlegbare Grundzeichen Alphabet: endliche Menge von Symbolen Zeichenreihe:
MehrCABLE TESTER. Manual DN-14003
CABLE TESTER Manual DN-14003 Note: Please read and learn safety instructions before use or maintain the equipment This cable tester can t test any electrified product. 9V reduplicated battery is used in
MehrAuf geht s! Grammar: 1.1a Subject pronouns
Auf geht s! Grammar: 1.1a Subject pronouns A. Meet Alexander and his family. B. Subject pronoun practice. C. What does that mean in English? D. What might their names be? E. Meet Maren. wir, es, ich, ich,
MehrÜberblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation
Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung
MehrEinführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren
Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren Dozentin: Wiebke Petersen 14.6.2010 Wiebke Petersen Einführung CL SoSe 2010 1 Morphologische Grundbegrie
MehrInformatik I WS 07/08 Tutorium 24
Info I Tutorium 24 Informatik I WS 07/08 Tutorium 24 20.12.07 Bastian Molkenthin E-Mail: infotut@sunshine2k.de Web: http://infotut.sunshine2k.de Rückblick Semi-Thue-Systeme Ein Semi-Thue-System besteht
MehrReguläre Sprachen und endliche Automaten
Reguläre Sprachen und endliche Automaten 1 Motivation: Syntaxüberprüfung Definition: Fließkommazahlen in Java A floating-point literal has the following parts: a whole-number part, a decimal point (represented
MehrLösungsvorschlag für das Übungsblatt 1. Aufgabe 1.
Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik
MehrEinführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig
Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010 Bojan Georgievski Prashanna Thangeswaran David Höfig Einführung Was sind Dialogsysteme? Beispiele von Dialogsystemen Wo werden Dialogsysteme
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der
MehrSpezielle Themen der KI. NLP Natural Language Processing Parsing
Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole
MehrEinführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)
Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren) Dozentin: Wiebke Petersen 7. Foliensatz Wiebke Petersen Einführung CL 1 Morphologische Grundbegrie Wort / Lexem: abstrakte
MehrAnglistik/Amerikanistik
Anglistik/Amerikanistik Einführungsveranstaltungen A. 03.200 Einführung in die Sprachwissenschaft (Englisch) Sek I/II: A 1-5 GHR/GYM/BK: B1 Mi 8-10 O-09.36 Abel A. 03.314 Einführung in die Literaturwissenschaft
MehrGestik- und Mimikgenerierung. Oliver GärtnerG Universität t des Saarlandes Seminar: Intelligent Virtual Characters Leiter: Dr. Michael Kipp SS 2006
Gestik- und Mimikgenerierung Oliver GärtnerG Universität t des Saarlandes Seminar: Intelligent Virtual Characters Leiter: Dr. Michael Kipp SS 2006 Wozu Mimik und Gestik? Wesentlicher Bestandteil der Kommunikation
MehrXML als Beschreibungssprache syntaktisch annotierter Korpora
Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören
MehrFiltern von Stoppwörtern mit endlichen Automaten
Filtern von Stoppwörtern mit endlichen Automaten Im Rahmen des Hauptseminars: Endliche Automaten für die Sprachverarbeitung -SS 2005- PD Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar
MehrGrundlagen der Theoretischen Informatik
Grundlagen der Theoretischen Informatik Sommersemester 2015 22.04.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Bis jetzt 1. Terminologie 2. Endliche Automaten und reguläre Sprachen
MehrErkennung menschlicher Aktionen durch Inferenz stochastischer regulärer Grammatiken
BTU Cottbus Seminar "Mustererkennung mit syntaktischen und graphbasierten Methoden" Wintersemester 2006/2007 Vortrag zum Thema: Erkennung menschlicher Aktionen durch Inferenz stochastischer regulärer Grammatiken
MehrSemantic Web Technologies II SS 2009. 25.05.2009 Übung: Ontologiemodellierung in OWL
Semantic Web Technologies II SS 2009 25.05.2009 Übung: Ontologiemodellierung in OWL Dr. Sudhir Agarwal Dr. Stephan Grimm Dr. Peter Haase PD Dr. Pascal Hitzler Denny Vrandecic 1 Übersicht Einführung in
MehrEinführung in die Linguistik, Teil 4
Einführung in die Linguistik, Teil 4 Menschliche Sprachverarbeitung im Rahmen der Kognitionswissenschaft Markus Bader, Frans Plank, Henning Reetz, Björn Wiemer Einführung in die Linguistik, Teil 4 p. 1/19
MehrSeminar: Software Engineering verteilter Systeme
Seminar: Software Engineering verteilter Systeme Hauptseminar im Sommersemester 2011 Programmierung verteilter Systeme Institut für Informatik Universität Augsburg 86135 Augsburg Tel.: +49 821 598-2118
MehrConference Presentation
Conference Presentation Maschinelle Übersetzung für Dialekte SCHERRER, Yves Reference SCHERRER, Yves. Maschinelle Übersetzung für Dialekte. In: 5. Tage der Schweizer Linguistik / 5èmes Journées Suisses
MehrAbkürzungen Abbreviations Unbestimmte Artikel Indefinite Article... 9
Preface 3 Vorwort Wer möchte nicht auch mal Spaß haben beim Lernen? Die Englisch-Comics machen es möglich, frei nach dem Motto "Wer zuerst lacht, lernt am besten". Jedes Kapitel startet mit einem Comic,
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrMit der Entwicklung des Internets sind endliche Automaten noch weiter in den Fokus gerückt. Dafür sind mehrere Gründe ausschlaggebend:
Einleitung Endliche Automaten sind das Ergebnis der Entwicklung mathematischer Modelle für verschiedene mathematische, technische und naturwissenschaftliche Anwendungsbereiche. Als Pionierarbeiten gelten
MehrÜberführung regulärer Ausdrücke in endliche Automaten
Der Algorithmus von Thompson Karin Haenelt 9.5.2010 1 Inhalt Quelle Prinzip des Algorithmus Algorithmus Konstruktion des Automaten Basisausdrücke Vereinigung, Konkatenation, Hülle Beispiel Implementierung
MehrFrom HiL to Test Vehicle:
From HiL to Test Vehicle: Reuse of test cases with same test automation Agenda: Trailer Presentation Agenda: Movie about Tool Questions After presentation Live Demo Vehicle Meeting point: ETAS Stand 1642
MehrÜbungen Softwaretechnik I
Universität Stuttgart Institut für Automatisierungstechnik und Softwaresysteme Prof. Dr.-Ing. M. Weyrich Übungen Softwaretechnik I Übung 5: Objektorientierte Analyse Einführung Objektorientierung in der
MehrLanguage Identification XXL
Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva
MehrLexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones
Lexikalische Substitutionen Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones Gliederung 1 Substitutionen: Arten und Eigenschaften 2 Entstehung
MehrDynamisches Huffman-Verfahren
Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über
Mehr