KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk
|
|
- Kristin Siegel
- vor 8 Jahren
- Abrufe
Transkript
1 Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl für Informatik 8 (KI) Prof. Dr. H. Stoyan KI-Kolloquium am Part-of-Speech-Tagging für Deutsch Referent: Stefan Bienk
2 Übersicht Aufgabenstellung des POS-Tagging Stochastischer Tagging-Ansatz mit HMM Verwendung eines Post-Processors Ergebnisse und Ausblick 2
3 POS-Tagging Part-of-Speech-Tagging 3
4 Aufgabenstellung: Klassifizierung von Wortsequenzen Klassen: Endliche Folgen über einem Tagset von syntakischen Kategorien (Nomen, Verbinfinitiv, Verbform, etc.) Klassifizierte Objekte: Endliche Wortfolgen Finde für gegebenes Probleme Wortschöpfung 4
5 Probleme: Erfassung der Wortmenge Duden ist sehr groß ;-) Unbegrenzte Kompositabildung Neue Wortschöpfungen Lösung: Bildung von Wortklassen! z.b. nach Präfix der Länge 3: (vergessen,verschlafen...) 5
6 Probleme: Erfassung der Klassifizierung Beispiele (Tags aus dem STTS): Die /ART Tiere /NN, /$, die /PRELS wir /PPER beobachten /VVFIN, /$, sind /VAFIN gefährlich /ADJD. /$. Wir /PPER müssen /VMFIN heute /ADV gefährliche /ADJA Tiere /NN beobachten /VVINF. /$. Beobachtungen: Lexikalische Information ist i.a. nicht ausreichend für eindeutige Klassifizierung Vollständige Disambiguierung nur durch zusätzliche Betrachtung grammatikalischer Gesetzmäßigkeiten möglich Welche Tagfolgen sind zulässig? Dennoch ist die lexikalische Information sehr wertvoll und wird von allen Taggern in Form sogenannter Lexika verwendet! Aber... Essen ist toll! Eigenname oder normales Nomen: Hängt von der Intention des Sprecher/Autor ab... 6
7 Anwendungen Abgrenzung zum syntaktischen Parsen: als abstrahierende Vorstufe des syntaktischen Parsen Parser berücksichtigt Wortklassen statt konkreter Wörter als weniger rechenintensive Alternative zum syntaktischen Parsen in zeitkritischen Anwendungen wie Dialogsystemen als einfacher zu implementierende, ausreichende Alternative z.b. in Systemen zur Informationsextrahierung 7
8 HMM-Tagger POS-Tagging mit Hidden Markov Models 8
9 HMM......eine spezielle (!) Form von Wahrscheinlichkeitsverteilung Im Fall des Tagging-Problem: Verteilung über Paare der bereits wohlbekannten Form:, Tagging-Problem wird auf folgende Fragestellung zurückgeführt Geg: Finde das P( / ) maximiert Warum speziell? P(t(i)=v / t(i-1)=v(1) und... t(0)=w(i-1)) = P(t(i)=w / t(i-1)=v(1)) In Worten: Der Einfluss von i-1 Tags auf den i-ten Tag hängt nur vom (i-1)-ten Tag ab 9
10 Warum speziell? Warum speziell? P(t(i)=v / t(i-1)=v(1) und... t(0)=w(i-1)) = P(t(i)=w / t(i-1)=v(1)) In Worten: Der Einfluss von i-1 Tags auf den i-ten Tag hängt nur vom (i-1)-ten Tag ab Dies steht im Widerspruch zur grammatikalischen Regel, dass jeder deutsche Satz eine Verbform enthalten muss Übersetzung: In allen Sätzen der Länge N, deren N-1 erste Worte kein Verb enthalten, muss das N-te Wort ein Verb sein (P(t(N)=Verb/t(i)<>Verb, für alle i<n)=1) Mit Sicherheit nicht gegeben, wenn zum Beispiel der (N-1). Tag ein Nomen ist... Der große, dampfende, braune, frische Fladen stinkt. (Verbform nach omen) Ich habe den Fladen gesehen. (Partizip nach Nomen) 10
11 Post-Processor Post-Processor 11
12 Motivation konzeptionelle Schwächen von HMM-Sprachmodellen Beschränkung des Kontextes auf die Tags n vorhergehenden Wörter Wir wollen /VMFIN, falls die Sonne scheint, heute Fußball spielen /VVINF. vs Heute Nachmittag spielen /VVFIN wir Fußball. Nachgeben /VVINF wollen /VMFIN wir nicht. vs Nachgeben /NN ist manchmal klüger. Keine direkte Berücksichtigung der Abhängigkeiten zwischen Tags und (benachbarten) Wörtern Der torgefährliche /ADJ Müller /NE erreichte die Effektivität von Ballack. vs Der gelernte /ADJ Müller /NN macht eine Umschulung zum Informatiker. Keine Berücksichtigung der Wortposition im Satz Aber: Sprachen mit relativen starrem Satzbau, z.b. Englisch 12
13 Brill-Tagger (I) Tagging Tagging in 2 Schritten Erzeugen einer geeigneten initialen Tagfolge Transformation durch sequentielle Anwendung von Transformationsregeln Regeln sind Instanzen sog. Regeltemplates: Ersetze Tag durch, wenn: 1. das letzte (nächste) Wort mit getaggt ist 2. das zweitletzte (übernächste) Wort mit getaggt ist 3. eines der zwei letzten (nächsten) Wörter mit getaggt ist 4. eines der n>2 letzten (nächsten) Wörter mit getaggt ist 5. das letzte Wort mit und das nächste Wort mit getaggt ist 6. das letzte (nächste) Wort mit und das übernächste (vorletzte) Wort mit getaggt ist 7. das aktuelle Wort (nicht) groß geschrieben ist 8. das letzte Wort (nicht) groß geschrieben ist 13
14 Brill-Tagger (II) Überwachtes Training Geg.: Trainingskorpus: Zuweisung initialer Tagsequenz: für jede Fehlerart : finde optimale Transformationsregel Postprocessing mit Brill-Tagger Output des HMM-Tagger als initiale Tagsequenz Damit: z.b. auch Berücksichtigung von long distance dependencies: VVFIN VVINF: =VMFIN =VMFIN =VMFIN Ihr wollt /VMFIN wirklich schon gehen /VVFIN? /VVINF? Weitere Verbesserung durch Einschränkung des Output des HMM- Tagger auf Teilmengen von Tags VVINF VVFIN: =$, =$. Wir versuchen, das Runde mit Wucht ins Eckige zu schießen. 14
15 Ergebnisse und Ausblick Ergebnisse und Ausblick 15
16 Ergebnisse und Ausblick Plattformunabhängige Tagger-Implementierung in Java API Kommandozeilenprogramm Erkennungsquote: 97,0 % / 97,3 % / 97,2 % (39000 Trainingssätze) Inkl. Verbesserung durch den Postprocessor: 0,4 % - 0,5 % Erweiterungspotentiale Beschreibungssprache für Templates des Postprocessor Automatisches Suchen optimaler Tag-Teilmengen Möglichkeit zur anwendungsspezifischen Erweiterung d. Wörterbuchs Automatische, webbasierte Erweiterung des Wörterbuchs 16
17 Test & Evaluierung (I) 17
18 Test & Evaluierung (II) 18
19 Test & Evaluierung (III) 19
Annotation des Wittgenstein-Korpus mit Wortart-Information
Annotation des Wittgenstein-Korpus mit Wortart-Information Institut für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Überblick Was ist Wortart-Tagging?
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrSprachsynthese: Part-of-Speech-Tagging
Sprachsynthese: Part-of-Speech-Tagging (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 2. November
MehrSprachsynthese: Part-of-Speech-Tagging
Sprachsynthese: Part-of-Speech-Tagging Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 29. Oktober 2014 Inhalt POS- Markov- Transformationsbasiertes
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
MehrTagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrProjektgruppe. Text Labeling mit Sequenzmodellen
Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:
MehrWortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen
MehrImproving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction
Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Vorstellung AI-Studienprojekt für das SoSe 2019 Benedikt Tobias Bönninghoff 17.01.2019 Cognitive Signal Processing
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrPhonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München
Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrViterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes
Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28
MehrVorlaugeGuidelinesfurdasTaggingdeutscherTextcorpora AnneSchiller,SimoneTeufel,ChristineStockert mitstts InstitutfurmaschinelleSprachverarbeitung UniversitatStuttgart SeminarfurSprachwissenschaft UniversitatTubingen
MehrEmpirie II: Wortarten im Kontext (Tagging)
G. Schneider: Morphologieanalyse und Lexikonaufbau, SS 2000 Page 1 Empirie II: Wortarten im Kontext (Tagging) Morphologieanalyse und Lexikonaufbau (12. Vorlesung) Dozent: Gerold Schneider Übersicht Was
MehrActive Hidden Markov Models for Information Extraction
HMMs in der IE p.1/28 Active Hidden Markov Models for Information Extraction Seminar Informationsextraktion im WiSe 2002/2003 Madeleine Theile HMMs in der IE p.2/28 Inhaltsübersicht Ziel formalere Aufgabenbeschreibung
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrOverview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1
Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features
MehrMaschinelle Übersetzung
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Übersetzung Tobias Scheffer Ulf Brefeld Übersetzung Sprache 1 (semantische Interpretation) Sprache 1 (syntaktisch
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
MehrDWDS: Hilfe Kurzübersicht
DWDS: Hilfe Kurzübersicht (auch online unter http://www.dwds.de/?corpus=1&opt=hilfe&qu) Voreinstellungen Lemmasuche: Suchwörter werden automatisch zum Lemma expandiert. Vorsicht: befindet sich das Suchwort
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech
MehrReferat Wortstellung. 1. Generelle Theorien zu Wortstellung Stellungsfeldermodell
Humboldt-Universität zu Berlin, Institut für deutsche Sprache und Linguistik WiSe 2004/2005, HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen Referentin: Gruppe 6 (Wortstellung) Yuko Makata,
MehrPart-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09
Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrLinguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets
Linguistische Grundlagen Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets Warum Tagging? Abfragbarkeit linguistischer Information Generalisierbarkeit von Abfragen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrSemi-supervised End-to-end Sequence Labeling for Real-world Data (Arbeitstitel)
Semi-supervised End-to-end Sequence Labeling for Real-world Data (Arbeitstitel) Vorstellung AI-Studienprojekt für das WS 2018/19 Benedikt Tobias Bönninghoff 11.07.2018 Cognitive Signal Processing Group
MehrDas Bandtagebuch mit EINSHOCH6 Folge 14: EINSHOCH6 vs. FC BAYERN
Übung 1: Fußball Bearbeite diese Aufgabe, bevor du dir das Video anschaust. Welche der folgenden Begriffe haben etwas mit dem Thema Fußball zu tun? Immer ein Wort in einer Reihe ist richtig. Benutze, wenn
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik
MehrSpracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16
Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 AGENDA Grundlegendes Sprache Anwendungsbeispiele Schwierigkeit Architektur Spracherkennungssystem Hidden Markov Modell Verbesserung durch Kombination mit
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische
MehrTreeTagger. Deborah Watty
TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrLinguistische Aufbereitung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Linguistische Aufbereitung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.01.2011 Linguistische Aufbereitung Es war einmal eine kleine Hexe, die war erst einhundertsiebenundzwanzig Jahre alt,
MehrEinführung in die Computerlinguistik POS-Tagging
Einführung in die Computerlinguistik POS-Tagging Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2013 POS Tags (1) POS = part-of-speech Tags sind morphosyntaktische Kategorien von Wortformen.
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Leseübungen: Über mich. Das komplette Material finden Sie hier:
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Leseübungen: Über mich Das komplette Material finden Sie hier: School-Scout.de Thema: Leseübungen: Über mich Bestellnummer: 35605
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrWissenschaftliche Arbeiten und große Dokumente. Kompaktkurs mit Word 2013. Dr. Susanne Weber 1. Ausgabe, Dezember 2013 K-WW2013-BW
Wissenschaftliche Arbeiten und große Dokumente Dr. Susanne Weber. Ausgabe, Dezember 03 Kompaktkurs mit Word 03 K-WW03-BW 9 9 Dokument kontrollieren Voraussetzungen Text eingeben und bearbeiten Ziele Rechtschreibung
MehrEinführung in die Computerlinguistik. Morphologie III
Einführung in die Computerlinguistik Morphologie III Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 7.12.2015 Schütze & Zangenfeind: Morphologie III
MehrHörtext FREIE UNIVERSITÄT BERLIN STUDIENKOLLEG. Textumfang: 580 Wörter. Thema: Wie Kinder Wörter lernen
Fach: DaF / Teil A: Hörverständnis / Grammatik Kurs: S/G-OK und Externe Bearbeitungszeit: 90 Minuten Textumfang: 580 Wörter Hilfsmittel: Einsprachiges Wörterbuch Thema: Wie Kinder Wörter lernen Quelle:
MehrWiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.
Wiederholung: Korpuslinguistik Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2007 beschäftigt sich damit, welche linguistischen Fragen anhand (großer) Textmengen
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrAuswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch
Christiane Pankow Helena Pettersson Auswertung der Leistung von zwei frei zugänglichen POS-Taggern für die Annotation von Korpora des gesprochenen Deutsch 1. Einleitung In den letzten Jahren ist die Erstellung
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrAlgorithmen und Formale Sprachen
Algorithmen und Formale Sprachen Algorithmen und formale Sprachen Formale Sprachen und Algorithmen Formale Sprachen und formale Algorithmen (formale (Sprachen und Algorithmen)) ((formale Sprachen) und
MehrArbeitsblatt 14 Fit in der Groß- und Kleinschreibung ab 5./6. Klasse
ab 5./6. Klasse In dem folgenden Text müssen noch 54 Wörter großgeschrieben werden. Aber Achtung: Es sind auch einige knifflige Fälle dabei. 1 Lies zunächst den Text durch. Dann schätze dich zuerst selbst
Mehr1 Übungsblätter Grammatik
A 1 Übungsblätter Grammatik DIE WORTARTEN Bei der Wortartbestimmung wird jedes Wort des Satzes mit einem grammatikalischen Begriff versehen. Die 5 Wortarten aus der Primarschule sind: NOMEN, ADJEKTIV,
MehrLexikalisch-semantische Disambiguierung mit WordNet
Lexikalische Semantik Lexikalisch-semantische Disambiguierung mit WordNet Conrad Steffens Paper: Rada Mihalcea & Dan I. Moldovan: A Method for Word Sense Disambiguation of Unrestricted Text Lexikalisch-semantische
MehrTutorial II: Corpus Methods for Historical Linguistics
Tutorial II: Corpus Methods for Historical Linguistics Formal Diachronics Semantics 2016 University of Konstanz Christin Schätzle and Gerold Schneider firstname.lastname@uni-konstanz.de 13.09.2016 1 Regular
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2010 / 2011 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrTnT - Statistischer Part-of- Speech Tagger
TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Thomas Vanck NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion, Übersetzung,
MehrSprachorientierte KI: Syntax und Parsing. Wortartendisambiguierung. Lexikalische Kategorien. Lexikalische Kategorien. Lexikalische Kategorien
Sprachorientierte KI: Syntax und Parsing Syntax als Untersuchungsgegenstand Wortartendisambiguierung Phrasenstrukturgrammatiken Parsing mit Phrasenstrukturgrammatiken Restringierte Phrasenstrukturgrammatiken
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 30 Table of contents 1 Hidden Markov Models 2 POS Tags 3 HMM POS Tagging 4 Bigram-HMMs
MehrOverview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1
Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features
MehrKorpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko
Korpuslinguistik Annis 2 -Korpussuchtool Suchen in Falko Marc Reznicek, Anke Lüdeling, Amir Zeldes, Hagen Hirschmann hirschhx@hu-berlin.de... und vielen anderen Mitarbeitern der HU-Korpuslinguistik Ziele
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrFinite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010
Finite-State-Morphologie in XLE Grammatikentwicklung, SS 2010 1 / 20 Worum es heute geht: Nutzen von Finite-State-Morphologien... und wie man sie in XLE einbaut 2 / 20 Lexikon in XLE Bis jetzt: so genanntes
MehrMorphologie, Lemmatisierung und Wortartenklassifikationen. Lexikonaufbau und Morphologie-Analyseverfahren Gerold Schneider, SS 2005
Morphologie, Lemmatisierung und Wortartenklassifikationen Morphologieanalyse und Lexikonaufbau (1. Vorlesung) Übersicht Was ist Morphologie? Warum braucht man Morphologieanalyse in der CL? Was ist ein
MehrRechtschreibkiste ie
Rechtschreibkiste ie Sabine Ofner 2004 Bei einigen Wörtern schreibt man ein ie, wobei man das e aber nicht spricht. Das bedeutet: Das i wird lange gesprochen. Lies: der Brief die Schiene das Lied die Biene
MehrEinführung in die Informatik I (autip)
Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis
MehrEinführung in die Informatik
Einführung in die Informatik Klaus Knopper 26.10.2004 Repräsentation von Zahlen Zahlen können auf unterschiedliche Arten dargestellt werden Aufgabe: Zahlen aus der realen Welt müssen im Computer abgebildet
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,
MehrSprachstatistik: Das Zipf sche Gesetz
Sprachstatistik: Das Zipf sche Gesetz Korpus-Workshop Thema Korpus-Statistik Thomas Wittig Universität Leipzig Institut für Informatik wittig@uni-leipzig.de Principle of Least Effort 2 George K. Zipf:
MehrWissenschaftliche Arbeiten und große Dokumente. Kompaktkurs mit Word 2010. Charlotte von Braunschweig, Markus Krimm 1. Ausgabe, Dezember 2011
Wissenschaftliche Arbeiten und große Dokumente Charlotte von Braunschweig, Markus Krimm. Ausgabe, Dezember 0 Kompaktkurs mit Word 00 K-WW00-BW 9 9 Dokument kontrollieren Voraussetzungen Text eingeben und
MehrDeutschbuch 5 Neue Ausgabe Wegweiser Schwierigkeitsstufe
1 Verknüpfung von Deutschbuch -Kapiteln mit Übungen in der Software Deutschbuch 5 interaktiv Deutschbuch 5 interaktiv ermöglicht das Testen und Üben der Kenntnisse in Rechtschreibung, Grammatik und Zeichensetzung
Mehr1. Stellen Sie die Konstituentenstruktur der folgenden Sätze als Baumdiagramme dar:
1. Stellen Sie die Konstituentenstruktur der folgenden Sätze als Baumdiagramme dar: 1. Die Überschwemmungen hinterließen ernorme Schäden. 2. Der amtierende Bundeskanzler verzichtet auf eine erneute Kandidatur.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,
MehrKünstliche Intelligenz Sprachverarbeitung mit Prolog
Künstliche Intelligenz Sprachverarbeitung mit Prolog Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parsing mit Prolog Grammatik Wortartenklassifikation,
MehrBewegtes Lernen und Üben
Jürgen Müller Kinder kommen heute, durch ihre grundlegend geänderten Lebensbedingungen, mit anderen Erfahrungen, Bedürfnissen und Auffälligkeiten als noch vor ein paar Jahren in die Schule. Die Schule
MehrSyntax natürlicher Sprachen
Syntax natürlicher Sprachen 03: Phrasen und Konstituenten Martin Schmitt Ludwig-Maximilians-Universität München 08.11.2017 Martin Schmitt (LMU) Syntax natürlicher Sprachen 08.11.2017 1 Themen der heutigen
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-PipelinePipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,
MehrXML als Beschreibungssprache syntaktisch annotierter Korpora
Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören
MehrGeschrieben vom: Netzwerk Leichte Sprache
Was ist Leichte Sprache? Wie geht Leichte Sprache? Tipps und Tricks Geschrieben vom: Netzwerk Leichte Sprache Im Internet: www.leichtesprache.org Leichte Sprache sieht einfach aus. Aber manchmal ist Leichte
MehrÜbungen zur Syntax: Topologisches Modell & X-bar
Übungen zur Syntax: Topologisches Modell & X-bar I. Stellen Sie folgende Sätze im topologischen Feldermodell dar. Analysieren Sie auch eigebettete Sätze. a. Gestern holte mich Peter von der Bahn ab. b.
MehrEvaluation und Training von HMMs
Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States
MehrWortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin
Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich
MehrName: ck" Arbeitsblatt. 1. Suche alle ck" und ringle sie mit einem Buntstift ein! 2. Schreibe die ck" - Wörter mit dem richtigen Artikel!
1. Suche alle ck" und ringle sie mit einem Buntstift ein! 2. Schreibe die ck" - Wörter mit dem richtigen Artikel! Barbara geht mit ihrem Dackel spazieren. In der Früh läutet mein Wecker. Der Drucker braucht
MehrMütze und Handschuhe trägt er nie zusammen. Handschuhe und Schal trägt er immer zugleich. (h s) Modellierung als Klauselmenge
Was bisher geschah Klassische Aussagenlogik: Syntax Semantik semantische Äquivalenz und Folgern syntaktisches Ableiten (Resolution) Modellierung in Aussagenlogik: Wissensrepräsentation, Schaltungslogik,
MehrBuchstaben- Maus. Eine Spielesammlung rund um die Buchstaben des Alphabets für 1 und mehr Buchstaben-Mäuse von 5-99 Jahren.
Spielesammlung Buchstaben- Maus Eine Spielesammlung rund um die Buchstaben des Alphabets für 1 und mehr Buchstaben-Mäuse von 5-99 Jahren. Mit dem vorliegenden Spielmaterial können Kinder durch Benennen,
MehrLeitfaden für die schriftliche Kommunikation im DSD I. Arbeitsversion
Leitfaden für die schriftliche Kommunikation im DSD I Arbeitsversion 1 Deutsches Sprachdiplom der KMK Stufenprüfung A2/B1 Modellsatz Nr. 5 Schriftliche Kommunikation Aufgabe In einem Internetforum geht
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
MehrKompetenzen und Aufgabenbeispiele Englisch Schreiben Check S3
Institut für Bildungsevaluation Assoziiertes Institut der Universität Zürich Kompetenzen und Aufgabenbeispiele Englisch Schreiben Check S3 Informationen für Lehrpersonen und Eltern 1. Wie sind die Ergebnisse
MehrDFB MEDIEN GMBH & CO. KG
Der neue DFBnet-Ansetzungsschluessel 1-L Datum: 20.05.2003 Version: V1.00 Autoren: Klaus Stichternath / Koray Avsar Inhaltsverzeichnis 1 Warum ein neuer Ansetzungsschlüssel?...2 2 Anforderungen an einen
Mehr