Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte
|
|
- Matilde Bayer
- vor 7 Jahren
- Abrufe
Transkript
1 Von Sankt Anselm zu Ente Apfelmus: Normalisierung und Tagging frühneuhochdt. Texte Stefanie Dipper Sprachwissenschaftliches Institut Ruhr-Universität Bochum Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven CLARIN-D & DTA, BBAW/Berlin 18./ Stefanie Dipper Normalisierung und Tagging / 25
2 Einleitung 1 Normalisierung Abbildung auf quasi-moderne Wortformen extinkte Formen, Flexion, Groß/Kleinschreibung Frühneuhochdeutsch ( Jh) diplomatische Transkriptionen 2 Tagging Wortart (POS) Fokus hier: Genauigkeit auf manuell vs. automatisch normalisierten Texten Stefanie Dipper Normalisierung und Tagging / 25
3 Das Anselm-Korpus Das Anselm-Korpus St. Anselmi Fragen an Maria sehr beliebter Text am Ausgang des Mittelalters Inhalt: Fragen von Anselm von Canterbury an die Jungfrau Maria lateinische, deutsche und niederländische Überlieferungen insgesamt: 198 Handschriften, 33 Drucke Anselm-Korpus: 43 Handschriften, 7 Drucke (alle deutschen, vollständigen Fassungen) Paralleles Korpus: Sammlung von Texten des gleichen/ähnlichen Inhalts. Unterschiede: kurze und lange Versionen (Durchschnittslänge: 6000 Wörter) Prosa- und Versversionen verschiedene (Schreib-)Dialekte des Jh. (Fnhd) ober- und mitteldeutsch (geplant: auch niederdeutsch) Stefanie Dipper Normalisierung und Tagging / 25
4 Das Anselm-Korpus Diplomatische Transkription: Beispielfragment Stefanie Dipper Normalisierung und Tagging / 25
5 Parallelfassungen Berlin: Das Anselm-Korpus Melk: Stefanie Dipper Normalisierung und Tagging / 25
6 Varianz in der Schreibung Ruge (2005): wird (Plot von Piotrowski (2012)) Stefanie Dipper Normalisierung und Tagging / 25
7 Varianz in der Schreibung Scheible, Whitt, Durrell, and Bennett (2011): Prozentsatz unbekannter Wörter Stefanie Dipper Normalisierung und Tagging / 25
8 Normalisierung (gemeinsame Arbeiten mit Marcel Bollmann, Florian Petran, Julia Krasselt) Ref: Marcel Bollmann (2012). Automatic Normalization for Linguistic Annotation of Historical Language Data. Masterarbeit, Ruhr-Universität Bochum. Stefanie Dipper Normalisierung und Tagging / 25
9 Normalisierung (gemeinsame Arbeiten mit Marcel Bollmann, Florian Petran, Julia Krasselt) Kombination verschiedener Methoden (Kaskade): 0. (Simplifizierung: Transliteration) 1. Wortliste (Übersetzungslexikon) 2. Ersetzungsregeln 3. Gewichtete Levenshtein-Distanz Vgl. Jurish (2010): Kombination verschiedener Methoden (parallel): Identität Simplifizierung: Transliteration Phonetisierung (manuelle) Ersetzungsregeln HMM (Wort-Trigramme) wählt jeweils aus den Ergebnissen aus Stefanie Dipper Normalisierung und Tagging / 25
10 1. Normalisierung mit einer Wortliste Training (= Wortlisten-Extraktion) auf einem annotierten Text, Anwendung/Evaluation auf ungesehenem Text Vorteile: kann auch schwierige Fälle erfassen: eyme einem auch geeignet für idiosynkratische Fälle: ihus xrus Jesus Christus Nachteile: kann keine Generalisierungen ableiten kein Ergebnis für ungesehene Wörter Stefanie Dipper Normalisierung und Tagging / 25
11 2. Normalisierung mit Ersetzungsregeln Methode: Erlernen von Ersetzungsregeln aus einem Parallelkorpus Daten: Luther-Bibel von 1545 und 1892 Stefanie Dipper Normalisierung und Tagging / 25
12 Alignierung und Ersetzungsregeln FNHD AM anfang schuff Gott Himel vnd Erden MOD Am Anfang schuf Gott Himmel und Erde FNHD AM anfang schuff Gott Him el vnd Erden MOD Am Anfang schuf Gott Himmel und Erde FNHD v n d MOD u n d v u / # _ n n n / u _ d Anwendung der Regeln zum Generieren moderner Formen Ranking gemäß Regel-Frequenzen am Ende: Wortform-Abgleich gegen ein Lexikon Stefanie Dipper Normalisierung und Tagging / 25
13 Ersetzungsregeln Vorteil: Nachteil: Generalisierungen für unbekannte Wörter (Zu) spezifische Regeln wegen Kontextsensitivität oft keine passende Regel vorhanden Stefanie Dipper Normalisierung und Tagging / 25
14 3. Normalisierung mit gewichteter Levenshtein-Distanz (WLD) Erlernen von Gewichten für Ngramm-Ersetzungen Unterschied zu Ersetzungsregeln: flexibler (Tri/Bi/Unigramme) bevorzugt ähnliche Wortformen (keine Ersetzung = 0 Kosten) Top-Operationen (Melk): Edit Gewicht v u vn un vnd und c ε p b do da Stefanie Dipper Normalisierung und Tagging / 25
15 Ente Apfelmus Einige nette Normalisierungsprodukte (mit ungewichteter Levenshtein-Distanz): von chuenikleichnm geslecht von ungleichem geflecht perkch oliueti geruch polizei sente anshelmus ente apfelmus Stefanie Dipper Normalisierung und Tagging / 25
16 Evaluation (ohne Fremdwörter, Interpunktion) Ergebnisse (in %) für die Kaskade: Wortliste > Regeln > WLD: Text Baseline Kaskade Upper b. Jurish Berlin (omd, 15.Jh) Melk (oob, 15.Jh) Baseline: Anteil von Wortformen, der unverändert bleibt Kontext-freie Methode: upper bound? Training: 500 Tokens, Eval: ca Tokens Jurish: Training auf DTA-Daten Stefanie Dipper Normalisierung und Tagging / 25
17 Evaluation: Effekt der Trainingsgröße Stefanie Dipper Normalisierung und Tagging / 25
18 Tagging Tagging (v.a. Arbeiten von Marcel Bollmann) Methode: wende modernen Tagger auf normalisierten Text an moderner Tagger (RFTagger) trainiert auf modifiziertem TIGER/Tüba-DZ keine Großschreibung, keine Interpunktion 10fache Kreuzvalidierung: 95.74% normalisierter Text manuell normalisiert (= upper bound) automatisch normalisiert Evaluation (in %): Text Original Manuell Automatisch Berlin Melk Stefanie Dipper Normalisierung und Tagging / 25
19 Kontextsensitivität Tagging Idee: überlasse dem Tagger die Disambiguierung schwieriger Formen in ihn (APPR PPER) im ihm (APPR PPER) das dass (ART/PDS/PRELS KOUS) Training auf modifiziertem TIGER/Tüba-DZ: ORIG ich sah ihn in Berlin MODIF ich sah ihnin ihnin berlin STTS PPER VVFIN PPER APPR NE Stefanie Dipper Normalisierung und Tagging / 25
20 Kontextsensitivität Tagging Problem: ungleiche Verteilung in den Trainingsdaten (in %): Korpus in ihn im ihm das dass TIG/Tüba Berlin Melk Evaluation (in %): Korpus gesamt in ihn im ihm das dass TIG/Tüba orig TIG/Tüba ambig Berlin Melk Stefanie Dipper Normalisierung und Tagging / 25
21 Zusammenfassung Tagging 1 Normalisierung: noch keine zufriedenstellenden Ergebnisse rund 75% Grund: Handschriften, Frühneuhochdeutsch 2 Tagging: upper bound mit modernem Sprachmodell: rund 87% Retraining sinnvoll Stefanie Dipper Normalisierung und Tagging / 25
22 References I References Bollmann, M. (2012). Automatic normalization for linguistic annotation of historical language data. Master s thesis, Ruhr-Universität Bochum. Jurish, B. (2010). More than words: Using token context to improve canonicalization of historical German. Journal for Language Technology and Computational Linguistics 25(1), Piotrowski, M. (2012). Natural Language Processing for Historical Texts. Synthesis lectures on Human Language Technologies. Morgan & Claypool. Scheible, S., R. J. Whitt, M. Durrell, and P. Bennett (2011). A gold standard corpus of Early Modern German. In Proceedings of the Fifth Linguistic Annotation Workshop, pp Stefanie Dipper Normalisierung und Tagging / 25
Hidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrErweiterung des STTS für gesprochene Sprache
Erweiterung des STTS für gesprochene Sprache Ines Rehbein, Sören Schalowski und Heike Wiese Institut für Deutsche Sprache SFB 632 Informationsstruktur Universität Potsdam STTS Workshop am IMS Stuttgart
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrElektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen 2 und / 27der. und der Computerlinguistik
Elektronische Korpora in der Lehre Anwendungsbeispiele aus der theoretischen und der Linguistics Department Ruhr-University Bochum 18.1.2011 DSPIN-Workshop Sprachressourcen in der Lehre Erfahrungen, Einsatzszenarien,
MehrEinführung in die Computerlinguistik
Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen
MehrTagging von Online-Blogs
Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt
MehrModul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen
Institut für Computerlinguistik Sprachtechnologie in den Digital Humanities Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen Simon
MehrWortfinales Schwa in BeMaTaC: L1 vs. L2. Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin
Wortfinales Schwa in BeMaTaC: L1 vs. L2 Simon Sauer Korpuslinguistisches Kolloquium Humboldt-Universität zu Berlin 27.01.2016 Phänomen In gesprochenem Deutsch wird wortfinales Schwa oft weggelassen ich
MehrWiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik
Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik Referenzkorpora vs. Monitorkorpora Homogenität vs. Heterogenität (Parameter) Ausgewogenheit Anke Lüdeling anke.luedeling@rz.hu-berlin.de
MehrNamed Entity Recognition auf Basis von Wortlisten
Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrPROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES
Ausgangsfrage PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES Irina Gossmann Carine Dombou 9. Juli 2007 INHALT Ausgangsfrage 1 AUSGANGSFRAGE 2 SYNTAX DES DEUTSCHEN + NEGRA 3 PROBABILISTISCHE
MehrDeutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können
Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können Marc Reznicek Humboldt-Universität zu Berlin STTS- Workshop 24.9.2012 Überblick STTS in Lernerkorpora Lernerfehler
MehrKorpusannotation: Vom nachhaltigen Aufbereiten einer Ressource
Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen
MehrAutomatisiertes Annotieren in CATMA
Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de
MehrPart-of-Speech- Tagging
Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):
MehrImplementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
MehrAnalyse von literarischen Texten mit Methoden aus dem Bereich des Opinion Mining
Kooperative Promotion im Rahmen der TechnologieAllianzOberfranken (TAO) im Bereich Opinion Mining Analyse von literarischen Texten mit Methoden aus dem Bereich des Opinion Mining 1 Agenda Einleitung und
MehrBehandlung von Varianz in Historischen Texte
Behandlung von Varianz in Historischen Texte Andreas Hauser 16. Januar, 2007 Abstract Da in historischen Texten die Schreibweise der Wörter einer großen Varianz unterliegt, arbeitet man mit zum Spellchecking
MehrStefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis
Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds
MehrEinführung. Stefanie Dipper Stefan Evert Heike Zinsmeister
Einführung Stefanie Dipper Stefan Evert Heike Zinsmeister München, 28.1.2011 Korpus eine Sammlung gesprochener oder geschriebener Äußerungen typischerweise digitalisiert und maschinenlesbar Ebenen eines
MehrAutomatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006
Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition
MehrANNIS Quickstart
Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach
MehrNeue Funktionen in der KorpusSuchmaschine ANNIS 3.1
Neue Funktionen in der KorpusSuchmaschine ANNIS 3.1 Thomas Krause 1 Vorkenntnisse??? 2 Hands On Im Browser (möglichst Firefox oder Chrome) https://korpling.german.hu-berlin.de/annis3/ aufrufen Nachfragen!
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrPart-of-Speech Tagging. Stephanie Schuldes
Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrEvaluation und Training von HMMs
Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States
MehrProjektseminar "Texttechnologische Informationsmodellierung"
Projektseminar "Texttechnologische Informationsmodellierung" Ziel dieser Sitzung Nach dieser Sitzung sollten Sie: Einige standards und projekte vom Namen her kennen Einen Überblick über und einen Eindruck
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von
MehrPOS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007
POS Tagging Stefanie Dipper CL-Einführung, 2. Mai 2007 Überblick 1. Was ist POS-Tagging? 2. Geschichtlicher Überblick 3. ( Moderne Tagger) 1. Was ist POS-Tagging? POS (PoS) = part of speech: Wortart Tag:
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen
MehrAnnotation Guidelines for German Non-standard Varieties
Annotation Guidelines for German Non-standard Varieties Marc Reznicek 4. Arbeitstagung 8.11.2012, Aachen Overview Motivation & Goals existing resources Data & Annotation test corpus annotation Chat DCC-Chat-Protocols
MehrKorpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann
Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus 07.10.2014 LAUDATIO-Workshop Hagen Hirschmann Was ist ANNIS? ANNIS steht für ANNotation of Information Structure http://www.sfb632.uni-potsdam.de/d1/annis/
MehrOverview. Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1
Overview Motivation Learner text and target hypoteses correction of POS-tags parsing the target hypothesis TH1 Motivation up -to -date learner corpora allow us to investigate surface structure features
MehrTagger for German. Online BRILL-Tagger für das Deutsche
Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrDie Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden domänenspezifischen Textanalysen
B. Mitschang et al. (Hrsg.): BTW 2017 Workshopband, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2017 99 Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrImproving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction
Improving Part-Of-Speech Tagging for Social Media via Automatic Spelling Error Correction Vorstellung AI-Studienprojekt für das SoSe 2019 Benedikt Tobias Bönninghoff 17.01.2019 Cognitive Signal Processing
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrPart-of-Speech-Tagging mit Transduktoren
Ruprecht-Karls Universität Heidelberg Hauptseminar Computerlinguistik Endliche Automaten für die Sprachverarbeitung PD Dr. Karin Haenelt Sommersemester 2005 Part-of-Speech-Tagging mit Transduktoren Maria
MehrEinführung in die Computerlinguistik POS-Tagging
Einführung in die Computerlinguistik POS-Tagging Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2013 POS Tags (1) POS = part-of-speech Tags sind morphosyntaktische Kategorien von Wortformen.
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Wissensmanagement VO 340088 Bartholomäus Wloka https://www.adaptemy.com MÜ Ansätze Zwei Dimensionen: Verarbeitungstiefe Art der verwendeten Technik Seite 2 Verarbeitunstiefe Seite
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrVom Zeichen zur Schrift Mit Mustererkennung zur automatisierten Schreiberhanderkennung in mittelalterlichen und frühneuzeitlichen Handschriften
Platzhalter für Bild, Bild auf Titelfolie hinter das Logo einsetzen Vom Zeichen zur Schrift Mit Mustererkennung zur automatisierten Schreiberhanderkennung in mittelalterlichen und frühneuzeitlichen Handschriften
MehrDas deutsche Mittelfeld beherrschen Linearisierung im Lernerdeutschen
Das deutsche ittelfeld beherrschen Linearisierung im Lernerdeutschen arc Reznicek KobaltWorkshop 22.10.23.10.2011 Variation im ittelfeld(f) Die Konstituentenabfolgen im deutschen ittelfeld sind sehr varia.
MehrTreeTagger. Deborah Watty
TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.
MehrKorpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora
Korpuslinguistik Annis 3 -Korpussuchtool Suchen in tief annotierten Korpora Anke Lüdeling, Marc Reznicek, Amir Zeldes, Hagen Hirschmann... und anderen Mitarbeitern der HU-Korpuslinguistik Ziele Wie/Was
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik HMM POS-Tagging Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 20 POS Tags (1) Jurafsky and Martin (2009) POS = part-of-speech Tags sind morphosyntaktische
MehrHerausforderungen bei der Erstellung eines L1- Lernerkorpus
Herausforderungen bei der Erstellung eines L1- Lernerkorpus Lösungsvorschläge aus dem Projekt KoKo Aivars Glaznieks, Egon Stemle, Andrea Abel, Verena Lyding Institut für Fachkommunikation und Mehrsprachigkeit,
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrWhy learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt
Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt Marc Reznicek and Heike Zinsmeister Workshop: Modeling non-standardized writing DGfS Jahrestagung, Potsdam
MehrViterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes
Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28
MehrAutomatische Textzusammenfassung
Ruprecht Karls Universität Heidelberg Lehrstuhl für Computerlinguistik HS Information Retrieval Automatische Textzusammenfassung Referat von Elena Loupanova 23.01.2006 Definition Textzusammenfassung The
MehrKorpus. Was ist ein Korpus?
Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend
MehrAuxiliary Fronting in German: A Synchronic and Diachronic Corpus Study
Auxiliary Fronting in German: A Synchronic and Diachronic Corpus Study Erhard Hinrichs University of Tübingen The added value of RIs Research infrastructures should enable researchers to formulate entirely
MehrI. Erste Schritte in CATMA
Einführung in CATMA I. Erste Schritte in CATMA II. III. IV. Texte analysieren Suchabfragen in CATMA Texte (kollaborativ) annotieren mit CATMA Weitere Suchabfragen: Annotationen auswerten I. Erste Schritte
MehrThemen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung
GK C: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2003 Themen Vorverarbeitung Tokenisieren Taggen Lemmatisieren Vorverarbeitung auf allen Vorverarbeitungsebenen
MehrINTERDISZIPLINÄRE NUTZUNG VON FORSCHUNGSDATEN MITHILFE EINER TECHNISCH-ABSTRAKTEN MODELLIERUNG
Carolin Odebrecht Korpuslinguistik Humboldt-Universität zu Berlin INTERDISZIPLINÄRE NUTZUNG VON FORSCHUNGSDATEN MITHILFE EINER TECHNISCH-ABSTRAKTEN MODELLIERUNG 1 Aufgabe Was ist eigentlich eine Normalisierung?
MehrErkennung von Teilsatzgrenzen
Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen
MehrAutomatische Erkennung von Figuren in deutschsprachigen Romanen
Automatische Erkennung von Figuren in deutschsprachigen Romanen Fotis Jannidis, Isabella Reger, Lukas Weimer Universität Würzburg: Lehrstuhl für Computerphilologie Markus Krug, Martin Toepfer, Frank Puppe
MehrHOW TO AVOID BURNING DUCKS
HOW TO AVOID BURNING DUCKS EIN KOMBINIERTER ANSATZ ZUR VERARBEITUNG VON KOMPOSITA IM DEUTSCHEN nach Fritzinger & Fraser STEFANIE VIETEN, ADVANCED STATISTICAL MACHINE TRANSLATION WS 2014/15 13.01.2015 GLIEDERUNG
MehrMaschinelle Sprachverarbeitung Tokenisierung
Maschinelle Sprachverarbeitung Tokenisierung Dr. Heike Zinsmeister FB Sprachwissenschaft Universität Konstanz 29. Oktober 2008 Gliederung 1 Einleitung 2 Einfache Textzerlegung 3 Herausforderungen an die
MehrPart-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09
Part-of-Speech Tagging Machine Language Processing Heike Zinsmeister WS 2008/09 Motivation Part of Speech = Wortart Tokenisierung Zerlegung einer Sprache in Wörter Lexikon Wortinventar einer Sprache Anzahl
MehrTerminologie-Extraktion: Beispiel
Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation
MehrWeitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff
Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization
MehrGI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten. Jennifer Krisch Daimler AG
GI-Fachgruppentreffen RE Weak-Words und ihre Auswirkung auf die Qualität von Anforderungsdokumenten Jennifer Krisch Daimler AG Inhalte 1 Motivation 2 Was sind Weak-Words? 3 Vorgehen bei der Analyse 4 Evaluation
MehrSchriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009
Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Typen von n Alphabete Lateinische Schrift Griechische Schrift Kyrillische Schrift Konsonantenschriften
MehrTransformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging
Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Malte Helmert 23. Februar 2000 Seminar Autonome Mobile Systeme/Machine Learning Übersicht 1. Part of Speech Tagging
MehrLearning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo
Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation Yupeng Guo 1 Agenda Introduction RNN Encoder-Decoder - Recurrent Neural Networks - RNN Encoder Decoder - Hidden
MehrWortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation Übersicht Allgemeines zur Ambiguität Einführung Wortarten-Tagging Tagsets Automatisches Taggen eines
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrKorpora. Referenten Duyen Tao-Pham Nedyalko Georgiev
Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität
MehrOrganisatorisches: Poster. Einführung in die Korpuslinguistik. Organisatorisches: Poster. Organisatorisches: Poster. Organisatorisches: Poster
Organisatorisches: Poster Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2005 Erstellung eines wissenschaftlichen Posters in einer Gruppe (< 4 Personen)
MehrPart-Of-Speech-Tagging mit Viterbi Algorithmus
Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus
MehrModellierung von linguistischen Forschungsdaten. Kolloquium Korpuslinguistik Carolin Odebrecht Humboldt-Universität zu Berlin
Modellierung von linguistischen Forschungsdaten Kolloquium Korpuslinguistik 13.11.2013 Carolin Odebrecht Humboldt-Universität zu Berlin Überblick 1. Forschungskontext 2. Forschungsfrage 3. Anwendungsbereich
MehrEvaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt
Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren Karin Haenelt 27.11.2009 Evaluierungsveranstaltungen TREC Text Retrieval Evaluation Conference jährlich seit 1992 Sponsoren: Defence
MehrSemiüberwachte Paarweise Klassifikation
Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -
MehrSKOPOS Webinar 22. Mai 2018
SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas
Mehr8. Mai Humboldt-Universität zu Berlin. LingPipe. Mark Kibanov und Maik Lange. Index. Allgemeine Infos. Features
Humboldt-Universität zu Berlin 8. Mai 2008 1 2 logistic regression 3 Benutzer 4 Fazit 5 Quellen Was ist? is a suite of Java libraries for the linguistic analysis of human. Was ist? is a suite of Java libraries
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrVortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)
Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012 Referent: Florian Kalisch (GR09) Rückblick Aktueller Status Einführung in Text-Mining Der Text-Mining Prozess
MehrLinguistische Informatik
Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz
MehrProbabilistische kontextfreie Grammatiken
Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören
MehrDas Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv
Das Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Jakob Steinmann, Christian Thomas & Frank Wiegand Zusammenfassung Berlin-Brandenburgische
MehrGRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE
RÄUME - GRENZEN - ÜBERGÄNGE: 5. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen 10. - 12. September 2015 Universität Luxemburg GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE EIN TAGSET
MehrKorpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.
Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Korpusvorverarbeitung Beispiel: DIE ZEIT aufbereitet für journalistische Zwecke, mitgeliefertes
Mehrordnet.dk Vernetzung zwischen Wörterbuch und Korpus
ordnet.dk Vernetzung zwischen Wörterbuch und Korpus Jörg Asmussen Det Danske Sprog- og Litteraturselskab, DSL Gesellschaft für dänische Sprache und Literatur ordnet.dk Vernetzung 1. Das Projekt ordnet.dk
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Paul Prasse Michael Großhans NLP- (Natural Language Processing-) Pipeline Folge von Verarbeitungsschritten
MehrPart of Speech Tagging. Linguistische Sicht. Carolin Deck
Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung
Mehr