Tutorial: Einführung in Conditional Random Fields zum Taggen von sequentiellen Daten Tool: Wapiti

Größe: px
Ab Seite anzeigen:

Download "Tutorial: Einführung in Conditional Random Fields zum Taggen von sequentiellen Daten Tool: Wapiti"

Transkript

1 Einführung in Conditional Random Fields zum Taggen von sequentiellen Daten Tool: Wapiti Micha Probst Betreuer: Simon Clematide Juli 2013 Zusammenfassung Das Tutorial erklärt die Grundlagen von Conditional Random Fields (CRF). Zuerst werden die Basisideen, supervisiertes Lernen sowie Merkmalgenerierung erläutert. Anschliessend wird, um das Verständnis zu vertiefen, ein Einstieg in die Mathematik der CRFs gemacht. Zum Schluss wird in das CRF-Tool Wapiti eingeführt. Hierzu werden Sie durch die Installation geführt und erfahren, in welchem Format Sie die Daten bereitstellen müssen. Der Aufbau für die Erklärungen zur Verwendung von Wapiti, sowie den Übungen, folgt dem Train-Test-Evaluate-Cycle.

2 Tool: Wapiti 1 1 Lernziele 1. Sie wissen, was sequentielle Conditional Random Fields (CRF) sind, und verstehen, wie diese funktionieren. 2. Sie wissen, für welche Klassifikationsprobleme sequentielle CRF geeignet sind. 3. Sie wissen, welche Vorteile sequentielle CRF bieten. 4. Sie lernen das CRF-Tool Wapiti kennen und können damit CRF-Modelle trainieren und anwenden. 5. Sie können Feature-Templates für Wapiti schreiben. 6. Sie lernen CRF-Modelle zu inspizieren. 2 Einleitung Im Natural Language Processing (NLP) lassen sich viele Aufgaben als ein Problem darstellen, bei dem eine Folge von Elementen klassifiziert werden muss. Klassifikation meint dabi die Zuordnung eines Elementes zu einem möglichen (Klassen-)Label. Bei der Wortartenklassifikation wird zum Beispiel jedem Token eines Satzes seine Wortart als Klassifikationskürzel zugewiesen. Die Folge der Tokens ist wichtig, da zum Beispiel das Wort zu am Ende eines Satzes nie eine Präposition sein wird. Ein zu vor einem Begleiter wird kaum ein abgetrenntes Verbpräfix sein. Weiter werden in der statistischen natürlichen Sprachverarbeitung immer häufiger Wahrscheinlichkeitsmodelle auf NLP-Aufgaben angewendet. Darunter gehören Hidden-Markov-Modelle (HMM), Maximum-Entropy-Markov-Modelle (MEMM) und Conditional Random Fields (CRF). Maschinelle Lernverfahren folgen dem sogenannten Train-Test-Evaluate-Cycle. Das Training wird anhand eines Korpus gemacht, welches mit den zu lernenden Klassen annotiert ist. Dabei wird mit einem Algorithmus aus den beobachteten Ereignissen, welche als Feature-Sets repräsentiert sind, ein Modell generiert, welches einer strukturellen Beschreibung des Korpus entspricht. Das entstandene Modell wird anhand von bisher nicht beobachteten Ereignissen getestet. Die Ausgabe wird evaluiert und anhand der Resultate wird das Modell überarbeitet. Beschreibt das Modell die gelernten Daten zu exakt, besteht das Problem, dass das Modell nicht gut mit neuen Daten umgehen kann ( overfitting ). Das heisst, das Modell hat zuwenig generalisiert aus den Daten, sie einfach auswendig gelernt. CRF können für verschiedene Sequence-Labeling-Probleme benützt werden, wobei es für sequentielle CRFs sehr einfach zu benutzende Software gibt. Sequentielle CRFs werden darauf trainiert, die korrekte Sequenz aus allen möglichen Sequenz-Kandidaten zu bestimmen. Sie können für Information Extraction (IE), sowie für Shallow Parsing, Named Entity Recognition und Part-of-Speech Tagging verwendet werden. Sequentielle CRFs gehören zu den supervisierten Lernverfahren. Dabei lernen diese Verfahren [...] automatisch die Entscheidungskriterien aus einer Menge von Trainingsbeispielen [...]. 1 Die Trainingsdaten werden manuell (d.h. supervisiert) annotiert. Aufgabe der Lernverfahren ist es, mit den Trainingsdaten eine Wahrscheinlichkeitsverteilung zu berechnen [...] 2, um damit das beste Label für die auftretende Sequenz zu bestimmen. Die Verteilungsfunktionen operieren über Merkmale, wie z.b. den Wörtern der Texte, Wortfolgen, Wortarten etc. Daher werden die Texte entsprechend vorbearbeitet und in einem Merkmalsvektor auf ähnliche Weise repräsentiert [...]. 3 Der Nachteil dieser sogenannten überwachten Lernverfahren ist, dass sie sehr grosse annotierte Korpora zum Trainieren benötigen. 4 Um die Anwendung von sequentiellen CRF für Sie zu 1 Klabunde et al., Klabunde et al., Klabunde et al., Klabunde et al., 597.

3 Tool: Wapiti 2 ermöglichen, wird in diesem Tutorial in Kapitel 3 deren Basis erläutert. In Kapitel 4 wird in das CRF-Toolkit Wapiti eingeführt. Um den praktischen Einstieg zu erleichtern, werden während des Erarbeitens Übungen zur Verfügung gestellt. 3 Sequentielle Conditional Random Fields Das Ziel von CRF ist die Klassifikation von Beobachtungen. Dabei wird die Beobachtung x X einer Klasse y Y zugewiesen. Russell/Norvig geben dafür folgendes Beispiel anhand der Klassifikation von Wetterbeobachtungen in Kategorien wie gut und schlecht (Y {good, bad}). Sei also x die Wetterbeobachtung an einem Tag (X {Montag, Dienstag,...}), so kann die Wetterbeobachtung x mit einer Menge von Merkmalen f (features) beschrieben werden. Ist es bewölkt, so ist f bewoelkt (x) = 1, ansonsten f bewoelkt (x) = 0. Weitere Merkmale könnten f sonnig oder f regnerisch sein (Klinger/Tomanek/Klinger). Die Merkmale werden in der Trainingsphase des CRF-Toolkits anhand von Algorithmen gewichtet. Wobei es darum geht, die Merkmale anhand der Trainigsdaten so zu gewichten, dass die Klassen aus den Trainingsdaten möglichst korrekt vorhergesagt werden. Dazu werden schrittweise die durch die Trainingsmenge vorgegebenen Sätze verallgemeinert, sodass sie auch auf nicht annotierte, neue Dokumente möglichst fehlerfrei anwendbar sind. 5 (generalization performance) 6 In der Formel von sequentiellen CRF wird die Wahrscheinlichkeit einer Labelsequenz y mittels einer gegeben observierten Sequenz x berechnet: p(y x; w) = exp( j w jf j (x, y)) Z(x, w) Dabei ist: y: Labelsequenz, d.h. Folge von Klassen F (y, x): Merkmalsfunktion x: Evidenz j: Anzahl Merkmalsfunktionen Z(x, w): normalisierender Faktor (Partitionsfunktion) w: Folge von Gewichten In der Formel ist y die Labelfolge einer Menge von Tokens. x ist die Evidenzfolge, also die beobachtete Tokenfolge. w enthält für jede Merkmalsfunktion f(y, x) das entsprechende Gewicht. wist eine Folge von Gewichten. Die Berechnung wird im Verhältnis zur Summe der Merkmalsfunktionen gemacht und mit Z(x, w) normalisiert. Z(x) ist eine Normalisierungsfunktion, welche sicher stellt, dass Wahrscheinlichkeiten entstehen: Z(x, w) = y exp( j w j f j (x, y )) Während des Trainings wird die Gewichtung der Merkmale berechnet. Die Merkmale werden auf der Basis von Merkmalsmustern gebildet. Diese müssen dem System zur Verfügung gestellt werden. Ist die Folge an der Stelle von Merkmal j = 0, sprich das Ereignis irrelevant, so wird dieses nicht miteinbezogen. 5 Klabunde et al., Mehr Information bei

4 Tool: Wapiti 3 Abbildung 1: Beispiel Part-of-Speech Tagging In der Darstellung 7 ist ein Beispiel für eine Sequenz mit verschieden Tags zu sehen. Zusätzlich werden die Evidenzen x und die Labelsequenzen y aufgezeigt. 3.1 Vorteile sequentieller CRF Typische N-Gramm-Tagger haben ein fix vorgegebenes Modell, welches Evidenzen aus einem eingeschränkten Kontext (z.b. das aktuelle Wort sowie die beiden vorangehenden Labels in einem Trigramm-Tagger) berücksichtigt. Diese werden generative Modelle genannt, da sie die Wahrscheinlichkeit des gemeinsamen Auftretens der Tokens x und der Labels y berechnen (p(x, y)). Der Vorteil von sequentiellen CRF ist, dass Merkmale aus der ganze Evidenz extrahiert werden können und nicht nur Bezug auf das aktuelle Wort und vorangehenden Klassifikationshypothesen. Bei conditional models wird, wie der Name schon sagt, nicht die gemeinsame Auftretenswahrscheinlichkeit berechnet, sondern nur die Wahrscheinlichkeit des Labels y gegeben die Beobachtung x, d.h. p(y x). 7 Quattoni, 2009.

5 Tool: Wapiti 4 4 Wapiti Wapiti ist eine von Lavergne/Cappé/Yvon entwickelte Implementation für sequenzielle CRFs. Dadurch wird das Labeling von sequenziellen Daten ermöglicht. Im Allgemeinen besteht der Ablauf, wie in der Einleitung schon erklärt, aus Trainieren, Testen und Evaluieren. Wapiti unterstützt die Möglichkeit, das Modell in lesbarer Form auszugeben und hat wichtige und effiziente Trainings-Algorithmen implementiert. Diese können reguliert und kombiniert werden, um die Qualität der Verallgemeinerung (generalization performance) zu verbessern und die Anforderungen an Rechenleistung und Speicher zu optimieren. In diesem Tutorial nutzen wird den Quasi-Newton-Algorithmus (L-BFGS), welcher als Standard-Algorithmus in Wapiti dient. Die Arbeit von Lavergne/Cappé/Yvon informiert unter anderem auch darüber, welche Optimierungsalgorithmen besser mit grossen Merkmalsmengen umgehen können, welche für NLP-Probleme oft typisch sind. Wapiti hat zusätzlich verschiedene Methoden zur Regulierung, welche zum Beispiel overfitting reduzieren und effizientere Merkmalselektion erlauben. Die Standardoption L1 optimiert unter anderem das Modell, indem irrelevante Merkmale entfernt werden. Dies führt zu kleineren und allgemeineren Modellen, welche schneller laden und speichereffizienter sind. Die Nutzung von Wapiti erfolgt in vier Stadien (Train-Test-Evaluate-Zyklus). Zuerst müssen die Vorbereitungen getroffen werden. Die Merkmalsmuster, anhand welcher das Modell aufgebaut wird, sowie die Trainingsdaten müssen bereitgestellt sein. Der zweite Schritt besteht aus dem Training des Modells. Dabei werden die Merkmale ausgewählt, welche die Daten am besten beschreiben und entsprechend gewichtet. Drittens kann das entstandene Modell auf Daten angewendet werden. Schlussendlich erfolgt die Evaluation des Modells oder die weitere Nutzung. Preprocessing: Trainingsdaten (Label) und Merkmalmuster vorbereiten Training: Merkmalgewichtung berechnen Tagging: Labeling anhand des Modells anwenden Evaluation: Model Dump und Verbesserung der Merkmalmuster 4.1 Voraussetzungen & Installation Wapiti kann auf allen Plattformen funktionieren. Um es auf Windows benützen zu können, wird empfohlen mit Cygwin zu arbeiten. 8 Die Installation unter Linux funktioniert wie folgt: 1. Herunterladen des Archivs von 2. Bei Bedarf das Makefile anpassen, um den Installationspfad zu ändern (PREFIX) 3. Mit untenstehenden Befehlen Wapiti installieren: $ make $ make install 8

6 Tool: Wapiti Trainingsdaten Für die Trainingsdaten wird eine normale Textdatei genutzt, welche die Sequenzen durch Leerzeilen getrennt beinhaltet. Jede Zeile der Sequenz repräsentiert eine Position, welche durch Leerzeichen oder Tabulator getrennte Tokens beinhaltet. Auf einer Zeile werden alle Tokens ausser dem letzten berücksichtigt. Das letzte Token ist das zu berechnende Klassen-Label. Zum Beispiel wäre im folgenden Raster in der dritten Zeile das Paar (Tulsa, NNP) die Evidenz x, welche genutzt werden kann, und I-NP das Label y 3. Evidenz Labels y Corp. NNP I-NP s POS B-NP Tulsa NNP I-NP unit NN I-NP Beispiel für den Aufbau der Trainingsdaten 4.3 Merkmale und Merkmalmuster Wapiti benötigt Merkmale, welche die Daten beschreiben. Anhand der Merkmale werden die Gewichtungen berechnet, welche schliesslich zur Entscheidung führen, welches die wahrscheinlichste Labelsequenz ist. Mit der Erstellung von Merkmalmuster wird dementsprechend ein Rahmen vorgegeben, innerhalb dessen das Modell Evidenzen beziehen kann für die Klassifikation. Damit werden die zu berücksichtigenden Beobachtungen für das Labeling definiert. Bei Sprachverarbeitungsproblemen wird, wie im Kapitel 3 schon erklärt, mit sequentiellen CRF gearbeitet. Sequentiell, weil angenommen wird, dass natürlich-sprachliche Äusserungen einer Kette von Wörtern entsprechen, welche in Relation zueinander stehen. Die Muster (Pattern) werden in Kombination mit den Tokens genutzt, um Merkmale zu generieren. Bei den Mustern muss spezifiziert sein, ob es ein Unigramm ( u ), ein Bigramm ( b ) oder beides ( * ) ist. Jede Zeile entspricht jeweils einem Muster, ausser eine Zeile wurde auskommentiert (#). Alle Merkmalsmuster werden genutzt, um instantiierte Merkmale zu bilden. Jede Markierung vom Typ %x[off,col] wird durch die jeweilige Information für das aktuelle Token ersetzt. Dabei ist col das Token auf der aktuellen Zeile und off das im Merkmal berücksichtigte off -Token.. Die Werte in off können mit dem markiert werden, um eine absolute Position in der Sequenz zu nutzen, wie zum Beispiel der Anfang einer Sequenz und das Ende einer Sequenz a1 b1 c1 a2 b2 c2 a3 b3 c3 Wenn wir die oben stehenden Daten als Beispiel betrachten, würde das Muster u:%x[-1,0]/%x[1,2] an der Position 2 in der Sequenz die folgende Beobachtung generieren u:a1/c3. Wapiti unterstützt auch reguläre Ausdrücke in den Mustern. Dazu werden Befehle der Form %m[off,col, regexp ] und %t[off,col, regexp ] formuliert. Wobei %t mit true oder false ersetzt wird und %m mit den gematchten Zeichenketten. Sofern einer

7 Tool: Wapiti 6 der Befehl %x, %t oder %m grossgeschrieben wird, wird die Gross- und Kleinschreibung nicht berücksichtigt. 9 Merkmale werden also wie folgend definiert: u:word %x[0,0] u: steht für Unigramm. Jedes Merkmal kann mit einem Namen versehen werden, hier mit dem Namen word. Danach folgt %x, der die Positionsangabe folgt. [0,0] bedeutet, dass die aktuelle Position in der Sequenz mit der zugehörigen Evidenz in der 0-ten Spalte angeschaut wird. Übung 1: In der heruntergeladenen Zip-Datei von Wapiti befindet sich ein Ordner ( dat ), welcher mehrere Dateien enthält. Kopieren Sie sich davon die zwei Dateien chtrain und chtest in einen Arbeitsordner. Um Wapiti nun auf der Datei chtrain trainieren zu können, müssen Muster definiert werden, anhand welcher die Sequenzen untersucht werden sollen. Die Datei chtrain enthält Daten für eine Chunking-Aufgabe, dabei sind auf jeder Zeile die ersten zwei Spalten die Evidenzen und die letzte Spalte das Label. Erstellen Sie eine Merkmalmusterdatei (Feature-template), welche 1. ein Unigramm-Muster, 2. ein Bigramm-Muster 3. und ein Muster enthält, welches beides berücksichtigt. Beispielzeile für die Musterdatei: *:Bezeichner %x[0,0] 4.4 Verwenden von Wapiti Wapiti wird in der Kommandozeile aufgerufen, gefolgt vom Modus, welcher gebraucht wird. Der Trainingsmodus wird durch die Eingabe von train gestartet, der Labeling-Modus durch die Eingabe von label und dump führt zur menschenlesbaren Ausgabe des Modells. Die jeweiligen Modi haben bestimmte Befehlstrukturen. Training: $ wapiti train [options] [input data] [model file] Labeling: $ wapiti label [options] [input data] [output data] Dumping: $ wapiti dump [input model] [output text] Ein Wapiti-Eingabebeispiel: $ wapiti train -p musterdatei.txt train.txt beispielmodel 9

8 Tool: Wapiti 7 Die Eingabe von train aktiviert den Trainingsmodus, danach folgt die Übergabe des Feature-Templates. Die Trainingsdatei und der Name des zu speichernden Modells bilden den Abschluss. Die Option -p ist für unsere Zwecke nicht optional, es muss immer ein Feature-Template übergeben werden. Dieses muss also im nächsten Schritt erarbeitet werden. Übung 2: Trainieren Sie Wapiti anhand des Musters, welches Sie in Übung 1 erstellt haben. Probieren Sie dabei die Optionen i, c und a: 1. i 30 [Max-Iter 30 - Maximale Anzahl Durchläufe wird auf 30 festgelegt.] 2. c [Compact - Nicht gebrauchte Merkmale werden schon hier deaktiviert.] 3. a rprop [Algorithmus - Aktivieren von rprop: ein guter, speichereffizienter Algorithmus] Eingabe Beispiel: $ wapiti train -i 30 -p musterdatei.txt chtrain 4.5 Evaluation Um Resultate in einer für uns nutzbaren Form zu erhalten, müssen verschiedene Optionen eingeschaltet werden. Die Scores der Daten werden durch den Befehl s angezeigt. Das Problem dabei ist aber, dass diese Option alleine einen raw Score zurückgibt und keine Wahrscheinlichkeit. Um einen normalisierten Score zu bekommen, kann zusätzlich p aktiviert werden, was posterior decoding aktiviert. Dies bringt bessere Resultate, jedoch auf Kosten der Schnelligkeit. Die Resultate pro Sequenz kommen dann wie folgt zurück: # / / / / / Die erste Zeile gibt die gesamte Wahrscheinlichkeit der Sequenz an, sowie welches N 10 angezeigt wird. Bei jeder weiteren Zeile bis an das Ende der Sequenz werden die Wahrscheinlichkeiten des gewählten Labels angezeigt. 10 Siehe Best vs. N-best-Tagging

9 Tool: Wapiti 8 Übung 3: Evaluieren Sie das Modell, das Sie in Übung 2 generiert haben. Dabei gibt es zwei Möglichkeiten. Die Erste ist zur Verbesserung der Muster weniger brauchbar, da Sie die erreichte Präzision, Recall und F-Mass zurückgibt. Dies ist nur möglich, wenn die Test-Datei bereits die richtigen Labels enthält. Wapiti wird diese für die Evaluation berücksichtigen, wenn Sie die Option label c aktivieren. Die zweite Möglichkeit bietet einen Einblick in die Qualität der Muster, dafür müssen Sie einen Model Dump durchführen. Dieser zeigt Ihnen die Gewichte der verschiedenen Kombinationen an. Untenstehend ist eine Erklärung der Model Dumps. 1. Welches der drei in Übung 1 erstellten Muster, ist für sich genommen am besten? Deaktivieren Sie hierfür die einzelnen Muster durch Auskommentieren (#). 2. Können Sie die Resultate verbessern, in dem Sie weitere Muster in die Musterdatei einfügen oder die bestehenden Muster anpassen? Versuchen Sie eine Token-Präzision von 50-60% zu erreichen und eine Sequenz-Präzision von 30%. Ein Modell Dump besteht aus verschiedenen Teilen. Dabei werden für jedes Token die verschiedenen gefundenen Kombinationen eines Musters angezeigt. Untenstehend eine Beispielausgabe des bei Übung 2 vorgeschlagenen Musters für das Token Corp.: Modus:Name Token Bigramm Label Gewicht *:pos Corp. # I-NP *:pos Corp. B-NP I-NP *:pos Corp. I-NP I-NP Best vs. N-best-Tagging Die Rückgabe der N-best Treffer kann in Kombination mit der Berechnung der Wahrscheinlichkeit genutzt werden, um die Möglichkeit zu haben, geringfügig weniger wahrscheinliche Treffer in die Resultate miteinzubeziehen. First-best bedeutet, dass jeweils nur das beste Resultat zurückgegeben wird, dies entspricht dem Standard. Wird die Option N-best-Tagging aktiviert, gibt Wapiti die N besten Resultate zurück. $ wapiti label -n 3 beispielmodell resultat.txt Um diese Option zu aktivieren, wird in Wapiti die Option n N aktiviert, wobei N hier für die Anzahl Resultate steht. First-best und N-best Resultate sind für probabilistische Modelle wichtig, da dadurch nicht nur die Entscheidung an sich weitergegeben wird, sondern auch die Wahrscheinlichkeit dieser Entscheidung. Damit kann bei N-best-Tagging entschieden werden, ob das zweite oder dritte Tag überhaupt wahrscheinlich genug ist, um berücksichtigt zu werden. 4.7 Vorteile von Wapiti Die für das Tutorial zentralen Punkte sind: Grosse Label- und Merkmal-Sets sind kein Problem. Merkmalextraktion erfolgt mit erweiterten CRF++-Merkmalsmustern. Multi-threading wird unterstützt. N-best kann ausgegeben werden.

10 Tool: Wapiti Manual Das untenstehende Manual ist auf die für das Tutorial notwendigen Befehle gekürzt. 11 Global switchs: -h help display this help message version Training mode: display version information $ wapiti train [options] [input data] [model file] -T type STRING type of model to train -a algo STRING training algorithm to use -p pattern FILE patterns for extracting features -m model FILE model file to preload -c compact compact model after training -t nthread INT number of worker threads -j jobsize INT job size for worker threads -s sparse enable sparse forward/backward -i maxiter INT maximum number of iterations Labelling mode: $ wapiti label [options] [input data] [output data] -m model FILE model file to load -l label output only labels -c check input is already labeled -s score add scores to output -p post allows to output normalized score for sequences and labels. -n nbest INT output n-best list Dumping mode: $ wapiti dump [input model] [output text] 11

11 Tool: Wapiti 10 5 Weitere Informationen 5.1 Weblinks zu anderen CRF-Tools Wapiti CRF++ CRFSuite: (Geschwindigkeit, Automatik) CRFSharp Lektüre Literatur Klabunde, Ralf et al.; Klabunde, Ralf et al. (Hrsg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Springer, 2009, ISBN Klinger, Roman/Tomanek, Katrin/Klinger, Roman: Classical Probabilistic Models and Conditional Random Fields Lavergne, Thomas/Cappé, Olivier/Yvon, François: Practical Very Large Scale CRFs. In Proceedings the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, July 2010 URL: Quattoni, Ariadna: Tutorial on Conditional Random Fields. LARCA Seminar, 2009 Russell, Stuart J./Norvig, Peter: Artificial Intelligence: A Modern Approach. 2. Auflage. Pearson Education, 2003, ISBN

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung Maschinelle Sprachverarbeitung Übung Aufgabe 5: Gen-Erkennung mit Maschinellen Lernen Mario Sänger Problemstellung Erkennung von Genen in Texten NEU: Beachtung von Multi-Token-Entitäten (B-/I-protein)

Mehr

Named Entity Recognition auf Basis von Wortlisten

Named Entity Recognition auf Basis von Wortlisten Named Entity Recognition auf Basis von Wortlisten EDM SS 2017 Lukas Abegg & Tom Schilling Named Entity Recognition auf Basis von Wortlisten Lukas Abegg - Humboldt Universität zu Berlin Tom Schilling -

Mehr

Diskriminatives syntaktisches Reranking für SMT

Diskriminatives syntaktisches Reranking für SMT Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik WS 2/22 Manfred Pinkal Beispiel: Adjektive im Wahrig-Korpus Frequenzen in einem kleinen Teilkorpus: n groß - -

Mehr

Active Hidden Markov Models for Information Extraction

Active Hidden Markov Models for Information Extraction HMMs in der IE p.1/28 Active Hidden Markov Models for Information Extraction Seminar Informationsextraktion im WiSe 2002/2003 Madeleine Theile HMMs in der IE p.2/28 Inhaltsübersicht Ziel formalere Aufgabenbeschreibung

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Named Entity Recognition (NER)

Named Entity Recognition (NER) Named Entity Recognition (NER) Katharina Stein 01/12/2017 Named Entity Recognition 1 Inhalt Named Entity Recognition Was ist Named Entity Recognition? Bedeutung für Natural Language Processing Herausforderungen

Mehr

TreeTagger. Deborah Watty

TreeTagger. Deborah Watty TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle Conditional Random Fields Katharina Morik LS 8 Informatik Technische Universität Dortmund 17.12. 2013 1 von 27 Gliederung 1 Einführung 2 HMM 3 CRF Strukturen

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Mehrdeutigkeit der Wortart Einführung in die Computerlinguistik Statistische Modellierung und Evaluation WS 2008/2009 Manfred Pinkal Sie haben in Moskau liebe genossen Sie haben in Moskau liebe Genossen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung I WS 2010/2011 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

Der VITERBI-Algorithmus

Der VITERBI-Algorithmus Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des

Mehr

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka

INFORMATIONSEXTRAKTION Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION 1 22.12.09 Computerlinguistik Referenten: Alice Holka, Sandra Pyka INFORMATIONSEXTRAKTION(IE) 1. Einleitung 2. Ziel der IE 3. Funktionalität eines IE-Systems 4. Beispiel 5. Übung

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs

Linux I II III Res WN/TT NLTK XML XLE I II Weka E. Freitag. 9 XLE Transfer. 10 Weka. Ressourcen-Vorkurs Linux I II III Res WN/TT NLTK XML XLE I II Weka E Freitag 9 XLE Transfer 10 Weka Linux I II III Res WN/TT NLTK XML XLE I II Weka E XLE Transfer I Auf ella gibt es nicht nur XLE (den Parser) sondern auch

Mehr

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close 1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Verfahren in der lexikalischen Semantik Evaluation Annotation eines Goldstandard : Testkorpus mit der relevanten Zielinformation (z.b. Wortart) Automatische

Mehr

Roman Firstein. Maximum Entropy Markov Models for Information Extraction and Segmentation

Roman Firstein. Maximum Entropy Markov Models for Information Extraction and Segmentation Maximum Entropy Markov Models (MEMM) for Information Extraction and Segmentation Roman Firstein 09.10.07 Maximum Entropy Markov Models for Information Extraction and Segmentation Vortrag - Vorwort - Modell

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik

Mehr

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Decision-Tree-Klassifikator

Decision-Tree-Klassifikator D3kjd3Di38lk323nnm Decision-Tree-Klassifikator Decision Trees haben einige Vorteile gegenüber den beiden schon beschriebenen Klassifikationsmethoden. Man benötigt in der Regel keine so aufwendige Vorverarbeitung

Mehr

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle

Mehr

Programmierung WS18/19 Übungsblatt 9 (Abgabe Freitag, den um 12 Uhr)

Programmierung WS18/19 Übungsblatt 9 (Abgabe Freitag, den um 12 Uhr) Prof. aa Dr. J. Giesl S. Dollase, M. Hark, D. Korzeniewski Aufgabe 2 (Datenstrukturen in Haskell): (2 + 1 + 2 + 2.5 + 3.5 = 11 Punkte) In dieser Aufgabe geht es darum, arithmetische Ausdrücke auszuwerten.

Mehr

Evaluation und Training von HMMs

Evaluation und Training von HMMs Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States

Mehr

Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten Informationsextraktion mit endlichen Automaten HS: Information Retrieval Dozentin: Dr. Karin Haenelt Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Referentinnen: Galina Sigwarth,

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

Praktikum Maschinelle Übersetzung Language Model

Praktikum Maschinelle Übersetzung Language Model Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Word 10. Verweise: Textmarken, Hyperlinks, Querverweise Version: Relevant für:

Word 10. Verweise: Textmarken, Hyperlinks, Querverweise Version: Relevant für: Word 10 Verweise: Textmarken, Hyperlinks, Querverweise Version: 171014 Relevant für: 10-Word.docx Inhaltsverzeichnis 1 Hinweise 1.1 Zu diesem Lehrmittel... 3 1.1.1 Arbeitsdateien zum Lehrmittel... 3 1.1.2

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik,

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

AdvancedReport Installationsanleitung

AdvancedReport Installationsanleitung AdvancedReport Installationsanleitung YOKOGAWA Broichhofstraße 7-11 40880 Ratingen Tel. +49-2102 - 4983-0 1/21 Inhalt: 1. Einleitung...3 2. Revision...3 3. Systemvorrausetzungen...4 4. Installation Vorbereitung...4

Mehr

Word 10. Verweise Version: Relevant für: IKA, DA

Word 10. Verweise Version: Relevant für: IKA, DA Word 10 Verweise Version: 170220 Relevant für: IKA, DA 10-Word-Grundlagen.docx Inhaltsverzeichnis 1 Hinweise 1.1 Zu diesem Lehrmittel... 3 1.1.1 Arbeitsdateien zum Lehrmittel... 3 1.1.2 Vorkenntnisse...

Mehr

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen Robust Named Entity Recognition (NER) in Idiosyncratic Domains Eine automatische Identifikation und Klassifikation von Eigennamen Gliederung 1 Einführung 2 Ein neues Neuronales Netzwerk 3 Datexis 4 Evaluation

Mehr

1. Installation und deutsche Sprach-Einstellung

1. Installation und deutsche Sprach-Einstellung 1. Installation und deutsche Sprach-Einstellung Bitte rufen Sie folgende Adresse auf. Dort finden Sie den Download: http://web.uvic.ca/hrd/halfbaked/ Momentan (März 2002) aktuell ist die Version 5.3. Bitte

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech Tagging 1.1 Grundlagen

Mehr

Programmierung für Mathematik (HS13)

Programmierung für Mathematik (HS13) software evolution & architecture lab Programmierung für Mathematik (HS13) Übung 11 1 Aufgabe: Codeverständnis 1.1 Aufgabenstellung Notieren Sie, was der folgende Code ausgeben würde, wenn er so in einer

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Einführung Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2018 1 / 14 Anwendungen der Computerlinguistik Carstensen et al. (2010); Jurafsky and Martin

Mehr

ANNIS Quickstart

ANNIS Quickstart Suche in ANNIS Bevor man suchen kann, muss das gewünschte Korpus in der Korpusliste ausgewählt werden (z.b. das Teilkorpus mo (monoethnisches Ergänzungskorpus) oder KiDKo mu (multiethnisches Korpus). Danach

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Natural language processing

Natural language processing Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png

Mehr

Semiüberwachte Paarweise Klassifikation

Semiüberwachte Paarweise Klassifikation Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren

Mehr

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz

Markov Logik. Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz Markov Logik Matthias Balwierz Seminar: Maschinelles Lernen WS 2009/2010 Prof. Fürnkranz Überblick Markov Netze Prädikatenlogik erster Stufe Markov Logik Inferenz Lernen Anwendungen Software 18.11.2009

Mehr

MySQL Community Server Installationsbeispiel

MySQL Community Server Installationsbeispiel MySQL Community Server 5.5.28 Installationsbeispiel Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der untermstrich-datenbank

Mehr

TnT - Statistischer Part-of- Speech Tagger

TnT - Statistischer Part-of- Speech Tagger TnT - Statistischer Part-of- Speech Tagger 2. Teil der Präsentation des TnT Taggers von Thorsten Brants Präsentation von Berenike Loos Gliederung 1. Installation und Beschreibung des Programms 2. Erläuterungen

Mehr

Wie geht das? Benutzen der Verschachtelungsfunktionen in CopyShop

Wie geht das? Benutzen der Verschachtelungsfunktionen in CopyShop CALDERA GRAPHICS Wie geht das? Benutzen der Verschachtelungsfunktionen in CopyShop Caldera Graphics 2008 Caldera Graphics und alle Caldera Graphics Produkte, die in dieser Publikation genannt werden, sind

Mehr

Kontextfreie Grammatiken

Kontextfreie Grammatiken Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM VOR NACH MATRIKELNUMMER: STUDIENGANG: B.Sc. Computerlinguistik, B.Sc. Informatik, Magister

Mehr

Erkennung und Visualisierung attribuierter Phrasen in Poetiken

Erkennung und Visualisierung attribuierter Phrasen in Poetiken Erkennung und Visualisierung attribuierter Phrasen in Poetiken Andreas Müller (1) Markus John (2) Steffen Koch (2) Thomas Ertl (2) Jonas Kuhn (1) (1), Universität Stuttgart (2) Institut für Visualisierung

Mehr

C++ OpenCppCoverage. Detlef Wilkening

C++ OpenCppCoverage. Detlef Wilkening http://www.wilkening-online.de Seite 1 / 52 C++ OpenCppCoverage Detlef Wilkening 10.11.2016 http://www.wilkening-online.de Seite 2 / 52 Warum überhaupt dieser Vortrag? Wir waren mal wieder in einer Gruppe

Mehr

Vivendi TEST-Datenbanken erstellen

Vivendi TEST-Datenbanken erstellen Vivendi TEST-Datenbanken erstellen Produkt(e): Kategorie: Vivendi NG, Vivendi PD, Vivendi PEP Datenbanken Version: ab 6.77 Erstellt am: 18.07.2018 Frage: Besteht die Möglichkeit TEST-Datenbanken als Kopie

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Maschinelle Sprachverarbeitung

Maschinelle Sprachverarbeitung Maschinelle Sprachverarbeitung Übung Aufgabe 4: Regelbasiertes Named Entity Recognition Mario Sänger Informationsextraktionsworkflow Mario Sänger: Maschinelle Sprachverarbeitung - Übung, Wintersemester

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2010 / 2011 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes Viterbi Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus von Arndt Faulhaber und Benjamin Schlebes Seminar: Endliche Automaten für die Sprachverarbeitung SS 2005 PD Dr. K. Haenelt 1/28

Mehr

1 Part-of-Speech Tagging

1 Part-of-Speech Tagging 2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech

Mehr

Installationsanleitung

Installationsanleitung 1. C Installationsanleitung C-Programmierung mit Hilfe von Eclipse unter Windows XP mit dem GNU C-Compiler (GCC) 2. Inhaltsverzeichnis 1. Einleitung... 3 2. Cygwin... 3 2.1 Cygwin-Installation... 3 2.2

Mehr

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT

GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT User Requirements GERICHTETER GEWICHTETER GRAPH DESIGNDOKUMENT Softwareentwicklung Praktikum, Übungsbeispiel 1 Gruppe 18 Andreas Hechenblaickner [0430217] Daniela Kejzar [0310129] Andreas Maller [0431289]

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

CLIQ Manager als Standard Benutzer starten

CLIQ Manager als Standard Benutzer starten CLIQ Manager als Standard Benutzer starten Bedingt durch die strikten Benutzerrechte in Windows 7 gibt es von Microsoft ein Programm (Tool) zu dem Handhaben der Benutzerrechte. Als eine Möglichkeit zum

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

4 Einrichten von Windows

4 Einrichten von Windows Einrichten von Windows Containern 4 Einrichten von Windows Containern Prüfungsanforderungen von Microsoft: o Deploy Windows Containers o Manage Windows Containers Quelle: Microsoft Lernziele: Bereitstellen

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt

Mehr

Dies ist der zweite Artikel einer Serie über Electron.

Dies ist der zweite Artikel einer Serie über Electron. Electron WebDeskApps Dies ist der zweite Artikel einer Serie über Electron. Im ersten Artikel wurden die Grundlagen von Elektron, und die benötigten Ressourcen, die man benötigt um eine Elektron-App zu

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung WS 2011/2012 Manfred Pinkal Wortartinformation Wortartinformation ist eine wichtige Voraussetzung für die syntaktische Analyse. Woher kommt

Mehr

RRZK Universität zu Köln. Installation und Konfiguration der Spectrum Protect (TSM) Client-Software unter dem Betriebssystem Windows

RRZK Universität zu Köln. Installation und Konfiguration der Spectrum Protect (TSM) Client-Software unter dem Betriebssystem Windows RRZK Universität zu Köln Installation und Konfiguration der Spectrum Protect (TSM) Client-Software unter dem Betriebssystem Windows Inhaltsverzeichnis 1. INSTALLATION 3 2. GRUNDKONFIGURATION 7 3. ERWEITERTE

Mehr

Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows. Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows

Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows. Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows Einrichten der TSM-Backup-Software unter dem Betriebssystem Windows v. 1.0 Mai 2017 1 Inhaltsverzeichnis Installation... 3 Konfiguration... 7 Einrichtung der TSM-Dienste zur automatischen Sicherung...

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Modellierung Fragebogenaktion Bachelor-StudentInnen http://www.coli.uni-saarland.de/bsc/page.php?id=fragebogen WS 2013/2014 Andrea Horbach mit Folien von

Mehr

Wir arbeiten ständig daran, unseren ChessGenius Exclusive noch besser zu machen. Deswegen freuen wir uns immer über Ihr Feedback unter

Wir arbeiten ständig daran, unseren ChessGenius Exclusive noch besser zu machen. Deswegen freuen wir uns immer über Ihr Feedback unter 1 Einleitung Wir arbeiten ständig daran, unseren ChessGenius Exclusive noch besser zu machen. Deswegen freuen wir uns immer über Ihr Feedback unter quality@computerchess.com Für den ChessGenius Exclusive

Mehr

Maschinelle Sprachverarbeitung Übung

Maschinelle Sprachverarbeitung Übung Maschinelle Sprachverarbeitung Übung Aufgabe 3: SPAM-Klassifikation Mario Sänger Aufgabe Rund 50% des weltweiten Email-Verkehrs ist Spam* Spam- und Phishing-Mails stellen eines der größten Sicherheitsrisiken

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Softwarepraktikum. Textanalyse mit Java/Python. Franz Matthies

Softwarepraktikum. Textanalyse mit Java/Python. Franz Matthies Textanalyse mit Java/Python Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena www.julielab.de Sommersemester 2016 Sitzung 1 Überblick 1

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Stapelverarbeitung mit Adobe Acrobat Professional. Leibniz Universität IT Services Anja Aue

Stapelverarbeitung mit Adobe Acrobat Professional. Leibniz Universität IT Services Anja Aue Stapelverarbeitung mit Adobe Acrobat Professional Leibniz Universität IT Services Anja Aue Stapelverarbeitung Befehlsfolgen werden automatisiert abgearbeitet. Eine Reihe von Aktionen werden manuell gestartet

Mehr

Themenüberblick. Seminar Angewandtes Text Mining 2013 / 04 / 17. Philippe Thomas Lars Döhling Tim Rocktäschel. Wissensmanagement in der Bioinformatik

Themenüberblick. Seminar Angewandtes Text Mining 2013 / 04 / 17. Philippe Thomas Lars Döhling Tim Rocktäschel. Wissensmanagement in der Bioinformatik Themenüberblick Seminar Angewandtes Text Mining Philippe Thomas Lars Döhling Tim Rocktäschel Wissensmanagement in der Bioinformatik 2013 / 04 / 17 1 Semi-Supervised Learning 2 Named Entity Recognition

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Neuronale Netze WS 2014/2015 Vera Demberg Neuronale Netze Was ist das? Einer der größten Fortschritte in der Sprachverarbeitung und Bildverarbeitung der letzten Jahre:

Mehr

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging Malte Helmert 23. Februar 2000 Seminar Autonome Mobile Systeme/Machine Learning Übersicht 1. Part of Speech Tagging

Mehr

WEDKEX. Web-based Engineering Design Knowledge EXtraction. Frank Heyen, Janik M. Hager, Steffen M. Schlinger B.Sc. Informatik

WEDKEX. Web-based Engineering Design Knowledge EXtraction. Frank Heyen, Janik M. Hager, Steffen M. Schlinger B.Sc. Informatik WEDKEX Web-based Engineering Design Knowledge EXtraction Frank Heyen, Janik M. Hager, Steffen M. Schlinger B.Sc. Informatik Motivation Suche nach besseren Komponenten für ein vorhandenes System [HW] 2

Mehr

5.2. Eingabe von Kontrakten

5.2. Eingabe von Kontrakten 5.2. Eingabe von Kontrakten Außer der Eingabe der Punktewerte der Scores, können auch die Kontrakte und optional die ausgespielte Karte eingegeben werden. Nach [ENTER] berechnet Merlin aus dem eingegebenen

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,

Mehr

Drucken in Success! V7.1

Drucken in Success! V7.1 Drucken in Success! V7.1 2 Über dieses Dokument Dieses Dokument beschreibt für die Umstellung von V7 auf V7.1 die benötigten Änderungen an den Druckeinstellungen auf dem Server und den Arbeitsplätzen.

Mehr