Softwareprojektpraktikum Maschinelle Übersetzung
|
|
- Norbert Amsel
- vor 5 Jahren
- Abrufe
Transkript
1 Softwareprojektpraktikum Maschinelle Übersetzung Jan Rosendahl, Jan-Thorsten Peter, Andreas Guta Vorbesprechung 6. Aufgabe 14. Juli 2017 Human Language Technology and Pattern Recognition Lehrstuhl für Informatik 6 Computer Science Department RWTH Aachen University, Germany J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 1 Vorbesprechung 14. Juli 2017
2 Outline 1 Sprachmodell 3 2 Übung SRI LM Toolkit 17 J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 2 Vorbesprechung 14. Juli 2017
3 1 Sprachmodell Problem: insbesondere an Phrasengrenzen können Fehler auftreten Beispiel: Zu übersetzender Satz: Dear Mr. Friday Phrasentabelle: 2 2 # Dear # Sehr geehrte 3 3 # Dear # Sehr geehrter 2 2 # Mr. Friday # Herr Freitag Ergebnis: Sehr geehrte Herr Freitag (Kosten: 4) Sehr geehrter Herr Freitag (Kosten: 5) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 3 Vorbesprechung 14. Juli 2017
4 Warum benutzen wir ein Sprachmodell? Bewertung durch ein Bigramm-Sprachmodell: Sehr geehrte Herr Freitag Sehr geehrter Herr Freitag Übersetzungsmodell Sprachmodell Übersetzungsmodell Sprachmodell Das obere Beispiel wird größere Kosten verursachen (z.b. 5) Das untere Beispiel wird bessere Kosten verursachen (z.b. 2) Neues Ergebnis: Sehr geehrter Herr Freitag (Kosten: 5+2) Sehr geehrte Herr Freitag (Kosten: 4+5) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 4 Vorbesprechung 14. Juli 2017
5 Theoretischer Aufbau Allgemeine Formel: P r(e I 1 ) = I i=1 P r(e i e i 1 1 ) Im Vergleich: Übersetzungsmodell ist p(e I 1 f J 1 ) In der Praxis Beschränkung auf n 1 letzte Wörter, die sogenannte History h h = (e i n+1,..., e i 1 ) = e i 1 i n+1, typischerweise für n {3,..., 7} Berechnung der Wahrscheinlichkeiten mit Hilfe von Maximum Likelihood Schätzung: p(w h) = N(h, w) w N(h, w ) = N(h, w) N(h, ) mit: w p(w h) = 1 h J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 5 Vorbesprechung 14. Juli 2017
6 Einfluss des Sprachmodells in der Spracherkennung Beispiel aus dem Wall Street Journal 5k Task: LM recognized errors 0-gram h ih t s eh n uh t ur z n ih g oh sh ee ey t ih ng s ey 11 l s ur t un aa s eh t s aw n t uh b r oh k ur ih j y ooh n ih t s HIT SENATORS NEGOTIATING SALE 9 CERTAIN ASSETS ONTO BROKERAGE UNIT S 1-gram ih t s s eh n ih t ih z n ih g oh sh ee ey t ih ng s ey 6 l s ur t un aa s eh t s aw v dh uh b r oh k ur ih j y ooh n ih t ITS SENATE IS NEGOTIATING SALE CERTAIN 5 ASSETS OF THE BROKERAGE UNIT 2-gram ih t s eh d ih t ih z n ih g oh sh ee ey t ih ng dh uh s ey l 0 aw v s ur t un aa s eh t s aw v dh uh b r oh k ur ih j y ooh n ih t IT SAID IT IS NEGOTIATING THE SALE OF CERTAIN 0 ASSETS OF THE BROKERAGE UNIT J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 6 Vorbesprechung 14. Juli 2017
7 Spatz-Modell Wie wahrscheinlich ist ein Spatz der Farbe x? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 7 Vorbesprechung 14. Juli 2017
8 Spatz-Modell 40% 40% 20% Konventioneller Ansatz: Relative Häufigkeit J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 8 Vorbesprechung 14. Juli 2017
9 Spatz-Modell 40% 40% 20% 30% 20% 20% 10% 10% 10% Gleicher Ansatz, andere Trainingsdaten J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 9 Vorbesprechung 14. Juli 2017
10 Spatz-Modell 40% 40% 20%? 30% 20% 20% 10% 10% 10% Was passiert mit ungesehenen Ereignissen? Wie wahrscheinlich sind sie? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 10 Vorbesprechung 14. Juli 2017
11 Spatz-Modell 40% 40% 20%? 30% 20% 20% 10% 10% 10% Welches Modell reagiert wohl stabiler? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 11 Vorbesprechung 14. Juli 2017
12 Spärliche Trainingsdaten für n-gram Sprachmodelle Typisches Beispiel: Anzahl der laufenden Wörter im Training: Vokabulargröße: Art des Sprachmodells: Bigramm Anzahl der möglichen Ereignisse: Vokabular 2 = /400 = 2.5% können gesehen werden Trigramm Anzahl der möglichen Ereignisse: Vokabular 3 = /( ) = % können gesehen werden Problem: Trainingskorpus enthält Trigramm Angela Merkel könnte, aber nicht Angela Merkel kann auch das zweite Trigramm sollte eine Wahrscheinlichkeit > 0 zugewiesen bekommen J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 12 Vorbesprechung 14. Juli 2017
13 Linear Discounting Discounting: Verschiebe einen Teil der Wahrscheinlichkeitsmasse zu ungesehenen Ereignissen Linear: Proportional für jeden Count N(h, w) p(w h) = N(h, w) (1 µ h ) N(h, ) µ h β(w h) β(w h) w :N(h,w )=0 für N(h, w) > 0 für N(h, w) = 0 µ h : komplette Wahrscheinlichkeitsmasse für ungesehene Ereignisse: β(w h): Renormalisierung für zweite (Backoff-)Wahrscheinlichkeit µ h und β(w h) müssen ebenfalls aus den Trainingsdaten gelernt werden J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 13 Vorbesprechung 14. Juli 2017
14 Leaving-One-Out für spärliche Trainingsdaten Generelle Idee: Ungesehene Ereignisse simulieren, indem man Trainingsdaten in zwei Teile aufteilt Leaving-One-Out: Jede einzelne Beobachtung gilt als Testbeobachtung die übrigen Beobachtungen dienen zum Training Sprachmodell: jeweils ein Ereignis (h i, e i ), i = 1,..., I wird zurückbehalten... J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 14 Vorbesprechung 14. Juli 2017
15 2 Übung 6 Trainieren eines Bigramm-Sprachmodells für Englisch mit Hilfe des SRI LM Toolkits Reranking der n-best-listen mit Sprachmodell J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 15 Vorbesprechung 14. Juli 2017
16 3 SRI LM Toolkit SRI Language Modeling Toolkit frei verfügbar für nicht gewerbliche Zwecke unter Trainieren mit Kneser-Ney Smoothing ngram-count -order 2 -lm e.lm.gz -text e -kndiscount1 -kndiscount2 J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 16 Vorbesprechung 14. Juli 2017
17 Ausgabeformat ARPA LM Format: \data\ ngram 1=n1 ngram 2=n2... ngram N=nN \1-grams: log10(p(w)) w [back-off Gewicht]... \2-grams: log10(p(w2 w1)) w1 w2 [back-off Gewicht]... \N-grams: log10(p(wn w1,...,wn-1))... w1... wn \end\ J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 17 Vorbesprechung 14. Juli 2017
18 Ansteuern des SRI Language Models Einbinden der SRI Language Model Bibliothek Einbinden von <Ngram.h> und <Vocab.h> im Programmcode. Kompilieren: Pfad der SRI Header Dateien (include/) angeben -IPATH_TO_HEADER Kompilieren: Library includen mit den Optionen -loolm -ldstruct -lflm -lmisc -LPATH_TO_LIBRARY Anlegen der Klassen für Vocabulars (Vocab) kann statt der alten Lexikon Klasse genutzt werden Language Model (Ngram) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 18 Vorbesprechung 14. Juli 2017
19 Die Vocab Klasse Lexikon für das Language Model die wichtigsten Befehle: Vocab() Konstruktor string getword(unsigned index) gibt den String für index unsigned addword(char* Word) fügt ein (falls unbekannt) und gibt den index zurück int numwords() Anzahl der Wörter ssindex() Satzanfangszeichen seindex() Satzendzeichen unkindex() Index für das unbekannte Wort J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 19 Vorbesprechung 14. Juli 2017
20 Der Buffer vom Typ *VocabIndex muß initialisiert werden, z.b. vocabbuffer(new VocabIndex[50]) evtl. muß auch die Größe neu angepasst werden (mit realloc) Satzformat: Satzanfangs- und Satzendmarker (s. vorherige Folie) umgekehrte Wortreihenfolge mit Vocab_None abschließen Beispiel: " Ich habe Hunger" wird zu </s> Hunger habe Ich <s> Vocab_None Berechnung: vom Satzendmarker (position 0) bis einschließlich dem ersten Wort also fürs obige Beispiel 4 Anfragen mit jeweiligem Kontext: </s>, Hunger, habe, Ich J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 20 Vorbesprechung 14. Juli 2017
21 Die Ngram Klasse Funktionalität für das Language Model die wichtigsten Befehle: Ngram(Vocab *vocabulary, int lmorder) Konstruktor read(file, boolean expandvocabulary) liest ein Language Model ein double wordprob(buf[pos], &buf[pos+1]) bewertet ein Wort an Position pos mit seinem Kontext Rückgabe: log-score (negativ) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 21 Vorbesprechung 14. Juli 2017
22 Fragen? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 22 Vorbesprechung 14. Juli 2017
Softwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,rosendahl}@i6.informatik.rwth-aachen.de Vorbesprechung 4. Aufgabe 2. Juni 2017 Human Language
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrPraktikum Maschinelle Übersetzung Language Model
Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl {peter,guta,schamper}@i6.informatik.rwth-aachen.de Vorbesprechung 3. Aufgabe 19. Mai 2017 Human Language
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta {peter,guta}@i6.informatik.rwth-aachen.de Vorbesprechung 4. Aufgabe 19. Mai 2015 Human Language Technology and Pattern
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrMaschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
MehrSoftwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation
Softwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation Julian Schamper, Jan Rosendahl mtprak18@i6.informatik.rwth-aachen.de 11. April 2018 Human Language Technology and Pattern Recognition
MehrPraktikum Maschinelle Übersetzung Lexikon and Word Alignment
Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst
MehrBayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table
MehrHidden Markov Models in Anwendungen
Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Throsten Peter, Andreas Guta {peter,guta}@i6.informatik.rwth-aachen.de Vorbesprechung 3. Aufgabe 6. Mai 2014 Human Language Technology and Pattern Recognition
MehrSharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation
Sharon Goldwater & David McClosky Sarah Hartmann 13.01.2015 Advanced Topics in Statistical Machine Translation Einführung Modelle Experimente Diskussion 2 Einführung Das Problem Der Lösungsvorschlag Modelle
MehrSoftwareprojektpraktikum Maschinelle Übersetzung Verbesserungen für Neuronale Übersetzungssysteme
Softwareprojektpraktikum Maschinelle Übersetzung Verbesserungen für Neuronale Übersetzungssysteme Julian Schamper, Jan Rosendahl mtprak18@i6.informatik.rwth-aachen.de 04. Juli 2018 Human Language Technology
MehrDiskriminatives syntaktisches Reranking für SMT
Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic 2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
Mehrn-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014
n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrStatistische Verfahren in der Computerlinguistik
Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrNatural language processing
Natural language processing Guangyu Ge Betreuer: Tobias 29.01.2018 GLIEDERUNG 1. Einführung 2. Anwendungsbereiche 3. Verfahren bei NLP 4. Zusammenfassung ZIELE VON KÜNSTLICHER INTELLIGENZ Quelle: https://cdn-images-1.medium.com/max/800/0*y707xutx3zmvjkxx.png
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe
MehrÜbungsblatt 1. Java Vorkurs (WS 2017)
Übungsblatt 1 Java Vorkurs (WS 2017) Aufgabe 1 Hallo-Welt Erstelle ein neues Projekt mit dem Namen HelloJava. Erzeuge in diesem Projekt eine neue Klasse HelloJava. (a) Schreibe die main-methode in die
MehrEinführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen
Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe
MehrModerne IR / Language Models / Page Ranking
Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind
MehrMaschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber
Maschinelles Übersetzen natürlicher Sprachen 2 Praktikum SS 2012 Torsten Stüber Zielstellung Entwicklung eines einfachen Übersetzungssystems I saw her duck. Übersetzer Ich sah ihre Ente. Folie 2 Training
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 4 Maschinelles Lernen und Spracherkennung Abgabe
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
MehrValidation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 3. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrDurch die Möglichkeit, Ein- und Ausgaben auf der Konsole durchzuführen, kann man auch systematisch das Verhalten von Klassen analysieren.
Durch die Möglichkeit, Ein- und Ausgaben auf der Konsole durchzuführen, kann man auch systematisch das Verhalten von Klassen analysieren. 267 Das hier skizzierte Problem basiert auf der strategischen Entscheidung
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech
MehrWissensrepräsentation
Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles
MehrEinführung in das 6. Aufgabenblatt: Bildverarbeitung und Klassifkation
Einführung in das 6. Aufgabenblatt: Bildverarbeitung und Klassifkation Philippe Dreuw dreuw@i6.informatik.rwth-aachen.de Praktikum im Grundstudium SS 2007 28. Juni 2007 Human Language Technology and Pattern
MehrDatenstrukturen und Algorithmen
Datenstrukturen und Algorithmen Prof. Dr.-Ing. H. Ney, G. Leusch, C. Plahl, D. Stein dsal06@i6.informatik.rwth-aachen.de Einführungsveranstaltungen Informatik Sommersemester 2006 Human Language Technology
MehrCentrum für Informations- und Sprachverarbeitung SoSe 2018: Höhere Programmierung mit C++ Andreas Krieger. Musterlösung 9
Centrum für Informations- und Sprachverarbeitung SoSe 2018: Höhere Programmierung mit C++ Andreas Krieger Musterlösung 9 // Header - Datei CisWstring. hpp # ifndef CISWSTRING_ HPP_ # define CISWSTRING_
Mehr1 Erkennung von Wortfolgen. 2 Bewertung von Wortfolgen. 3 Sprachmodelle in der Praxis. Erkennung von Wortfolgen
Automatisches Verstehen gesprochener Sprache. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrFallstudie: Online-Statistik
Fallstudie: Online-Statistik Ziel: Klasse / Objekt, welches Daten konsumiert und zu jeder Zeit Statistiken, z.b. Mittelwert, Varianz, Median (etc.) ausgeben kann Statistics s = new Statistics(maxSize);...
MehrSoftwareprojektpraktikum Maschinelle Übersetzung Kurze Einführung in Python
Softwareprojektpraktikum Maschinelle Übersetzung Kurze Einführung in Python Julian Schamper, Jan Rosendahl mtprak18@i6.informatik.rwth-aachen.de 11. April 2018 Human Language Technology and Pattern Recognition
MehrMapra: C++ Teil 4. Felix Gruber. 6. Mai IGPM, RWTH Aachen. Felix Gruber (IGPM, RWTH Aachen) Mapra: C++ Teil 4 6.
Mapra: C++ Teil 4 Felix Gruber IGPM, RWTH Aachen 6. Mai 2015 Felix Gruber (IGPM, RWTH Aachen) Mapra: C++ Teil 4 6. Mai 2015 1 / 22 Themen vom letzten Mal Kompilieren mit Makefiles Ein-/Ausgabe über Dateien
MehrAutomatisches Übersetzen von Gebärdensprache
5. Aachener Gebärdenworkshop 2004 29.10.2004 Automatisches Übersetzen von Gebärdensprache Jan Bungeroth Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI D-52056 Aachen, Deutschland
MehrInformatik I. Übung 2 : Programmieren in Eclipse. 5. März Daniel Hentzen
Informatik I Übung 2 : Programmieren in Eclipse 5. März 2014 Daniel Hentzen dhentzen@student.ethz.ch Downloads : http://n.ethz.ch/~dhentzen/download/ Heute 1. Nachbesprechung Übung 1 2. Theorie 3. Vorbesprechung
MehrA Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz
A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of
MehrAufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).
Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte
MehrÜbungen zum Bioinformatik-Tutorium. Blatt 3
Institut für Informatik Wintersemester 2018/19 Praktische Informatik und Bioinformatik Prof. Dr. Ralf Zimmer Übungen zum Bioinformatik-Tutorium Blatt 3 Termin: Dienstag, 6.11.2018, 11 Uhr 1. Hello World
MehrMaschinelle Übersetzung
Maschinelle Übersetzung Kluge Andreas, 13IN-M basierend auf Computerlinguistik und Sprachtechnologie, 3. Auflage, Spektrum, Heidelberg 2010 19. Juni 2014 Übersicht Gewünschte Funktionalität Schwierigkeiten
MehrKlassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar
Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber
MehrC++ Teil 7. Sven Groß. 3. Juni Sven Groß (IGPM, RWTH Aachen) C++ Teil 7 3. Juni / 16
C++ Teil 7 Sven Groß 3. Juni 2016 Sven Groß (IGPM, RWTH Aachen) C++ Teil 7 3. Juni 2016 1 / 16 Themen der letzten Vorlesung dynamische Speicherverwaltung (Wdh.) Cast bei Zeigern STL-Vektoren + Live Programming
MehrMaschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1
Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1 Basierend auf Kapitel 4 P.M. Nugues (2006) Gertrud Faaβ Universität StuVgart, InsXtut für maschinelle Sprachverarbeitung Azenbergstr. 12,
MehrC++ Teil 8. Sven Groß. 5. Dez IGPM, RWTH Aachen. Sven Groß (IGPM, RWTH Aachen) C++ Teil 8 5. Dez / 16
C++ Teil 8 Sven Groß IGPM, RWTH Aachen 5. Dez 2014 Sven Groß (IGPM, RWTH Aachen) C++ Teil 8 5. Dez 2014 1 / 16 Themen der letzten Vorlesung Casts bei Zeigern dynamische Speicherverwaltung Vektoren Typedefs
MehrTreeTagger. Deborah Watty
TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.
MehrKapitel 12: Induktive
Kapitel 12: Induktive Datenstrukturen Felix Freiling Lehrstuhl für Praktische Informatik 1 Universität Mannheim Vorlesung Praktische Informatik I im Herbstsemester 2009 Folien nach einer Vorlage von H.-Peter
MehrWahrscheinlichkeitstheorie und Naive Bayes
Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrC++ Teil 12. Sven Groß. 18. Jan Sven Groß (IGPM, RWTH Aachen) C++ Teil Jan / 11
C++ Teil 12 Sven Groß 18. Jan 2016 Sven Groß (IGPM, RWTH Aachen) C++ Teil 12 18. Jan 2016 1 / 11 Themen der letzten Vorlesung Wiederholung aller bisherigen Themen: Datentypen und Variablen Operatoren Kontrollstrukturen
MehrAnalyse von News-Artikeln
Projekt Big Data Abschlusspräsentation Analyse von News-Artikeln Sentimentanalyse mit Word2vec Raffael Diestel, Maike Schubert Inhalt Einleitung Ziele Realisierung Vorläufige Ergebnisse TODO Einleitung
MehrMaschinelle Sprachverarbeitung
Maschinelle Sprachverarbeitung Übung Aufgabe 4: Regelbasiertes Named Entity Recognition Mario Sänger Informationsextraktionsworkflow Mario Sänger: Maschinelle Sprachverarbeitung - Übung, Wintersemester
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrKontinuierliche Gebärdenspracherkennung auf großem Vokabular
Kontinuierliche Gebärdenspracherkennung auf großem Vokabular Philippe Dreuw, Morteza Zahedi, David Rybach, Thomas Deselaers, Hermann Ney dreuw@informatik.rwth-aachen.de Gebärdensprachworkshop 27. Oktober
MehrGraphische Benutzungsoberflächen mit Java. Einführung in NetBeans
Graphische Benutzungsoberflächen mit Java Einführung in NetBeans Graphische Benutzungsoberflächen! Interaktion mit dem Programm! Datenein- und ausgabe! Rückmeldungen über Verarbeitung der Daten! Visualisierung
MehrInformatik II Übung 2
Informatik II Übung 2 Florian Scheidegger florsche@student.ethz.ch Folien mit freundlicher Genehmigung adaptiert von Gábor Sörös und Simon Mayer gabor.soros@inf.ethz.ch, simon.mayer@inf.ethz.ch 7.3.2013
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrAktuelle Forschungsgebiete der. Prof. Dr. Günter Rudolph Dipl.-Inform. Igor Vatolkin
Aktuelle Forschungsgebiete der Musikdatenanalyse Prof. Dr. Günter Rudolph Dipl.-Inform. Igor Vatolkin Übersicht Seminarinfo Scheinanforderungen Literaturrecherche Vortrag Ausarbeitung Liste der Themen
MehrModell Komplexität und Generalisierung
Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Welche Sätze sind Elemente
MehrErkennung fremdsprachiger Ausdrücke im Text
Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina
MehrUlrich Stein
Von C nach MATLAB Einführung in MATLAB für Personen mit C-Kenntnissen Datentypen ähnlich in C und MATLAB, dort aber automatische Typzuweisung möglich double a = 2; Arrays a = double( 2 ); aber auch a =
MehrEvaluation und Training von HMMs
Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
Mehr3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen
3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen
MehrC++ Teil 5. Sven Groß. 13. Mai Sven Groß (IGPM, RWTH Aachen) C++ Teil Mai / 18
C++ Teil 5 Sven Groß 13. Mai 2016 Sven Groß (IGPM, RWTH Aachen) C++ Teil 5 13. Mai 2016 1 / 18 Themen der letzten Vorlesung Funktionen Funktionsüberladung, Signatur Rekursion const-deklaration Referenzen
MehrSoftwareentwicklung II (IB) Blatt 4. Prof. Dr. Oliver Braun. Fakultät für Informatik und Mathematik Hochschule München
Softwareentwicklung II (IB) Blatt 4 Fakultät für Informatik und Mathematik Hochschule München Letzte Änderung: 19.05.2018 23:27 Abgabe der Aufgabe auf diesem Blatt: bis 13.06.18, 08:00 Uhr durch Pushen
MehrRobot Karol für Delphi: Entwicklerhandbuch
Robot Karol für Delphi: Entwicklerhandbuch Reinhard Nitzsche, OSZ Handel I Version 0.1 vom 24. Januar 2003 Zusammenfassung Dieses Handbuch beschreibt die Delphi-Klasse ckarol für Entwickler und Entwicklerinnen
MehrEinführung in die Programmierung
Technische Universität München WS 2003/2004 Institut für Informatik Prof. Dr. Christoph Zenger Semestralklausur Einführung in die Programmierung Semestralklausur Java (Lösungsvorschlag) 1 Die Klasse ArrayList
MehrInformatik Hochschule Mainz Geoinformatik und Vermessung. Wiederholung. Frohes Fest und Guten Rutsch!
Wiederholung Frohes Fest und Guten Rutsch! Inhaltsverzeichnis Programme kompilieren...1 Eclipse bedienen...2 Rechnen mit Literalen...2 Rechnen mit Variablen...2 Sequenzielle Anweisungen...3 Selektive Anweisungen...3
MehrInformatik II. Woche 15, Giuseppe Accaputo
Informatik II Woche 15, 13.04.2017 Giuseppe Accaputo g@accaputo.ch 1 Themenübersicht Repetition: Pass by Value & Referenzen allgemein Repetition: Asymptotische Komplexität Live-Programmierung Aufgabe 7.1
MehrSoftwareprojektpraktikum Maschinelle Übersetzung Kurze Einführung in Python
Softwareprojektpraktikum Maschinelle Übersetzung Kurze Einführung in Python Jan Rosendahl, Christian Herold mtprak19@i6.informatik.rwth-aachen.de 02. April 2019 Human Language Technology and Pattern Recognition
MehrWortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank
Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010
MehrSchriftlicher Test zu C++ (90 Minuten) VU Einführung ins Programmieren für TM. 22. Juni 2012
Familienname: Vorname: Matrikelnummer: Aufgabe 1 (4 Punkte): Aufgabe 2 (1 Punkte): Aufgabe 3 (1 Punkte): Aufgabe 4 (3 Punkte): Aufgabe 5 (4 Punkte): Aufgabe 6 (5 Punkte): Aufgabe 7 (2 Punkte): Aufgabe
MehrMusterlösung zur 6. Übung
Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Hans-Peter Lenhof Dipl. Inform. Andreas Hildebrandt Programmierung II, SS 2003 Musterlösung zur 6. Übung Aufgabe 1: Faire Münzen (10 Punkte) Offensichtlich
MehrRepetitorium Programmieren I + II
Repetitorium Programmieren I + II Stephan Gimbel Johanna Mensik Michael Roth 6. März 2012 Agenda 1 Operatorüberladung 2 Pointer Zeigervariable 3 CopyConstructor 4 Listen 5 Array String 6 STL Container
MehrMapra: C++ Teil 3. Felix Gruber. 29. April IGPM, RWTH Aachen. Felix Gruber (IGPM, RWTH Aachen) Mapra: C++ Teil 3 29.
Mapra: C++ Teil 3 Felix Gruber IGPM, RWTH Aachen 29. April 2015 Felix Gruber (IGPM, RWTH Aachen) Mapra: C++ Teil 3 29. April 2015 1 / 11 Themen vom letzten Mal Debuggen mit gdb Zusammengesetzte Datentypen
MehrSKOPOS Webinar 22. Mai 2018
SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas
MehrHidden Markov Model (HMM)
Hidden Markov Model (HMM) Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrProbe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013
Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte
MehrProgrammieren in Java -Eingangstest-
Programmieren in Java -Eingangstest- Nummer: 1. Studiengang: Informatik B.Sc. Informatik M.Sc. ESE B.Sc. ESE M.Sc. Sonstiges: Fachsemester: Bitte Fragen, die Sie nicht beantworten können unbedingt mit
Mehr