Diskriminatives Training, Neue Wort Problem. Sebastian Stüker

Größe: px
Ab Seite anzeigen:

Download "Diskriminatives Training, Neue Wort Problem. Sebastian Stüker"

Transkript

1 Institut für Anthropomatik Diskriminatives Training, Neue Wort Problem Sebastian Stüker Interactive Systems Labs

2 EM findet gute Modellparameter,indem es maximiert: X T P(X λ) T: Menge der Trainingsäußerungen Problem: Warum, sollte dieses Kriterium zu einer guten Wortfehlerrate führen Gute WER bedeutet, dass der Abstand der korrekten Wortfolge zur Entscheidungs-grenze (decision boundary) maximiert wird Sprich Abstand der W keit der korrekten Wortfolge zu allen anderen Wortfolge soll möglichst groß sein Heißt nicht unbedingt, dass die absolute W keit der korrekten Wortfolgen möglichst groß wird 2

3 ML Training lernt nur aus Positivbeispielen: x gehört zu Klasse C => trainiere Klasse C Wir hätten aber auch gerne, dass aus Negativbeispielen gelernt wird: x gehört nicht zu Klasse C => trainiere Klasse C Viele Negativbeispiele: Wann aus welchen Beispielen lernen? Ähnlich wie beim diskriminativen Training bei neuronalen Netze 3

4 1. Trainiere einen Erkenner mit regulärem Baum-Welch (oder Viterbi) Training 2. Führe Erkennung (kontinuierliche Sprache, Forward) auf allen Trainingsdaten durch 3. Identifiziere die falsch erkannten Abschnitte der Äußerungen 4. Entferne deren Beitrag zum Training (durch Subtraktion von den Akkumulatoren) korrekter Pfad falscher Pfad berechne den "korrekten" Pfad, und mache Baum-Welch-Training (accu +=...) berechne "falschen" Pfad, und trainiere negativ (accu -=...) dann wird die Wirkung der korrekt erkannten Abschnitte neutralisiert (+=x... -=x... = 0.0) der Beitrag der falsch erkannten Abschnitte wird aus den Akkumulatoren entfernt Variation: verwende verschiedene Trainingsfaktoren (accu += f... vs. accu -= g...) 4

5 Beim Decoding ist das Klassifikationskriterium die Posterioriw keit gemäß: Im Training wollen wir die Modellparameter θ des AM optimieren 5

6 Also optimieren wir die Parameter so, dass die Posterioriw keit maximiert wird: Wie lässt sich das interpretieren? 6

7 Transinformation (MMI) gibt an, ob zwei Zufallsgrößen statistisch zusammenhängen Verschwindet, wenn kein Zusammenhang, wird maximal wenn eine Größe aus der anderen berechnet werden kann. Um MMI zu maximieren, reicht es, dies zu maximieren: 7

8 Also, wenn MMI maximiert wird, wird auch die Posterioriw keit maximiert! Vereinfachen: D.h., um die Posteriorw keit zu maximieren, reicht es, zu maximieren: 8

9 In der log Domäne ergibt sich dann: D.h. MMIE maximiert die Log-Likelihood Distanz zwischen der Referenz und allen anderen, falschen Wortfolgen 9

10 In der Theorie, hätten wir korrekte A-Priori W keiten und klassenbedingte W keiten, sollte MLE besser sein als MMIE, da glattere Fläche bei der Optimierung [A. Nadas, 1983] In der Praxis ist das nicht der Fall, deshalb MMIE oft besser als MLE MLE schätzt Parameter nur von den korrekten Hypothesen, MMIE bezieht auch die falschen Hypothesen mit ein. MMIE ist rechenintensiver als MLE Wie genau MMIE für ASR Training? 10

11 Berechnung MMI Schätzung beinhaltet Summe über alle falschen Hypothesen In der Praxis nicht machbar, deshalb wieder n- besten Listen oder noch besser: Wortgraph 11

12 Bekannter, einfacher Algorithmus zur Optimierung einer Zielfunktion: Gradientenabstieg/-aufstieg Iterative Verbesserung der Parameter Wenn nur kleine Schritte beim Aufstieg, wahrscheinlich, dass konvergiert (aber Gefahr von lokalen Minima etc.) Gradientenabstieg wurde in den 80ern für MMIE verwendet 12

13 Erinnerung Baum Welch Regel: Extended Baum Welch für MMIE Verglichen mit BW, berücksichtigt EBW auch die falschen Hypothesen D kontrolliert die Lernrate EBW garantiert keine Konvergenz, funktioniert aber gut in der Praxis MMIE Suchraum nicht sehr glatt, deshalb manchmal noch Glättungstechniken (z.b. Interpolation mit EM Update) 13

14 Trainiere erstes MLE Modell Dekodiere Trainingsset mit Unigram Sprachmodell: Schwaches Sprachmodell, weil vor allem die Akustik verbessert werden soll Ergebnis: Wortgraphen Mehrer Iterationen von EBW, halte Wortgraphen konstant Wichtig: Je mehr Daten, desto besser. Große Gefahr des Overfitting bei MMIE Training. 14

15 15

16 EM und MMIE Training optimieren nur W keiten (klassenbedingte und Posteriori) innerhalb des Bayesrahmenwerk Wäre es nicht besser, die Fehlerrate direkt zu optimieren? Zur Optimierung verwendet man immer eine Zielfunktion, z.b. die Posterioriw keit, die zu maximieren ist WER ist keine gute Funktion zur Optimierung: Nicht glatt Nicht ableitbar, also kein Gradientenauf- oder abstieg Minimum Classification Error (MCE) / Minimum Word Error Rate (MWE) Training versucht aber genau das 16

17 Da WER schlecht optimierbar, da nicht glatt, muss sie geglättet werden: ei repräsentiert den Klassifikationsfehler für Referenz i: ei>0 weist auf Fehler hin, ei 0 bedeutet korrekte Klassifikation di ist die Diskriminierungsfunktion, die angibt wie start X als Klasse i klassifiziert wird. Muss 0 sein und differenzierbar N ist die Anzahl der Klassen η kontrolliert das Gewicht der falschen Klassen. 17

18 Alternativ kann ein Gradientenabstieg auf einer geglätten Wortfehlerfunktion gemacht werden: L: Levenshtein Distanz zwischen Hypothese k und und Trainingsreferenz kn S: Indikatorfunktion zur Glättung der Fehlerfunktion: p ist die Posterioriw keit gegeben das Modell λ η kontrolliert die Stärke der Glättung 18

19 Summe über alle möglichen Hypothesen nicht möglich, stattdessen n-besten Liste Dann Gradientenabstieg nach den Modellparametern λ η muss vorsichtig gewählt werden: Wenn zu klein, nicht genügend Glättung, wenn zu hoch numerische Schwierigkeiten Bei MWE und MCE Training ignoriert man Äußerungen im Training, die korrekt klassifiziert werden. 19

20 Hallo, ich bin Herr Schaaf. Hallo, ich bin haarscharf. Hello, I am precise! SMT System 20

21 Standarderkenner benutzen ein festes Vokabular Vokabular wird optimiert um Fehler durch unbekannte Worte zu minimieren: Kleine OOV Rate Abhängig von Sprache und Erkennungsaufgabe Sensible bei Nichtübereinstimmung von Training- und Testdaten Sehr großer Einfluss auf Wortfehlerrate Ein OOV produziert mehr als einen Fehler (mehrer Folgefehler) Ein OOV Fehler kann das Verständnis der gesamten Äußerung zerstören 21

22 Vergrößere Vokabulargröße: Laufzeit und Ressourcenverbrauch steigen, Gefahr von Verwechselungen Adaptiere das Vokabular mit vorher verfügbarem Wissen Modelliere OOV Wörter: Akustisches Modell Sprachmodell Erkenne OOV Wörter und lerne sie dann (ggf. interaktiv) 22

23 Number of equally frequent Words There is words that occur only once Word Count 23

24 Akustische Modell: Finde generische Wortmodell, das besser auf OOV Wörter als of IV (in vocabulary) Wörter passt. Erkennungsgenauigkeit wird nicht verschlechtert Identifiziere verdächtige Wörter Sprachmodell: Finde Klassensystem, das: Die OOV Detektion unterstützt Für Erkennung geeignet ist 24

25 Generisches Wort: Flache, Durchschnittsakustisch von Sprachwörtern Schleife von Phonemen/Silben/andere Einheiten Benutze ein unbekanntes Wort Head-Tail Modell Mische Wörter und Unterwörter Schwierig mit statistischem Sprachmodell 25

26 Phonemschleife Flaches Modell Head-Tail Wörter Wichtig: modelliere Head wie reguläres Vokabularwort 26

27 LM ist kritisch OOV rate wird im Training unterschätzt (selbst mit cut-off für seltene Worte) Part-of-speech Sprachmodell Definition von offenen Wortklassen durch Experten Nachnahmen, Städte etc. Washington Nachname oder Stadt? Können die Klassen unüberwacht gelernt werden? 27

28 OOV =Out-of-Vocabulary punk =potentially unknown IV =In Vocabulary 28

29 29

30 30

31 Erfordert Phonetische Transskription Zuweisung zu Sprachmodellklassen Intraklassenw keit Muss aus zurückgehaltener W keitsmasse kommen Einmal gelernt, dann höhere W keit Optional Buchstaben (Schreibweise Aussprache kann von Beispielaussprache gelernt werden 31

32 32

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Linear nichtseparable Probleme

Linear nichtseparable Probleme Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Suche. Sebastian Stüker

Suche. Sebastian Stüker Institut für Anthropomatik Suche Sebastian Stüker 11.01.2010 Interactive Systems Labs X.Huang/Acero/Hon, Spoken Language Processing : Kapitel 12,13 Konferenzartikel: Hagen Soltau, Florian Metze, Christian

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2010 / 2011 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr

Evaluation und Training von HMMs

Evaluation und Training von HMMs Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States

Mehr

Signalentdeckungstheorie, Dichteschätzung

Signalentdeckungstheorie, Dichteschätzung Signalentdeckungstheorie, Dichteschätzung Mustererkennung und Klassifikation, Vorlesung No. 6 1 M. O. Franz 15.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001.

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Strukturelle Modelle Conditional Random Fields Katharina Morik LS 8 Informatik Technische Universität Dortmund 17.12. 2013 1 von 27 Gliederung 1 Einführung 2 HMM 3 CRF Strukturen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

6.5 Statistische Spracherkennung

6.5 Statistische Spracherkennung 6.5 Statistische Spracherkennung 6.5.1 Spracherkennung mit MAP Regel MAP Regel (Maximum-a-posteriori-Regel Wˆ = argmax W V * P( W X) optimale Wortfolge Wˆ = w w K w i V 1 2 w K Wortfolge Merkmalssequenz

Mehr

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 4 Maschinelles Lernen und Spracherkennung Abgabe

Mehr

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Probabilistische Nico Piatkowski und Uwe Ligges 22.06.2017 1 von 32 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Ernst Günter Schukat-Talamazzini Automatische Spracherkennung Grundlagen, statistische Modelle und effiziente Algorithmen Technische Universität Darmetadt FACHBEREICH INFORMATIK BIBLIOTHEK MH Invsntar-Nr.:

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2014 / 2015 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Das Gradientenverfahren

Das Gradientenverfahren Das Gradientenverfahren - Proseminar: Algorithmen der Nichtlinearen Optimierung - David Beisel December 10, 2012 David Beisel Das Gradientenverfahren December 10, 2012 1 / 28 Gliederung 0 Einführung 1

Mehr

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank Wortdekodierung Vorlesungsunterlagen Speech Communication 2, SS 2004 Franz Pernkopf/Erhard Rank Institute of Signal Processing and Speech Communication University of Technology Graz Inffeldgasse 16c, 8010

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 3 Maschinelles Lernen und Klassifikation Aufgabe : Zufallsexperiment

Mehr

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Maschinelle Sprachverarbeitung: N-Gramm-Modelle HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind

Mehr

Nichtlineare Klassifikatoren

Nichtlineare Klassifikatoren Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017 10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Implementierung und Vergleich diskriminativer Verfahren für Spracherkennung bei kleinem Vokabular

Implementierung und Vergleich diskriminativer Verfahren für Spracherkennung bei kleinem Vokabular Implementierung und Vergleich diskriminativer Verfahren für Spracherkennung bei kleinem Vokabular Diplomarbeit am Lehrstuhl für Informatik VI der RWTH Aachen Prof. Dr.-Ing. H. Ney vorgelegt von: Cand.

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt

Mehr

Statistische Methoden

Statistische Methoden Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Modell Komplexität und Generalisierung

Modell Komplexität und Generalisierung Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Docken von Proteinen. Timo von Oertzen St. Johann, September 2002

Docken von Proteinen. Timo von Oertzen St. Johann, September 2002 Docken von Proteinen Timo von Oertzen St. Johann, September 2002 Das Dock - Problem Schlecht...... ganz schlecht... Gut! Das Dock - Problem Das Dock Problem ist die Suche nach der energetischen günstigsten

Mehr

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst

Mehr

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14. Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen

Mehr

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Ein Schwellenwertelement (Threshold Logic Unit, TLU) ist eine Verarbeitungseinheit für Zahlen mitneingängenx,...,x n und einem

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

9 Minimum Spanning Trees

9 Minimum Spanning Trees Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne

Mehr

Angewandte Mathematik am Rechner 1

Angewandte Mathematik am Rechner 1 Michael Wand Institut für Informatik. Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2017 Kapitel 5 Grundlagen Analysis Kontinuierliche Mengen Vollständige Mengen Folgen Iterative Berechnungen Grenzwert:

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Lineare Regression 2: Gute Vorhersagen

Lineare Regression 2: Gute Vorhersagen Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,

Mehr

Kapitel 4: Nichtlineare Nullstellenprobleme

Kapitel 4: Nichtlineare Nullstellenprobleme Vorlesung Höhere Mathematik: Numerik (für Ingenieure) Kapitel 4: Nichtlineare Nullstellenprobleme Jun.-Prof. Dr. Stephan Trenn AG Technomathematik, TU Kaiserslautern Sommersemester 2015 HM: Numerik (SS

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Das Subgradientenverfahren

Das Subgradientenverfahren Das Subgradientenverfahren Seminar Optimierung WS 05/06 Betreuer: Prof. F. Jarre von Jalo Liljo Das Subgradientenverfahren Das Ziel dieses Vortrags ist die Berechnung einer Lösung des unrestringierten

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

Neuronale Netze (Konnektionismus)

Neuronale Netze (Konnektionismus) Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Korrektur des Bias Feldes in MR Aufnahmen

Korrektur des Bias Feldes in MR Aufnahmen Sebastian Brandt Korrektur des Bias Feldes in MR Aufnahmen Folie 1 Korrektur des Bias Feldes in MR Aufnahmen Seminar Medizinische Bildverarbeitung Sebastian Brandt sbrandt@uni-koblenz.de Universität Koblenz-Landau

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 5. Übungsblatt Aufgabe 1: Covering-Algorithmus und Coverage-Space Visualisieren Sie den Ablauf des Covering-Algorithmus

Mehr

Methoden der Biosignalverarbeitung

Methoden der Biosignalverarbeitung Vorlesung SS 2012 Methoden der Biosignalverarbeitung Generatives und Diskriminatives Training Dipl. Math. Michael Wand Prof. Dr. Tanja Schultz 1 / 95 Generatives und Diskriminatives Training Mit dieser

Mehr

Methoden der Biosignalverarbeitung

Methoden der Biosignalverarbeitung Vorlesung SS 212 Methoden der Biosignalverarbeitung Generatives und Diskriminatives Training Dipl. Math. Michael Wand Prof. Dr. Tanja Schultz 1 / 95 Generatives und Diskriminatives Training Mit dieser

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Hidden Markov Modelle

Hidden Markov Modelle Hidden Markov Modelle (Vorabversion begleitend zur Vorlesung Spracherkennung und integrierte Dialogsysteme am Lehrstuhl Medieninformatik am Inst. f. Informatik der LMU München, Sommer 2005) Prof. Marcus

Mehr

Kognitive Systeme. Übung 4

Kognitive Systeme. Übung 4 Kognitive Systeme Übung 4 Matthias Sperber Thai Son Nguyen 1 29.06.16 Wir bitten um Entschuldigung: Trotz anders lautender Ankündigung änderte sich die korrekte Lösung für Aufgabe 3e, sodass keine der

Mehr

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Wie liest man Konfidenzintervalle? Teil II. Premiu m Wie liest man Konfidenzintervalle? Teil II Premiu m - Hintergrund Anderer Wahrscheinlichkeitsbegriff subjektiver Wahrscheinlichkeitsbegriff Beispiel: Was ist die Wahrscheinlichkeit dafür, dass ein Patient

Mehr

LDA-based Document Model for Adhoc-Retrieval

LDA-based Document Model for Adhoc-Retrieval Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Logistische Regression

Logistische Regression Logistische Regression Christian Herta August, 2013 1 von 45 Christian Herta Logistische Regression Lernziele Logistische Regression Konzepte des maschinellen Lernens (insb. der Klassikation) Entscheidungsgrenze,

Mehr

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze. Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr