Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
|
|
- Britta Brauer
- vor 7 Jahren
- Abrufe
Transkript
1 Institut für maschinelle Sprachverarbeitung Universität Stuttgart Die Folien basieren teilweise auf Folien von Mark Johnson.
2 Koordinationen Problem: PCFGs können nicht alle Informationen repräsentieren, die für die syntaktische Desambiguierung relevant sind. NP NP N NP PP C und N NP PP N Robben P PP NP Robben P NP in N Alaska Eisbären P NP in N Grönland in NP N Alaska C NP und N PP Eisbären P NP in N Konjunkte mit ähnlicher Struktur sind besser. Diese Information ist schwer in einer PCFG zu repräsentieren. Grönland
3 Neues Merkmal Idee: Aber: Definition eines Merkmales Koordination parallel bis Ebene X mit X=1,2,3,... Zuweisung einer Wahrscheinlichkeit zu diesem Merkmal Diese Wahrscheinlichkeit wird zur Parsebaumwahrscheinlichkeit hinzumultipliziert. Es ergibt sich keine Wahrscheinlichkeitsverteilung mehr. Die üblichen Parameterschätzmethoden sind nicht mehr anwendbar! lineare Modelle (Maximum-Entropie-Modelle)
4 Lineare Modelle Zusammenhang zwischen PCFGs und linearen Modellen p(t ) = r p(r) fr (T ) = e P r logp(r)fr (T ) = e P m i=1 λ i f i (T ) f i (T ) ist ein Merkmal und λ i ist sein Gewicht Damit sich auch nach dem Hinzufügen des Koordinationsmerkmals noch eine Wahrscheinlichkeitsverteilung ergibt, wird normalisiert: p(t S) = Z(S) = 1 m Z(S) ep T Analysen(S) i=1 λ i f i (T ) e P m i=1 λ i f i (T ) Da durch die Gesamtwahrscheinlichkeit aller Analysen eines Satzes geteilt wird, ergibt sich eine bedingte Wahrscheinlichkeit. Für die gemeinsame Wahrsch. von T und S müsste durch die Summe der Wahrsch. aller Parses aller Sätze geteilt werden, was nicht praktikabel ist.
5 Lineare Modelle für Ein Basisparser liefert die k besten Parsebäume pro Satz k ist typischerweise 50 oder 100 Ein Merkmal (Feature) ist eine beliebige Funktion, die einen Parse x auf eine reelle Zahl f (x) abbildet. f = (f1,..., f m ) ist ein Merkmalsvektor f (x) = (f1 (x),..., f m (x)) ist ein Merkmalswertvektor Ein Gewichtsvektor ist ein Vektor w = (w 1,..., w m ) der jedem Merkmal f j ein Gewicht w j zuweist Die Bewertung (Score) s w (x) eines Parsebaums x ist s w (x) = w f (x) = m w j f j (x) j=1 Fürs ist es nicht notwendig, die tatsächliche Wahrscheinlichkeit zu berechnen.
6 Lineare Modelle für Der Parse ˆx aus der Kandidatenmenge C mit der höchsten Bewertung ist ˆx = arg max s w (x) = arg max x C x C m w j f j (x) j=1 Ziel: Wähle f und w so, dass ˆx so korrekt wie möglich ist.
7 Mögliche Merkmale Ein Merkmal kann eine beliebige reellwertige Funktion des Parsebaumes sein. Meist ist f 0 (x) die Log-Wahrscheinlichkeit des Basisparsers für den Parsebaum Beispiele nützlicher Merkmale Häufigkeit der Regel S PP NP VP im Parse Häufigkeit des Baumfragments (S (NP DT NN) (VP VB)) im Parse Häufigkeit von liest als lex. Kopf einer VP, die eine NP mit lex. Kopf Buch dominiert Häufigkeit von NPs im Parse, die mit DT beginnen, mit NNS enden und von einem Komma gefolgt werden Zahl der Knoten im Pfad vom Wurzelknoten zum letzten Wort typische Zahl von Merkmalen: etwa 1 Million
8 Vorteile Vorteile linearer Modelle Beliebige Merkmale können kombiniert werden Keine mathematische Herleitung der Beziehungen zwischen den Merkmalen notwendig Viele Lernalgorithmen sind anwendbar Vorteile des s Die Merkmale dürfen nicht-lokal sein, da keine dynamische Programmierung (Viterbi-Algorithmus) angewendet wird Eine große Zahl von Merkmalen ist anwendbar, da die Zahl der Parsekandidaten klein und damit die Berechnung effizient ist
9 Lernen der Gewichte aus Baumbank Der Basisparser liefert für jeden Satz der Baumbank eine Kandidatenmenge C Wir wissen für jeden Parse x C seinen Merkmalsvektor f (x) und seine Genauigkeit (F-Score) durch Vergleich mit dem Baumbankparse Der Parse mit dem höchsten F-Score ist der Orakelparse x Wähle die Gewichte w so, dass der Orakelparse den höchsten Score hat, d.h. ˆx = x Orakel: x Rest: C/{x } (0,0,0,1,2) (0,1,0,0,2) (1,0,0,0,2) (0,0,1,0,2) (0,0,0,0,2) (0,0,0,2,0) (1,0,0,0,1) Der Gewichtsvektor (-2,-2,-2,-1,0) disambiguiert beide Sätze korrekt
10 Lernproblem Gegeben die Merkmalsvektoren der k besten Parsebäume für jeden der n Sätze, finde einen Gewichtsvektor w, so dass ˆx = x so oft wie möglich gilt. Lernalgorithmen Perzeptron, ein schneller online Lernalgorithmus MIRA, Perzeptron-Variante, welche den Abstand zwischen Orakelparse und nächstbestem Parse maximiert MaxEnt maximiert die bedingte Wahrscheinlichkeit p(x C) Seminar Machine Learning for NLP
11 Perzeptron 1957 von Frank Rosenblatt erfunden, um das Lernen von Neuronen zu modellieren benutzt für das Training von linearen Klassifikatoren Das Training ist einfach und schnell und funktioniert in der Praxis recht gut
12 Perzeptron Grundidee Gegeben eine Menge von Trainingsdaten (C, x) Wende den linearen Klassifikator auf ein (C, x ) an Falls ˆx x (Falschdisambiguierung) Modifiziere den Gewichtsvektor so, dass die Bewertung des Orakelparses x relativ zu ˆx steigt. w t+1 = w t + f (x ) f (ˆx) Wiederhole Wenn die Trainingsdaten linear separierbar sind, dann findet der Perzeptron-Algorithm in endlicher Zeit eine Gewichtsvektor, der alle Trainingsdaten korrekt desambiguiert.
13 Perzeptron Grundidee Gegeben eine Menge von Trainingsdaten (C, x) Wende den linearen Klassifikator auf ein (C, x ) an Falls ˆx x (Falschdisambiguierung) Modifiziere den Gewichtsvektor so, dass die Bewertung des Orakelparses x relativ zu ˆx steigt. w t+1 = w t + f (x ) f (ˆx) Wiederhole Wenn die Trainingsdaten linear separierbar sind, dann findet der Perzeptron-Algorithm in endlicher Zeit eine Gewichtsvektor, der alle Trainingsdaten korrekt desambiguiert.
14 Beispiel Wortart-Annotierung Wörter the man bit the dog korrekte Tags DT NN VBD DT NN ausgegebene Tags DT NN NN DT NN Angenommen es gibt Merkmale für Wortart-Bigramme DT-NN, NN-VBD,... und Wort/Wortart-Paare DT:the, NN:man,... Erhöhte Merkmalsgewichte: NN-VBD, VBD-DT, VBD:bit Verringerte Merkmalsgewichte: NN-NN, NN-DT, NN:bit Die übrigen Merkmalsgewichte bleiben unverändert.
15 Beispiel Wortart-Annotierung Wörter the man bit the dog korrekte Tags DT NN VBD DT NN ausgegebene Tags DT NN NN DT NN Angenommen es gibt Merkmale für Wortart-Bigramme DT-NN, NN-VBD,... und Wort/Wortart-Paare DT:the, NN:man,... Erhöhte Merkmalsgewichte: NN-VBD, VBD-DT, VBD:bit Verringerte Merkmalsgewichte: NN-NN, NN-DT, NN:bit Die übrigen Merkmalsgewichte bleiben unverändert.
16 Perzeptron Training Algorithmus Eingabe: Trainingsdaten (C i, xi ) for i = 1...n Initialisierung: w = 0 Algorithmus: for t = 1...T // für T Iterationen for i = 1...n // für alle Datenpaare ˆx arg max x Ci w f (x) // Disambiguiere if ˆx xi // Fehler? w w + f (xi ) f (ˆx) // Gewichtänderung return w // Rückgabe des Gewichtsvektors
17 Wann das Training beenden? Theoretisch sollte das Perzeptron-Training bis zur Konvergenz fortgeführt werden Aber das Training konvergiert nicht, wenn die Daten nicht linear separierbar sind. Man könnte so lange trainieren, bis die relativen Gewichtsänderungen sehr klein werden Aber dann ist der Klassifikator zu stark an die Trainingsdaten angepasst und generalisiert schlecht für neue Daten Wenn deutlich früher gestoppt wird, ist der Gewichtsvektor stark von den zuletzt gesehenen Daten beeinflusst. Lösung: Berechne das Mittel aller während des Trainings erhaltenenen Gewichtsvektoren
18 Perzeptron Training Algorithmus mit Mittelung Eingabe: Trainingsdaten (C i, xi ) for i = 1...n Initialisierung: w = 0 Algorithmus: for t = 1...T // für T Iterationen for i = 1...n // für alle Datenpaare ˆx arg max x Ci w f (x) // Disambiguiere if ˆx xi // Fehler? w w + f (xi ) f (ˆx) // Gewichtänderung w s w s + w // Aufsummieren der Gewichtsvektoren return w s /(T n) // Rückgabe des Gewichtsvektors
19 Wann das Training beenden? (2) Die optimale Zahl von Iterationen wird mit Held-Out-Daten bestimmt: 1 Trainiere für eine große Zahl von Iterationen (z.b. 100) 2 Speichere den mittleren Gewichtsvektor nach jeder Iteration 3 Evaluiere alle gespeicherten Gewichtsvektoren auf den Held-Out-Daten 4 Wähle den Gewichtsvektor mit dem besten Ergebnis
20 Überblick Training Erzeuge die k besten Parses für jeden Baumbanksatz Berechne den Orakelparse für jeden Baumbanksatz Extrahiere die Merkmalsvektoren für jeden Parse Trainiere den Gewichtsvektor auf den Trainingsdaten (mit Perzeptron, MaxEnt, SVM,...) Erzeuge die k besten Parses für jeden Eingabesatz Berechne den Merkmalsvektor für jeden Parse Berechne die Bewertung für jeden Merkmalsvektor Gib den Parse mit der höchsten Bewertung aus
21 Kreuzvalidierung Problem: Basisparser und Reranker müssen beide auf Baumbanken trainiert werden. Sie dürfen aber nicht auf derselben Baumbank trainiert werden. Wie werden die Trainingsdaten optimal genutzt? Lösung: Kreuzvalidierung Teile Baumbank in z.b. 10 gleich große Teile Trainiere den Basisparser reihum auf 9 Teilen und generiere damit die k besten Parses für den übriggebliebenen Teil Fasse die k besten Parses für alle 10 Teile zusammen und trainiere den Reranker Trainiere den Basisparser auf allen 10 Teilen
22 Anwendungen linearer Modelle Lineare Modelle können prinzipiell überall verwendet werden, wo klassische statistische Modelle (generative Modelle) eingesetzt werden (Wortart-Annotierung, Wortbedeutungsdesambiguierung etc.) Lineare Modelle liefern oft bessere Ergebnisse Training und Anwendung sind weniger effizient Seminar Maschinelles Lernen für NLP
Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrProbabilistische kontextfreie Grammatiken
Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
MehrMathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur
Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
MehrKlassifikation linear separierbarer Probleme
Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear
MehrProgrammierkurs Python II
Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrAutomatisches Lernen von Regeln zur quellseitigen Umordnung
Automatisches Lernen von Regeln zur quellseitigen Umordnung E I N A N S AT Z V O N D M I T R I Y G E N Z E L Duwaraka Murugadas Fortgeschrittene Methoden der statistischen maschinellen Übersetzung (Miriam
MehrTheoretische Informatik 1
Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs
MehrMaschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
Mehr2.7 Der Shannon-Fano-Elias Code
2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny
MehrNutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten
Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei
MehrVortrag 20: Kurze Vektoren in Gittern
Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrStatistische Methoden in der Maschinellen Sprachverarbeitung
Statistische Methoden in der Maschinellen Sprachverarbeitung Helmut Schmid und Thomas Müller IMS, Universität Stuttgart Literatur Christopher Manning und Hinrich Schütze: Foundations of Statistical Natural
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrKapitel 5: Dynamisches Programmieren Gliederung
Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrAlgorithmen II Vorlesung am 15.11.2012
Algorithmen II Vorlesung am 15.11.2012 Kreisbasen, Matroide & Algorithmen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales
MehrNLP Eigenschaften von Text
NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrMathematische und statistische Methoden II
Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de lordsofthebortz.de/g+
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrWir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir
Kapitel 3: Entropie Motivation Wir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir log N Bits log p N Bits Die Information steht
Mehr6.4 Neuronale Netze zur Verarbeitung von Zeitreihen
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrWir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)
6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese
MehrAdaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff
Adaptive Systeme Evolutionäre Algorithmen: Überlebenskampf und Evolutionäre Strategien Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Überblick Einleitung Adaptive Filter Künstliche
MehrVoronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 29.05.2011 Das Postamt-Problem b(p, q) = {x R 2 : xp = xq } p q h(p, q) h(q, p) = {x :
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Mehr16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87
16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor
MehrComputer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10
Computer Vision: AdaBoost D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Idee Gegeben sei eine Menge schwacher (einfacher, schlechter) Klassifikatoren Man bilde einen guten durch eine geschickte Kombination
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrAlgorithmen & Programmierung. Rekursive Funktionen (1)
Algorithmen & Programmierung Rekursive Funktionen (1) Berechnung der Fakultät Fakultät Die Fakultät N! einer nichtnegativen ganzen Zahl N kann folgendermaßen definiert werden: d.h. zur Berechnung werden
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrKünstliche Neuronale Netze
Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Die Forschungsuniversität Meyerhenke, in der Institut für Theoretische Informatik
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrNeuronale Netze. Christian Böhm.
Ludwig Maximilians Universität München Institut für Informatik Forschungsgruppe Data Mining in der Medizin Neuronale Netze Christian Böhm http://dmm.dbs.ifi.lmu.de/dbs 1 Lehrbuch zur Vorlesung Lehrbuch
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,
MehrSeminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme
Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen
MehrMathematische und statistische Methoden II
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrStochastische Lernalgorithmen
Stochastische Lernalgorithmen Gerhard Jäger 14. Mai 2003 Das Maximum-Entropy-Prinzip Der Entropiebegriff Entropie: Chaos, Unordung, Nicht-Vorhersagbarkeit,... Begriff kommt ursprünglich aus der Physik:
MehrEinführung in die Informatik: Programmierung und Software-Entwicklung, WS 11/12 1. Kapitel 11. Listen. Listen
Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 11/12 1 Kapitel 11 Einführung in die Informatik: Programmierung und Software-Entwicklung, WS 11/12 2 Ziele Implementierungen für
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 3 Maschinelles Lernen und Klassifikation Aufgabe : Zufallsexperiment
MehrFortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrVoronoi-Diagramme INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 03.06.2014 1 Das Postamt-Problem b(p, q) = {x 2 R 2 : xp = xq } p q h(p, q) h(q, p) = {x
MehrKapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen
Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2007 11. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Das Rucksack-Problem Ein Dieb, der einen Safe
MehrIdeen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn
Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-
Mehrkurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
Mehr1.8 Shift-And-Algorithmus
.8 Shift-And-Algorithmus nutzt durch Bitoperationen mögliche Parallelisierung Theoretischer Hintergrund: Nichtdeterministischer endlicher Automat Laufzeit: Θ(n), falls die Länge des Suchwortes nicht größer
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrKLAUSUR zur Numerik I mit Lösungen. Aufgabe 1: (10 Punkte) [ wahr falsch ] 1. Die maximale Ordnung einer s-stufigen Quadraturformel ist s 2.
MATHEMATISCHES INSTITUT PROF. DR. ACHIM SCHÄDLE 9.8.7 KLAUSUR zur Numerik I mit Lösungen Aufgabe : ( Punkte) [ wahr falsch ]. Die maximale Ordnung einer s-stufigen Quadraturformel ist s. [ ]. Der Clenshaw
MehrPopulation und Stichprobe: Wahrscheinlichkeitstheorie
Population und Stichprobe: Wahrscheinlichkeitstheorie SS 2001 4. Sitzung vom 15.05.2001 Wahrscheinlichkeitstheorie in den Sozialwissenschaften: Stichprobenziehung: Aussagen über Stichprobenzusammensetzung
MehrDas Subgradientenverfahren
Das Subgradientenverfahren Seminar Optimierung WS 05/06 Betreuer: Prof. F. Jarre von Jalo Liljo Das Subgradientenverfahren Das Ziel dieses Vortrags ist die Berechnung einer Lösung des unrestringierten
MehrSeminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener
Seminar: Randomisierte Algorithmen Auswerten von Sielbäumen Nele Küsener In diesem Vortrag wird die Laufzeit von Las-Vegas-Algorithmen analysiert. Das Ergebnis ist eine obere und eine untere Schranke für
MehrJan Parthey, Christin Seifert. 22. Mai 2003
Simulation Rekursiver Auto-Assoziativer Speicher (RAAM) durch Erweiterung eines klassischen Backpropagation-Simulators Jan Parthey, Christin Seifert jpar@hrz.tu-chemnitz.de, sech@hrz.tu-chemnitz.de 22.
Mehr11. Übung Algorithmen I
Timo Bingmann, Christian Schulz INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS KIT Timo Universität Bingmann, des LandesChristian Baden-Württemberg Schulz und nationales Forschungszentrum in der Helmholtz-Gemeinschaft
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
Mehr1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6
Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere
MehrNeuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation
Neuronale Netze Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at Institut für
MehrPrimzahlen und Programmieren
Primzahlen Wir wollen heute gemeinsam einen (sehr grundlegenden) Zusammenhang zwischen Programmieren und Mathematik herstellen. Die Zeiten in denen Mathematiker nur mit Zettel und Stift (oder Tafel und
MehrBerechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen
Definition Berechnung approximierter Voronoi-Zellen auf geometrischen Datenströmen Seminar über Algorithmen WS 2005/2006 Vorgetragen von Oliver Rieger und Patrick-Thomas Chmielewski basierend auf der Arbeit
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Strukturelle Modelle SVMstruct Katharina Morik, Claus Weihs LS 8 Informatik 16.6.2009 1 von 37 Gliederung LS 8 Informatik 1 Überblick Lernaufgaben 2 Primales Problem 3
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
Mehr5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
Mehr5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
MehrFolgen und Funktionen in der Mathematik
Folgen und Funktionen in der Mathematik Anhand von einigen exemplarischen Beispielen soll die Implementierung von mathematischen Algorithmen in C/C++ gezeigt werden: Reelle Funktionen in C/C++ Diese wird
MehrAlgorithmen & Komplexität
Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
Mehr7. Transitive Hülle. Kante des Graphen. Zusatz-Kante der transitiven Hülle
In Anwendungen ist es oft interessant zu wissen, ob man überhaupt von einem Knoten v zu einem Knoten w gelangen kann, ganz gleich wie lang der Weg auch ist. Gegeben sei dabei ein gerichteter Graph G =
MehrKontextfreie Grammatiken
Kontextfreie Grammatiken Vorlesung Computerlinguistische Techniken Alexander Koller 16. Oktober 2015 Übersicht Worum geht es in dieser Vorlesung? Übungen und Abschlussprojekt Kontextfreie Grammatiken Computerlinguistische
MehrBerechnung von Abständen
3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.
Mehr