LDA-based Document Model for Adhoc-Retrieval

Größe: px
Ab Seite anzeigen:

Download "LDA-based Document Model for Adhoc-Retrieval"

Transkript

1 Martin Luther Universität Halle-Wittenberg 30. März 2007

2 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter Ergebnisse

3 bisherige Verfahren Dokumente werden als bag of words dargestellt Wörter werden als unabhängig betrachtet Topic-Modelle Word- / Document-clustering verbessern die Darstellung Latent Semantic Indexing (Deerwester et al 1990) - SVD - Dimensionsreduktion zahlt sich bei grossen Sammlungen aus - Rauschunterdrückung probabilistic LSI (Hoffmann 1999) - geht von verborgenen Variablen aus - Dokumente enstehen durch verschiedene Topics

4 Latent Dirichlet Allocation inspirierte die Forschung im Bereich Maschinelles Lernen als effektiv erwiesen in text-bezogenen Aufgaben (Klassifikation) Durchführbarkeit? Effektivität? vollständig generative Semantik beseitigt Problem des plsi

5 plsi plsi Clusterbasiertes Retrieval auch Aspect Model Weiterentwicklung von LSI (textbezogener) verbindet jedes gelesene Wort mit einer verborgenen Variable Schwächen der Annahme im Unigrammischmodell: jedes Dokument wird von genau einer Topic erzeugt

6 Prozess plsi Clusterbasiertes Retrieval 1 Wähle eine Topic-verteilung P(. d) für jedes Dokument d 2 Wähle eine Topic z mit P(z d) für jedes Wort w 3 Erzeuge das Wort w mit P(w z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: P(w 1,..., w Nd ) = N d i=1 z=1 K P(w i z) P(z d)

7 Prozess als Grafik plsi Clusterbasiertes Retrieval

8 Nachteile plsi Clusterbasiertes Retrieval bessere Performanz als LSI, aber Testsammlungen mit 1033, 1400, 3204, 1460 Dokumenten von Hand optimierte Parameter unklare generative Semantik Anzahl der Parameter ist proportional zur Grösse der Trainingssammlung = Overfitting

9 Unigrammischmodell plsi Clusterbasiertes Retrieval jedes Dokument liegt in einem der k Cluster jeder Cluster beschäftigt sich mit einer Topic z jedes z ist verbunden mit einer Multinomialverteilung P(w z) über dem Vokabular Prozess 1 Wähle ein z aus einer Multinomialverteilung mit dem Parameter θ z 2 For i = 1,..., N d wähle das Wort w i aus z mit P(w i z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: K N d P(w 1,..., w Nd ) = P(z) P(w i z) z=1 i=1

10 Prozess als Grafik plsi Clusterbasiertes Retrieval

11 Unigrammischmodell - Parameter plsi Clusterbasiertes Retrieval 1 Fasse die Dokumente in k Gruppen / Cluster zusammen (z.b. K-Means-Algorithmus) 2 bestimme mittels Maximum-Likelihood je ein Topic-Modell P(w z) Wahrscheinlichkeit mit Glättung P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P(w cluster) N d + µ

12 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Generative Prozess ähnelt stark plsi Unterschied : plsi macht die Topicverteilung abhängig von jedem Dokument LDA bezieht die Topicverteilung aus einer Dirichletverteilung, die für alle Dokumente gleich ist Prozess : 1 Wähle eine Multinomialverteilung φ z für jede Topic z aus einer Dirichletverteilung mit dem Parameter β 2 Für jedes Dokument d, wähle eine Multinomialverteilung θ d aus einer Dirichletverteilung α 3 Für jedes Wort w im Dokument d, wähle eine Topic z 1,..., K aus der Multinomialverteilung θ d 4 Wähle ein Wort w aus der Multinomialverteilung

13 Prozess als Grafik Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität

14 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Wahrscheinlichkeit eine Textsammlung zu generieren P(doc 1,..., doc N α, β) = N d i=1 z i =1 K P(φ z β) z=1 d=1 N P(θ d α) K P(z i θ) P(w i z, φ) dθdφ

15 Vergleiche zu Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität plsi vollständige generative Semantik kein Overfittingproblem cluster-basiertes Modelle erlaubt, dass ein Dokument durch verschiedene Topics erzeugt wurde mehr dazu später

16 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Anfrage Q = (q 1,..., q n ) P(Q D) = q Q P(q D) P(q i D) gegeben durch (µ = 1000) P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P ML (w coll) N d + µ

17 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität LDA : Topics werden als Kombination von Wörtern dargestellt könnte nicht so präzise sein wie in Nicht-Topic-Modellen (Unigrammodell) Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + ( 1 N ) ) d P ML (w coll) + N d + µ (1 λ) P lda (w D)

18 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA a posteriori Wahrscheinlichkeiten von θ und φ sind zu bestimmen (ˆθ und ˆφ) Wahrscheinlichkeit eines Wortes w K P lda (w d, ˆθ, ˆφ) = P(w z, ˆφ) P(z ˆθ, d) z=1 kann nicht exakt gelöst werden Näherungsverfahren Expectation Propagation Variations-Methoden hier Gibbs-Sampling

19 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität n w i i,j : Anzahl der Instanzen von w i, die der Topic z=j zugewiesen wurde (ohne die Instanz w i ) n d i i,j : Anzahl der Wörter in d i V v=1 nv i,j : Gesamtzahl der Wörter in Topic z=j T t=1 nd i i,t : Gesamtzahl der Wörter in d i α, β Glättungsparameter

20 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität nach einigen Iterationen gilt als Näherung ( ) n w i i,j ˆφ + β w i = ( ) V v=1 n i,j v + β v ( ) n d i i,j ˆθ + α z i = ( ) T t=1 n d i i,t + α t

21 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + K (1 λ) z=1 ( ) n w i i,j + β w i ( V v=1 n i,j v + β v ( 1 N ) ) d P ML (w coll) + N d + µ ( ) n d i i,j + α z i ) T t=1 ( n d i i,t + α t ) Annmerkung : Wert für P lda stellt eine Mittelung über mehrere Markov-Ketten dar

22 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Gibbs-sampling ist linear in I, K, N N t I : Iteration K : Anzahl der Topics N : Anzahl der Dokumente N t : Durchschnittlische Wörteranzahl pro Dokument K-Means ist linear in I, N, K Nw N w : Durchschnittliche Anzahl einmaliger Terme pro Cluster

23 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität K : Anzahl Topics in LDA < Anzahl Cluster in Cluster-Modell I : Anzahl Iterationen in LDA > 3-pass k-means-algorithmus (30-50 für Markovketten notwendig) N t vs N w : N w hängt vom gewählten K ab in Experimenten ist oft Nw > N t, da ein Cluster viele Dokumente enthält Experimente ergaben keine sichtlichen Unterschiede in der Laufzeit, beide O(K N)

24 Datenbasis Parameter Ergebnisse gleiche Sammlung wie bei Liu und Croft ausser Federal Register : zu wenig relevante Anfragen Anfragen stammen aus dem Titel der TREC-Topics Anfragen ohne relevante Dokumente wurden entfernt

25 Datenbasis Parameter Ergebnisse

26 Paramterwahl Parameter Ergebnisse Uns interessieren λ : Anteil des LDA-Teil I : Anzahl der Iterationen Anzahl der Markov-Ketten Parameter wurden von Hand auf beste Durchschnittliche Precision optimiert (Retrieval) gleiche Trainingsammlung : Associated Press α = 50/K, β = 0.01 (Standardwerte) : kaum Einfluss auf Ergebnisse?

27 Markov-Kette Parameter Ergebnisse Problem : Wann ist Markov-Kette stabil? keine Vorhersage möglich viele Iterationen werden als ausreichend angesehen nicht praktikabel bei grossen Datenmengen

28 Markov-Kette Parameter Ergebnisse

29 Markov-Kette Parameter Ergebnisse

30 K wählen Parameter Ergebnisse K bestimmen mit z.b. Chinese-Restaurant-Prozess nicht möglich Allgemein genügt 50 K 300 Optimal : Clusterverfahren : K = 2000 LDA : K = 800 (siehe Abb.)

31 K wählen Parameter Ergebnisse

32 Retrievalparameter Parameter Ergebnisse beste Ergebnisse mit µ = 1000 λ = 0.7

33 Parameter Ergebnisse

34 Parameter Ergebnisse (I = 50, 3 Markovketten)

35 Vergleich mit Relevance-Model Parameter Ergebnisse

36 LBDM als Pseudo-Feedback Parameter Ergebnisse

Dokumenten- und Topicmodelle. Institut für Informatik

Dokumenten- und Topicmodelle. Institut für Informatik Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Organisation und Überblick Nico Piatkowski und Uwe Ligges 8.0.07 von Fakten Team Vorlesung: Uwe Ligges, Nico Piatkowski Übung: Sarah Schnackenberg, Sebastian Buschjäger

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

1. Referenzpunkt Transformation

1. Referenzpunkt Transformation 2.3 Featurereduktion Idee: Anstatt Features einfach wegzulassen, generiere einen neuen niedrigdimensionalen Featureraum aus allen Features: Redundante Features können zusammengefasst werden Irrelevantere

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!! Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:

Mehr

Strukturelle SVM zum Graph-labelling

Strukturelle SVM zum Graph-labelling 23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Welche Sätze sind Elemente

Mehr

HMMs und der Viterbi-Algorithmus

HMMs und der Viterbi-Algorithmus July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Text- und Datamining

Text- und Datamining Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker .@cs.fau.de Organisatorisches Folien eine Woche vor Präsentation abgeben (per Email)

Mehr

Kindern mit Leukämie in Deutschland,

Kindern mit Leukämie in Deutschland, Raum-zeitliche Analyse von Kindern mit Leukämie in Deutschland, 1987-2007 Arbeitstagung Bayes-Methodik, räumliche Statistik, Ökologie und Umwelt Sven Schmiedel, Peter Kaatsch, Maria Blettner, Joachim Schüz

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

4 Statistik der Extremwertverteilungen

4 Statistik der Extremwertverteilungen In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Measuring Distributional Semantics in Context

Measuring Distributional Semantics in Context Motivation Modell Design Ergebnisse Zusammenfassung G. Dinu, M. Lapata (2010) Measuring Distributional Semantics in Context Melanie Tosik 6. Dezember 2013 M. Tosik Measuring Distributional Semantics in

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 16. November 2009 2. Monte Carlo-Methoden 2.1 Zufallszahlen - Warum? 2.2 Zahlendarstellung im Rechner 2.3 Generatoren 2.3.1 Linear kongruente Generatoren

Mehr

Simulationsmethoden in der Bayes-Statistik

Simulationsmethoden in der Bayes-Statistik Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen

Mehr

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2. Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

TP2: Elektrodynamik WS Arbeitsblatt 10 21/ Dipole und Multipole in stationären Feldern

TP2: Elektrodynamik WS Arbeitsblatt 10 21/ Dipole und Multipole in stationären Feldern TP2: Elektrodynamik WS 2017-2018 Arbeitsblatt 10 21/22.12. 2017 Dipole und Multipole in stationären Feldern Die Multipolentwicklung ist eine hilfreiche Näherung zur Lösung der Poisson Gleichung, wenn eine

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

R 3 und U := [e 2, e 3 ] der von e 2, e 3 erzeugte

R 3 und U := [e 2, e 3 ] der von e 2, e 3 erzeugte Aufgabe ( Es seien e =, e = Untervektorraum (, e = ( R und U := [e, e ] der von e, e erzeugte Weiter sei G := {A GL(, R A e = e und A U U} (a Zeigen Sie, dass G eine Untergruppe von GL(, R ist (b Geben

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Klasse WI06b MLAN2 zweite-klausur 13. Juni 2007

Klasse WI06b MLAN2 zweite-klausur 13. Juni 2007 Klasse WI6b MLAN zweite-klausur 3. Juni 7 Name: Aufgabe Gegeben sind die beiden harmonischen Schwingungen ( y = f (t) = +3 sin ωt + π ) (), ( 4 y = f (t) = 8 cos ωt + π ) (). 4 a) Bestimmen Sie mit Hilfe

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Verbesserungsheuristiken

Verbesserungsheuristiken Verbesserungsheuristiken Bestandteile der Lokalen Suche Für schwierige Optimierungsaufgaben haben Verbesserungsheuristiken eine große praktische Bedeutung. Sie starten mit Ausgangslösungen, die von z.b.

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Stochastik Praktikum Markov Chain Monte Carlo Methoden Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

Klausur Stochastik und Statistik 31. Juli 2012

Klausur Stochastik und Statistik 31. Juli 2012 Klausur Stochastik und Statistik 31. Juli 2012 Prof. Dr. Matthias Schmid Institut für Statistik, LMU München Wichtig: ˆ Überprüfen Sie, ob Ihr Klausurexemplar vollständig ist. Die Klausur besteht aus fünf

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011 Zufällige stabile Prozesse und stabile stochastische Integrale Stochastikseminar, Dezember 2011 2 Stabile Prozesse Dezember 2011 Stabile stochastische Prozesse - Definition Stabile Integrale α-stabile

Mehr

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen Prof Dr Rainer Dahlhaus Statistik 1 Wintersemester 2016/2017 Vorbereitung auf Übungsblatt (Präsenzübungen) - Lösungen Aufgabe P9 (Prognosen und Konfidenzellipsoide in der linearen Regression) Wir rekapitulieren

Mehr

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten

Effiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten Seminar - Aktuelle Themen der Bioinformatik Tobias Gontermann Johann Wolfgang Goethe-Universität Frankfurt a. M. 12 Juli 2007 1/46 Worum geht es? Berechung von Ratenmatritzen Q Wofür ist das gut? Modellierung

Mehr

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik 1 Verteilungen Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik 1.1 Diskrete Verteilungen Helga Wagner und Gero Walter Binomialverteilung: Y BiNom (n, π) Parameter: n > 0, π [0, 1] Wahrscheinlichkeitsfunktion:

Mehr

Texttechnologien: Latent Semantic Indexing

Texttechnologien: Latent Semantic Indexing Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Latent Semantic Indexing: Einführung und Experiment

Latent Semantic Indexing: Einführung und Experiment Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities) Bayes-Netze Claudio Fischer 20.06.2013 Text- und Datamining (AG Digital Humanities) Agenda Wiederholung Wahrscheinlichkeitstheorie Beispiel Motivation Bayes-Netze Inferenz exakt Inferenz annäherend Belief

Mehr

A3.9: Viterbi Algorithmus: Grundlegendes

A3.9: Viterbi Algorithmus: Grundlegendes A3.9: Viterbi Algorithmus: Grundlegendes Die Grafik zeigt ein Trellisdiagramm und definiert gleichzeitig die Fehlergrößen Γ i (S 0 ) und Γ i (S 1 ) zu den Zeitpunkten i = 0 bis i = 5. Aus diesem Trellis

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

Einfache Modelle für komplexe Biomembranen

Einfache Modelle für komplexe Biomembranen Einfache Modelle für komplexe Biomembranen Hergen Schultze Disputation am 6. Oktober 2003 Institut für Theoretische Physik Georg-August-Universität Göttingen Φ[ q,p]= ih 1 7 3 7 Hergen Schultze: Einfache

Mehr

Eigenschaften von Texten

Eigenschaften von Texten Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren

Mehr

Effektive Feldtheorien in Higgs-Physik

Effektive Feldtheorien in Higgs-Physik 19 Januar 2017 Übersicht 1 EFT Grundlagen 2 Higgsmechanismus 3 Effektive Feldtheorien in Higgsphysik 4 Literatur Effektive Feldtheorien Effektive Feldtheorien sind Näherungen, bei denen über Oszillationen

Mehr

Klausurenkurs zum Staatsexamen (WS 2014/15): Lineare Algebra und analytische Geometrie 1

Klausurenkurs zum Staatsexamen (WS 2014/15): Lineare Algebra und analytische Geometrie 1 Dr. Erwin Schörner Klausurenkurs zum Staatsexamen (WS 204/5): Lineare Algebra und analytische Geometrie. (Herbst 2005, Thema, Aufgabe ) Bestimmen Sie alle reellen Lösungen des folgenden linearen Gleichungssystems:.2

Mehr

LI07: Hidden Markov Modelle und Part-of-Speech Tagging

LI07: Hidden Markov Modelle und Part-of-Speech Tagging LI07: Hidden Markov Modelle und Part-of-Speech Tagging sumalvico@informatik.uni-leipzig.de 18. Mai 2017 Wiederholung: Statistisches Sprachmodell Ein statistisches Sprachmodell besteht allgemein aus: einer

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Korbinian Schwinger 3. November 003 Inhaltsverzeichnis Inhaltsverzeichnis Exponential Family 3. Definition...............................

Mehr

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen. Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur

Mehr