LDA-based Document Model for Adhoc-Retrieval
|
|
- Carl Pohl
- vor 5 Jahren
- Abrufe
Transkript
1 Martin Luther Universität Halle-Wittenberg 30. März 2007
2 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter Ergebnisse
3 bisherige Verfahren Dokumente werden als bag of words dargestellt Wörter werden als unabhängig betrachtet Topic-Modelle Word- / Document-clustering verbessern die Darstellung Latent Semantic Indexing (Deerwester et al 1990) - SVD - Dimensionsreduktion zahlt sich bei grossen Sammlungen aus - Rauschunterdrückung probabilistic LSI (Hoffmann 1999) - geht von verborgenen Variablen aus - Dokumente enstehen durch verschiedene Topics
4 Latent Dirichlet Allocation inspirierte die Forschung im Bereich Maschinelles Lernen als effektiv erwiesen in text-bezogenen Aufgaben (Klassifikation) Durchführbarkeit? Effektivität? vollständig generative Semantik beseitigt Problem des plsi
5 plsi plsi Clusterbasiertes Retrieval auch Aspect Model Weiterentwicklung von LSI (textbezogener) verbindet jedes gelesene Wort mit einer verborgenen Variable Schwächen der Annahme im Unigrammischmodell: jedes Dokument wird von genau einer Topic erzeugt
6 Prozess plsi Clusterbasiertes Retrieval 1 Wähle eine Topic-verteilung P(. d) für jedes Dokument d 2 Wähle eine Topic z mit P(z d) für jedes Wort w 3 Erzeuge das Wort w mit P(w z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: P(w 1,..., w Nd ) = N d i=1 z=1 K P(w i z) P(z d)
7 Prozess als Grafik plsi Clusterbasiertes Retrieval
8 Nachteile plsi Clusterbasiertes Retrieval bessere Performanz als LSI, aber Testsammlungen mit 1033, 1400, 3204, 1460 Dokumenten von Hand optimierte Parameter unklare generative Semantik Anzahl der Parameter ist proportional zur Grösse der Trainingssammlung = Overfitting
9 Unigrammischmodell plsi Clusterbasiertes Retrieval jedes Dokument liegt in einem der k Cluster jeder Cluster beschäftigt sich mit einer Topic z jedes z ist verbunden mit einer Multinomialverteilung P(w z) über dem Vokabular Prozess 1 Wähle ein z aus einer Multinomialverteilung mit dem Parameter θ z 2 For i = 1,..., N d wähle das Wort w i aus z mit P(w i z) Wahrscheinlichkeit ein Dokument d = (w 1,..., w Nd ) zu erzeugen: K N d P(w 1,..., w Nd ) = P(z) P(w i z) z=1 i=1
10 Prozess als Grafik plsi Clusterbasiertes Retrieval
11 Unigrammischmodell - Parameter plsi Clusterbasiertes Retrieval 1 Fasse die Dokumente in k Gruppen / Cluster zusammen (z.b. K-Means-Algorithmus) 2 bestimme mittels Maximum-Likelihood je ein Topic-Modell P(w z) Wahrscheinlichkeit mit Glättung P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P(w cluster) N d + µ
12 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Generative Prozess ähnelt stark plsi Unterschied : plsi macht die Topicverteilung abhängig von jedem Dokument LDA bezieht die Topicverteilung aus einer Dirichletverteilung, die für alle Dokumente gleich ist Prozess : 1 Wähle eine Multinomialverteilung φ z für jede Topic z aus einer Dirichletverteilung mit dem Parameter β 2 Für jedes Dokument d, wähle eine Multinomialverteilung θ d aus einer Dirichletverteilung α 3 Für jedes Wort w im Dokument d, wähle eine Topic z 1,..., K aus der Multinomialverteilung θ d 4 Wähle ein Wort w aus der Multinomialverteilung
13 Prozess als Grafik Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität
14 LDA-Verfahren Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Wahrscheinlichkeit eine Textsammlung zu generieren P(doc 1,..., doc N α, β) = N d i=1 z i =1 K P(φ z β) z=1 d=1 N P(θ d α) K P(z i θ) P(w i z, φ) dθdφ
15 Vergleiche zu Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität plsi vollständige generative Semantik kein Overfittingproblem cluster-basiertes Modelle erlaubt, dass ein Dokument durch verschiedene Topics erzeugt wurde mehr dazu später
16 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Anfrage Q = (q 1,..., q n ) P(Q D) = q Q P(q D) P(q i D) gegeben durch (µ = 1000) P(w D) = N ( d N d + µ P ML(w D) + 1 N ) d P ML (w coll) N d + µ
17 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität LDA : Topics werden als Kombination von Wörtern dargestellt könnte nicht so präzise sein wie in Nicht-Topic-Modellen (Unigrammodell) Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + ( 1 N ) ) d P ML (w coll) + N d + µ (1 λ) P lda (w D)
18 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA a posteriori Wahrscheinlichkeiten von θ und φ sind zu bestimmen (ˆθ und ˆφ) Wahrscheinlichkeit eines Wortes w K P lda (w d, ˆθ, ˆφ) = P(w z, ˆφ) P(z ˆθ, d) z=1 kann nicht exakt gelöst werden Näherungsverfahren Expectation Propagation Variations-Methoden hier Gibbs-Sampling
19 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität n w i i,j : Anzahl der Instanzen von w i, die der Topic z=j zugewiesen wurde (ohne die Instanz w i ) n d i i,j : Anzahl der Wörter in d i V v=1 nv i,j : Gesamtzahl der Wörter in Topic z=j T t=1 nd i i,t : Gesamtzahl der Wörter in d i α, β Glättungsparameter
20 Gibbs-Sampling Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität nach einigen Iterationen gilt als Näherung ( ) n w i i,j ˆφ + β w i = ( ) V v=1 n i,j v + β v ( ) n d i i,j ˆθ + α z i = ( ) T t=1 n d i i,t + α t
21 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Kombination des Originalverfahrens mit dem LDA P(w D) = λ ( Nd N d + µ P ML(w D) + K (1 λ) z=1 ( ) n w i i,j + β w i ( V v=1 n i,j v + β v ( 1 N ) ) d P ML (w coll) + N d + µ ( ) n d i i,j + α z i ) T t=1 ( n d i i,t + α t ) Annmerkung : Wert für P lda stellt eine Mittelung über mehrere Markov-Ketten dar
22 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität Gibbs-sampling ist linear in I, K, N N t I : Iteration K : Anzahl der Topics N : Anzahl der Dokumente N t : Durchschnittlische Wörteranzahl pro Dokument K-Means ist linear in I, N, K Nw N w : Durchschnittliche Anzahl einmaliger Terme pro Cluster
23 Komplexität Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität K : Anzahl Topics in LDA < Anzahl Cluster in Cluster-Modell I : Anzahl Iterationen in LDA > 3-pass k-means-algorithmus (30-50 für Markovketten notwendig) N t vs N w : N w hängt vom gewählten K ab in Experimenten ist oft Nw > N t, da ein Cluster viele Dokumente enthält Experimente ergaben keine sichtlichen Unterschiede in der Laufzeit, beide O(K N)
24 Datenbasis Parameter Ergebnisse gleiche Sammlung wie bei Liu und Croft ausser Federal Register : zu wenig relevante Anfragen Anfragen stammen aus dem Titel der TREC-Topics Anfragen ohne relevante Dokumente wurden entfernt
25 Datenbasis Parameter Ergebnisse
26 Paramterwahl Parameter Ergebnisse Uns interessieren λ : Anteil des LDA-Teil I : Anzahl der Iterationen Anzahl der Markov-Ketten Parameter wurden von Hand auf beste Durchschnittliche Precision optimiert (Retrieval) gleiche Trainingsammlung : Associated Press α = 50/K, β = 0.01 (Standardwerte) : kaum Einfluss auf Ergebnisse?
27 Markov-Kette Parameter Ergebnisse Problem : Wann ist Markov-Kette stabil? keine Vorhersage möglich viele Iterationen werden als ausreichend angesehen nicht praktikabel bei grossen Datenmengen
28 Markov-Kette Parameter Ergebnisse
29 Markov-Kette Parameter Ergebnisse
30 K wählen Parameter Ergebnisse K bestimmen mit z.b. Chinese-Restaurant-Prozess nicht möglich Allgemein genügt 50 K 300 Optimal : Clusterverfahren : K = 2000 LDA : K = 800 (siehe Abb.)
31 K wählen Parameter Ergebnisse
32 Retrievalparameter Parameter Ergebnisse beste Ergebnisse mit µ = 1000 λ = 0.7
33 Parameter Ergebnisse
34 Parameter Ergebnisse (I = 50, 3 Markovketten)
35 Vergleich mit Relevance-Model Parameter Ergebnisse
36 LBDM als Pseudo-Feedback Parameter Ergebnisse
Dokumenten- und Topicmodelle. Institut für Informatik
Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
MehrTopicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de
Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Organisation und Überblick Nico Piatkowski und Uwe Ligges 8.0.07 von Fakten Team Vorlesung: Uwe Ligges, Nico Piatkowski Übung: Sarah Schnackenberg, Sebastian Buschjäger
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr1. Referenzpunkt Transformation
2.3 Featurereduktion Idee: Anstatt Features einfach wegzulassen, generiere einen neuen niedrigdimensionalen Featureraum aus allen Features: Redundante Features können zusammengefasst werden Irrelevantere
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrNachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!
Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:
MehrStrukturelle SVM zum Graph-labelling
23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Welche Sätze sind Elemente
MehrHMMs und der Viterbi-Algorithmus
July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrPraxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrText- und Datamining
Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker .@cs.fau.de Organisatorisches Folien eine Woche vor Präsentation abgeben (per Email)
MehrKindern mit Leukämie in Deutschland,
Raum-zeitliche Analyse von Kindern mit Leukämie in Deutschland, 1987-2007 Arbeitstagung Bayes-Methodik, räumliche Statistik, Ökologie und Umwelt Sven Schmiedel, Peter Kaatsch, Maria Blettner, Joachim Schüz
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrVorhersage von Protein-Funktionen. Patrick Pfeffer
Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrModerne IR / Language Models / Page Ranking
Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind
Mehr10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg
. Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments
Mehr(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrRapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik
technische universität RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik Name Autor Ort und Datum Informatik: Linguistik: Methoden + Verfahren Forschungsfragen, Anforderungen
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
Mehr4 Statistik der Extremwertverteilungen
In diesem Kapitel beschäftigen wir uns mit statistischen Anwendungen der Extremwerttheorie. Wir werden zwei verschiedene Zugänge zur Modellierung von Extremwerten betrachten. Der erste Zugang basiert auf
MehrEvaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
MehrMeasuring Distributional Semantics in Context
Motivation Modell Design Ergebnisse Zusammenfassung G. Dinu, M. Lapata (2010) Measuring Distributional Semantics in Context Melanie Tosik 6. Dezember 2013 M. Tosik Measuring Distributional Semantics in
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 16. November 2009 2. Monte Carlo-Methoden 2.1 Zufallszahlen - Warum? 2.2 Zahlendarstellung im Rechner 2.3 Generatoren 2.3.1 Linear kongruente Generatoren
MehrSimulationsmethoden in der Bayes-Statistik
Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen
MehrZeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.
Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrTP2: Elektrodynamik WS Arbeitsblatt 10 21/ Dipole und Multipole in stationären Feldern
TP2: Elektrodynamik WS 2017-2018 Arbeitsblatt 10 21/22.12. 2017 Dipole und Multipole in stationären Feldern Die Multipolentwicklung ist eine hilfreiche Näherung zur Lösung der Poisson Gleichung, wenn eine
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrR 3 und U := [e 2, e 3 ] der von e 2, e 3 erzeugte
Aufgabe ( Es seien e =, e = Untervektorraum (, e = ( R und U := [e, e ] der von e, e erzeugte Weiter sei G := {A GL(, R A e = e und A U U} (a Zeigen Sie, dass G eine Untergruppe von GL(, R ist (b Geben
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrKlasse WI06b MLAN2 zweite-klausur 13. Juni 2007
Klasse WI6b MLAN zweite-klausur 3. Juni 7 Name: Aufgabe Gegeben sind die beiden harmonischen Schwingungen ( y = f (t) = +3 sin ωt + π ) (), ( 4 y = f (t) = 8 cos ωt + π ) (). 4 a) Bestimmen Sie mit Hilfe
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrVerbesserungsheuristiken
Verbesserungsheuristiken Bestandteile der Lokalen Suche Für schwierige Optimierungsaufgaben haben Verbesserungsheuristiken eine große praktische Bedeutung. Sie starten mit Ausgangslösungen, die von z.b.
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrStochastik Praktikum Markov Chain Monte Carlo Methoden
Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrKlausur Stochastik und Statistik 31. Juli 2012
Klausur Stochastik und Statistik 31. Juli 2012 Prof. Dr. Matthias Schmid Institut für Statistik, LMU München Wichtig: ˆ Überprüfen Sie, ob Ihr Klausurexemplar vollständig ist. Die Klausur besteht aus fünf
Mehr9. Vorlesung Lineare Algebra, SVD und LSI
9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent
MehrZufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011
Zufällige stabile Prozesse und stabile stochastische Integrale Stochastikseminar, Dezember 2011 2 Stabile Prozesse Dezember 2011 Stabile stochastische Prozesse - Definition Stabile Integrale α-stabile
MehrVorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen
Prof Dr Rainer Dahlhaus Statistik 1 Wintersemester 2016/2017 Vorbereitung auf Übungsblatt (Präsenzübungen) - Lösungen Aufgabe P9 (Prognosen und Konfidenzellipsoide in der linearen Regression) Wir rekapitulieren
MehrEffiziente Methoden Für Die Berechnung Von Aminosäure Ersetzungsraten
Seminar - Aktuelle Themen der Bioinformatik Tobias Gontermann Johann Wolfgang Goethe-Universität Frankfurt a. M. 12 Juli 2007 1/46 Worum geht es? Berechung von Ratenmatritzen Q Wofür ist das gut? Modellierung
MehrFormelsammlung zur Vorlesung: Einführung in die Bayes-Statistik
1 Verteilungen Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik 1.1 Diskrete Verteilungen Helga Wagner und Gero Walter Binomialverteilung: Y BiNom (n, π) Parameter: n > 0, π [0, 1] Wahrscheinlichkeitsfunktion:
MehrTexttechnologien: Latent Semantic Indexing
Texttechnologien: Latent Semantic Indexing Inhaltsbasierte Suche in P2P-Netzen Texttechnologien 1 Inhaltsbasierte Suche in P2P-Netzen 1 Überblick Motivation Verfahren Eigenwertzerlegungen Singulärwertzerlegungen
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrHannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrKapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
MehrLatent Semantic Indexing: Einführung und Experiment
Latent Semantic Indexing: Einführung und Experiment Jonathan Geiger, Felix Hieber HS: Information Retrieval Dr. Haenelt 12.01.2009 WS 08/09 Motivation Grundsätzlich stecken zwei Ideen hinter, eine praktischer
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrBayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)
Bayes-Netze Claudio Fischer 20.06.2013 Text- und Datamining (AG Digital Humanities) Agenda Wiederholung Wahrscheinlichkeitstheorie Beispiel Motivation Bayes-Netze Inferenz exakt Inferenz annäherend Belief
MehrA3.9: Viterbi Algorithmus: Grundlegendes
A3.9: Viterbi Algorithmus: Grundlegendes Die Grafik zeigt ein Trellisdiagramm und definiert gleichzeitig die Fehlergrößen Γ i (S 0 ) und Γ i (S 1 ) zu den Zeitpunkten i = 0 bis i = 5. Aus diesem Trellis
MehrBoole'sches Modell <is web>
Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht
MehrSeminar Datenbanksysteme
Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System
MehrEinfache Modelle für komplexe Biomembranen
Einfache Modelle für komplexe Biomembranen Hergen Schultze Disputation am 6. Oktober 2003 Institut für Theoretische Physik Georg-August-Universität Göttingen Φ[ q,p]= ih 1 7 3 7 Hergen Schultze: Einfache
MehrEigenschaften von Texten
Eigenschaften von Texten 1 Statistische Eigenschaften von Text Wie ist die Häufigkeit verschiedener Wörter verteilt? Wie schnell wächst die Größe des Vokabulars mit der Größe eines Korpus? Solche Faktoren
MehrEffektive Feldtheorien in Higgs-Physik
19 Januar 2017 Übersicht 1 EFT Grundlagen 2 Higgsmechanismus 3 Effektive Feldtheorien in Higgsphysik 4 Literatur Effektive Feldtheorien Effektive Feldtheorien sind Näherungen, bei denen über Oszillationen
MehrKlausurenkurs zum Staatsexamen (WS 2014/15): Lineare Algebra und analytische Geometrie 1
Dr. Erwin Schörner Klausurenkurs zum Staatsexamen (WS 204/5): Lineare Algebra und analytische Geometrie. (Herbst 2005, Thema, Aufgabe ) Bestimmen Sie alle reellen Lösungen des folgenden linearen Gleichungssystems:.2
MehrLI07: Hidden Markov Modelle und Part-of-Speech Tagging
LI07: Hidden Markov Modelle und Part-of-Speech Tagging sumalvico@informatik.uni-leipzig.de 18. Mai 2017 Wiederholung: Statistisches Sprachmodell Ein statistisches Sprachmodell besteht allgemein aus: einer
MehrAnfrage Erweiterung 03.11.2011 Jan Schrader
Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrSyntaktische und Statistische Mustererkennung. Bernhard Jung
Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrExponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models
Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models Korbinian Schwinger 3. November 003 Inhaltsverzeichnis Inhaltsverzeichnis Exponential Family 3. Definition...............................
MehrMasterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.
Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur
Mehr