Textmining Clustering von Dokumenten
|
|
- Innozenz Helmut Hauer
- vor 7 Jahren
- Abrufe
Transkript
1 Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25
2 Clustering Definition Clustering ist die Gruppierung von Dokumenten, so dass die Dokumente innerhalb einer Gruppe möglichst ähnlich zueinander und zu den Elementen der anderen Gruppen möglichst verschieden sind Zwei generelle Unterscheidungsdimensionen beim Clusterings: Flaches Clustering hierarchisches Clustering diskretes Clustering modellbasiertes (weiches) Clustering Empfohlene Literatur: C.Manning, P.Raghavan, H.Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 Kapitel 16 und 17 (Informatik 8) Clustering 2 / 25
3 Anwendungen des Clusterings Clustering Hypothese Dokumente im gleichen Cluster erfüllen ähnliche Anforderungen bezüglich eines Informationsbedürfnisses Clustering von Suchergebnissen bessere Präsentation von Suchergebnissen Clustern aller Dokumente Exploration der Dokumente Scatter-Gather Zur Verbesserung der Suchanfrage: Biete Cluster, User wählt mehrere Cluster aus beginne erneut Language Modelling Bestimmung ähnlicher Terme IR Suche erst den passenden Cluster, dann die passenden Dokumente (Effizienzgewinn) (Informatik 8) Clustering 3 / 25
4 Flaches diskretes Clustering (Informatik 8) Clustering 4 / 25
5 Problemstellung Gegeben D = {d 1,..., d N } und K K die Anzahl der zur erstellenden Cluster Eine Bewertungsfunktion berechne eine Zuordnung γ : D {1,..., K }, die die Bewertungsfunktion minimiert (maximiert) Bewertungsfunktion verwendet oft ein Ähnlichkeitsmaß für Dokumente Thematische Ähnlichkeit Kosinus-Maß für TF-IDF Vekoren (zuvor Stoppwörter entfernen, Morphologische Normierung) Ähnliche Sprachen Ähnlichkeit der Häufigkeit von Bigrammen (hier keine Stoppwörter entfernen!) (Informatik 8) Clustering 5 / 25
6 K-means (1) K Mittelpunkte Dokumente sind Längennormiert! Mittelpunkt eine Clusters ω: µ(ω) = 1 ω x x ω Am besten geeignet für Daten mit hyperkugelförmigen Clustern Bewertungsfunktion für einen Cluster k: RSS k = x ω k x µ(ω k ) 2 Bewertungsfunktion für einen Aufteilung in Cluster: RSS = RSS = residual sum of squares K RSS k k=1 (Informatik 8) Clustering 6 / 25
7 K-means (2) Input: { d 1, d 2,..., d N }, K Output: { µ 1,..., µ K } ( µ 1, µ 2,..., µ K ) SELECTRANDOMSEEDS({ d 1,..., d N }, K ); while Endekriterium nicht erreicht do for k 1 to K do ω k {}; for n 1 to N do j argmin j µ j d n ; ω j ω j { d n } (Vektoren neu zuweisen); for k 1 to K do µ k 1 ω k d ωk d (Zentren neu berechnen) Mögliche Endekriterien Vorgegebene Zahl von Iterationen erreicht Fixpunkt erreicht RSS unterschreitet gewisse Grenze / RSS Verbesserung unter gewisser Schwelle (Informatik 8) Clustering 7 / 25
8 Beispiel (Tafel) (Informatik 8) Clustering 8 / 25
9 K-means Konvergenz (1) Konvergenz zeigen: Es gibt nur endlich viele Cluster-Zuordnungen Den Iterationsschritten des Algorithmus entpricht eine monoton fallende Folge (möglicherweise gleichbleiben) Bei gleichbleibenden Kosten kann es Zyklen geben! (Abfangen) Wähle die Folge der RSS-Werte zu zeigen: RSS nimmt bei der Neuzuweisung der Vektoren ab RSS nimmt bei der Neuberechnung der Zentren ab Neuzuweisung der Vektoren: Jeder Vektor x wird dem nächsten Zentroid zugewiesen, somit wird der Beitrag zu RSS pro Vektor kleiner oder bleibt gleich, somit wird RSS kleiner oder bleibt gleich (Informatik 8) Clustering 9 / 25
10 K-means Konvergenz (2) RSS k nimmt beim Neuberechen der Zentroiden ab (somit auch RSS) Beweis (d m und v m seien die m-ten Komponenten von d und v) RSS k ( v) = v M d 2 = (v m d m ) 2 d ωk m=1 d ωk Wo für welche Vektoren ist RSS k minimal? RSS k ( v) = 2(v m d m ) v m d ωk Null setzen 2(v m d m ) = ω k v m d m = 0 d ωk d ωk v m = genau die m-te Komponente des Zentroiden 1 ω k d ωk d m (Informatik 8) Clustering 10 / 25
11 Flaches modellbasiertes Clustering (Informatik 8) Clustering 11 / 25
12 Modellbasiertes (flaches) Clustering K-means als Modell der Daten (Erzeugung der Daten): 1 Wähle zufällig einen Zentroiden 2 Addiere Rauschen (zufällige Abweichung) 3 Bei normalverteiltem Rauschen erhält man hyperkugelige Gebilde Modellbasierte Datenanalyse nimmt ein Modell für die Datenerzeugung an und rekonstruiert die Modellparameter aus den Daten Modellbasiertes Clustern nimmt ein Clustermodell an muss Zuordnung Cluster Dokument liefern Meist: Wähle die Modellparameter so, dass die Wahrscheinlichkeit die gegebenen Daten zu erzeugen maximal ist (Informatik 8) Clustering 12 / 25
13 Likelihood der Daten Likelihood L(D Θ): Wahrscheinlichkeit, dass gegebenen Daten D bei gegebenen Modellparametern Θ erzeugt werden Bei K-means: Θ = { µ1,..., µ k } e RSS L(D Θ) Maximales L(D Θ) äquivalent zu minimaler RSS Log-Likelihood Θ = argmax Θ L(D Θ) = argmax Θ = argmax Θ log N P(d n Θ) n=1 N log P(d n Θ) Es gilt die Modellparameter so zu ändern, dass die Likelihood maximal wird die Likelihood nimt die Rolle der CLuster-Bewertungsfunktion ein (Informatik 8) Clustering 13 / 25 n=1
14 Art des Modells Gleichverteilt in Hyperkugel (K-Means) Bernoulli-Verteilung Gauß-Verteilung Bei bekanntem Modell kann für jedes Dokument-Cluster-Paar die Zugehörigkeitswahrscheinlichkeit P(d ω k ; Θ) bestimmt werden (wenn ω k gewählt ist) weiches Clustering Optimierung der Modellparamter: Expectation Maximization-Algorithmus (Informatik 8) Clustering 14 / 25
15 Bernoulli-Modell für Dokumente Grundlage: Binäre Dokument-Term-Vektoren, Terme werden als unabhängig angenommen; Wahrscheinlichkeit der Generierung eines Dokuments d im Cluster ω k bei bekannten Modellparametern Θ und m betrachteten Termen: P(d ω k ; Θ) = (1 q mk ) (1) wobei t m d q mk t m d Θ = {Θ1,..., Θ K } Θk = (α k, q 1k,..., q Mk ) und qmk ist die Wahrscheinlichkeit, dass Term t m in Dokumenten aus Cluster ω k auftritt; α k ist die Wahrscheinlichkeit des Clusters ω k Beachte: Auftreten der Terme wird als unabhängig angenommen einfache Multiplikation; (vlg. Naive-Bayes-Annahme) (Informatik 8) Clustering 15 / 25
16 Bernoulli-Modell für Dokumente (2) Wahrscheinlichkeit der Generierung des Dokuments d gegeben alle Cluster (Modellparameter Θ): K P(d Θ) = (1 q mk ) (2) α k q mk k=1 t m d t m d Wahrscheinlichkeit der Generierung der Dokumentsammlung D (Likelihood): D L(D Θ) = P(d i Θ) Log-Likelihood: D i=1 log L(D Θ) = log P(d i Θ) = log P(d i Θ) D i=1 i=1 (Informatik 8) Clustering 16 / 25
17 EM zur Optimierung der Zuordnung EM = Expectation Maximization Grundlage: Liklihood-Funktion: Wie gut erklärt ein Modell mit Modellparametern θ die beobachteten Daten? Vorgehen Bestimme die Likelihood der Daten bei gegebenen Modellparametern Zwischenprodukt: Eine Erklärung der einzelnen Beobachtungen (Expectation) Ändere die Modellparameter so, dass die Likelihood steigt (Maximization) Iteriere bis Abruchkriterium (Fixpunkt, maximale Anzahl von Iterationen) erreicht (Informatik 8) Clustering 17 / 25
18 EM (2) Expectation-Schritt r nk (Wahrscheinlichkeit, dass Dokument d n durch Cluster k erzeugt wird): ( ) ( ) α k t m d n q mk t m d n (1 q mk ) r nk = K k=1 α ) k ( t ( ) m d n q mk t m d n (1 q mk ) = α k Formel 1 Formel 2 Maximization-Schritt (bei gegebenen r nk ): = α Wkeit, dass ω k d n erzeugt Wkeit, dass d n erzeugt wird q mk = N n=1 r nki(t m d n ) N n=1 N n=1 r, α k = r nk nk N I(t m d n ) ist 1, wenn Term t m in Dokument d n auftritt, ansonsten 0 Formuliere den Maximization-Schritt in Worten! (Informatik 8) Clustering 18 / 25
19 Diskussion Modellbasiertes Clustering erlaubt eine weiche Zuordnung der Dokumente zu den Clustern Flaches clustering Cluster stehen nebeneinander (keine Struktur) Clusteranzahl muss vorgegeben werden Kein deterministisches Ergebnis (abhängig von anfangs zufälliger Dokument-Cluster Zuweisung) Vorteil: Flache Clusterverfahren haben lineare Laufzeit (Informatik 8) Clustering 19 / 25
20 Hierarchisches Clustering (Informatik 8) Clustering 20 / 25
21 Bottom-Up Top-Down Anfangs: Jedes Dokument ist ein (einelementiger) Cluster Iteriere: Verschmelze Paare von Clustern (behalte Verweise auf die Ausgangscluster) Bis nurt noch ein Cluster mit allen Elementen übrig ist hierarchical agglomerative clustering (HAC) Beginne mit einem Cluster der alle Dokumkente enthält Teile den aktuellen Cluster auf fahre rekursiv fort (Informatik 8) Clustering 21 / 25
22 HAC Clusterähnlichkeit: SIM(d i, d j ) Clusterähnlichkeit 2: SIM(i, m, j) Ähnlichkeit von Cluster j mit der Verschmelzung der Cluster i und m Grundannahme: Verschmelzungsoperation ist monoton Bei gegebener Folge s 1, s 2,..., s K 1 von Verschmelzungen gilt SIM (s 1 ) SIM (s 2 )... SIM (s K 1 ) monoton genau dann, wenn immer die ähnlichsten Cluster verschmolzen werden (Informatik 8) Clustering 22 / 25
23 SimpleHAC Input: (d 1,..., d N ) Output: A for n 1toN do for i 1toN do C[n][i] SIM(d n, d i ); I[n] 1 (notiert die aktiven Cluster); A [] (sammelt Cluster als Verschmelzungssequenz); for k 1toN 1 do i, m argmax { i,m :i m I[i]=1 I[m]=1} C[i][m]; A.APPEND( i, m ) (Verschmelzung speichern); for j 1toN do C[i][j] SIM(i, m, j); C[j][i] SIM(i, m, j); I[m] 0 In Worten:... (notiert die aktiven Cluster); (Informatik 8) Clustering 23 / 25
24 Clusterähnlichkeit Single link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei ähnlichsten Clusterlemente aus den jeweiligen Clustern (maximale Ähnlichkeit) Complete link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei unähnlichsten Clusterlemente aus den jeweiligen Clustern (minimale Ähnlichkeit) Zentroid Ähnlichkeit der Cluster-Zentren (durchschnittliche Ähnlichkeit der Elemente verschiedener Cluster) Gruppendurchschnitt Ähnlichkeit aller Elemente (gleich welcher Cluster) (Informatik 8) Clustering 24 / 25
25 Top-Down Clustering Verwende flaches Cluster-Verfahren als Unterfunktion Bilde K = 2 Cluster Rufe rekursiv auf (Informatik 8) Clustering 25 / 25
Clustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrProgrammierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
MehrLDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
MehrText-Mining: Clustering
Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010 Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur Cluster-Hypothese Documents
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mehr9 SLAM Simultaneous Localization and Mapping
9 SLAM Simultaneous Localization and Mapping Einleitung eines der aktivsten Forschungsgebiete innerhalb der Robotik Roboterlokalisierung bei gegebener Karte (Kap. 8 und Karte aus Sensordaten bei bekannter
MehrRückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
MehrClustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003
Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrSeminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrMaschinelles Lernen II
Maschinelles Lernen II! Vorlesung Computerlinguistische Techniken Alexander Koller! 30. Januar 2015 Heute Überwachtes Lernen: Maximum-Entropy-Modelle Unüberwachtes Lernen: Clustering Maximum Entropy: Motivation
MehrEinführung in die Computerlinguistik Information Retrieval: tf.idf
Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrInformatik II, SS 2018
Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 4 (30.4.2018) Sortieren IV Algorithmen und Komplexität Analyse Merge Sort Laufzeit T(n) setzt sich zusammen aus: Divide und Merge: O n
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
MehrBoole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
MehrPerzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)
MehrNumerische Verfahren und Grundlagen der Analysis
Numerische Verfahren und Grundlagen der Analysis Rasa Steuding Hochschule RheinMain Wiesbaden Wintersemester 2011/12 R. Steuding (HS-RM) NumAna Wintersemester 2011/12 1 / 26 1. Folgen R. Steuding (HS-RM)
MehrDatenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrGrundlagen: Algorithmen und Datenstrukturen
Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Jeremias Weihmann Sommersemester 2014 Übungsblatt 2 28. April 2014 Grundlagen: Algorithmen und
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am..03 Randomisierte Algorithmen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
MehrGrundlagen der Theoretischen Informatik
Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (II) 11.06.2015 Viorica Sofronie-Stokkermans e-mail: sofronie@uni-koblenz.de 1 Übersicht 1. Motivation 2. Terminologie
MehrIII Das Symmetrische Eigenwertproblem (SEP)
III Das Symmetrische Eigenwertproblem (SEP) III3 Algorithmen für symmetrische tridiagonale Eigenwertprobleme Sei im folgenden a b A = b a b b n a n b n b n a n R n n, zb nach Householder- oder Lanczos(im
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
MehrMusterlösung der Klausur vom 29. Juli 2003
Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.
MehrKonfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt
Konfidenzintervalle Annahme: X 1,..., X n iid F θ. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt P θ (U θ O) = 1 α, α (0, 1). Das Intervall [U, O] ist ein Konfidenzintervall
MehrKapitel III Selektieren und Sortieren
Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
Mehr1 Monomiale Ideale und monomiale Moduln
1 Monomiale Ideale und monomiale Moduln 1.1 Definition Sei (Γ, ) ein Monoid. a) Eine nichtleere Teilmenge Γ heißt Monoideal in Γ, wenn Γ gilt. b) Eine Teilmenge B eines Monoideals in Γ heißt Erzeugendensystem
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrGrundlagen: Algorithmen und Datenstrukturen
Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 2011 Übungsblatt 1 16. September 2011 Grundlagen: Algorithmen und
MehrAlgorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen Lerneinheit : Dynamisches Programmieren Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester.. Einleitung Diese Lerneinheit widmet sich einer
MehrVI.4 Elgamal. - vorgestellt 1985 von Taher Elgamal. - nach RSA das wichtigste Public-Key Verfahren
VI.4 Elgamal - vorgestellt 1985 von Taher Elgamal - nach RSA das wichtigste Public-Key Verfahren - besitzt viele unterschiedliche Varianten, abhängig von zugrunde liegender zyklischer Gruppe - Elgamal
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrG. Zachmann Clausthal University, Germany
lausthal Informatik II Suchen lausthal University, ermany zach@in.tu-clausthal.de Problemstellung egeben ist eine Menge von Datensätzen {A1,...,An} esucht sind die Datensätze, deren Schlüssel (Key) = A[i].key
MehrKryptographische Protokolle
Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 8 (13.5.2016) Hashtabellen I Algorithmen und Komplexität Dictionary mit sortiertem Array Laufzeiten: create: O(1) insert: O(n) find: O(log
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrProportional Symbol Maps
Vorlesung Algorithmische Kartografie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Benjamin Niedermann Martin Nöllenburg 25.06.2015 1 Statistische Visualisierung
Mehr3.2. Divide-and-Conquer-Methoden
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE 3.2. Divide-and-Conquer-Methoden Divide-and-Conquer-Methoden Einfache Sortieralgorithmen reduzieren die Größe des noch
MehrStochastik-Praktikum
Stochastik-Praktikum Zufallszahlen und Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 17. Oktober 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 17. Oktober 2017 1 / 23
MehrKürzeste und Schnellste Wege
Kürzeste und Schnellste Wege Wie funktionieren Navis? André Nusser (Folien inspiriert von Kurt Mehlhorn) Struktur Straßennetzwerke Naiver Algorithmus Dijkstras Algorithmus Transitknoten Nachbemerkungen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrVortrag 20: Kurze Vektoren in Gittern
Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges 02.05.2017 1 von 15 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical
MehrDefinition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.
2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n
Mehr5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
MehrVORLESUNG 12 Lineare Optimierung (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt)
VORLESUNG 12 Lineare Optimierung (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt) 53 Wiederholung! Basis-Startlösung berechnet! Künstliche Variablen! Erkennung von unlösbaren Problemen! Eliminierung
Mehr