Textmining Clustering von Dokumenten
|
|
|
- Innozenz Helmut Hauer
- vor 9 Jahren
- Abrufe
Transkript
1 Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25
2 Clustering Definition Clustering ist die Gruppierung von Dokumenten, so dass die Dokumente innerhalb einer Gruppe möglichst ähnlich zueinander und zu den Elementen der anderen Gruppen möglichst verschieden sind Zwei generelle Unterscheidungsdimensionen beim Clusterings: Flaches Clustering hierarchisches Clustering diskretes Clustering modellbasiertes (weiches) Clustering Empfohlene Literatur: C.Manning, P.Raghavan, H.Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 Kapitel 16 und 17 (Informatik 8) Clustering 2 / 25
3 Anwendungen des Clusterings Clustering Hypothese Dokumente im gleichen Cluster erfüllen ähnliche Anforderungen bezüglich eines Informationsbedürfnisses Clustering von Suchergebnissen bessere Präsentation von Suchergebnissen Clustern aller Dokumente Exploration der Dokumente Scatter-Gather Zur Verbesserung der Suchanfrage: Biete Cluster, User wählt mehrere Cluster aus beginne erneut Language Modelling Bestimmung ähnlicher Terme IR Suche erst den passenden Cluster, dann die passenden Dokumente (Effizienzgewinn) (Informatik 8) Clustering 3 / 25
4 Flaches diskretes Clustering (Informatik 8) Clustering 4 / 25
5 Problemstellung Gegeben D = {d 1,..., d N } und K K die Anzahl der zur erstellenden Cluster Eine Bewertungsfunktion berechne eine Zuordnung γ : D {1,..., K }, die die Bewertungsfunktion minimiert (maximiert) Bewertungsfunktion verwendet oft ein Ähnlichkeitsmaß für Dokumente Thematische Ähnlichkeit Kosinus-Maß für TF-IDF Vekoren (zuvor Stoppwörter entfernen, Morphologische Normierung) Ähnliche Sprachen Ähnlichkeit der Häufigkeit von Bigrammen (hier keine Stoppwörter entfernen!) (Informatik 8) Clustering 5 / 25
6 K-means (1) K Mittelpunkte Dokumente sind Längennormiert! Mittelpunkt eine Clusters ω: µ(ω) = 1 ω x x ω Am besten geeignet für Daten mit hyperkugelförmigen Clustern Bewertungsfunktion für einen Cluster k: RSS k = x ω k x µ(ω k ) 2 Bewertungsfunktion für einen Aufteilung in Cluster: RSS = RSS = residual sum of squares K RSS k k=1 (Informatik 8) Clustering 6 / 25
7 K-means (2) Input: { d 1, d 2,..., d N }, K Output: { µ 1,..., µ K } ( µ 1, µ 2,..., µ K ) SELECTRANDOMSEEDS({ d 1,..., d N }, K ); while Endekriterium nicht erreicht do for k 1 to K do ω k {}; for n 1 to N do j argmin j µ j d n ; ω j ω j { d n } (Vektoren neu zuweisen); for k 1 to K do µ k 1 ω k d ωk d (Zentren neu berechnen) Mögliche Endekriterien Vorgegebene Zahl von Iterationen erreicht Fixpunkt erreicht RSS unterschreitet gewisse Grenze / RSS Verbesserung unter gewisser Schwelle (Informatik 8) Clustering 7 / 25
8 Beispiel (Tafel) (Informatik 8) Clustering 8 / 25
9 K-means Konvergenz (1) Konvergenz zeigen: Es gibt nur endlich viele Cluster-Zuordnungen Den Iterationsschritten des Algorithmus entpricht eine monoton fallende Folge (möglicherweise gleichbleiben) Bei gleichbleibenden Kosten kann es Zyklen geben! (Abfangen) Wähle die Folge der RSS-Werte zu zeigen: RSS nimmt bei der Neuzuweisung der Vektoren ab RSS nimmt bei der Neuberechnung der Zentren ab Neuzuweisung der Vektoren: Jeder Vektor x wird dem nächsten Zentroid zugewiesen, somit wird der Beitrag zu RSS pro Vektor kleiner oder bleibt gleich, somit wird RSS kleiner oder bleibt gleich (Informatik 8) Clustering 9 / 25
10 K-means Konvergenz (2) RSS k nimmt beim Neuberechen der Zentroiden ab (somit auch RSS) Beweis (d m und v m seien die m-ten Komponenten von d und v) RSS k ( v) = v M d 2 = (v m d m ) 2 d ωk m=1 d ωk Wo für welche Vektoren ist RSS k minimal? RSS k ( v) = 2(v m d m ) v m d ωk Null setzen 2(v m d m ) = ω k v m d m = 0 d ωk d ωk v m = genau die m-te Komponente des Zentroiden 1 ω k d ωk d m (Informatik 8) Clustering 10 / 25
11 Flaches modellbasiertes Clustering (Informatik 8) Clustering 11 / 25
12 Modellbasiertes (flaches) Clustering K-means als Modell der Daten (Erzeugung der Daten): 1 Wähle zufällig einen Zentroiden 2 Addiere Rauschen (zufällige Abweichung) 3 Bei normalverteiltem Rauschen erhält man hyperkugelige Gebilde Modellbasierte Datenanalyse nimmt ein Modell für die Datenerzeugung an und rekonstruiert die Modellparameter aus den Daten Modellbasiertes Clustern nimmt ein Clustermodell an muss Zuordnung Cluster Dokument liefern Meist: Wähle die Modellparameter so, dass die Wahrscheinlichkeit die gegebenen Daten zu erzeugen maximal ist (Informatik 8) Clustering 12 / 25
13 Likelihood der Daten Likelihood L(D Θ): Wahrscheinlichkeit, dass gegebenen Daten D bei gegebenen Modellparametern Θ erzeugt werden Bei K-means: Θ = { µ1,..., µ k } e RSS L(D Θ) Maximales L(D Θ) äquivalent zu minimaler RSS Log-Likelihood Θ = argmax Θ L(D Θ) = argmax Θ = argmax Θ log N P(d n Θ) n=1 N log P(d n Θ) Es gilt die Modellparameter so zu ändern, dass die Likelihood maximal wird die Likelihood nimt die Rolle der CLuster-Bewertungsfunktion ein (Informatik 8) Clustering 13 / 25 n=1
14 Art des Modells Gleichverteilt in Hyperkugel (K-Means) Bernoulli-Verteilung Gauß-Verteilung Bei bekanntem Modell kann für jedes Dokument-Cluster-Paar die Zugehörigkeitswahrscheinlichkeit P(d ω k ; Θ) bestimmt werden (wenn ω k gewählt ist) weiches Clustering Optimierung der Modellparamter: Expectation Maximization-Algorithmus (Informatik 8) Clustering 14 / 25
15 Bernoulli-Modell für Dokumente Grundlage: Binäre Dokument-Term-Vektoren, Terme werden als unabhängig angenommen; Wahrscheinlichkeit der Generierung eines Dokuments d im Cluster ω k bei bekannten Modellparametern Θ und m betrachteten Termen: P(d ω k ; Θ) = (1 q mk ) (1) wobei t m d q mk t m d Θ = {Θ1,..., Θ K } Θk = (α k, q 1k,..., q Mk ) und qmk ist die Wahrscheinlichkeit, dass Term t m in Dokumenten aus Cluster ω k auftritt; α k ist die Wahrscheinlichkeit des Clusters ω k Beachte: Auftreten der Terme wird als unabhängig angenommen einfache Multiplikation; (vlg. Naive-Bayes-Annahme) (Informatik 8) Clustering 15 / 25
16 Bernoulli-Modell für Dokumente (2) Wahrscheinlichkeit der Generierung des Dokuments d gegeben alle Cluster (Modellparameter Θ): K P(d Θ) = (1 q mk ) (2) α k q mk k=1 t m d t m d Wahrscheinlichkeit der Generierung der Dokumentsammlung D (Likelihood): D L(D Θ) = P(d i Θ) Log-Likelihood: D i=1 log L(D Θ) = log P(d i Θ) = log P(d i Θ) D i=1 i=1 (Informatik 8) Clustering 16 / 25
17 EM zur Optimierung der Zuordnung EM = Expectation Maximization Grundlage: Liklihood-Funktion: Wie gut erklärt ein Modell mit Modellparametern θ die beobachteten Daten? Vorgehen Bestimme die Likelihood der Daten bei gegebenen Modellparametern Zwischenprodukt: Eine Erklärung der einzelnen Beobachtungen (Expectation) Ändere die Modellparameter so, dass die Likelihood steigt (Maximization) Iteriere bis Abruchkriterium (Fixpunkt, maximale Anzahl von Iterationen) erreicht (Informatik 8) Clustering 17 / 25
18 EM (2) Expectation-Schritt r nk (Wahrscheinlichkeit, dass Dokument d n durch Cluster k erzeugt wird): ( ) ( ) α k t m d n q mk t m d n (1 q mk ) r nk = K k=1 α ) k ( t ( ) m d n q mk t m d n (1 q mk ) = α k Formel 1 Formel 2 Maximization-Schritt (bei gegebenen r nk ): = α Wkeit, dass ω k d n erzeugt Wkeit, dass d n erzeugt wird q mk = N n=1 r nki(t m d n ) N n=1 N n=1 r, α k = r nk nk N I(t m d n ) ist 1, wenn Term t m in Dokument d n auftritt, ansonsten 0 Formuliere den Maximization-Schritt in Worten! (Informatik 8) Clustering 18 / 25
19 Diskussion Modellbasiertes Clustering erlaubt eine weiche Zuordnung der Dokumente zu den Clustern Flaches clustering Cluster stehen nebeneinander (keine Struktur) Clusteranzahl muss vorgegeben werden Kein deterministisches Ergebnis (abhängig von anfangs zufälliger Dokument-Cluster Zuweisung) Vorteil: Flache Clusterverfahren haben lineare Laufzeit (Informatik 8) Clustering 19 / 25
20 Hierarchisches Clustering (Informatik 8) Clustering 20 / 25
21 Bottom-Up Top-Down Anfangs: Jedes Dokument ist ein (einelementiger) Cluster Iteriere: Verschmelze Paare von Clustern (behalte Verweise auf die Ausgangscluster) Bis nurt noch ein Cluster mit allen Elementen übrig ist hierarchical agglomerative clustering (HAC) Beginne mit einem Cluster der alle Dokumkente enthält Teile den aktuellen Cluster auf fahre rekursiv fort (Informatik 8) Clustering 21 / 25
22 HAC Clusterähnlichkeit: SIM(d i, d j ) Clusterähnlichkeit 2: SIM(i, m, j) Ähnlichkeit von Cluster j mit der Verschmelzung der Cluster i und m Grundannahme: Verschmelzungsoperation ist monoton Bei gegebener Folge s 1, s 2,..., s K 1 von Verschmelzungen gilt SIM (s 1 ) SIM (s 2 )... SIM (s K 1 ) monoton genau dann, wenn immer die ähnlichsten Cluster verschmolzen werden (Informatik 8) Clustering 22 / 25
23 SimpleHAC Input: (d 1,..., d N ) Output: A for n 1toN do for i 1toN do C[n][i] SIM(d n, d i ); I[n] 1 (notiert die aktiven Cluster); A [] (sammelt Cluster als Verschmelzungssequenz); for k 1toN 1 do i, m argmax { i,m :i m I[i]=1 I[m]=1} C[i][m]; A.APPEND( i, m ) (Verschmelzung speichern); for j 1toN do C[i][j] SIM(i, m, j); C[j][i] SIM(i, m, j); I[m] 0 In Worten:... (notiert die aktiven Cluster); (Informatik 8) Clustering 23 / 25
24 Clusterähnlichkeit Single link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei ähnlichsten Clusterlemente aus den jeweiligen Clustern (maximale Ähnlichkeit) Complete link die Ähnlichkeit von zwei Clustern ist die Ähnlichkeit der zwei unähnlichsten Clusterlemente aus den jeweiligen Clustern (minimale Ähnlichkeit) Zentroid Ähnlichkeit der Cluster-Zentren (durchschnittliche Ähnlichkeit der Elemente verschiedener Cluster) Gruppendurchschnitt Ähnlichkeit aller Elemente (gleich welcher Cluster) (Informatik 8) Clustering 24 / 25
25 Top-Down Clustering Verwende flaches Cluster-Verfahren als Unterfunktion Bilde K = 2 Cluster Rufe rekursiv auf (Informatik 8) Clustering 25 / 25
Clustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
Clustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
Clusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
Programmierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
LDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
Text-Mining: Clustering
Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010 Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur Cluster-Hypothese Documents
3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
Hidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
Methoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
9 SLAM Simultaneous Localization and Mapping
9 SLAM Simultaneous Localization and Mapping Einleitung eines der aktivsten Forschungsgebiete innerhalb der Robotik Roboterlokalisierung bei gegebener Karte (Kap. 8 und Karte aus Sensordaten bei bekannter
Textmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK
Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung
Statistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
Klassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
Einführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
SBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
Dokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Wichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Einführung in die Computerlinguistik Information Retrieval: tf.idf
Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky
Vorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
Algorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
Information Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)
Numerische Verfahren und Grundlagen der Analysis
Numerische Verfahren und Grundlagen der Analysis Rasa Steuding Hochschule RheinMain Wiesbaden Wintersemester 2011/12 R. Steuding (HS-RM) NumAna Wintersemester 2011/12 1 / 26 1. Folgen R. Steuding (HS-RM)
Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
Grundlagen: Algorithmen und Datenstrukturen
Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Jeremias Weihmann Sommersemester 2014 Übungsblatt 2 28. April 2014 Grundlagen: Algorithmen und
19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
Grundlagen der Theoretischen Informatik
Grundlagen der Theoretischen Informatik 4. Kellerautomaten und kontextfreie Sprachen (II) 11.06.2015 Viorica Sofronie-Stokkermans e-mail: [email protected] 1 Übersicht 1. Motivation 2. Terminologie
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
Lineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
1 Monomiale Ideale und monomiale Moduln
1 Monomiale Ideale und monomiale Moduln 1.1 Definition Sei (Γ, ) ein Monoid. a) Eine nichtleere Teilmenge Γ heißt Monoideal in Γ, wenn Γ gilt. b) Eine Teilmenge B eines Monoideals in Γ heißt Erzeugendensystem
Clustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
Grundlagen: Algorithmen und Datenstrukturen
Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 2011 Übungsblatt 1 16. September 2011 Grundlagen: Algorithmen und
Algorithmische Methoden für schwere Optimierungsprobleme
Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund
Algorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen Lerneinheit : Dynamisches Programmieren Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester.. Einleitung Diese Lerneinheit widmet sich einer
VI.4 Elgamal. - vorgestellt 1985 von Taher Elgamal. - nach RSA das wichtigste Public-Key Verfahren
VI.4 Elgamal - vorgestellt 1985 von Taher Elgamal - nach RSA das wichtigste Public-Key Verfahren - besitzt viele unterschiedliche Varianten, abhängig von zugrunde liegender zyklischer Gruppe - Elgamal
Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
Kryptographische Protokolle
Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit
Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
Informatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 8 (13.5.2016) Hashtabellen I Algorithmen und Komplexität Dictionary mit sortiertem Array Laufzeiten: create: O(1) insert: O(n) find: O(log
3.2. Divide-and-Conquer-Methoden
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE 3.2. Divide-and-Conquer-Methoden Divide-and-Conquer-Methoden Einfache Sortieralgorithmen reduzieren die Größe des noch
Stochastik-Praktikum
Stochastik-Praktikum Zufallszahlen und Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 17. Oktober 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 17. Oktober 2017 1 / 23
Kürzeste und Schnellste Wege
Kürzeste und Schnellste Wege Wie funktionieren Navis? André Nusser (Folien inspiriert von Kurt Mehlhorn) Struktur Straßennetzwerke Naiver Algorithmus Dijkstras Algorithmus Transitknoten Nachbemerkungen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
Mathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
Vortrag 20: Kurze Vektoren in Gittern
Seminar: Wie genau ist ungefähr Vortrag 20: Kurze Vektoren in Gittern Kerstin Bauer Sommerakademie Görlitz, 2007 Definition und Problembeschreibung Definition: Gitter Seien b 1,,b k Q n. Dann heißt die
Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.
2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n
5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
VORLESUNG 12 Lineare Optimierung (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt)
VORLESUNG 12 Lineare Optimierung (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt) 53 Wiederholung! Basis-Startlösung berechnet! Künstliche Variablen! Erkennung von unlösbaren Problemen! Eliminierung
