Text-Mining: Clustering
|
|
|
- Krista Kopp
- vor 7 Jahren
- Abrufe
Transkript
1 Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010
2 Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur
3 Cluster-Hypothese Documents in the same cluster behave similarly with respect to relevance to information needs. [Manning et al., 2008, S. 322] Hypothese ist auch Grundlage der meisten Anwendungen im TM (direkt oder indirekt)
4 Anwendungen Clustering von Suchergebnissen (z.b. clusty.com) Clustering ganzer Sammlungen für Navigation (z.b. news.google.de) Explorative Suche als Alternative zu Keywords Verbesserung der Suche: nur in Clustern ähnlich zur Anfrage suchen
5 Clustering: Definitionen Unterscheidung nach: Hartes vs. weiches Clustering Exhaustiv vs. nicht-exhaustiv Clustering vs. Klassifikation Parameter, die das Clustering beeinflussen: Kardinalität: Anzahl resultierender Cluster Ähnlichkeitsmaß Repräsentation der Dokumente
6 Clustering-Ansätze Flache Algorithmen Beginnen i.d.r. mit zufälliger Einteilung der Dokumente Anschließend iterative Neudefinition der Cluster Wichtigster Algorithmus: K-Means Hierarchische Algorithmen Erzeugen hierarchische Strukturen Bottom-up: Mergen ( agglomerativ ) Top-down: Teilen ( divisiv )
7 Evaluation Interne Kriterien: Evaluation hinsichtlich Kohärenz Intra- bzw. intercluster -Ähnlichkeit Externe Kriterien: Purity Rand Index F-Measure Normalized Mutual Information Evaluation im Kontext von Anwendungen, z.b. durch replizieren eines Gold-Standards
8 Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3)
9 Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt
10 Beispiel: Purity Abbildung: [Manning et al., 2008, S. 329] Mehrheiten je Cluster: (5, 4, 3) 17 Elemente insgesamt Purity: (1/17)x( ) 0, 71
11 RI, F-Measure, NMI Rand Index (RI), F-measure Bewertung der Summe aller Cluster-Entscheidungen RI = Anteil korrekter Entscheidungen (TP+TN) Genauigkeit Flexibler: F-Measure - Gewichtung von precision und recall Normalized mutual information (NMI) Informationsgehalt bezügl. Klasseneinteilung Maximale MI für einelementige Cluster Deshalb: Normalisierung anhand der Entropie von Clustern und Klassen
12 Charakteristika und Ziele flacher Algorithmen Einteilung von N Dokumenten in eine Menge von K Clustern Gegeben: N, K Gesucht: Einteilung, die das gewählte Einteilungskriterium optimiert Clustering ist im Kern ein Suchproblem Effektive Heuristik: Der K-means-Algorithmus
13 K-means
14 K-means Kriterium für Zuweisung zu einem Cluster ω: Minimierung der durchschnittlichen quadrierten eukl. Distanz zwischen dem Schwerpunkt µ und allen Dokumenten in ω Definition des Schwerpunkts: µ(ω) = 1 ω x x ω Minimale Distanz wird iterativ ermittelt: Neuzuweisung zu nächstliegendem Schwerpunkt Neuberechnung des Schwerpunkts: Durchschnitt der neu zugewiesenen Vektoren
15 Initialisierung: Seed Selection Zufällige Auswahl des Seed nur einer von vielen Wegen zur Initialisierung von K-means Nicht allzu robust: Führt leicht zu suboptimalem Clustering Besser: Seed heuristisch ermitteln Teilmenge ermitteln, die den Dokumentenraum gut abdeckt (z.b. mittels hierarchischem Clustering, s.u.) Ausreißer filtern Test-Clustern : i versch. Mengen von Seeds, jew. K-Means-Clustering durchführen, Clustering mit min. durchschnittl. Distanz wählen
16 K-Means: Kardinalität K kann von externen Faktoren abhängen (z.b. Platzbeschränkung bei Visualisierung) Sonst: Ermitteln der Clusterzahl als Teil des Problems Ansätze: Auf gut Glück Strafe für jedes Cluster Abwägen zwischen Strafen und durchschnittlicher Distanz vom Schwerpunkt Wähle K mit bester Bilanz
17 Hierarchisches Clustering Ziel: Struktur des Datensets, Taxonomien Bisher: Ähnlichkeit zwischen Dokumenten Jetzt: Ähnlichkeit zwischen Clustern Ähnlichkeitsmaß unterscheidet die versch. Algorithmen Strategien: top-down vs. bottom-up
18 Strategien für hierarchisches Clustering Top-down-Ansatz: Alle Dokumente bilden ein Cluster Iterativ aufspalten Flaches Clustering als Subroutine Divisives hierarchisches Clustering (z.b. Bisecting K-Means) Bottom-up-Ansatz: Zunächst ein eigenes Cluster je Dokument Iterativ die zwei ähnlichsten mergen... bis nur noch K Cluster übrig sind Merge-Verlauf bildet Binärbaum / Dendogramm Hierarchisch Agglomeratives Clustering (HAC)
19 Dendogramm
20 Dendogramm: Interpretation Merge-Verlauf von unten nach oben ablesbar Horizontale Linie jedes Merge gibt Ähnlichkeit an Schnitt ergibt flaches Clustering Kriterium z.b. nach Grad der Ähnlichkeit (im Bsp. bei 0.1 und 0.4)
21 Typen von HAC
22 Single-Link vs. Complete-Link Abbildung: [Manning et al., 2008, S. 351]
23 Single-Link vs. Complete-Link
24 Fallstricke Abbildung: [Manning et al., 2008, S. 352f] Chaining (single-link) vs. Outliers (complete-link)
25 Bisecting K-means Top-down: Zunächst nur ein Cluster Aufteilen mit K-means Aus entstandenen Clustern eines wählen (z.b. größtes), Teilung wiederholen, bis gewünschte Kardinalität erreicht Beispielanwendung: 2-Means-Clustering für ein Korpus mit Dokumenten in zwei versch. Sprachen Ist keine vollständige Hierarchie nötig, sind Top-down-Ansätze deutlich effizienter als HAC
26 Flaches vs. hierarchisches Clustering Flache Ansätze für effizientes Clustering (inkl. Bisecting K-Means) HAC für Hierarchien HAC, wenn K vorab nicht ermittelt werden kann (funktioniert auch mit unbekanntem K)
27 Welche Labels? Wesentliche Teilaufgabe im Clustering: Sprechende Labels zur Beschreibung der Cluster Beispiel: Clustering des Suchergebnisses für jaguar : Tier Auto Mac OS Vorschläge?
28 Labeling Discriminative labeling Vergleiche Cluster ω mit allen anderen Clustern Finde Terme, die ω von anderen Clustern unterscheiden Identifikation mittels mutual information, χ 2 oder Frequenz (vgl. Merkmalsauswahl bei Textklassifikation) Non-discriminative labeling Termauswahl ausschließlich anhand von Clusterinternen Informationen = Terme mit hohem Gewicht im Schwerpunkt Problem: z.t. werden höherfrequente Terme ausgewählt, die nicht zur Unterscheidung beitragen Titel als Label Z.B. Titel von 2-3 Dokumenten, die am nächsten zum Clusterschwerpunkt liegen
29 Beispiel labeling method # docs centroid mutual information title oil plant mexico production crude barrels crude bpd plant oil production MEXICO: power000refinerygas mexico dolly capacitypetroleum bpd police security russian police killed milita people military pery security peace told ace killed told groznycourt troops forcesrebels people tonnes traders futures wheat delivery traders futures tonne tonnes desk prices cents september wheat prices tonne Labels für drei (von 10) Clustern eines k-means-clusterings der ersten Dokumente des Reuters-RCV1 Quelle: Hurricane Dolly heads for Mexico coast RUSSIA: Russia s Lebed meets rebel chief in Chechnya USA: Export Business - Grain/oilseeds complex
30 Brückner, T. (2004). Textklassifikation. In Klabunde, R., editor, Computerlinguistik und Sprachtechnologie, pages Elsevier, Heidelberg. Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Clustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Textmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
Text-Mining: Datenaufbereitung und -repräsentation
Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert
4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
Kapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
Entscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
Information-Retrieval: Evaluation
Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
Information-Retrieval: Unscharfe Suche
Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell
Clustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
Dokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Ähnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
Text-Mining: Einführung
Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
Business Intelligence & Machine Learning
AUSFÜLLHILFE: BEWEGEN SIE DEN MAUSZEIGER ÜBER DIE ÜBERSCHRIFTEN. AUSFÜHRLICHE HINWEISE: LEITFADEN MODULBESCHREIBUNG Business Intelligence & Machine Learning Kennnummer Workload Credits/LP Studiensemester
Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER [email protected] -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
(Bamberg)
Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags
Clusteranalyse für Netzwerke
Alexandra Rebecca Klages Clusteranalyse für Netzwerke PETER LANG Internationaler Verlag der Wissenschaften Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen 7 2.1 Netzwerktheorie 7 2.1.1 Definitionen 7 2.1.2
HS Information Retrieval
HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:
Häufige Mengen. ! Grundalgorithmen. ! Verbesserungen. ! Apriori! FP Growth
Häufige Mengen! Grundalgorithmen! Apriori! FP Growth! Verbesserungen! Kondensierte Repräsentationen! Pushing Constraints into the algorithm! Bessere Signifikanztests 1 Häufige Mengen! Erweiterungen zur
Unüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
Programmierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
OPT Optimierende Clusteranalyse
Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:
Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
Strukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
Textmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
LDA-based Document Model for Adhoc-Retrieval
Martin Luther Universität Halle-Wittenberg 30. März 2007 Inhaltsverzeichnis 1 2 plsi Clusterbasiertes Retrieval 3 Latent Dirichlet Allocation LDA-basiertes Retrieval Komplexität 4 Feineinstellung Parameter
Clustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
Anwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
Volltextsuche und Text Mining
Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval
... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Text Clustern Teile nicht kategorisierte Beispiele in disjunkte Unengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
Methoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig
3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können
Erweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik
Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung
Inhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06
Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen
Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?
Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte
Methoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
Data Mining mit RapidMiner. Fakultät Informatik Lehrstuhl für Künstliche Intelligenz
Data Mining mit RapidMiner Fakultät Informatik Motivation CRISP: DM-Prozess besteht aus unterschiedlichen Teilaufgaben Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess Systematische Evaluationen
Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
Evaluation von IR-Systemen
Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen
Information Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen
Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar
Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme
Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert
Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
SBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
Data Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Implementierung eines Vektormodells
Implementierung eines Vektormodells Hauptseminar Information Retrieval WS 2013/14 Dr. Karin Haenelt Amol Phadke, Mirjam Eppinger Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 03.02.2014
Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
Maschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
Dynamische Programmierung
Dynamische Programmierung Claudia Gerhold 9.5.6 Claudia Gerhold Dynamische Programmierung 9.5.6 / 4 Agenda Einführung Dynamische Programmierung Top-Down Ansatz mit Memoization Bottom-Up Ansatz 3 Anwendungsbeispiele
Feature Selection / Preprocessing
1 Feature Selection / Preprocessing 2 Was ist Feature Selection? 3 Warum Feature Selection? Mehr Variablen führen nicht automatisch zu besseren Ergebnissen. Lernen von unwichtigen Daten Mehr Daten notwendig
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang
Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C
Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11
Bildverarbeitung: RANSAC D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11 Beispielaufgaben Man suche eine Gerade ax + by = 1 d.h. die unbekannten Parameter a und b anhand einer Lernstichprobe der Punkte
Exploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte
Konvexe Hülle. Konvexe Hülle. Mathematik. Konvexe Hülle: Definition. Mathematik. Konvexe Hülle: Eigenschaften. AK der Algorithmik 5, SS 2005 Hu Bin
Konvexe Hülle Konvexe Hülle AK der Algorithmik 5, SS 2005 Hu Bin Anwendung: Computergraphik Boundary Kalkulationen Geometrische Optimierungsaufgaben Konvexe Hülle: Definition Mathematik Konvex: Linie zwischen
Information Retrieval. Domenico Strigari Dominik Wißkirchen
Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies
