Clustern: Voraussetzungen

Ähnliche Dokumente
Text Mining. Peter Kolb

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Clustering von Dokumenten (k-means, HCL)

Data Mining und Knowledge Discovery in Databases

Clustering Seminar für Statistik

Seminar zum Thema Künstliche Intelligenz:

4 Greedy-Algorithmen (gierige Algorithmen)

Einführung in das Data Mining Clustering / Clusteranalyse

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

Anfrage Erweiterung Jan Schrader

Einführung in die Programmierung Laborübung bei Korcan Y. Kirkici. 12.Übung bis

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den

Data Mining - Clustering. Sven Elvers

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

1 Hochverfügbarkeit. 1.1 Einführung. 1.2 Network Load Balancing (NLB) Quelle: Microsoft. Hochverfügbarkeit

Seminar Komplexe Objekte in Datenbanken

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Eine vorprozessierte Variante von Scatter/Gather

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Nexis Analyser. Die ersten Schritte. Analyse durchführen. Anmeldung:

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

13. Binäre Suchbäume

Data Mining-Modelle und -Algorithmen

Kurs 1613 Einführung in die imperative Programmierung

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg

FACHARBEIT. Grundlagen der Gestaltung von Facharbeiten. Fach: Schule: Schüler: Fachlehrer: Jahrgangsstufe 12 Schuljahr:

Programmierkurs: Delphi: Einstieg

5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)

2015 conject all rights reserved

Schritt für Schritt Anleitung zum Erstellen einer Android-App zum Ein- und Ausschalten einer LED

Zitieren mit Write-N-Cite 4 (Anleitung für Windows)

Beheben von verlorenen Verknüpfungen

Datenstruktur, die viele Operationen dynamischer Mengen unterstützt

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Informatik II Greedy-Algorithmen

VBA-Programmierung: Zusammenfassung


6 Produktqualität Systeme: Integrationstest [sehr stark gekürzt]

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

PND Tool Quellcodegenerierung

Sortieralgorithmen. Inhalt: InsertionSort BubbleSort QuickSort. Marco Block

Exploration und Klassifikation von BigData

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

HEUTE. Datenstrukturen im Computer. Datenstrukturen. Rekursion. Feedback Evaluation. abstrakte Datenstrukturen

Programmierung 2. Dynamische Programmierung. Sebastian Hack. Klaas Boesche. Sommersemester

Suchen und Sortieren Sortieren. Heaps

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Kompakte Graphmodelle handgezeichneter Bilder

Innovator 11 classix. Java Reverse Engineering. HowTo. Ralph Schönleber.

Large-Scale Image Search

Modbus-Master-Treiber

Importieren und Exportieren von Inhalt

Monte Carlo Methoden

Cliquen in Graphen Mathematische Grundlagen und der Bron-Kerbosch-Algorithmus. Karin Haenelt

datenfabrik.phone Telefonnummern mit den SQL Server Integration Services validieren

Das Briefträgerproblem

Erweiterung für Premium Auszeichnung

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Das Studiengangsinformationssystem (SGIS)

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Künstliche Intelligenz Maschinelles Lernen

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

"Alles, was einen Wert zurueckliefert, ist ein Ausdruck." Konstanten, Variablen, "Formeln" oder auch Methoden koennen Werte zurueckgeben.

Aufgabenstellung und Zielsetzung

8 Diskrete Optimierung

Datenstrukturen und Algorithmen

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

Anmerkungen zur Übergangsprüfung

Theoretische Grundlagen der Informatik

Alerts für Microsoft CRM 4.0

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

NOTENVERWALTUNG UND VIELES MEHR INHALT

Algorithmen II Vorlesung am

EndNote Web. Quick Reference Card THOMSON SCIENTIFIC

Imagic IMS Client und Office 2007-Zusammenarbeit

Anleitung zum Erstellen von Moodle-Quizfragen in Word

Praktikum Software Engineering

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

Flexibilität im Prozess mit Oracle Business Rules 11g

Tutorial: Fotobuch gestalten und für die Ausgabe vorbereiten

Faktura. IT.S FAIR Faktura. Handbuch. Dauner Str.12, D Mönchengladbach, Hotline: 0900/ (1,30 /Min)

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

2. Lernen von Entscheidungsbäumen

Kapiteltests zum Leitprogramm Binäre Suchbäume

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

T5 Die Einsatzplanung inkl. Urlaub und Feiertagen

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Programmieren für mobile Endgeräte SS 2013/2014. Dozenten: Patrick Förster, Michael Hasseler

Wie Google Webseiten bewertet. François Bry

Heuristische Suche. Auswahl initialer Lösung. Auswahl nächster Lösung (basierend auf voriger) Such-Strategie. Qualitätsbetrachtung

S=[n] Menge von Veranstaltungen J S kompatibel mit maximaler Größe J

Konfiguration einer Sparkassen-Chipkarte in StarMoney

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Gibt es verschiedene Arten unendlich? Dieter Wolke

Transkript:

Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung unüberwacht, d.h. anfangs keine Kategorien vorhanden Kategorienbildung

Clustern von Dokumenten Wörtern semantische (distributionelle) Ähnlichkeit syntaktische Ähnlichkeit (Wortarten, z.b. [1]) graphematische Ähnlichkeit Phoneme Morpheme Sätze...

Clustern im IR Dokumente explorative Datenanalyse (Text Mining) (semi-)automatisch Kategorienmodell erzeugen Terme Thesaurusgenerierung Suchergebnisse nur Ergebnisliste (cutoff) statt n Dokumente Ergebnisdarstellung www.clusty.com Relevance Feedback: nur Terme aus ausgew. großen Clustern hinzufügen

Clustern: Voraussetzungen Menge von Elementen Ähnlichkeitsmaß zwischen allen Elementen Vektorähnlichkeit (Kosinus) bei Dokumenten distributionelle Ähnlichkeit bei Phonemen, Morphemen, Wörtern Schwellwert für Ähnlichkeit

Dokumente clustern

Dokumente clustern

Dokumente clustern

Dokumente clustern

Dokumente clustern

Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) partitionierend (top-down)

Clusteringmethoden Nicht-hierarchisch (flach) erzeugend Clique Single Link Star String aktualisierend k-means (Reallocation) EM One Pass Hierarchisch agglomerativ (bottom-up) partitionierend (top-down)

Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) Single Link Complete Linkage Group Average partitionierend (top-down) Wards Methode

Clusteringmethoden Hard Clustering jedes Element in genau einem Cluster keine überlappenden Cluster Soft Clustering Elemente können in mehreren Clustern sein Grade der Clusterzugehörigkeit überlappende Cluster

Dokumente clustern Voraussetzungen: Menge von n Dokumenten bzw. Dokumentvektoren Ähnlichkeit zwischen allen n Dokumentvektoren n x n Ähnlichkeitsmatrix hoher Rechenaufwand O(n²) gekürzte Dokumentvektoren Ähnlichkeitsschwellwert Relationsmatrix: ähnliche Dokumente = 1, unähnliche = 0 speichern als Adjazenzstruktur n(n-1)/2 Elemente

Ähnlichkeitsmatrix

Relationsmatrix

Nicht-hierarchische Methoden erzeugen neue Cluster Vorteil: Anzahl Cluster muss nicht vorher angegeben werden Laufzeit mindestens O(n²) auf Basis vorhandener Cluster vorhandene Cluster werden aktualisiert Anzahl Cluster muss vorher angegeben werden Laufzeit linear O(n)

Nicht-hierarchische Methoden zum Erzeugen neuer Cluster: Clique Single Link Star String

Clique Jedes Element jedem anderen Element im Cluster ähnlich Ein Element kann in mehrere Cluster gruppiert werden erzeugt viele kleine Cluster aus untereinander ähnlichen Elementen Cluster enthält nur Prototypen Laufzeit O(n³)

Clique-Algorithmus for i = 1 to n do d i in neues Cluster for r = i+1 to n do for k = r to n do if d k zu allen d im akt. Cluster ähnlich then füge d k zu akt. Cluster hinzu lege neues Cluster mit d i an if akt. Cluster enthält nur d i und d i bereits in anderen Clustern then lösche Cluster eliminiere doppelte Cluster oder Untermengen

Clique-Cluster

Single Link neues Element wird Cluster hinzugefügt, wenn es irgendeinem Element im Cluster ähnlich ist findet verbundene Komponenten (connected components) keine überlappenden Cluster erzeugt niedrige Anzahl großer Cluster zwei Elemente im gleichen Cluster müssen sich nicht unbedingt ähnlich sein alle Elemente fungieren als Prototypen Laufzeit O(n²)

Single Link-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu irgendeinem d im Cluster then füge d k zu Cluster hinzu bilde neues Cluster mit d i, falls noch in keinem Cluster

Single Link-Cluster

Star neues Element wird ins Cluster aufgenommen, wenn es dem ersten Element im Cluster ähnlich ist bildet überlappende Cluster Clusteranzahl u. -Größe zwischen Clique und Single Link erstes Clusterelement fungiert als Prototyp

Star-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu d i then füge d k zu Cluster hinzu bilde neues Cluster mit d i, falls noch in keinem Cluster

Star-Cluster

String neues Element muss dem zuletzt hinzugefügten Element ähnlich sein Elemente kettenweise zu Clustern verbinden Ketten sind zyklenfreie Pfade durch Relationsgraphen keine überlappenden Cluster Cluster hängen von der Reihenfolge ab Cluster enthalten nur Prototypen

String-Algorithmus for i = 1 to n do platziere d i in neues Cluster for r = i+1 to n do for k = r to n do if d k ähnlich zu d i und d k noch in keinem Cluster then füge d k zu Cluster hinzu d r = d k bilde neues Cluster mit d i, falls noch in keinem Cluster

String-Cluster

Nicht-hierarchische erzeugende Methoden: Vergleich Clique erzeugt homogenste kleinste Cluster in hoher Zahl Single Link erzeugt wenige große Cluster mit schwacher Ähnlichkeit Star und String liegen zwischen den beiden Extremen überlappende Cluster: Clique, Star disjunkte Cluster: Single Link, String

Nicht-hierarchische Methoden auf Basis vorhandener Cluster k-means (Reallocation) One Pass kommen aus ohne vorausberechnete Ähnlichkeitsmatrix Einsatz von Zentroiden geringerer Rechenaufwand Laufzeit O(n) anfängliche Clusterung vorgegeben iterative Revision der Zuordung Dokumente zu Cluster

k-means Anzahl der Cluster am Anfang festgelegt werden zufällig erzeugt alle Elemente werden einem Cluster zugeordnet keine Überlappung Einsatz von Zentroiden

k-means-algorithmus zufällige Cluster erzeugen wiederholen bis Cluster stabil: Zentroide der Cluster berechnen Ähnlichkeit Dokumente Zentroide berechnen Dokumente den Clustern mit ähnlichsten Zentroiden zuweisen

One-Pass-Assignment schnellste Laufzeit: O(n) alle Dokumente werden in einem Durchlauf zugeordnet eignet sich auch für sehr große Dokumentensammlungen es werden aber keine optimalen Cluster gefunden nicht alle Elemente im Cluster sind sich gegenseitig ähnlich Clustering hängt von der Reihenfolge ab

One-Pass-Algorithmus Erstes Dokument ins erste Cluster platzieren Wiederholen bis alle Doks zugewiesen: Zentroid des neuen Clusters berechnen Ähnlichkeit des nächsten Terms mit allen Zentroiden berechnen wenn Ähnlichkeit Dokument-Zentroid über Schwellwert: Dokument ins ähnlichste Cluster sonst Dokument in neues Cluster

Clusteringmethoden Nicht-hierarchisch (flach) erzeugend aktualisierend Hierarchisch agglomerativ (bottom-up) Single Link Complete Linkage Group Average partitionierend (top-down) Wards Methode

Hierarchisches Clustering partitionierend: Wards Methode: Kleinste-Quadrate-Methode in der Praxis schlechte Ergebnisse [4] wird kaum angewandt

Hierarchisches Clustering agglomerativ geringerer Rechenaufwand: mit jeder Bildung eines neuen Clusters wird Zahl der Vergleiche eingeschränkt Laufzeit O(n²) erzeugt baumartige Hierarchien

Hierarchisches agglomeratives Clustering allgemeiner Algorithmus: wiederhole bis nur noch ein Cluster übrig: finde zwei Cluster mit größter Ähnlichkeit vereine beide Cluster Ähnlichkeit zwischen neuem Cluster und übrigen Clustern neu berechnen

Hierarchisches agglomeratives Clustering Ähnlichkeit zwischen zwei Clustern: Single Link: Ähnlichkeit ist maximale Ähnl. zwischen zwei beliebigen Doks aus den Clustern Verbindung durch die beiden ähnlichsten Elemente zweier Cluster Complete Linkage: Ähnlichkeit ist minimale Ähnl. zwischen zwei beliebigen Doks aus den Clustern Group Average: Durchschnittsähnlichkeit aller Doks im Cluster

Vergleich hierarchischagglomerativer Methoden Single Link große Cluster schwach ähnliche Elemente nicht alle Elemente sind sich ähnlich bildet auch langgestreckte Cluster Complete Linkage kleine Cluster sehr ähnliche Elemente Group Average wie Complete Linkage

Dendrogramm

Literaturangaben [1] R. Rapp (1996): Die Berechnung von Assoziationen: Ein korpuslinguistischer Ansatz. Olms Verlag. [2] G. Kowalski (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers. [3] K. Haenelt: Kursfolien: http://kontext.fraunhofer.de/haenelt/kursfolien.html#ircluster [4] A. Hotho, A. Nürnberger, G. Paass (2005): A brief survey of text mining. In LDV-Forum, 20(1).