5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Größe: px
Ab Seite anzeigen:

Download "5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften"

Transkript

1 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene Ansätze von nichtpartitionierenden Verfahren zu kennen und Clusteranlayse mit der Entscheidungsbaumtechnik kombinieren können. Eine Zerlegung einer Datenmenge D = {x 1,..., x n } IR p in seine Clusterstruktur ist definiert als eine Zerlegung von D in k disjunkte Teilmengen D 1,..., D k mit D = D 1... D k D i für i = 1,..., k D i D j = für i, j = 1,..., k, i j Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Bei der Generierung von Entscheidungsbäumen wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie diese charakterisiert werden könnten. Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Die Cluster D i sind genau dann eine gute Repräsentation der Clusterstruktur von D, falls alle Datensätze innerhalb der Cluster einen geringen Abstand und alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. kleiner Abstand bedeutet ähnliche Objekte und großer Abstand bedeutet unähnliche Objekte. Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 170

2 Metrik Definition 5.1. Es sei M eine Menge. Eine Funktion d : M IR heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. d(x, y) 0 für alle x, y M. 2. d(x, y) = 0 genau dann, wenn x = y. 3. d(x, y) = d(y, x) für alle x, y M. 4. d(x, z) d(x, y) + d(y, z) für alle x, y, z M. Das Tupel (M, d) heißt metrischer Raum. Sequentielle agglomerative hierarchische nichtüberlappende Verfahren Sequentielle Verfahren der Clusteranalyse ermitteln die Cluster Schritt für Schritt. Agglomerative Verfahren bauen die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge D als n Cluster. Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup eine Hierarchie von Clustern. Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. Die Vorderung D i D j stellt eine Nichtüberlappung der Cluster dar. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): euklidische Norm: d(x, y) = p i=1 (x i y i ) 2 Anzahl verschiedener Attributwerte: d(x, y) = p i=1 δ(x i, y i ) mit Für Mengen X und Y : δ(x i, y i ) = d(x, Y ) = { 0 falls xi = y i 1 sonst X Y X Y X Y Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) 1. Setze C := {{x 1 },..., {x n }} und k := n. 2. Bestimme C i und C j mit d(c i, C j ) = min 1 r,s k,r s d(c r, C s ) Falls d(c i, C j ) > dmax gehe zu C := (C \ {C i, C j }) (C i C j ) und k := k 1 Falls k = 1 gehe zu 4. Sonst weiter mit Ausgabe von k und C. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 174

3 In dem Algorithmus wird ein Abstandsmaß d(c i, C j ) für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.typischerweise benutzt man: Minimalabstand (Single Linkage): d(c i, C j ) = Maximalabstand (Complete Linkage): d(c i, C j ) = mittlerer Abstand (Average Linkage): min d(x, y) x C i,y C j max d(x, y) x C i,y C j 1 d(c i, C j ) = d(x, y) C i C j x C i,y C j Dendogramm Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man dmax variiert. a c b d e f g e f g a b c d Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Der Parameter dmax legt fest, bis zu welchem Abstand Cluster verschmolzen werden. Schritt 3 bedeutet: Die einzelnen Cluster C i, C j werden aus der Clusterstruktur entfernt und ein neues Cluster mit den Datensätzen aus C i vereinigt mit den Datensätzen aus C j wird in die Clusterstruktur eingefügt. Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. k-means Verfahren Cluster C i können auch durch ihre Zentren v i charakterisiert werden. Die Zuordnung einzelner Datensätze x i zu den k Clustern erfolgt dann mit der Nächste-Nachbar-Regel, d.h. x j gehört zu Cluster C i genau dann, wenn gilt: d(x j, v i ) = min d(x j, v l ) l=1,...,k Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: v i := 1 C i x l C i x l Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 178

4 Bestimmt man die Clusterzentren neu, so ergeben sich möglicherweise andere Cluster, da die Zugehörigkeit eines Datensatzes x j zu einem Cluster C i ja über die Clusterzentren definiert ist. Nach der Veränderung der Clusterzentren muß demnach auch eine neue Aufteilung der Datensätze auf Cluster erfolgen. Dies führt wiederum zu neuen Clusterzentren. k-means Algorithmus: Es werden abwechselnd die Cluster und ihre Zentren bestimmt. Bemerkungen: Die Prototypen in Schritt 1 können z.b. k zufällig ausgewählte Datensätze sein. Alternative Abbruchbedingungen für den Algorithmus: In den Iteration t und t + 1 enthalten die Cluster die gleichen Datensätze. Bestimmung eines Maßes für die Änderung an den Clusterzentren. Abbruch, falls dieses Maß einen kritische Grenze unterschreitet. Die Berechnung des Schwerpunktes ist nur in Vektorräumen möglich. Liegt kein Vektorraum vor, müssen die Prototypen v i auf eine andere Weise ermittelt werden. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Algorithmus 5.2. Gegeben Datenmenge D, eine gewünschte Clusteranzahl k, eine maximale Anzahl von Iterationen tmax. 1. Initialisiere Prototypen v 1,..., v k. 2. Ordne die Datensätze x i gemäß der Nächste-Nachbar-Regel den k Zentren zu. So entstehen neue Cluster C 1,..., C k. Der k-means-algorithmus versucht, Abweichungen von den Schwerpunkten der Cluster klein zu halten. Dies entspricht der Minimierung des folgende Maßes: wc(c) = k i=1 x j C i d(x j, v i ) 2 3. t := t + 1. Falls t = tmax gehe zu 4. Berechne die Zentren v i von C i neu. Dies führt häufig zu kreisförmigen (oder elliptischen) Clustern gleicher Größe. Clusterstrukturen können aber auch irregulär sein. 4. Ausgabe der Clusterstruktur und der Zentren v 1,..., v k. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 182

5 5. Clusteranalyse Hopkins-Index Hopkins-Index 5. Clusteranalyse Hopkins-Index Interpretation des Hopkins-Index Eine Clusteranalyse ist natürlich nur dann sinnvoll, wenn die zu analysierenden Datensätze auch wirklich Häufungen enthalten. Um dies festzustellen, eignet sich der Hopkins-Index h. Zur Bestimmung des Hopkins-Index wählt man: ein m << n, zufällig und gleichverteilt m Punkte R = {r 1,..., r m } aus der konvexen Hülle der Datensätze D sowie m Datensätze S = {s 1,..., s m } D. 1. Für h 0.5 sind die Abstände zwischen den Datensätzen aus D etwa so groß wie die Abstände zwischen beliebigen Punkten innerhalb der konvexen Hülle von D. Dies deutet darauf hin, daß S (bzw. D) eine ähnliche Verteilung hat wie die Menge R. Da R zufällig verteilt ist, ist also auch D zufällig verteilt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Hopkins-Index Es seien nun: d ri := der Abstand von r i zum nächsten Datensatz in D. d si := der Abstand von s i zum nächsten Nachbarn in D. Der Hopkins-Index h ist dann definiert durch h = m i=1 dp r i m i=1 dp r i + m i=1 dp s i Der Hopkins-Index hängt stark von der Wahl von R und S ab. Daher sollte man die Bestimmung des Hopkins-Index mehrmal durchführen und den Mittelwert der einzelnen Werte nehmen. 5. Clusteranalyse Hopkins-Index 2. Für h 0 sind die Abstände zwischen den Daten aus D relativ groß. Dieser Fall kann auftreten, wenn die Datensätze von D regelmäßig in etwa gleichem Abstand in der konvexen Hülle verteilt sind. Kleine Werte des Hopkins-Index deuten also auf eine regelmäßige Struktur von D hin. Der Wertebereich des Hopkins-Index ist h [0, 1]. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 186

6 5. Clusteranalyse Hopkins-Index 3. Für h 1 sind die Abstände zwischen den Datensätzen aus D relativ klein. Dies kann durch Cluster verursacht werden, innerhalb derer die Daten relativ dicht liegen. Aus einem hohen Hopkins-Index kann also geschlossen werden, daß D eine ausgeprägte Clusterstruktur besitzt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 187

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Analyis I -Metrische Räume - eine Einführung in die Topologie

Analyis I -Metrische Räume - eine Einführung in die Topologie Analyis I -Metrische Räume - eine Einführung in die Topologie E = E isolierter Punkte x 1 x 2 x 3 E ist abgeschlossen U ɛ (x) x innerer Punkt Ω Häufungspunkte Ω Metrik Metrische Räume Definition Sei X

Mehr

Reader Teil 5: Clusteranalyse

Reader Teil 5: Clusteranalyse r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte

Mehr

Einführung in die Kodierungstheorie

Einführung in die Kodierungstheorie Anton Malevich Einführung in die Kodierungstheorie Skript zu einer im Februar 2013 gehaltenen Kurzvorlesung Fakultät für Mechanik und Mathematik Belorussische Staatliche Universität Institut für Algebra

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Proseminar: Web-Performance

Proseminar: Web-Performance Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

5.4 Hierarchische Verfahren

5.4 Hierarchische Verfahren Ziel Grundlagen Konstruktion einer Hierarchie von lustern (meist repräsentiert durch ein sog. Dendrogramm), ) so dass immer die luster mit minimaler i Distanz verschmolzen werden Dendrogramm ein Baum,

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

Analysis 2 UE VI) 121, 129, 133, 134, 140, 143

Analysis 2 UE VI) 121, 129, 133, 134, 140, 143 27.04.2009 Analysis 2 UE VI) 2, 29, 33, 34, 40, 43 2) Sei M j = {(x, y) R 2 j x + y < j} (j N)}. Bestimmen Sie das Innere, den Rand und die abgeschlossene Hülle der Menge T (bezüglich der euklidischen

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =. 2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n

Mehr

6. Flüsse und Zuordnungen

6. Flüsse und Zuordnungen 6. Flüsse und Zuordnungen Flußnetzwerke 6. Flüsse und Zuordnungen In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über diese Kante pro Zeiteinheit transportiert

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

Distanzen und Ähnlichkeitsmaÿe

Distanzen und Ähnlichkeitsmaÿe Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14 Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n)

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) ( ( ) n 3 T + T m ) 4 n n 3 c + m 4 n c + n n + C m + cn; dies gilt, falls m 2 n m C m + n 2 (bis auf, ) c m + 3

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

6 Flüsse und Matchings

6 Flüsse und Matchings 6. Flüsse in Netzwerken Flußnetzwerke 6 Flüsse und Matchings In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über diese Kante pro Zeiteinheit transportiert werden

Mehr

Aufgabenstellung Klausur

Aufgabenstellung Klausur Aufgabenstellung Klausur Methoden der Marktforschung 02.03.2004 Der Automobilhersteller People Car möchte nach erfolgreicher Markteinführung des neuen Modells Wolf in Deutschland dieses Modell auch auf

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Übersicht der Vorlesung

Übersicht der Vorlesung Übersicht der Vorlesung 1. Einführung 2. Bildverarbeitung 3. orphologische Operationen 4. Bildsegmentierung 5. erkmale von Objekten 6. Klassifikation 7. Dreidimensionale Bildinterpretation 8. Bewegungsanalyse

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C

Mehr

4. Kreis- und Wegeprobleme

4. Kreis- und Wegeprobleme 4. Kreis- und Wegeprobleme Kapitelübersicht 4. Kreis- und Wegeprobleme Charakterisierung von eulerschen Graphen Bestimmung von eulerschen Wegen und Kreisen Hamiltonsche Graphen Abstände in Graphen Berechnung

Mehr

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: 1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme 12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme (Einfache) Voronoi-Diagramme: Motivation: gegeben: Raum R, darin Menge S von Objekten Frage nach Zerlegung von R in "Einflusszonen"

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

OPT Optimierende Clusteranalyse

OPT Optimierende Clusteranalyse Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:

Mehr

FH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz

FH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz FH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz Aufgabe 1 Die Menge der n-dimensionalen Vektoren IR n wird zu einem metrischen Raum, wenn

Mehr

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum

Mehr

Differentialgeometrie II (Flächentheorie) WS

Differentialgeometrie II (Flächentheorie) WS Differentialgeometrie II (Flächentheorie) WS 2013-2014 Lektion 9 18. Dezember 2013 c Daria Apushkinskaya 2013 () Flächentheorie: Lektion 9 18. Dezember 2013 1 / 17 9. Einführung in der innere Geometrie

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Streaming Data: Das Modell

Streaming Data: Das Modell Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer

Mehr

verschiedenen Recheneinheiten, die miteinander kommunizieren können

verschiedenen Recheneinheiten, die miteinander kommunizieren können Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 293 Lastbalancierung Motivation Ein paralleles System besteht aus verschiedenen Recheneinheiten, die miteinander kommunizieren können Warum parallel

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Statistik und Graphentheorie

Statistik und Graphentheorie Statistik und Graphentheorie Sommersemester 2012 3. Juli 2012 Teil Graphentheorie Name: Matrikelnummer: 1 (12) 2 (12) 3 (12) 4 (12) 5 (12) (60) Aufgabe 1 (12 Punkte) Gegeben sei das folgende Netzwerk:

Mehr

Algorithmische Graphentheorie

Algorithmische Graphentheorie Algorithmische Graphentheorie Vorlesung 7 und 8: Euler- und Hamilton-Graphen Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 17. April 2018 1/96 WIEDERHOLUNG Eulersche

Mehr

Kapitel III Selektieren und Sortieren

Kapitel III Selektieren und Sortieren Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen

Mehr

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}

Mehr

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015 Inhalt Mathematik für Chemiker II Lineare Algebra Vorlesung im Sommersemester 5 Rostock, April Juli 5 Vektoren und Matrizen Abbildungen 3 Gleichungssysteme 4 Eigenwerte 5 Funktionen mehrerer Variabler

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Wintersemester 2012/13 17. Vorlesung Nächstes Paar Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Problem: Gegeben: Menge P von n Punkten in der Ebene, jeder Punkt

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017 08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Aufgabe 1: Berechnen Sie für den in Abbildung 1 gegebenen Graphen den. Abbildung 1: Graph für Flussproblem in Übungsaufgabe 1

Aufgabe 1: Berechnen Sie für den in Abbildung 1 gegebenen Graphen den. Abbildung 1: Graph für Flussproblem in Übungsaufgabe 1 Lösungen zu den Übungsaufgaben im Kapitel 4 des Lehrbuches Operations Research Deterministische Modelle und Methoden von Stephan Dempe und Heiner Schreier Aufgabe 1: Berechnen Sie für den in Abbildung

Mehr