5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
|
|
- Harry Feld
- vor 7 Jahren
- Abrufe
Transkript
1 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene Ansätze von nichtpartitionierenden Verfahren zu kennen und Clusteranlayse mit der Entscheidungsbaumtechnik kombinieren können. Eine Zerlegung einer Datenmenge D = {x 1,..., x n } IR p in seine Clusterstruktur ist definiert als eine Zerlegung von D in k disjunkte Teilmengen D 1,..., D k mit D = D 1... D k D i für i = 1,..., k D i D j = für i, j = 1,..., k, i j Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Bei der Generierung von Entscheidungsbäumen wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie diese charakterisiert werden könnten. Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Die Cluster D i sind genau dann eine gute Repräsentation der Clusterstruktur von D, falls alle Datensätze innerhalb der Cluster einen geringen Abstand und alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. kleiner Abstand bedeutet ähnliche Objekte und großer Abstand bedeutet unähnliche Objekte. Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 170
2 Metrik Definition 5.1. Es sei M eine Menge. Eine Funktion d : M IR heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. d(x, y) 0 für alle x, y M. 2. d(x, y) = 0 genau dann, wenn x = y. 3. d(x, y) = d(y, x) für alle x, y M. 4. d(x, z) d(x, y) + d(y, z) für alle x, y, z M. Das Tupel (M, d) heißt metrischer Raum. Sequentielle agglomerative hierarchische nichtüberlappende Verfahren Sequentielle Verfahren der Clusteranalyse ermitteln die Cluster Schritt für Schritt. Agglomerative Verfahren bauen die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge D als n Cluster. Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup eine Hierarchie von Clustern. Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. Die Vorderung D i D j stellt eine Nichtüberlappung der Cluster dar. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): euklidische Norm: d(x, y) = p i=1 (x i y i ) 2 Anzahl verschiedener Attributwerte: d(x, y) = p i=1 δ(x i, y i ) mit Für Mengen X und Y : δ(x i, y i ) = d(x, Y ) = { 0 falls xi = y i 1 sonst X Y X Y X Y Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) 1. Setze C := {{x 1 },..., {x n }} und k := n. 2. Bestimme C i und C j mit d(c i, C j ) = min 1 r,s k,r s d(c r, C s ) Falls d(c i, C j ) > dmax gehe zu C := (C \ {C i, C j }) (C i C j ) und k := k 1 Falls k = 1 gehe zu 4. Sonst weiter mit Ausgabe von k und C. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 174
3 In dem Algorithmus wird ein Abstandsmaß d(c i, C j ) für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.typischerweise benutzt man: Minimalabstand (Single Linkage): d(c i, C j ) = Maximalabstand (Complete Linkage): d(c i, C j ) = mittlerer Abstand (Average Linkage): min d(x, y) x C i,y C j max d(x, y) x C i,y C j 1 d(c i, C j ) = d(x, y) C i C j x C i,y C j Dendogramm Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man dmax variiert. a c b d e f g e f g a b c d Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Der Parameter dmax legt fest, bis zu welchem Abstand Cluster verschmolzen werden. Schritt 3 bedeutet: Die einzelnen Cluster C i, C j werden aus der Clusterstruktur entfernt und ein neues Cluster mit den Datensätzen aus C i vereinigt mit den Datensätzen aus C j wird in die Clusterstruktur eingefügt. Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. k-means Verfahren Cluster C i können auch durch ihre Zentren v i charakterisiert werden. Die Zuordnung einzelner Datensätze x i zu den k Clustern erfolgt dann mit der Nächste-Nachbar-Regel, d.h. x j gehört zu Cluster C i genau dann, wenn gilt: d(x j, v i ) = min d(x j, v l ) l=1,...,k Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: v i := 1 C i x l C i x l Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 178
4 Bestimmt man die Clusterzentren neu, so ergeben sich möglicherweise andere Cluster, da die Zugehörigkeit eines Datensatzes x j zu einem Cluster C i ja über die Clusterzentren definiert ist. Nach der Veränderung der Clusterzentren muß demnach auch eine neue Aufteilung der Datensätze auf Cluster erfolgen. Dies führt wiederum zu neuen Clusterzentren. k-means Algorithmus: Es werden abwechselnd die Cluster und ihre Zentren bestimmt. Bemerkungen: Die Prototypen in Schritt 1 können z.b. k zufällig ausgewählte Datensätze sein. Alternative Abbruchbedingungen für den Algorithmus: In den Iteration t und t + 1 enthalten die Cluster die gleichen Datensätze. Bestimmung eines Maßes für die Änderung an den Clusterzentren. Abbruch, falls dieses Maß einen kritische Grenze unterschreitet. Die Berechnung des Schwerpunktes ist nur in Vektorräumen möglich. Liegt kein Vektorraum vor, müssen die Prototypen v i auf eine andere Weise ermittelt werden. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Algorithmus 5.2. Gegeben Datenmenge D, eine gewünschte Clusteranzahl k, eine maximale Anzahl von Iterationen tmax. 1. Initialisiere Prototypen v 1,..., v k. 2. Ordne die Datensätze x i gemäß der Nächste-Nachbar-Regel den k Zentren zu. So entstehen neue Cluster C 1,..., C k. Der k-means-algorithmus versucht, Abweichungen von den Schwerpunkten der Cluster klein zu halten. Dies entspricht der Minimierung des folgende Maßes: wc(c) = k i=1 x j C i d(x j, v i ) 2 3. t := t + 1. Falls t = tmax gehe zu 4. Berechne die Zentren v i von C i neu. Dies führt häufig zu kreisförmigen (oder elliptischen) Clustern gleicher Größe. Clusterstrukturen können aber auch irregulär sein. 4. Ausgabe der Clusterstruktur und der Zentren v 1,..., v k. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 182
5 5. Clusteranalyse Hopkins-Index Hopkins-Index 5. Clusteranalyse Hopkins-Index Interpretation des Hopkins-Index Eine Clusteranalyse ist natürlich nur dann sinnvoll, wenn die zu analysierenden Datensätze auch wirklich Häufungen enthalten. Um dies festzustellen, eignet sich der Hopkins-Index h. Zur Bestimmung des Hopkins-Index wählt man: ein m << n, zufällig und gleichverteilt m Punkte R = {r 1,..., r m } aus der konvexen Hülle der Datensätze D sowie m Datensätze S = {s 1,..., s m } D. 1. Für h 0.5 sind die Abstände zwischen den Datensätzen aus D etwa so groß wie die Abstände zwischen beliebigen Punkten innerhalb der konvexen Hülle von D. Dies deutet darauf hin, daß S (bzw. D) eine ähnliche Verteilung hat wie die Menge R. Da R zufällig verteilt ist, ist also auch D zufällig verteilt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Hopkins-Index Es seien nun: d ri := der Abstand von r i zum nächsten Datensatz in D. d si := der Abstand von s i zum nächsten Nachbarn in D. Der Hopkins-Index h ist dann definiert durch h = m i=1 dp r i m i=1 dp r i + m i=1 dp s i Der Hopkins-Index hängt stark von der Wahl von R und S ab. Daher sollte man die Bestimmung des Hopkins-Index mehrmal durchführen und den Mittelwert der einzelnen Werte nehmen. 5. Clusteranalyse Hopkins-Index 2. Für h 0 sind die Abstände zwischen den Daten aus D relativ groß. Dieser Fall kann auftreten, wenn die Datensätze von D regelmäßig in etwa gleichem Abstand in der konvexen Hülle verteilt sind. Kleine Werte des Hopkins-Index deuten also auf eine regelmäßige Struktur von D hin. Der Wertebereich des Hopkins-Index ist h [0, 1]. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 186
6 5. Clusteranalyse Hopkins-Index 3. Für h 1 sind die Abstände zwischen den Datensätzen aus D relativ klein. Dies kann durch Cluster verursacht werden, innerhalb derer die Daten relativ dicht liegen. Aus einem hohen Hopkins-Index kann also geschlossen werden, daß D eine ausgeprägte Clusterstruktur besitzt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 187
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
Mehr5. Bäume und Minimalgerüste
5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrErich Schubert, Arthur Zimek KDD Übung
Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrClustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003
Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrAnalyis I -Metrische Räume - eine Einführung in die Topologie
Analyis I -Metrische Räume - eine Einführung in die Topologie E = E isolierter Punkte x 1 x 2 x 3 E ist abgeschlossen U ɛ (x) x innerer Punkt Ω Häufungspunkte Ω Metrik Metrische Räume Definition Sei X
MehrReader Teil 5: Clusteranalyse
r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.
MehrMethoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
MehrClusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI
Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte
MehrEinführung in die Kodierungstheorie
Anton Malevich Einführung in die Kodierungstheorie Skript zu einer im Februar 2013 gehaltenen Kurzvorlesung Fakultät für Mechanik und Mathematik Belorussische Staatliche Universität Institut für Algebra
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrErweitertes boolsches Retrieval
Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrProseminar: Web-Performance
Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können
MehrClustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
Mehr5.4 Hierarchische Verfahren
Ziel Grundlagen Konstruktion einer Hierarchie von lustern (meist repräsentiert durch ein sog. Dendrogramm), ) so dass immer die luster mit minimaler i Distanz verschmolzen werden Dendrogramm ein Baum,
Mehr1 Einleitung. 2 Clustering
Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick
MehrAnalysis 2 UE VI) 121, 129, 133, 134, 140, 143
27.04.2009 Analysis 2 UE VI) 2, 29, 33, 34, 40, 43 2) Sei M j = {(x, y) R 2 j x + y < j} (j N)}. Bestimmen Sie das Innere, den Rand und die abgeschlossene Hülle der Menge T (bezüglich der euklidischen
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
MehrAnwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrDefinition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.
2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n
Mehr6. Flüsse und Zuordnungen
6. Flüsse und Zuordnungen Flußnetzwerke 6. Flüsse und Zuordnungen In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über diese Kante pro Zeiteinheit transportiert
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrZiel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.
8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft
MehrDistanzen und Ähnlichkeitsmaÿe
Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14 Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrBeweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n)
Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n) ( ( ) n 3 T + T m ) 4 n n 3 c + m 4 n c + n n + C m + cn; dies gilt, falls m 2 n m C m + n 2 (bis auf, ) c m + 3
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
Mehr6 Flüsse und Matchings
6. Flüsse in Netzwerken Flußnetzwerke 6 Flüsse und Matchings In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über diese Kante pro Zeiteinheit transportiert werden
MehrAufgabenstellung Klausur
Aufgabenstellung Klausur Methoden der Marktforschung 02.03.2004 Der Automobilhersteller People Car möchte nach erfolgreicher Markteinführung des neuen Modells Wolf in Deutschland dieses Modell auch auf
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrÜbersicht der Vorlesung
Übersicht der Vorlesung 1. Einführung 2. Bildverarbeitung 3. orphologische Operationen 4. Bildsegmentierung 5. erkmale von Objekten 6. Klassifikation 7. Dreidimensionale Bildinterpretation 8. Bewegungsanalyse
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung
Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites
MehrClustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang
Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C
Mehr4. Kreis- und Wegeprobleme
4. Kreis- und Wegeprobleme Kapitelübersicht 4. Kreis- und Wegeprobleme Charakterisierung von eulerschen Graphen Bestimmung von eulerschen Wegen und Kreisen Hamiltonsche Graphen Abstände in Graphen Berechnung
Mehra) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:
1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem
MehrClusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
Mehr12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme
12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme (Einfache) Voronoi-Diagramme: Motivation: gegeben: Raum R, darin Menge S von Objekten Frage nach Zerlegung von R in "Einflusszonen"
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
Mehr5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
Mehri =1 i =2 i =3 x i y i 4 0 1
Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x
MehrDatenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
MehrOPT Optimierende Clusteranalyse
Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:
MehrFH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz
FH Gießen-Friedberg, FB 06 (MNI) Lösungen zu Übungsblatt 5 Lineare Algebra 21. November 2008 Prof. Dr. H.-R. Metz Aufgabe 1 Die Menge der n-dimensionalen Vektoren IR n wird zu einem metrischen Raum, wenn
MehrUNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand
Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum
MehrDifferentialgeometrie II (Flächentheorie) WS
Differentialgeometrie II (Flächentheorie) WS 2013-2014 Lektion 9 18. Dezember 2013 c Daria Apushkinskaya 2013 () Flächentheorie: Lektion 9 18. Dezember 2013 1 / 17 9. Einführung in der innere Geometrie
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
Mehrverschiedenen Recheneinheiten, die miteinander kommunizieren können
Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 293 Lastbalancierung Motivation Ein paralleles System besteht aus verschiedenen Recheneinheiten, die miteinander kommunizieren können Warum parallel
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
MehrMaschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity
MehrStatistik und Graphentheorie
Statistik und Graphentheorie Sommersemester 2012 3. Juli 2012 Teil Graphentheorie Name: Matrikelnummer: 1 (12) 2 (12) 3 (12) 4 (12) 5 (12) (60) Aufgabe 1 (12 Punkte) Gegeben sei das folgende Netzwerk:
MehrAlgorithmische Graphentheorie
Algorithmische Graphentheorie Vorlesung 7 und 8: Euler- und Hamilton-Graphen Babeş-Bolyai Universität, Department für Informatik, Cluj-Napoca csacarea@cs.ubbcluj.ro 17. April 2018 1/96 WIEDERHOLUNG Eulersche
MehrKapitel III Selektieren und Sortieren
Kapitel III Selektieren und Sortieren 1. Einleitung Gegeben: Menge S von n Elementen aus einem total geordneten Universum U, i N, 1 i n. Gesucht: i-kleinstes Element in S. Die Fälle i = 1 bzw. i = n entsprechen
Mehr4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140
4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}
MehrInhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015
Inhalt Mathematik für Chemiker II Lineare Algebra Vorlesung im Sommersemester 5 Rostock, April Juli 5 Vektoren und Matrizen Abbildungen 3 Gleichungssysteme 4 Eigenwerte 5 Funktionen mehrerer Variabler
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Wintersemester 2012/13 17. Vorlesung Nächstes Paar Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Problem: Gegeben: Menge P von n Punkten in der Ebene, jeder Punkt
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrEFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017
08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter
MehrMaschinelles Lernen und Data Mining
Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:
MehrAufgabe 1: Berechnen Sie für den in Abbildung 1 gegebenen Graphen den. Abbildung 1: Graph für Flussproblem in Übungsaufgabe 1
Lösungen zu den Übungsaufgaben im Kapitel 4 des Lehrbuches Operations Research Deterministische Modelle und Methoden von Stephan Dempe und Heiner Schreier Aufgabe 1: Berechnen Sie für den in Abbildung
Mehr