Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
|
|
- Dieter Koenig
- vor 5 Jahren
- Abrufe
Transkript
1 Florian Löwenstein 1
2 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische Probleme: Sehr rechenintensiv Auswahl der Attribute nicht eindeutig 2
3 Übersicht Clusterverfahren Anzahl Klassen unbekannt / Hierarchische Verfahren Anzahl von Klassen bekannt Agglomerative Verfahren Dichtebasierte Verfahren Divisive Verfahren k-means Linkage Verfahren Varianzbasierte Verfahren Single-Linkage / Nearest Neighbour Complete-Linkage/Farthest Neighbour Average-Linkage Ward-Methode DIANA Classical k-means PAM (Partitioning around Medoids) Fuzzy C-Means DB-SCAN OPTICS 3
4 Anwendungsbeispiele 4
5 Schritte der Standardisieren Skalenniveaus anpassen Proximitätsmaße i.d.r. Distanzmatrix bei metrischen Variablen Ähnlichkeitsmatrix bei kategorialen bzw. dichotomen Variablen Fusionslogik Auswahl der Algorithmen, nach welchen Cluster / Gruppen zusammengeführt werden Abbruchkriterium Kritische Fusionsdistanz wählen bzw. Anzahl der Cluster bestimmen ( Dendrogramm) Interpretation Charakteristika der Cluster finden Interpretation der Charakteristika 5
6 Voraussetzung Je nach Datentyp der Inputvariablen werden unterschiedliche Distanzmaße verwendet Bei einem metrischen Datenniveau können unmittelbar Distanzen ermittelt werden. Bei Binärdaten werden zunächst Ähnlichkeiten berechnet, deren Kehrwert schließlich in die Fusion eingeht. Bei unterschiedlichen Datenniveaus haben sich zwei Vorgehensweisen herauskristallisiert: Berechnung von Distanzen getrennt nach Datenniveau und Verrechnung beider Matrizen (ggf. gewichtet) Überführen der metrischen Variablen in dichotome Variablen und Rückgriff auf Verfahren für Binärdaten. 6
7 Proximitätsmaße (metrische Inputsignale) Manhattan-Metrik (City-Block-Metrik) Einfache Differenz der Einzelvariablen (Quadrierte) Euklidische Distanz Quadrierte Differenz der Inputvariablen. Durch die Quadrierung fallen größere Differenzen stärker ins Gewicht. Bei unterschiedlichem Variablenniveau ist Standardisierung erforderlich. Q-Korrelationskoeffizient Errechnet sich aus den Korrelationen der Objekte unter Berücksichtigung aller Eigenschaften zueinander. Eignet sich insbesondere zur Profilbildung. 7
8 Proximitätsmaße (binäre Inputsignale) Tanimoto-Koeffizient (Jaquard-Koeffizient) Distanzberechnung anhand von Elementen, die gemeinsam vorhanden sind und in denen sie sich unterscheiden. Russel & Rao-Koeffizient (R&R-Koeffizient) Distanzberechnung anhand von Elementen, die gemeinsam vorhanden sind und in denen sie sich unterscheiden. Der gemeinsame Nichtbesitz von Eigenschaften geht in den Nenner. M-Koeffizient Der M-Koeffizient zieht den gemeinsamen Nichtbesitz von Eigenschaften ebenfalls mit in Betracht. 8
9 Proximitätsmaße (binäre Inputsignale) Tanimoto-Koeffizient: Russel & Rao: M-Koeffizient: a a+b+c+d a+d a+b+c+d a a+b+c Objekt Rowsum 1 = Eigenschaft vorhanden 0 = Eigenschaft nicht vorhanden Objekt 1 1 a c a+c 0 b d b+d Colsum a+b c+d m Sowohl für die Proximitätsmaße für metrische als auch für binäre Inputsignale gilt, nach Anwendungsfall bzw. Ziel das geeignetste Maß zu wählen. 9
10 Ablauf Fusionierung partitionierende Verfahren 1. Start Vorgabe der Anfangspartition 2. Berechnung der arithmetischen Mittel für Gruppeneigenschaften 3. Ermittlung der Fehlerquadratsumme 4. Untersuchung der Auswirkungen einer Objektverlagerung 5. Verminderung der Fehlerquadratsumme? Ja weiter mit 6. Nein Alle Objekte untersucht? Ja Ende Nein weiter mit Verlagerung des Objektes 7. Berechnung neuer Mittelwerte der empfangenen und abgebenden Gruppe 10
11 Ablauf Fusionierung agglomerative Verfahren 1. Start mit der kleinsten Partition (jedes Objekt eine Partition) 2. Berechnung der Ausgangsdistanzmatrix 3. Suche nach den beiden Partitionen mit der geringsten Distanz 4. Zusammenfassung der ähnlichsten Partitionen zu einer Partition 5. Berechnung neuer Abstände und Veränderung der Distanzmatrix 6. Alle Untersuchungsobjekte in einer Partition? Ja Ende Nein weiter mit
12 Eigenschaften agglomerativer Verfahren Verfahren Eigenschaften Monoton Proximitätsmaße Bemerkung Single Linkage Kontrahierend Ja Alle Neigt zur Kettenbildung Complete Linkage Dilatierend Ja Alle Neigt zu kleinen Gruppen Average Linkage Konservativ Ja Alle - Zentroid Konservativ Nein Distanzmaße - Median Konservativ Nein Distanzmaße - Ward Konservativ Ja Distanzmaße Bildet etwa gleich große Gruppen 12
13 Agglomerative Verfahren Auswahl Clusterlösung Mit Hilfe eines sog. Dendrogramms kann die Anzahl der zu bildenden Cluster bestimmt werden. Die Anzahl der Schnittpunkte, die eine in das Plot gelegte, horizontale Linie bildet, definiert die Anzahl der Cluster. 3er Cluster-Lösung 13
14 Hierarchische Ablauf in R Berechnung der Distanzen via des Befehls dist. Mit dem Parameter method kann das Distanzmaß bestimmt werden. Die Fusionierung wird mit dem Befehl hclust vorgenommen. Auch hier bestimmt der Parameter method die Methode. Mit einem einfachen plot-befehl wird ein Dendrogramm erzeugt. Möchte man eine Clusterlösung visualisieren, benutzt man am besten den Befehl rect.clust(), dabei bestimmt der Parameter k die Anzahl der Gruppen. Via cutree kann die Gruppenzugehörigkeit als Vektor extrahiert werden. Auch cutree benutzt k als Steuerung der Gruppenanzahl. > distmat <- dist(trees_scaled, method = "euclidean") > clust_ward <- hclust(distmat, method = "ward.d2") > plot(clust_ward) > rect.hclust(clust_ward, k = 3) > cutree(clust_ward, k = 3) 14
15 Partitionierende Clusterverfahren kmeans Anders als bei hierarchischen Verfahren gehen partitionierende Verfahren davon aus, dass die Gruppenanzahl vor der Analyse bereits bekannt ist. Anstatt immer mehr einzelne Objekte zu Clustern hinzuzufügen, tauschen diese die einzelnen zu gruppierenden Objekte so lange zwischen den Gruppen aus, bis ein Optimierungskriterium erfüllt ist. Das bekannteste partitionierende Clusterverfahren ist eine Clusterzentrenanalyse bzw. besser bekannt als kmeans (-). Beim kmeans-verfahren ist dies der quadrierte euklidische Abstand der Objekte zu ihrem nächsten Clusterzentrum. Andere Verfahren benutzen beispielsweise anstatt des Mittelwertes den Median (k-median) oder die Abstände der Clusterzentren (PAM) zueinander. 15
16 kmeans Ablauf in R Mit dem Befehl kmeans aus dem Paket stats lässt sich die kmeans- aufrufen. Der wichtigste Parameter ist center darüber lässt sich die Anzahl der zu bildenden Cluster angeben. Alternativ kann auch eine Matrix mit Clusterzentren übergeben werden, die möglichst erreicht werden soll. > kmeans(trees_scaled, center = 3) > > kmeans(trees_scaled, center = matrix( )) 16
17 Dichtebasierte Clusterverfahren Um Cluster mit unregelmäßigen Formen aufzudecken bzw. darzustellen, eignen sich insbesondere dichtebasierte Clusterverfahren. Die Grundidee dahinter ist, dass Objekte, die dicht beieinander liegen, ein Cluster bilden. Getrennt werden sie durch Gebiete, in denen die Objekte weniger dicht beieinander liegen. Das bekannteste dichtebasierte Verfahren ist DBSCAN (Density-Based Clustering of Applications with Noise). Zwei Objekte sind dichteverbunden, wenn es eine Kette von dichten Objekten (Kernobjekten) gibt, die diese Objekte miteinander verbindet. Die durch die selben Kernobjekte verbundenen Objekte bilden ein Cluster. 17
18 DBSCAN In DBSCAN werden drei Arten von Punkten unterschieden: Kernobjekte (A) sind selbst dicht erreichbar Dichte-erreichbare Objekte (B) sind Objekte eines Clusters, die dichteerreichbar sind, selbst aber nicht dicht, d.h. sie bilden den Rand eines Clusters Rauschpunkte (N) sind weder dicht noch dichte-erreichbar. Der DBSCAN-Algorithmus verfügt dabei über 2 Parameter: ε Nachbarschaftslänge eines Punktes minpts gibt an, wann ein Kernobjekt dicht ist, also wenn es mind. minpts ε-erreichbare Nachbarn hat. 18
19 DBSCAN Ablauf in R Der DBSCAN-Algorithmus ist im Paket fpc enthalten und über die Funktion dbscan aufrufbar. Der Befehl kann dabei sowohl mit den Rohdaten als auch mit Distanzmatrizen umgehen. Kontrollieren lässt sich dies über den Parameter method. Ansonsten lassen sich die beiden wichtigsten Parameter des Algorithmus per eps und MinPts steuern. Der Befehl dbscan liefert als Rückgabeobjekt eine Liste mit den Komponenten cluster, issed,eps und MinPts. Dabei gibt cluster die Clusterzugehörigkeit an; der Wert 0 entspricht dabei der Gruppe der Rauschpunkte. issed ist ein logischer Vektor, der angibt, ob ein Objekt ein Kernobjekt ist. > dbscan(data = trees_scaled, eps = 1, MinPts = 3) 19
20 Die Data Science Spezialisten. eoda GmbH Universitätsplatz Kassel blog.eoda.de eodagmbh 20
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrZiel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.
8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrClusteranalyse und Display-Methoden
Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrEFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017
08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Cluster-Analyse Einordnung Data Mining Einführung in die Cluster-Analyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-107
MehrMethoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
MehrDichtebasiertes Clustering. Grundlagen. Idee. Zentrale Annahmen
Idee Grundlagen Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Zentrale Annahmen für jedes
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrHaben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
MehrAlgorithmen zur Kundensegmentierung
Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrInhaltsverzeichnis 1. EINLEITUNG...1
VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrKap. 5 Spatial (räumliches) Data Mining
Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de
MehrJ.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell
Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
Mehrk-means Clustern in R
k-means Clustern in R Achim Zeileis 2009-02-20 Um die Ergebnisse aus der Vorlesung zu reproduzieren, wird zunächst wieder der GSA Datensatz geladen R> load("gsa.rda") und wie schon in den vorangegangenen
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
MehrMethoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07
Cluster Analysis Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2
MehrUsing Sets of Feature Vectors for Similarity Search on Voxelized CAD Data
Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrKapitel IR:III (Fortsetzung)
Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches
MehrClustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang
Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C
MehrVergleich zwischen kmeans und DBScan
Vergleich zwischen kmeans und DBScan Patrick Breithaupt und Christian Kromm Vorlesung/Seminar: Information Retrieval patrick.breithaupt@stud.uni-heidelberg.de kromm@stud.uni-heidelberg.de 11. Januar 2016
MehrBenchmarkanalyse von Clustering-Verfahren mit reellen Datensätzen
Ludwig-Maximilians-Universität München Institut für Statistik Benchmarkanalyse von Clustering-Verfahren mit reellen Datensätzen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrDr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.
Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.
MehrEinführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrClustering. Uwe Reichel IPS, LMU München 19. Mai 2010
Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
MehrAufgaben zur Multivariaten Statistik
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeit Repräsentation von Clustern Hierarchisches Clustering
MehrMultivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler
Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung
Konzepte II Netzwerkanalyse für Politikwissenschaftler Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum geht es? Bisher: Eigenschaften einzelner Punkte bzw. des Netzwerkes Definiert
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics
MehrHierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
MehrMethoden zur Segmentierung von Daten
Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Clusteranalyse 3 2.1 Allgemeines..............................
MehrReader Teil 5: Clusteranalyse
r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrBivariate explorative Datenanalyse in R
Bivariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-09 In der LV Statistik 1 haben wir auch den Zusammenhang von 2 Variablen untersucht. Hier werden die dazugehörenden R-Befehle
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrÄhnlichkeits- und Distanzmaße
Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrAnwendungen mit SAS: Direkt aus der Praxis! Block 2
Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik
MehrForschungsmethodik II, SS 2010
Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr6. Vorlesung. Rechnen mit Matrizen.
6. Vorlesung. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt
Mehr3. Clustering. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3.5 Datenbanktechniken zur Leistungssteigerung. Inhalt dieses Kapitels
3 Einleitung 3 Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 32 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung
MehrClusteranalyse Hierarchische Verfahren
Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges
Mehr3.4 Bivariate Datenanalyse in R
90 KAPITEL 3. BIVARIATE ANALYSE 3.4 Bivariate Datenanalyse in R Beginnen wir mit dem Zusammenhang zwischen einem qualitativem und einem quantitativem Merkmal. Wir wollen das Alter der weiblichem Teilnehmer
MehrTEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN
TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN GLIEDERUNG Verfahren, welche auf dem paarweisen Vergleich beruhen Tau-a-Koeffizient Tau-b-Koeffizient Gamma-Koeffizient Alternativen zum paarweisen
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2
MehrClusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
MehrInhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4
Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1
MehrAusarbeitung Seminar. Sven Elvers. Data Mining: Clustering. Betreuender Prüfer: Prof. Dr. Kai v. Luck
Hochschule für Angewandte Wissenschaften Hamburg Hamburg University of Applied Sciences Ausarbeitung Seminar Sven Elvers Data Mining: Clustering Betreuender Prüfer: Prof. Dr. Kai v. Luck Fakultät Technik
Mehr