Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Größe: px
Ab Seite anzeigen:

Download "Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH"

Transkript

1 Florian Löwenstein 1

2 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische Probleme: Sehr rechenintensiv Auswahl der Attribute nicht eindeutig 2

3 Übersicht Clusterverfahren Anzahl Klassen unbekannt / Hierarchische Verfahren Anzahl von Klassen bekannt Agglomerative Verfahren Dichtebasierte Verfahren Divisive Verfahren k-means Linkage Verfahren Varianzbasierte Verfahren Single-Linkage / Nearest Neighbour Complete-Linkage/Farthest Neighbour Average-Linkage Ward-Methode DIANA Classical k-means PAM (Partitioning around Medoids) Fuzzy C-Means DB-SCAN OPTICS 3

4 Anwendungsbeispiele 4

5 Schritte der Standardisieren Skalenniveaus anpassen Proximitätsmaße i.d.r. Distanzmatrix bei metrischen Variablen Ähnlichkeitsmatrix bei kategorialen bzw. dichotomen Variablen Fusionslogik Auswahl der Algorithmen, nach welchen Cluster / Gruppen zusammengeführt werden Abbruchkriterium Kritische Fusionsdistanz wählen bzw. Anzahl der Cluster bestimmen ( Dendrogramm) Interpretation Charakteristika der Cluster finden Interpretation der Charakteristika 5

6 Voraussetzung Je nach Datentyp der Inputvariablen werden unterschiedliche Distanzmaße verwendet Bei einem metrischen Datenniveau können unmittelbar Distanzen ermittelt werden. Bei Binärdaten werden zunächst Ähnlichkeiten berechnet, deren Kehrwert schließlich in die Fusion eingeht. Bei unterschiedlichen Datenniveaus haben sich zwei Vorgehensweisen herauskristallisiert: Berechnung von Distanzen getrennt nach Datenniveau und Verrechnung beider Matrizen (ggf. gewichtet) Überführen der metrischen Variablen in dichotome Variablen und Rückgriff auf Verfahren für Binärdaten. 6

7 Proximitätsmaße (metrische Inputsignale) Manhattan-Metrik (City-Block-Metrik) Einfache Differenz der Einzelvariablen (Quadrierte) Euklidische Distanz Quadrierte Differenz der Inputvariablen. Durch die Quadrierung fallen größere Differenzen stärker ins Gewicht. Bei unterschiedlichem Variablenniveau ist Standardisierung erforderlich. Q-Korrelationskoeffizient Errechnet sich aus den Korrelationen der Objekte unter Berücksichtigung aller Eigenschaften zueinander. Eignet sich insbesondere zur Profilbildung. 7

8 Proximitätsmaße (binäre Inputsignale) Tanimoto-Koeffizient (Jaquard-Koeffizient) Distanzberechnung anhand von Elementen, die gemeinsam vorhanden sind und in denen sie sich unterscheiden. Russel & Rao-Koeffizient (R&R-Koeffizient) Distanzberechnung anhand von Elementen, die gemeinsam vorhanden sind und in denen sie sich unterscheiden. Der gemeinsame Nichtbesitz von Eigenschaften geht in den Nenner. M-Koeffizient Der M-Koeffizient zieht den gemeinsamen Nichtbesitz von Eigenschaften ebenfalls mit in Betracht. 8

9 Proximitätsmaße (binäre Inputsignale) Tanimoto-Koeffizient: Russel & Rao: M-Koeffizient: a a+b+c+d a+d a+b+c+d a a+b+c Objekt Rowsum 1 = Eigenschaft vorhanden 0 = Eigenschaft nicht vorhanden Objekt 1 1 a c a+c 0 b d b+d Colsum a+b c+d m Sowohl für die Proximitätsmaße für metrische als auch für binäre Inputsignale gilt, nach Anwendungsfall bzw. Ziel das geeignetste Maß zu wählen. 9

10 Ablauf Fusionierung partitionierende Verfahren 1. Start Vorgabe der Anfangspartition 2. Berechnung der arithmetischen Mittel für Gruppeneigenschaften 3. Ermittlung der Fehlerquadratsumme 4. Untersuchung der Auswirkungen einer Objektverlagerung 5. Verminderung der Fehlerquadratsumme? Ja weiter mit 6. Nein Alle Objekte untersucht? Ja Ende Nein weiter mit Verlagerung des Objektes 7. Berechnung neuer Mittelwerte der empfangenen und abgebenden Gruppe 10

11 Ablauf Fusionierung agglomerative Verfahren 1. Start mit der kleinsten Partition (jedes Objekt eine Partition) 2. Berechnung der Ausgangsdistanzmatrix 3. Suche nach den beiden Partitionen mit der geringsten Distanz 4. Zusammenfassung der ähnlichsten Partitionen zu einer Partition 5. Berechnung neuer Abstände und Veränderung der Distanzmatrix 6. Alle Untersuchungsobjekte in einer Partition? Ja Ende Nein weiter mit

12 Eigenschaften agglomerativer Verfahren Verfahren Eigenschaften Monoton Proximitätsmaße Bemerkung Single Linkage Kontrahierend Ja Alle Neigt zur Kettenbildung Complete Linkage Dilatierend Ja Alle Neigt zu kleinen Gruppen Average Linkage Konservativ Ja Alle - Zentroid Konservativ Nein Distanzmaße - Median Konservativ Nein Distanzmaße - Ward Konservativ Ja Distanzmaße Bildet etwa gleich große Gruppen 12

13 Agglomerative Verfahren Auswahl Clusterlösung Mit Hilfe eines sog. Dendrogramms kann die Anzahl der zu bildenden Cluster bestimmt werden. Die Anzahl der Schnittpunkte, die eine in das Plot gelegte, horizontale Linie bildet, definiert die Anzahl der Cluster. 3er Cluster-Lösung 13

14 Hierarchische Ablauf in R Berechnung der Distanzen via des Befehls dist. Mit dem Parameter method kann das Distanzmaß bestimmt werden. Die Fusionierung wird mit dem Befehl hclust vorgenommen. Auch hier bestimmt der Parameter method die Methode. Mit einem einfachen plot-befehl wird ein Dendrogramm erzeugt. Möchte man eine Clusterlösung visualisieren, benutzt man am besten den Befehl rect.clust(), dabei bestimmt der Parameter k die Anzahl der Gruppen. Via cutree kann die Gruppenzugehörigkeit als Vektor extrahiert werden. Auch cutree benutzt k als Steuerung der Gruppenanzahl. > distmat <- dist(trees_scaled, method = "euclidean") > clust_ward <- hclust(distmat, method = "ward.d2") > plot(clust_ward) > rect.hclust(clust_ward, k = 3) > cutree(clust_ward, k = 3) 14

15 Partitionierende Clusterverfahren kmeans Anders als bei hierarchischen Verfahren gehen partitionierende Verfahren davon aus, dass die Gruppenanzahl vor der Analyse bereits bekannt ist. Anstatt immer mehr einzelne Objekte zu Clustern hinzuzufügen, tauschen diese die einzelnen zu gruppierenden Objekte so lange zwischen den Gruppen aus, bis ein Optimierungskriterium erfüllt ist. Das bekannteste partitionierende Clusterverfahren ist eine Clusterzentrenanalyse bzw. besser bekannt als kmeans (-). Beim kmeans-verfahren ist dies der quadrierte euklidische Abstand der Objekte zu ihrem nächsten Clusterzentrum. Andere Verfahren benutzen beispielsweise anstatt des Mittelwertes den Median (k-median) oder die Abstände der Clusterzentren (PAM) zueinander. 15

16 kmeans Ablauf in R Mit dem Befehl kmeans aus dem Paket stats lässt sich die kmeans- aufrufen. Der wichtigste Parameter ist center darüber lässt sich die Anzahl der zu bildenden Cluster angeben. Alternativ kann auch eine Matrix mit Clusterzentren übergeben werden, die möglichst erreicht werden soll. > kmeans(trees_scaled, center = 3) > > kmeans(trees_scaled, center = matrix( )) 16

17 Dichtebasierte Clusterverfahren Um Cluster mit unregelmäßigen Formen aufzudecken bzw. darzustellen, eignen sich insbesondere dichtebasierte Clusterverfahren. Die Grundidee dahinter ist, dass Objekte, die dicht beieinander liegen, ein Cluster bilden. Getrennt werden sie durch Gebiete, in denen die Objekte weniger dicht beieinander liegen. Das bekannteste dichtebasierte Verfahren ist DBSCAN (Density-Based Clustering of Applications with Noise). Zwei Objekte sind dichteverbunden, wenn es eine Kette von dichten Objekten (Kernobjekten) gibt, die diese Objekte miteinander verbindet. Die durch die selben Kernobjekte verbundenen Objekte bilden ein Cluster. 17

18 DBSCAN In DBSCAN werden drei Arten von Punkten unterschieden: Kernobjekte (A) sind selbst dicht erreichbar Dichte-erreichbare Objekte (B) sind Objekte eines Clusters, die dichteerreichbar sind, selbst aber nicht dicht, d.h. sie bilden den Rand eines Clusters Rauschpunkte (N) sind weder dicht noch dichte-erreichbar. Der DBSCAN-Algorithmus verfügt dabei über 2 Parameter: ε Nachbarschaftslänge eines Punktes minpts gibt an, wann ein Kernobjekt dicht ist, also wenn es mind. minpts ε-erreichbare Nachbarn hat. 18

19 DBSCAN Ablauf in R Der DBSCAN-Algorithmus ist im Paket fpc enthalten und über die Funktion dbscan aufrufbar. Der Befehl kann dabei sowohl mit den Rohdaten als auch mit Distanzmatrizen umgehen. Kontrollieren lässt sich dies über den Parameter method. Ansonsten lassen sich die beiden wichtigsten Parameter des Algorithmus per eps und MinPts steuern. Der Befehl dbscan liefert als Rückgabeobjekt eine Liste mit den Komponenten cluster, issed,eps und MinPts. Dabei gibt cluster die Clusterzugehörigkeit an; der Wert 0 entspricht dabei der Gruppe der Rauschpunkte. issed ist ein logischer Vektor, der angibt, ob ein Objekt ein Kernobjekt ist. > dbscan(data = trees_scaled, eps = 1, MinPts = 3) 19

20 Die Data Science Spezialisten. eoda GmbH Universitätsplatz Kassel blog.eoda.de eodagmbh 20

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017 08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Cluster-Analyse Einordnung Data Mining Einführung in die Cluster-Analyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-107

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Dichtebasiertes Clustering. Grundlagen. Idee. Zentrale Annahmen

Dichtebasiertes Clustering. Grundlagen. Idee. Zentrale Annahmen Idee Grundlagen Cluster als Gebiete im d-dimensionalen Raum, in denen die Objekte dicht beieinander liegen getrennt durch Gebiete, in denen die Objekte weniger dicht liegen Zentrale Annahmen für jedes

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?

Mehr

Algorithmen zur Kundensegmentierung

Algorithmen zur Kundensegmentierung Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Inhaltsverzeichnis 1. EINLEITUNG...1

Inhaltsverzeichnis 1. EINLEITUNG...1 VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Kap. 5 Spatial (räumliches) Data Mining

Kap. 5 Spatial (räumliches) Data Mining Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de

Mehr

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

k-means Clustern in R

k-means Clustern in R k-means Clustern in R Achim Zeileis 2009-02-20 Um die Ergebnisse aus der Vorlesung zu reproduzieren, wird zunächst wieder der GSA Datensatz geladen R> load("gsa.rda") und wie schon in den vorangegangenen

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Cluster Analysis Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C

Mehr

Vergleich zwischen kmeans und DBScan

Vergleich zwischen kmeans und DBScan Vergleich zwischen kmeans und DBScan Patrick Breithaupt und Christian Kromm Vorlesung/Seminar: Information Retrieval patrick.breithaupt@stud.uni-heidelberg.de kromm@stud.uni-heidelberg.de 11. Januar 2016

Mehr

Benchmarkanalyse von Clustering-Verfahren mit reellen Datensätzen

Benchmarkanalyse von Clustering-Verfahren mit reellen Datensätzen Ludwig-Maximilians-Universität München Institut für Statistik Benchmarkanalyse von Clustering-Verfahren mit reellen Datensätzen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved. Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Clustern von numerischen Wettervorhersagen

Clustern von numerischen Wettervorhersagen Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,

Mehr

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010 Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Aufgaben zur Multivariaten Statistik

Aufgaben zur Multivariaten Statistik Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeit Repräsentation von Clustern Hierarchisches Clustering

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Konzepte II. Netzwerkanalyse für Politikwissenschaftler

Konzepte II. Netzwerkanalyse für Politikwissenschaftler Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Konzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung

Konzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung Konzepte II Netzwerkanalyse für Politikwissenschaftler Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum geht es? Bisher: Eigenschaften einzelner Punkte bzw. des Netzwerkes Definiert

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Methoden zur Segmentierung von Daten

Methoden zur Segmentierung von Daten Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Clusteranalyse 3 2.1 Allgemeines..............................

Mehr

Reader Teil 5: Clusteranalyse

Reader Teil 5: Clusteranalyse r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R Bivariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-09 In der LV Statistik 1 haben wir auch den Zusammenhang von 2 Variablen untersucht. Hier werden die dazugehörenden R-Befehle

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Anwendungen mit SAS: Direkt aus der Praxis! Block 2

Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik

Mehr

Forschungsmethodik II, SS 2010

Forschungsmethodik II, SS 2010 Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

6. Vorlesung. Rechnen mit Matrizen.

6. Vorlesung. Rechnen mit Matrizen. 6. Vorlesung. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt

Mehr

3. Clustering. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3.5 Datenbanktechniken zur Leistungssteigerung. Inhalt dieses Kapitels

3. Clustering. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3.5 Datenbanktechniken zur Leistungssteigerung. Inhalt dieses Kapitels 3 Einleitung 3 Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 32 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Clusteranalyse Hierarchische Verfahren

Clusteranalyse Hierarchische Verfahren Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges

Mehr

3.4 Bivariate Datenanalyse in R

3.4 Bivariate Datenanalyse in R 90 KAPITEL 3. BIVARIATE ANALYSE 3.4 Bivariate Datenanalyse in R Beginnen wir mit dem Zusammenhang zwischen einem qualitativem und einem quantitativem Merkmal. Wir wollen das Alter der weiblichem Teilnehmer

Mehr

TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN

TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN GLIEDERUNG Verfahren, welche auf dem paarweisen Vergleich beruhen Tau-a-Koeffizient Tau-b-Koeffizient Gamma-Koeffizient Alternativen zum paarweisen

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4 Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1

Mehr

Ausarbeitung Seminar. Sven Elvers. Data Mining: Clustering. Betreuender Prüfer: Prof. Dr. Kai v. Luck

Ausarbeitung Seminar. Sven Elvers. Data Mining: Clustering. Betreuender Prüfer: Prof. Dr. Kai v. Luck Hochschule für Angewandte Wissenschaften Hamburg Hamburg University of Applied Sciences Ausarbeitung Seminar Sven Elvers Data Mining: Clustering Betreuender Prüfer: Prof. Dr. Kai v. Luck Fakultät Technik

Mehr