Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Größe: px
Ab Seite anzeigen:

Download "Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07"

Transkript

1 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat Einheiten, an denen mehrere Merkmale erhoben worden sind) Charakterisierung der Gruppen: Datenobjekte derselben Gruppe sollen so homogen wie möglich sein, die Unterschiede zwischen den Gruppen sollen so groß wie möglich sein zwei elementare Entscheidungen vor Durchführung der Clusteranalyse: (a) Wahl des Ähnlichkeits- oder Distanzmaßes (b) Wahl des Klassifikationsverfahrens Jedes Paar von Gruppen wird auf seine Homogenität untersucht mit Hilfe des Ähnlichkeits- oder Distanzmaßes (Dualität) Distanzmaße werden eher bei metrischen Merkmalsvektoren verwendet Ähnlichkeitsmaße werden eher bei kategorialen Merkmalsvektoren verwendet bei Merkmalen mit unterschiedlichen Skalenniveaus problematisch häufig verwendete Distanzmaße L r -Norm basierte Distanz: r ergibt die euklidische Distanz r heißt auch City-Block-Metrik Mahalanobis Distanz { p } /r d ij x i x j r x ik x jk r k d ij (x i x j ) S (x i x j ), S ist emp Kovarianzmatrix Arten von Klassifikationsverfahren Hierarchische Klassifikationsverfahren konstruieren eine Folge von Partitionen der Menge der Datenobjekte Ω {a,, a n } agglomerative Verfahren verringern schrittweise die Homogenität der Klassen, divisive Verfahren erhöhen schrittweise die Homogenität Optimale Partitionen: Messung der Qualität einer Partition durch ein Gütekriterium Nach Vorgabe einer Klassenanzahl wird die Partition gesucht, die das Gütekriterium optimiert Mischverteilungsverfahren, stochastische Partitionsverfahren Lösungsalgorithmus für agglomerative Verfahren DO Konstruiere die Startpartition: Jedes Objekt bildet einen Cluster Berechne die Distanzmatrix D 3 Finde die beiden Cluster mit der kleinsten Distanz

2 4 Fusioniere diese beiden Cluster zu einem neuen Cluster 5 Berechne die Distanzen zwischen dem neuen Cluster und den restlichen Clustern WHILE alle Cluster sind zu Ω fusioniert Frage: Wie sollen die Distanzen zwischen einem neuen Cluster und den restlichen Clustern berechnet werden? Antwort: Es gibt unterschiedliche Ansätze, die zu unterschiedlichen agglomerativen Verfahren führen, ua die folgenden Single linkage Verfahren: Neue Distanz zwischen zwei Clustern ist gleich dem Minimum aus den individuellen Distanzen d(r, P + Q) min{d(r, P ), d(r, Q)} Complete linkage Verfahren: Neue Distanz zwischen zwei Clustern ist gleich dem Maximum aus den individuellen Distanzen d(r, P + Q) max{d(r, P ), d(r, Q)} Zentroid Verfahren: Neue Distanz zwischen zwei Clustern ist gleich der quadrierten euklidischen Distanz der Klassenschwerpunkte d(r, P + Q) n P n P + n Q d(r, P ) + n Q n P + n Q d(r, Q) n P n Q d(p, Q) (n P + n Q ) Generischer Ansatz zur Berechnung der Distanz zwischen einem neuen Cluster P + Q und einem anderen Cluster R d(r, P + Q) δ d(r, P ) + δ d(r, Q) + δ 3 d(p, Q) + δ 4 d(r, P ) d(r, Q), die Koeffizienten sind abhängig vom verwendeten agglomerativen Verfahren Verfahren δ δ δ 3 δ 4 Single linkage / / 0 -/ Complete linkage / / 0 / n Zentroid P n Q Ward n P +n Q n R +n P n R +n P +n Q n P +n Q n P n Q (n P +n Q ) 0 n R +n Q n R +n P +n Q n R n R +n P +n Q 0 Lösung Aufgabe 8 In beiden Teilaufgaben beginnen wir mit folgender Startpartition Ω {C 0, C 0, C 0 3, C 0 4, C 0 5} {{a }, {a }, {a 3 }, {a 4 }, {a 5 }} (a) Die euklidische Distanz zwischen Objekt a i und Objekt a j (p Merkmale wurden jeweils beobachtet) lautet { p } / d ij d(a i, a j ) (x ik x jk ) k

3 Wir erhalten folgende quadrierte euklidische Distanzen d (8 5) + (4 ) 3 d 3 (8 0) + (4 5) 5 d 4 (8 4) + (4 ) 5 d 5 (8 3) + (4 8) 4 d 3 (5 0) + ( 5) 34 d 4 (5 4) + ( ) d 5 (5 3) + ( 8) 00 d 34 (0 4) + (5 ) 5 d 35 (0 3) + (5 8) 8 d 45 (4 3) + ( 8) 30 Das Minimum ist die Distanz zwischen Objekt und Objekt 4, also d 4 folgende erste Partition in 4 Klassen Ω {C, C, C 3, C 4}, mit C {a, a 4 }, C {a }, C 3 {a 3 }, C 4 {a 5 } Wir erhalten mit dem Single Linkage Verfahren folgende neue Distanzen zwischen dem neuen Cluster C und den restlichen d (a, {a, a 4 }) d + d 4 d d 4 (3 + 5 ) 3 d (a 3, {a, a 4 }) d 3 + d 34 d 3 d 34 ( ) 34 d (a 5, {a, a 4 }) d 5 + d 54 d 5 d 54 ( ) 00 Das Minimum wird aus folgenden Distanzen bestimmt min{d (a, {a, a 4 }), d (a 3, {a, a 4 }), d (a 5, {a, a 4 }), d 3, d 5, d 35} d 3 folgende neue Partition Ω {C, C, C 3} mit C {a, a 3 }, C {a, a 4 }, C 3 {a 5 } Gesucht ist nun die minimale Distanz zwischen den Klassen der Partition min{d (a 5, {a, a 3 }), d (a 5, {a, a 4 }), d ({a, a 3 }, {a, a 4 })} d (a 5, {a, a 3 }) d 5 + d 53 d 5 d 53 ( ) 5 d ({a, a 4 }, {a, a 3 }) d ({a, a 4 }, a ) + d ({a, a 4 }, a 3 ) d ({a, a 4 }, a ) d ({a, a 4 }, a 3 ) Unsere neue Partition lautet daher ( ) 3 min{5, 00, 3} 5 d (a 5, {a, a 3 }) Ω {C 3, C 3 } mit C 3 {a, a 3, a 5 }, C 3 {a, a 4 } Die Distanz zwischen diesen beiden Klassen beträgt d ({a, a 4 }, {a, a 3, a 5 }) ( ) 3 3

4 (b) Die Mahalanobis-Distanz zwischen Objekt a i und Objekt a j lautet d ij d(a i, a j ) (x i x j ) S (x i x j ), wobei x k der beobachtete p-dimensionale Merkmalsvektor von Objekt a k ist, k i, j S ist die empirische Kovarianzmatrix Zur Berechnung von S verwenden wir x (8, 4) und folgenden Ansatz S n (X X n x x ) ([ [ [ ) S [ [ Die Mahalanobis-Distanzen berechnen sich damit folgendermaßen (aus Vereinfachungsgründen sind schon die Differenzen x i x j angegeben): d [ 3 [ [ [ 4 [ d 3 [ [ [ 6 8 [ 4 5 [ d 4 [ 4 3 [ [ [ 0 04 [ d 5 [ 5 4 [ [ [ 3 [ d 3 [ 5 3 [ [ [ 6 76 [ d 4 [ [ [ 6 8 [ 8 [ d 5 [ 8 6 [ [ [ 0 08 [ d 34 [ 6 4 [ [ [ 4 48 [ d 35 [ 3 3 [ [ [ [ d 45 [ 9 7 [ [ [ 36 [ Das Minimum ist die Distanz zwischen Objekt und Objekt 4, also d 4 folgende erste Partition in 4 Klassen Ω {C, C, C 3, C 4}, mit C {a, a 4 }, C {a }, C 3 {a 3 }, C 4 {a 5 } Wir erhalten folgende neue Distanzen (nach dem complete linkage Verfahren) zwischen dem neuen Cluster 4

5 C und den restlichen d(a, {a, a 4 }) d + d 4 + d d 4 ( + + 0) d(a 3, {a, a 4 }) d 3 + d 34 + d 3 d 34 ( ) 7 d(a 5, {a, a 4 }) d 5 + d 54 + d 5 d 54 ( ) 7 Das Minimum wird aus folgenden Distanzen bestimmt min{d(a, {a, a 4 }), d(a 3, {a, a 4 }), d(a 5, {a, a 4 }), d 3, d 5, d 35 } d(a, {a, a 4 }) folgende neue Partition Gesucht ist nun das Minimum aus Ω {C, C, C 3} mit C {a, a, a 4 }, C {a 3 }, C 3 {a 5 } min{d(a 3, {a, a, a 4 }), d(a 5, {a, a, a 4 }), d 35 } d(a 3, {a, a, a 4 }) d(a 3, {a, a 4 }) + d 3 + d(a 3, {a, a 4 }) d 3 ( ) 7 d(a 5, {a, a, a 4 }) d(a 5, {a, a 4 }) + d 5 + d(a 5, {a, a 4 }) d 5 ( ) 7 min{7, 7, 95} 7 d(a 3, {a, a, a 4 }) d(a 5, {a, a, a 4 }) Ist das Minimum nicht eindeutig, so sollte man sich für die neue Partitionierung entscheiden, die mehr Objekte zu einer neuen Klasse fusioniert In unserem Fall würden jeweils 4 Objekte zu einer neuen Klasse fusionieren, es ist daher egal, ob wir uns für d(a 3, {a, a, a 4 }) oder d(a 5, {a, a, a 4 }) entscheiden Unsere neue Partition lautet bei Wahl für erstere Ω {C 3, C 3 } mit C 3 {a, a, a 3, a 4 }, C 3 {a 5 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d(a 5, {a, a, a 3, a 4 }) ( ) 95 Lösung Aufgabe 9 Als Distanzmaß verwendet das Zentroid-Verfahren die quadrierte euklidische Distanz Die Distanzen sind in folgender Matrix zusammengefasst D

6 Die Ausgangspartition lautet Ω {C 0, C 0, C 0 3, C 0 4, C 0 5, C 0 6} {{a }, {a }, {a 3 }, {a 4 }, {a 5 }, {a 6 }} In einem ersten Schritt fusionieren wir die beiden Klassen der Ausgangspartition, die die kleinste Distanz besitzen, hier d, also Ω {C, C, C 3, C 4, C 5}, mit C {a, a }, C {a 3 }, C 3 {a 4 }, C 4 {a 5 }, C 5 {a 6 } Als Mittelwertvektor der neuen Klasse C erhalten wir x [ [ Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a, a }) [ 05 3 [ d (a 4, {a, a }) [ 5 5 [ d (a 5, {a, a }) [ 5 05 [ d (a 6, {a, a }) [ 45 5 [ min{d (a 3, {a, a }), d (a 4, {a, a }), d (a 5, {a, a }), d (a 6, {a, a }), d 34, d 35, d 36, d 45, d 46, d 56} d 45 4 Unsere neue Partitionierung lautet daher Ω {C, C, C 3, C 4}, mit C {a, a }, C {a 3 }, C 3 {a 4, a 5 }, C 4 {a 6 } Als Mittelwertvektor der neuen Klasse C3 erhalten wir x 45 [ + 4 Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 45 und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a 4, a 5 }) [ 3 5 [ d (a 6, {a 4, a 5 }) [ [ 3 d ({a, a }, {a 4, a 5 }) [ 5 5 [ [ 3 0 Unsere neue Partitionierung lautet daher min{} d ({a, a }, {a 4, a 5 }) 85 Ω {C 3, C 3, C 3 3}, mit C 3 {a, a, a 4, a 5 }, C 3 {a 3 }, C 3 3 {a 6 } 6

7 Als Mittelwertvektor der neuen Klasse C 3 erhalten wir x 45 [ [ Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 45 und dem Mittelwertvektor der übrigen Klassen: d (a 3, {a, a, a 4, a 5 }) [ 75 5 [ d (a 6, {a, a, a 4, a 5 }) [ 35 5 [ min{d (a 3, {a, a, a 4, a 5 }), d (a 6, {a, a, a 4, a 5 }), d 36} d (a 3, {a, a, a 4, a 5 }) 85 Unsere neue Partitionierung lautet daher Ω {C 4, C 4 }, mit C 4 {a, a, a 3, a 4, a 5 }, C 4 {a 6 } Als Mittelwertvektor der neuen Klasse C 4 erhalten wir x 345 [ ( ) [ 04 7 Wir bilden nun die quadrierten euklidischen Distanzen zwischen dem Mittelwertvektor x 345 und dem Mittelwertvektor der übrigen Klasse: d (a 6, {a, a, a 3, a 4, a 5 }) [ 36 7 [ Lösung Aufgabe 30 Es wurde die euklidische Distanz verwendet Die fehlenden Distanzen lauten dann d 3 (46 5) + (55 00) 458 d 4 (46 60) + (55 84) 30 d 5 (46 34) + (65 40) 773 d 34 (5 60) + (00 84) 676 d 35 (5 34) + (00 40) 636 d 45 (60 34) + (84 40) 5 Das Minimum lautet d 34 als erste Partition für single linkage und complete linkage Ω {C, C, C 3, C 4}, mit C {a 3, a 4 }, C {a }, C 3 {a }, C 4 {a 5 } Für die nächste Partitionierung wird das Minimum gesucht von (i) min{d(a, {a 3, a 4 }), d(a, {a 3, a 4 }), d(a 5, {a 3, a 4 }), d, d 5, d 5 } Im folgenden verwenden wir das single linkage Verfahren Dann erhalten wir d(a, {a 3, a 4 }) d 3 + d 4 d 3 d 4 ( ) 6964 d(a, {a 3, a 4 }) d 3 + d 4 d 3 d 4 ( ) 3 d(a 5, {a 3, a 4 }) d 53 + d 54 d 53 d 54 ( ) 5 7

8 und damit folgende Partition Gesucht ist nun das Minimum aus min{6964, 3, 5, 378, 86, 773} 86 d 5 Ω {C, C, C 3} mit C {a 3, a 4 }, C {a, a 5 }, C 3 {a } min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a, a 5 }) d + d 5 d d 5 ( ) 773 d({a, a 5 }, {a 3, a 4 }) d(a, {a 3, a 4 }) + d(a 5, {a 3, a 4 }) d(a, {a 3, a 4 }) d(a 5, {a 3, a 4 }) Unsere neue Partition lautet daher ( ) 5 min{773, 3, 5} 773 d(a, {a, a 5 }) Ω {C 3, C 3 } mit C 3 {a, a, a 5 }, C 3 {a 3, a 4 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d({a 3, a 4 }, {a, a, a 5 }) ( ) 3 (ii) Im folgenden verwenden wir das complete linkage Verfahren Dann erhalten wir und damit d(a, {a 3, a 4 }) d 3 + d 4 + d 3 d 4 ( ) 806 d(a, {a 3, a 4 }) d 3 + d 4 + d 3 d 4 ( ) 458 d(a 5, {a 3, a 4 }) d 53 + d 54 + d 53 d 54 ( ) 636 folgende Partition Gesucht ist nun das Minimum aus min{806, 458, 636, 378, 86, 773} 86 d 5 Ω {C, C, C 3} mit C {a 3, a 4 }, C {a, a 5 }, C 3 {a } min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a, a 5 }) d + d 5 + d d 5 ( ) 773 d({a, a 5 }, {a 3, a 4 }) d(a, {a 3, a 4 }) + d(a 5, {a 3, a 4 }) + d(a, {a 3, a 4 }) d(a 5, {a 3, a 4 }) ( ) 806 8

9 min{378, 458, 806} 378 d(a, {a, a 5 }) Unsere neue Partition lautet daher Ω {C, 3 C} 3 mit C 3 {a, a, a 5 }, C 3 {a 3, a 4 } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d({a, a, a 5 }, {a 3, a 4 }) max{458, 806} 806 Lösung Aufgabe 3 Das Minimum lautet d 5 als erste Partition für single linkage und complete linkage Ω {C, C, C 3, C 4}, mit C {a, a 5 }, C {a }, C 3 {a 3 }, C 4 {a 4 } Für die nächste Partitionierung wird das Minimum gesucht von min{d(a, {a, a 5 }), d(a 3, {a, a 5 }), d(a 4, {a, a 5 }), d 3, d 4, d 34 } Im folgenden verwenden wir das complete linkage Verfahren Dann erhalten wir und damit folgende Partition Gesucht ist nun das Minimum aus d(a, {a, a 5 }) ( ) 34 d(a 3, {a, a 5 }) ( ) d(a 4, {a, a 5 }) ( ) 8 min{34,, 8, 3,, 09} 09 d 34 Ω {C, C, C 3} mit C {a, a 5 }, C {a 3, a 4 }, C 3 {a } Unsere neue Partition lautet daher min{d(a, {a, a 5 }), d(a, {a 3, a 4 }), d({a, a 5 }, {a 3, a 4 })} d(a, {a 3, a 4 }) ( ) 3 d({a, a 5 }, {a 3, a 4 }) ( ) 8 min{34, 3, 8} 8 d({a, a 5 }, {a 3, a 4 }) Ω {C 3, C 3 } mit C 3 {a, a 3, a 4, a 5 }, C 3 {a } Die Distanz für die letzte Fusionierung zu C 4 {a, a, a 3, a 4, a 5 } Ω ergibt sich aus d(a, {a, a 3, a 4, a 5 }) ( ) 34 9

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m. Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Reader Teil 5: Clusteranalyse

Reader Teil 5: Clusteranalyse r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

Inhaltsverzeichnis 1. EINLEITUNG...1

Inhaltsverzeichnis 1. EINLEITUNG...1 VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Aufgaben zur Multivariaten Statistik

Aufgaben zur Multivariaten Statistik Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Formelsammlung zur Lehrveranstaltung Statistische Analyseverfahren. 4. Februar 2019

Formelsammlung zur Lehrveranstaltung Statistische Analyseverfahren. 4. Februar 2019 Formelsammlung zur Lehrveranstaltung Statistische Analyseverfahren 4 Februar 2019 Inhaltsverzeichnis 1 Diskriminanzanalyse 1 11 ML-Diskrimination für zwei Normalverteilungen mit identischen Kovarianzmatrizen

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Mehrdimensionale Skalierung

Mehrdimensionale Skalierung Mehrdimensionale Skalierung Datenanalyse Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2010 D Maringer: Datenanalyse Mehrdimensionale Skalierung (1) Problemstellung

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Einführung in die CLUSTERANALYSE

Einführung in die CLUSTERANALYSE Einführung in die Skriptum zur Vorlesung MULTIVARIATE STATISTISCHE VERFAHREN Ao.Univ.Prof. Dr. Marcus HUDEC Institut für Statistik & Decision Support Systems UNIVERSITÄT WIEN März 2003 INHALTSVERZEICHNIS

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved. Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Multivariate statistische Verfahren

Multivariate statistische Verfahren Multivariate statistische Verfahren Herausgegeben von unter Mitarbeit von Walter Häußler, Heinz Kaufmann, Peter Kemeny, Christian Kredler, Friedemann Ost, Heinz Pape, Gerhard Tutz w DE G Walter de Gruyter

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Übung zum Projektseminar Wetterlagen und Feinstaub

Übung zum Projektseminar Wetterlagen und Feinstaub Universität Augsburg Fakultät für Angewandte Informatik Institut für Physische Geographie und Quantitative Methoden Prof. Dr. Jucundus Jacobeit Übung zum Projektseminar Wetterlagen und Feinstaub Montag

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

4.3 Hierarchische Klassifikationsverfahren

4.3 Hierarchische Klassifikationsverfahren 4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Wählerstromanalyse. Einfluss der Gemeindecluster auf das Ergebnis. Thomas Ledl Universität Wien. Österreichische Statistik-Tage 23.

Wählerstromanalyse. Einfluss der Gemeindecluster auf das Ergebnis. Thomas Ledl Universität Wien. Österreichische Statistik-Tage 23. Wählerstromanalyse Einfluss der Gemeindecluster auf das Ergebnis Thomas Ledl Universität Wien Österreichische Statistik-Tage 23. September 2009 Wählerstromanalyse LTW Vorarlberg 2009 Behalteraten: VP:

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics

Mehr

Modulklausur Multivariate Verfahren. Datum Punkte Note. Termin: 26. September 2008, Uhr Prüfer: Univ.-Prof. Dr. H.

Modulklausur Multivariate Verfahren. Datum Punkte Note. Termin: 26. September 2008, Uhr Prüfer: Univ.-Prof. Dr. H. Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 26. September 2008, 9.00-11.00 Uhr Prüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Forschungsmethodik II, SS 2010

Forschungsmethodik II, SS 2010 Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:

Mehr

Chemometrie: von Daten zu Information

Chemometrie: von Daten zu Information Chemometrie: von Daten zu Information Chemometrie: Definition Warnungen Daten von Anscombe: numerisch x y x y x y x y 0 8.04 0 9.4 0 7.46 8 6.58 8 6.95 8 8.4 8 6.77 8 5.76 3 7.58 3 8.74 3 2.74 8 7.7 9

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Einfache Diskriminanzanalyse

Einfache Diskriminanzanalyse SEITE 1 Einfache Diskriminanzanalyse Einführendes Beispiel Gegeben sind zwei Gruppen von Personen, für die jeweils mehrere Merkmale erhoben wurden, z.b. Alter, Einkommen, Zahl der Kinder und Autobesitz

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden.0.008 Günter Meinhardt Johannes Gutenberg Universität Mainz a) Ein Punkt ist, was keine Teile hat b) Eine Linie ist ein Länge ohne Breite p) Es soll gefordert werden, dass

Mehr

Clusteranalyse Hierarchische Verfahren

Clusteranalyse Hierarchische Verfahren Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Statistische Eigenschaften von Clusterverfahren

Statistische Eigenschaften von Clusterverfahren Universität Potsdam Mathematisch-Naturwissenschaftliche Fakultät Institut für Mathematik Diplomarbeit Statistische Eigenschaften von Clusterverfahren Andrea Schorsch Matrikelnummer: 715466 Sommersemester

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Proseminar: Web-Performance

Proseminar: Web-Performance Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Algorithmen zur Kundensegmentierung

Algorithmen zur Kundensegmentierung Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means

Mehr

METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009 METHODENPRAKTIKUM II Kurs 1 Prof. Dr. Beat Fux SUZ Frühlingssemester 2009 Prüfung von Modellannahmen (Regression) Stichprobengrösse Ausreisser Linearität Multikollinearität Normalverteilung Homoskedastizität

Mehr

Statistische Methoden in der Geographie

Statistische Methoden in der Geographie Statistische Methoden in der Geographie Band 2.; Multivariate Statistik Von Dr. rer. nat. Gerhard Bahrenberg Professor an der Universität Bremen Dr. rer. nat. Ernst Giese Professor an der Universität Gießen

Mehr

Clustern von numerischen Wettervorhersagen

Clustern von numerischen Wettervorhersagen Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,

Mehr

Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion wird also vorausgesetzt)

Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion wird also vorausgesetzt) 9. Clusterbildung und Klassifikation Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion wird

Mehr

Kap. 5 Spatial (räumliches) Data Mining

Kap. 5 Spatial (räumliches) Data Mining Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de

Mehr

Keimreaktionen auf Antibiotikagruppen

Keimreaktionen auf Antibiotikagruppen Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen

Mehr

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017

EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN. Philipp Egert. 08. März 2017 08. März 2017 EFM-DBSCAN EIN BAUMBASIERTER CLUSTERING- ALGORITHMUS UNTER AUSNUTZUNG ERWEITERTER LEADER-UMGEBUNGEN Philipp Egert Fachgebiet Datenbank- und Informationssysteme Motivation DBSCAN als Vorreiter

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Empirische Forschungsmethoden

Empirische Forschungsmethoden Winfried Stier Empirische Forschungsmethoden Zweite, verbesserte Auflage Mit 22 Abbildungen und 53 Tabellen Springer L Inhaltsverzeichnis I. Grundlagen 1 1.1. Methoden, Methodologie, Empirie 1 1.2. Einige

Mehr

Einführung in die medizinische Bildverarbeitung WS 12/13

Einführung in die medizinische Bildverarbeitung WS 12/13 Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel zentrales Problem in der medizinischen Bildanalyse eingesetzt in der computergestützten Diagnostik und Therapie bildet die Grundlage

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Sandra Bracholdt. Diplomarbeit HOCHSCHULE MITTWEIDA UNIVERSITY OF APPLIED SCIENCES. Informatik. Mittweida, 2009

Sandra Bracholdt. Diplomarbeit HOCHSCHULE MITTWEIDA UNIVERSITY OF APPLIED SCIENCES. Informatik. Mittweida, 2009 Sandra Bracholdt Bewertung von Clusterverfahren eingereicht als Diplomarbeit an der HOCHSCHULE MITTWEIDA UNIVERSITY OF APPLIED SCIENCES Informatik Mittweida, 2009 Erstprüfer: Prof. Dr. Rainer Gaudlitz

Mehr

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen. Aufgabenstellung Klausur Methoden der Marktforschung 0.08.004 Der Automobilhersteller People Car verkauft eine neue Variante seines Erfolgsmodells Wolf zunächst nur auf einem Testmarkt. Dabei muss das

Mehr

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung

2 Distanzen. Distanzen von Objekten. Einleitung Distanzen Repräsentation Klassifikation Segmentierung 2 von Objekten Datenanalyse II - Stefan Etschberger - Universität Augsburg - SS 2005 23 316 Gliederung Kapitel 2: von Objekten 2.1 Objekte und Merkmale 2.2 Merkmalstypen und ihre Nominale Merkmale Ordinale

Mehr

Aufgabenstellung Klausur

Aufgabenstellung Klausur Aufgabenstellung Klausur Methoden der Marktforschung 02.03.2004 Der Automobilhersteller People Car möchte nach erfolgreicher Markteinführung des neuen Modells Wolf in Deutschland dieses Modell auch auf

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

1 Übungsaufgaben zur Regressionsanalyse

1 Übungsaufgaben zur Regressionsanalyse 1 Übungsaufgaben zur Regressionsanalyse 1 1 Übungsaufgaben zur Regressionsanalyse 1.1 Übungsaufgaben zu Seite 1 und 2 1. Wie lautet die Regressionsfunktion? 2. Welche Absatzmenge ist im Durchschnitt bei

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr