Kapitel ML: X (Fortsetzung)

Größe: px
Ab Seite anzeigen:

Download "Kapitel ML: X (Fortsetzung)"

Transkript

1 Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster Analysis c STEIN

2 Prinzipien der Fusionierung hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuche- gesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... ML: X-32 Cluster Analysis c STEIN

3 Algorithmus zur hierarchisch-agglomerativen Clusteranalyse Input: Output: G = V, E, w. Weighted graph. d C. Distance measure between two clusters. T = V T, E T. Cluster hierarchy or dendrogram. 1. C = {{v} v V } // initial clustering 2. V T = {v C C C}, E T = // initial dendrogram 3. WHILE C > 1 DO 4. update_distance_matrix(c, G, d C ) 5. {C, C } = argmin {C i,c j } C: C i C j d C (C i, C j ) 6. C = (C \ {C, C }) {C C } // merging 7. V T = V T {v C,C }, E T = E T {{v C,C, v C }, {v C,C, v C }} // dendrogram 8. ENDDO 9. RETURN(T) Vergleiche hierzu den Algorithmus zur hierarchisch-divisiven Clusteranalyse. ML: X-33 Cluster Analysis c STEIN

4 Algorithmus zur hierarchisch-agglomerativen Clusteranalyse Input: Output: G = V, E, w. Weighted graph. d C. Distance measure between two clusters. T = V T, E T. Cluster hierarchy or dendrogram. 1. C = {{v} v V } // initial clustering 2. V T = {v C C C}, E T = // initial dendrogram 3. WHILE C > 1 DO 4. update_distance_matrix(c, G, d C ) 5. {C, C } = argmin {C i,c j } C: C i C j d C (C i, C j ) 6. C = (C \ {C, C }) {C C } // merging 7. V T = V T {v C,C }, E T = E T {{v C,C, v C }, {v C,C, v C }} // dendrogram 8. ENDDO 9. RETURN(T) Vergleiche hierzu den Algorithmus zur hierarchisch-divisiven Clusteranalyse. ML: X-34 Cluster Analysis c STEIN

5 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor ML: X-35 Cluster Analysis c STEIN

6 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor ML: X-36 Cluster Analysis c STEIN

7 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-37 Cluster Analysis c STEIN

8 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-38 Cluster Analysis c STEIN

9 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-39 Cluster Analysis c STEIN

10 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-40 Cluster Analysis c STEIN

11 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-41 Cluster Analysis c STEIN

12 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-42 Cluster Analysis c STEIN

13 Single-Link: Cluster-Distanzmaß d C = Nearest-Neighbor Distanz ML: X-43 Cluster Analysis c STEIN

14 Distanzmaße hierarchisch-agglomerativer Verfahren [Eigenschaften] d C (C, C ) = min u C v C d(u, v) Single-Link (Nearest-Neighbor) d C (C, C ) = max u C v C d(u, v) Complete-Link (Furthest-Neighbor) d C (C, C ) = d C (C, C ) = 1 d(u, v) C C u C v C 2 C C ū v C + C Ward (Varianz) (Group-)Average-Link Siehe Verwendung im Algorithmus: hierarchisch-agglomerative Clusteranalyse hierarchisch-divisive Clusteranalyse ML: X-44 Cluster Analysis c STEIN

15 Ward-Kriterium Ward ist ein Varianzkriterium; es entspricht der doppelten Zunahme der Wurzel aus der Fehlerquadratsumme, SSE, in dem neuen Cluster, der durch die Vereinigung der beiden Cluster C und C entsteht. Herleitung: SSE(C) = u C ū u 2 = u C( ū 2 2 u, ū + u 2 ) = C ū 2 2 C ū 2 + u C u 2 = u C u 2 C ū 2 SSE(C ) = v C v 2 C v 2 SSE(C C ) = w (C C ) w 2 C C w 2, mit w = C ū + C v C + C SSE(C C ) SSE(C) SSE(C ) =... = C C C + C ū v 2 ū bzw. v bezeichnen den Mittelwert der Punkte u C bzw. v C. ML: X-45 Cluster Analysis c STEIN

16 Update-Formel für Cluster-Distanzen Eine effiziente Berechnung neuer Cluster-Distanzen d C ermöglicht folgende Update-Formel (Lance-Williams-Formel): d C (C C, C i ) = α d C (C, C i ) + β d C (C, C i ) + γ d C (C, C ) + δ d C (C, C i ) d C (C, C i ) Idee: Anstatt immer wieder alle Elemente von zwei Clustern zu betrachten, nimmt die Update-Formel Bezug auf die vorherigen Distanzen. ML: X-46 Cluster Analysis c STEIN

17 Bemerkungen: Link-basierte Verfahren arbeiten sowohl mit beliebigen Distanz- als auch Ähnlichkeitsmaßen. Single-Link kann unmittelbar mit einem Minimum-Spanning-Tree-Algorithmus realisiert werden. Varianzbasierte Verfahren sind nur sinnvoll, falls alle Merkmale Intervallskalennivau besitzen. ML: X-47 Cluster Analysis c STEIN

18 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-48 Cluster Analysis c STEIN

19 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-49 Cluster Analysis c STEIN

20 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-50 Cluster Analysis c STEIN

21 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-51 Cluster Analysis c STEIN

22 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-52 Cluster Analysis c STEIN

23 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-53 Cluster Analysis c STEIN

24 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-54 Cluster Analysis c STEIN

25 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) ML: X-55 Cluster Analysis c STEIN

26 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) Distanz ML: X-56 Cluster Analysis c STEIN

27 Chaining-Problematik bei Single-Link (d C = Nearest-Neighbor) Distanz ML: X-57 Cluster Analysis c STEIN

28 Bemerkungen: Mit einer k-nearest-neighbor-variante könnte man das Problem entschärfen. Bei k-nearest-neighbor werden größere Cluster bei der Agglomeration bevorzugt, da sie mehr und damit statistisch gesehen auch mehr nähere Nachbarn besitzen. ML: X-58 Cluster Analysis c STEIN

29 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-59 Cluster Analysis c STEIN

30 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-60 Cluster Analysis c STEIN

31 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-61 Cluster Analysis c STEIN

32 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-62 Cluster Analysis c STEIN

33 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-63 Cluster Analysis c STEIN

34 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-64 Cluster Analysis c STEIN

35 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) ML: X-65 Cluster Analysis c STEIN

36 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) In speziellen Situationen kann auch k-nearest-neighbor versagen. ML: X-66 Cluster Analysis c STEIN

37 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) In speziellen Situationen kann auch k-nearest-neighbor versagen. ML: X-67 Cluster Analysis c STEIN

38 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) In speziellen Situationen kann auch k-nearest-neighbor versagen. ML: X-68 Cluster Analysis c STEIN

39 Chaining-Problematik bei Single-Link (d C = k-nearest-neighbor) In speziellen Situationen kann auch k-nearest-neighbor versagen. ML: X-69 Cluster Analysis c STEIN

40 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-70 Cluster Analysis c STEIN

41 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-71 Cluster Analysis c STEIN

42 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-72 Cluster Analysis c STEIN

43 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-73 Cluster Analysis c STEIN

44 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-74 Cluster Analysis c STEIN

45 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-75 Cluster Analysis c STEIN

46 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) ML: X-76 Cluster Analysis c STEIN

47 Überlappungsproblematik bei Complete-Link (d C = Furthest-Neighbor) Wirklichkeit Wunsch ML: X-77 Cluster Analysis c STEIN

48 Eigenschaften hierarchisch-agglomerativer Verfahren [Distanzmaße] Geometrische Eigenschaften: Single-Link Complete-Link Average-Link Ward Charakteristik kontrahierend: dilatierend: konservativ: konservativ: Cluster-Zahl niedrig hoch mittel mittel Cluster-Form ausgedehnt klein kompakt sphärisch Verkettungstendenz stark niedrig niedrig niedrig ausreißerentdeckend hoch sehr niedrig niedrig niedrig ML: X-78 Cluster Analysis c STEIN

49 Eigenschaften hierarchisch-agglomerativer Verfahren [Distanzmaße] Geometrische Eigenschaften: Single-Link Complete-Link Average-Link Ward Charakteristik kontrahierend: dilatierend: konservativ: konservativ: Cluster-Zahl niedrig hoch mittel mittel Cluster-Form ausgedehnt klein kompakt sphärisch Verkettungstendenz stark niedrig niedrig niedrig ausreißerentdeckend hoch sehr niedrig niedrig niedrig Datenbezogene Eigenschaften: verrauschte Daten empfindlich empfindlich unbeeinflusst unbeeinflusst Merkmaltransformation invariant invariant ML: X-79 Cluster Analysis c STEIN

50 Eigenschaften hierarchisch-agglomerativer Verfahren [Distanzmaße] Geometrische Eigenschaften: Single-Link Complete-Link Average-Link Ward Charakteristik kontrahierend: dilatierend: konservativ: konservativ: Cluster-Zahl niedrig hoch mittel mittel Cluster-Form ausgedehnt klein kompakt sphärisch Verkettungstendenz stark niedrig niedrig niedrig ausreißerentdeckend hoch sehr niedrig niedrig niedrig Datenbezogene Eigenschaften: verrauschte Daten empfindlich empfindlich unbeeinflusst unbeeinflusst Merkmaltransformation invariant invariant Eigenschaften des Cluster-Distanzmaßes: d C monoton d C reihenfolgeunabh. d C konsistent 0 ML: X-80 Cluster Analysis c STEIN

51 Prinzipien der Fusionierung hierarchisch iterativ agglomerativ divisiv exemplarbasiert austauschbasiert Single-Link, Group Average Min-Cut-Analyse k-means, k-medoid Kerninghan-Lin Cluster- analyse dichtebasiert punktdichtebasiert anziehungsbasiert DBSCAN MajorClust metasuche- gesteuert gradientengesteuert konkurrenzgesteuert Simulated Annealing genetische Algorithmen statistisch Gauß-mischverteilt... ML: X-81 Cluster Analysis c STEIN

52 Algorithmus zur hierarchisch-divisiven Clusteranalyse Input: Output: G = V, E, w. Weighted graph. d C. Distance measure between two clusters. T = V T, E T. Cluster hierarchy or dendrogram. 1. C = {V } // initial clustering 2. V T = {v C C C}, E T = // initial dendrogram 3. WHILE C x : (C x C C x > 1) DO 4. {C, C } = argmax d C (C i, C j ) {C i,c j }: C i C j =C x C i C j = 5. C = (C \ {C x }) {C, C } // splitting 6. V T = V T {v C, v C }, E T = E T {{v Cx, v C }, {v Cx, v C }} // dendrogram 7. ENDDO 8. RETURN(T) Vergleiche hierzu den Algorithmus zur hierarchisch-agglomerativen Clusteranalyse. ML: X-82 Cluster Analysis c STEIN

53 Algorithmus zur hierarchisch-divisiven Clusteranalyse Input: Output: G = V, E, w. Weighted graph. d C. Distance measure between two clusters. T = V T, E T. Cluster hierarchy or dendrogram. 1. C = {V } // initial clustering 2. V T = {v C C C}, E T = // initial dendrogram 3. WHILE C x : (C x C C x > 1) DO 4. {C, C } = argmax d C (C i, C j ) {C i,c j }: C i C j =C x C i C j = 5. C = (C \ {C x }) {C, C } // splitting 6. V T = V T {v C, v C }, E T = E T {{v Cx, v C }, {v Cx, v C }} // dendrogram 7. ENDDO 8. RETURN(T) Vergleiche hierzu den Algorithmus zur hierarchisch-agglomerativen Clusteranalyse. ML: X-83 Cluster Analysis c STEIN

54 Bemerkungen: Im Prinzip kann d C wie bei den hierarchisch-agglomerativen Verfahren gewählt werden. Die Worst-Case-Komplexität ist exponentiell statt quadratisch. Hierarchisch-divisive Verfahren werden oft als monothetische Variante konstruiert: In jedem Entscheidungsschritt wird nur eine Variable betrachtet. Im Gegensatz zu hierarchisch-agglomerativen Verfahren darf ein hierarchisch-divisives Verfahren keinen Fehler bei den ersten Schritten machen. Ein mächtiges hierarchisch-divisives Clusteranalyse-Verfahren entsteht mit sim C (C, C ) = w(e) bzw. d C (C, C 1 ) = sim C (C, C ) e cut({c,c }) ML: X-84 Cluster Analysis c STEIN

55 MinCut-Clusteranalyse Definition 19 (Cut, minimaler Cut) Sei G = V, E, w ein Graph mit nicht-negativer Gewichtsfunktion w; weiterhin sei U V eine nichtleere Teilmenge der Knotenmenge V und Ū = V \ U. Der Cut zwischen U und Ū ist wie folgt definiert: cut({u, Ū}) = {{u, v} {u, v} E, u U, v Ū} ML: X-85 Cluster Analysis c STEIN

56 MinCut-Clusteranalyse Definition 19 (Cut, minimaler Cut) Sei G = V, E, w ein Graph mit nicht-negativer Gewichtsfunktion w; weiterhin sei U V eine nichtleere Teilmenge der Knotenmenge V und Ū = V \ U. Der Cut zwischen U und Ū ist wie folgt definiert: cut({u, Ū}) = {{u, v} {u, v} E, u U, v Ū} Weiterhin bezeichne w({u, Ū}) das Gewicht oder die Kapazität von cut({u, Ū}): w({u, Ū}) = w(e) e cut({u,ū}) cut({u, Ū}) heißt minimaler Cut von G (Minium Capacity Cut), wenn für alle Zerlegungen {W, W }, W, W gilt: w({u, Ū}) w({w, W }) ML: X-86 Cluster Analysis c STEIN

57 MinCut-Clusteranalyse ML: X-87 Cluster Analysis c STEIN

58 MinCut-Clusteranalyse ML: X-88 Cluster Analysis c STEIN

59 MinCut-Clusteranalyse ML: X-89 Cluster Analysis c STEIN

60 MinCut-Clusteranalyse ML: X-90 Cluster Analysis c STEIN

61 Bemerkungen: Jede Aufteilung erfordert die Berechnung eines Cuts minimaler Kapazität. Der beste bekannte Algorithmus zur Berechnung eines minimalen Cuts ist in O( V E + V 2 log V ). [Nagamochi/Ono/Ibaraki 1994] Es sind V Berechnungen eines Minimum-Capacity-Cuts notwendig, um eine vollständige Zerlegung (= ein Knoten pro Cluster) herzustellen. Der Aufwand zur Berechnung eines Minimum s-t-cut ist in O( V 2 log( E ). Der Aufwand zur Berechnung eines Balanced Min-Cut (k-way, k 2) ist NP-vollständig. ML: X-91 Cluster Analysis c STEIN

62 Splitting-Problematik bei MinCut-Clusteranalyse ML: X-92 Cluster Analysis c STEIN

63 Splitting-Problematik bei MinCut-Clusteranalyse ML: X-93 Cluster Analysis c STEIN

64 Splitting-Problematik bei MinCut-Clusteranalyse Ausweg: Normalisierung der Cut-Kapazität bzgl. der Größe der Knotenmengen. ML: X-94 Cluster Analysis c STEIN

65 Splitting-Problematik bei MinCut-Clusteranalyse Normalisierte Cut-Kapazität: w({u, Ū}) = w({u, Ū}) w({u, V }) w({u, Ū}) + w({ū, V }) Illustration von w: w = 2/9 + 2/ w = 2/6 + 2/12 = 0.5 w = 2/2 + 2/16 = ML: X-95 Cluster Analysis c STEIN

66 Bemerkungen: Die Bestimmung eines Cuts minimaler, normalisierter Kapazität ist NP-vollständig. Es gibt effiziente Näherungslösungen zur Berechnung von w({u, Ū}). Das Verfahren wird angewandt im Bereich der Bildsegmentierung und der Gene-Expression-Cluster-Analyse. [Shi/Malik 2000] ML: X-96 Cluster Analysis c STEIN

67 Kombination hierarchischer Verfahren Das System Chameleon kombiniert die Schritte Graphausdünnung, Graphpartionierung und hierarchische Cluster-Analyse [Karypis/Han/Kumar 2000] : ML: X-97 Cluster Analysis c STEIN

68 Kombination hierarchischer Verfahren Das System Chameleon kombiniert die Schritte Graphausdünnung, Graphpartionierung und hierarchische Cluster-Analyse [Karypis/Han/Kumar 2000] : Die Clusterdistanz d C (C, C ) ist definiert als d C = 1 R I (C, C ) (R C (C, C )) α ML: X-98 Cluster Analysis c STEIN

69 Kombination hierarchischer Verfahren Chameleon [Karypis/Han/Kumar 2000] : Der Parameter α in d C ist vom Anwender problemabhängig zu bestimmen. ML: X-99 Cluster Analysis c STEIN

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Cluster-Analyse Einordnung Data Mining Einführung in die Cluster-Analyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-107

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Kapitel ML: X (Fortsetzung) Dichtebasierte Verfahren. Dichtebasierte Verfahren. ML: X Cluster Analysis c STEIN X.

Kapitel ML: X (Fortsetzung) Dichtebasierte Verfahren. Dichtebasierte Verfahren. ML: X Cluster Analysis c STEIN X. Kapitel ML: X (Fortsetzung) X. Cluster-Analyse Einordnung Data Mining Einführung in die Cluster-Analyse Hierarchische Verfahren Iteratie Verfahren Cluster-Ealuierung 107 Prinzipien der Fusionierung hierarchisch

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme 10 Matching-Probleme 10.1 Definition von Matching-Probleme Definition 21 [2-dimensionales Matching] Sei G = (V, E) ein ungerichteter Graph und E E. E ist ein Matching, wenn für alle Kantenpaare e 1, e

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Algorithmen II Vorlesung am

Algorithmen II Vorlesung am Algorithmen II Vorlesung am 07..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Algorithmen II Vorlesung am

Algorithmen II Vorlesung am Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum

Mehr

Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem

Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Der Dreyfus-Wagner Algorithmus für das Steiner Baum Problem Andreas Moser Dietmar Ebner Christian Schauer Markus Bauer 9. Dezember 2003 1 Einführung Der in der Vorlesung gezeigte Algorithmus für das Steiner

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

Minimal spannende Bäume

Minimal spannende Bäume http://www.uni-magdeburg.de/harbich/ Minimal spannende Fakultät für Informatik Otto-von-Guericke-Universität 2 Inhalt Definition Wege Untergraphen Kantengewichtete Graphen Minimal spannende Algorithmen

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning Kapitel ML: III III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-1 Decision Trees c STEIN/LETTMANN 2005-2011 Spezifikation von Klassifikationsproblemen

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

9 Minimum Spanning Trees

9 Minimum Spanning Trees Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne

Mehr

Algorithmen & Komplexität

Algorithmen & Komplexität Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg

Mehr

1. Klausur zur Vorlesung Algorithmentechnik Wintersemester 2008/2009

1. Klausur zur Vorlesung Algorithmentechnik Wintersemester 2008/2009 . Klausur zur Vorlesung Algorithmentechnik Wintersemester 008/009 Hier Aufkleber mit Name und Matrikelnummer anbringen Vorname: Nachname: Matrikelnummer: Beachten Sie: Bringen Sie den Aufkleber mit Ihrem

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts

Mehr

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme 12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme (Einfache) Voronoi-Diagramme: Motivation: gegeben: Raum R, darin Menge S von Objekten Frage nach Zerlegung von R in "Einflusszonen"

Mehr

3.2 Generischer minimaler Spannbaum-Algorithmus

3.2 Generischer minimaler Spannbaum-Algorithmus 3.2 Generischer minimaler Spannbaum-Algorithmus Initialisiere Wald F von Bäumen, jeder Baum ist ein singulärer Knoten (jedes v V bildet einen Baum) while Wald F mehr als einen Baum enthält do wähle einen

Mehr

Berechnung minimaler Spannbäume. Beispiel

Berechnung minimaler Spannbäume. Beispiel Minimale Spannbäume Definition Sei G pv, Eq ein ungerichteter Graph und sei w : E Ñ R eine Funktion, die jeder Kante ein Gewicht zuordnet. Ein Teilgraph T pv 1, E 1 q von G heißt Spannbaum von G genau

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Seminar Algorithmentechnik

Seminar Algorithmentechnik Seminar Algorithmentechnik Institut für Theoretische Informatik Lehrstuhl für Algorithmik I Prof. Dorothea Wagner Karlsruhe Seminar Institut Algorithmentechnik für Technologie (KIT) Fakultät für Informatik

Mehr

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG 195 Bildsegmentierung! Aufgabe: Bestimme inhaltlich zusammenhängende, homogene Bereiche eines Bildes! Weit verbreitetes Problem in der Bildverarbeitung! Viele

Mehr

3 Klassifikation wichtiger Optimierungsprobleme

3 Klassifikation wichtiger Optimierungsprobleme 3 Klassifikation wichtiger Optimierungsprobleme 3.1 Das MIN- -TSP Wir kehren nochmal zurück zum Handlungsreisendenproblem für Inputs (w {i,j} ) 1 i

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen Literatur Chris Bishop: Pattern Recognition i and Machine Learning. Jiaweii Han und Micheline Kamber: Data Mining i Concepts and Techniques. Ulrike

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 4: Flüsse

Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 4: Flüsse Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 4: Flüsse Dipl-Math. Wolfgang Kinzner 3.4.2012 Kapitel 4: Flüsse Flüsse Netzwerk, Fluss, s,t-schnitt, Kapazität MaxFlow-MinCut-Theorem Restnetzwerk

Mehr

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,...

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,... Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,..., k, so dass gilt M = k c i P i i=1 k c i = r. i=1 Diskrete Strukturen 7.1 Matchings

Mehr

Folien aus der Vorlesung Optimierung I SS2013

Folien aus der Vorlesung Optimierung I SS2013 Folien aus der Vorlesung Optimierung I SS2013 Dr. Jens Maßberg Institut für Optimierung und Operations Research, Universität Ulm July 10, 2013 Datenstrukturen für Graphen und Digraphen Graph Scanning Algorithmus

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 2011 Übungsblatt 1 16. September 2011 Grundlagen: Algorithmen und

Mehr

3. Minimale Spannbäume. Definition 99 T heißt minimaler Spannbaum (MSB, MST) von G, falls T Spannbaum von G ist und gilt:

3. Minimale Spannbäume. Definition 99 T heißt minimaler Spannbaum (MSB, MST) von G, falls T Spannbaum von G ist und gilt: 3. Minimale Spannbäume Sei G = (V, E) ein einfacher ungerichteter Graph, der o.b.d.a. zusammenhängend ist. Sei weiter w : E R eine Gewichtsfunktion auf den Kanten von G. Wir setzen E E: w(e ) = e E w(e),

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Vorlesung 2 KÜRZESTE WEGE

Vorlesung 2 KÜRZESTE WEGE Vorlesung 2 KÜRZESTE WEGE 34 Kürzeste Wege im Graphen Motivation! Heute:! Kürzeste Wege von einem Knoten (SSSP)! Kürzeste Wege zwischen allen Knotenpaaren (APSP)! Viele Anwendungen:! Navigationssysteme!

Mehr

Programmierpraktikum Algorithm Engineering (FPT-Algorithmen) Einführung

Programmierpraktikum Algorithm Engineering (FPT-Algorithmen) Einführung Programmierpraktikum Algorithm Engineering (FPT-Algorithmen) Einführung Martin Holzer Ignaz Rutter 31. Oktober 2008 Ansätze für NP-schwere Probleme 2/28 Approximative Lösungen Average-Case- statt Worst-Case-Analyse

Mehr

5.4 Hierarchische Verfahren

5.4 Hierarchische Verfahren Ziel Grundlagen Konstruktion einer Hierarchie von lustern (meist repräsentiert durch ein sog. Dendrogramm), ) so dass immer die luster mit minimaler i Distanz verschmolzen werden Dendrogramm ein Baum,

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Berechnung von Abständen

Berechnung von Abständen 3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Algorithmen für schwierige Probleme

Algorithmen für schwierige Probleme Algorithmen für schwierige Probleme Britta Dorn Wintersemester 2011/12 24. November 2011 Farbkodierung Beispiel Longest Path Longest Path gegeben: G = (V, E) und k N. Frage: Gibt es einen einfachen Pfad

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Das Problem des Handlungsreisenden

Das Problem des Handlungsreisenden Seite 1 Das Problem des Handlungsreisenden Abbildung 1: Alle möglichen Rundreisen für 4 Städte Das TSP-Problem tritt in der Praxis in vielen Anwendungen als Teilproblem auf. Hierzu gehören z.b. Optimierungsprobleme

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Kapitel 9: Lineare Programmierung Gliederung

Kapitel 9: Lineare Programmierung Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Verbesserungsheuristiken

Verbesserungsheuristiken Verbesserungsheuristiken Bestandteile der Lokalen Suche Für schwierige Optimierungsaufgaben haben Verbesserungsheuristiken eine große praktische Bedeutung. Sie starten mit Ausgangslösungen, die von z.b.

Mehr

Algorithmen für Sensornetze

Algorithmen für Sensornetze Algorithmen für Sensornetze Markus Völker 02. Februar 2010 Lokalisierung in Gebäuden Lokalisierung Ausgangssituation? Lokalisierung Ziel! Lokalisierung Signalabfall in Gebäuden Signalabfall mit ca. 1/d

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Cluster Analyse Katharina Morik, Uwe Ligges Informatik LS 8 13.7.2010 1 von 38 Gliederung Informatik LS 8 1 Lernaufgabe Cluster-Analyse Abstandsmaße Optimierungsprobleme 2 K-Means

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

21. Greedy Algorithmen. Aktivitätenauswahl, Fractional Knapsack Problem, Huffman Coding Cormen et al, Kap. 16.1, 16.3

21. Greedy Algorithmen. Aktivitätenauswahl, Fractional Knapsack Problem, Huffman Coding Cormen et al, Kap. 16.1, 16.3 581 21. Greedy Algorithmen Aktivitätenauswahl, Fractional Knapsack Problem, Huffman Coding Cormen et al, Kap. 16.1, 16.3 Aktivitäten Auswahl 582 Koordination von Aktivitäten, die gemeinsame Resource exklusiv

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Seminararbeit: K-Opt und die Lin-Kernighan-Heuristik für das allgemeine TSP

Seminararbeit: K-Opt und die Lin-Kernighan-Heuristik für das allgemeine TSP Seminararbeit: K-Opt und die Lin-Kernighan-Heuristik für das allgemeine TSP Tobias Boelter 28. Mai 2013 bei Prof. Dr. Rainer Schrader, Universität zu Köln Inhaltsverzeichnis 1 Einleitung 2 2 Lokale Suche

Mehr

KAPITEL 3 MATCHINGS IN BIPARTITEN GRAPHEN

KAPITEL 3 MATCHINGS IN BIPARTITEN GRAPHEN KAPITEL 3 MATCHINGS IN BIPARTITEN GRAPHEN F. VALLENTIN, A. GUNDERT 1. Definitionen Notation 1.1. Ähnlich wie im vorangegangenen Kapitel zunächst etwas Notation. Wir beschäftigen uns jetzt mit ungerichteten

Mehr

Computerübung zu Multivariaten Verfahren

Computerübung zu Multivariaten Verfahren Computerübung zu Multivariaten Verfahren Klaus Schliep & Klaus Hechenbichler 18. Februar 2004 Daten Bevor mit dem Einstieg in die eigentliche Anwendung von multivariaten statistischen Verfahren begonnen

Mehr

Algorithmen und Datenstrukturen (für ET/IT)

Algorithmen und Datenstrukturen (für ET/IT) Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 2018 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Organisatorisches: Keine Vorlesung nächste Woche wegen

Mehr

Kombinatorische Optimierung

Kombinatorische Optimierung Juniorprof. Dr. Henning Meyerhenke 1 Henning Meyerhenke: KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Vorlesung 16 Programm: Einführung

Mehr

Richtig oder falsch? Richtig oder falsch? Richtig oder falsch? Mit dynamischer Programmierung ist das Knapsack- Problem in Polynomialzeit lösbar.

Richtig oder falsch? Richtig oder falsch? Richtig oder falsch? Mit dynamischer Programmierung ist das Knapsack- Problem in Polynomialzeit lösbar. Gegeben sei ein Netzwerk N = (V, A, c, s, t) wie in der Vorlesung. Ein maximaler s-t-fluss kann immer mit Hilfe einer Folge von höchstens A Augmentationsschritten gefunden werden. Wendet man den Dijkstra-Algorithmus

Mehr

4.2 Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition 4.2.1

4.2 Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition 4.2.1 Allgemeines. Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition.. (a) Ein Graph G =(V, E) heißt kreisfrei, wenn er keinen Kreis besitzt. Beispiel: Ein kreisfreier Graph: FG KTuEA, TU Ilmenau

Mehr

5. Vorrangwarteschlangen - Priority Queues

5. Vorrangwarteschlangen - Priority Queues 5. Vorrangwarteschlangen - Priority Queues Priority Queues unterstützen die Operationen Insert(), Delete(), ExtractMin(), FindMin(), DecreaseKey(), Merge(). Priority Queues per se sind nicht für IsElement()-Anfragen,

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Übersicht der Vorlesung

Übersicht der Vorlesung Übersicht der Vorlesung 1. Einführung 2. Bildverarbeitung 3. orphologische Operationen 4. Bildsegmentierung 5. erkmale von Objekten 6. Klassifikation 7. Dreidimensionale Bildinterpretation 8. Bewegungsanalyse

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK

Voronoi-Diagramme. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 29.05.2011 Das Postamt-Problem b(p, q) = {x R 2 : xp = xq } p q h(p, q) h(q, p) = {x :

Mehr

A linear-regression analysis resulted in the following coefficients for the available training data

A linear-regression analysis resulted in the following coefficients for the available training data Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients

Mehr

Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)).

Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). 8. Untere Schranken für Sortieren Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). Werden nun gemeinsame Eigenschaften dieser Algorithmen untersuchen. Fassen gemeinsame

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Dr. Hanjo Täubig Lehrstuhl für Eziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester 2007/08

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen Lerneinheit : Kürzeste Pfade in Graphen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 016.6.01 Einleitung Diese Lerneinheit beschäftigt

Mehr

Combinatorial optimisation and hierarchical classication

Combinatorial optimisation and hierarchical classication Universität zu Köln Zentrum für Angewandte Informatik Prof. Dr. R. Schrader Seminar im Wintersemester 2007/2008 Ausgewählte Kapitel des Operations Research Combinatorial optimisation and hierarchical classication

Mehr

Inhaltsverzeichnis 1. EINLEITUNG...1

Inhaltsverzeichnis 1. EINLEITUNG...1 VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5

Mehr