VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
|
|
- Ursula Steinmann
- vor 5 Jahren
- Abrufe
Transkript
1 VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut AIFB, 00. Alle Rechte vorbehalten. Nachdruck oder photomechanische Wiedergabe nur mit Genehmigung des Verfassers. Zuwiderhandlungen unterliegen den strafrechtlichen Bedgungen des Urheberrechtgesetzes. VII. Clusteranalyse VII.. Eleitung (Bacher 994) geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht: Zusammenfassung von Objekten homogene Gruppen (Cluster, Klassen) Ziel dabei ist ee möglichst große Homogenität nerhalb der Cluster Heterogenität zwischen den Clustern 3 4
2 geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht: geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht: 5 6 geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht: Clusteranalyseverfahren unterscheiden sich u.a. den Zuordnungsprzipien exakte Zuordnung probabilistische Zuordnung possibilistische Zuordnung den benutzten Informationen partielle Verfahren paarweiser Vergleich globale Verfahren Distanz aller Objekte wird für Clusterbildung genutzt. der Vorgehensweise hierarchisch partitionierend heuristisch objective function based begrifflich 7 8
3 Zuordnungsprzipien exakte Zuordnung Objekte werden mit Wahrschelichkeit eem Cluster (nicht-überlappende Zuordnung) oder mehreren Clustern (überlappende Zuordnung) zugeordnet. probabilistische Zuordnung Objekte werden mit eer zwischen 0 und liegenden Wahrschelichkeit eem oder mehreren Clustern zugeordnet Verallgemeerung der determistischen Verfahren possibilistische Zuordnung Objekte werden über ee Zugehörigkeitsfunktion, die Werte zwischen 0 und annehmen kann, jedem Cluster zu eem bestimmten Zugehörigkeitsgrad zugeordnet. 9 Vorgehensweise legt fest, nach welcher Vorgehensweise e Cluster erzeugt wird. Partitionierende Verfahren zufällig gewählte Anfangspartition (Menge nicht-überlappender Cluster) der zu clusternden Objekte wird schrittweise verbessert durch Neuzuordnung der Objekte den Clustern im folgenden betrachtet: K-Means Verfahren EM-Algorithmus heuristische Vorgehensweise Dimensionalität der zu clusternden Objekte wird reduziert, um ee auf zwei bis drei Dimensionen reduzierte graphische Darstellung zu erreichen objective function based ke prozedurales Vorgehen wie bei hierarchischen Verfahren Basis bildet die Objektfunktion, die jedem Cluster een Qualitätswert zuordnet 0 hierarchische Verfahren hierarchische Verfahren werden unterschieden agglomerative Verfahren Cluster werden bottom-up erzeugt, ausgehend von eelementigen Clustern, den zu clusternden Objekten divisive Verfahren Cluster werden top-down erzeugt, ausgehend von eem Cluster, das alle zu clusternden Objekte enthält Hierarchisch agglomerativer Algorithmus bei n geg. Objekten werden (n-) überlappungsfreie Clusterlösungen berechnet Algorithmus kann mit verschiedenen Ähnlichkeitsmaßen bzw. Unähnlichkeitsmaßen arbeiten, u.a. Complete Lkage Sgle Lkage divisive Verfahren waren der Vergangenheit eher weniger bedeutend, gewnen aber gerade für das Clusterg von Dokumenten an Bedeutung
4 Complete Lkage Unähnlichkeit zwischen zwei Clustern wird durch das Maximum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c, c Cluster, d Abstandsmaß: D( c, c ) max d( x, ) y xc, yc hohe Anforderungen an die Homogenität der zu bildenen Cluster Sgle Lkage Unähnlichkeit zwischen zwei Clustern wird durch das Mimum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c, c Cluster, d Abstandsmaß: D( c, c ) m d( x, ) y xc, yc gerge Anforderungen an die Homogenität der zu bildenen Cluster 3 4 Kapitel VI. Clusteranalyse Algorithmus (hierarchisch agglomerativ) Beispiel (Bacher 994): geg. Datenmatrix mit 9 Objekten und Variablen Schritt : Schritt : Schritt 3: Jedes Klassifikationsobjekt bildet zu Begn e selbständiges Cluster. Setze daher die Clusterzahl K gleich der Klassifikationsobjektzahl n. Suche das Clusterpaar ({p},{q}) mit der größten Ähnlichkeit bzw. der gergsten Unähnlichkeit, verschmelze das Clusterpaar zu eem neuen Cluster {p,q} und reduziere die Clusterzahl K um (K=K-). Prüfe, ob K gleich ist. Ist das der Fall, beende den Algorithmus, da alle Klassifikationsobjekte eem ezigen Cluster angehören. Bei ne fahre mit Schritt 4 fort. Datenmatrix X X A - B - C - - D 0 - E - F G 3 H 4 I 4 3 Matrix der quadrierten euklidischen Distanzen A B C D E F G H I Schritt 4: Berechne die Ähnlichkeiten bzw. Unähnlichkeiten des neu gebildeten Clusters {p,q} zu den verbleibenden Clustern k. x Schritt 5: Gehe zu Schritt. I B A F G H 5 C D E x 6
5 VII.. K-Means Verfahren K-Means ist e partitionierendes, globales Verfahren mit exakter Zuordnung, das Clusterzentren zur Clusterbildung verwendet Grundidee: Annahme: Objekte g durch numerische Variablen j charakterisiert, d.h. jedes Objekt ist e Punkt im R m berechne die Clusterzentren für K Cluster derart, dass Streuungsquadratsumme den Clustern e Mimum ist. seik = Anzahl der zu bildenden Cluster (k =,..., K) m = Anzahl der Variablen (j =,..., m) x gj = Wert der Variablen j für Objekt g = Clusterzentrum für Variable j im Cluster k x kj damit: K SQ ( x x ) m (*) k gk j gj kj da für die quadrierte euklidische Distanz zwischen Objekt g und Clusterzentrum k gilt, dass d ( x x ), g, k j gj kann Mimierungsaufgabe (*) spezifiziert werden als SQ ( K) d g, k k gk da die Gesamtstreuungsquadratsumme geg. Objektmenge konstant ist, ergibt sich mit für ee SQ (K) : Streuungsquadratsumme den Clustern SQ zw (K) : Streuungsquadratsumme zwischen den Clustern SQ ( K) SQ SQ ( K) zw ges Mimierung von SQ (K) ist gleichbedeutend zur Maximierung von SQ zw (K) kj m SQ ges 7 8 SQ SQ zw ges ( K) SQ SQ ( K) SQ zw ges ( K ) SQ ( K ) SQ ges x gj g j SQK Ohne Eschränkung der Allgemeheit: Annahme, dass Daten um (0,...0) zentriert sd ( x x ) gj kj k gk j SQ zw K x kj k k gk j k x k 9 K-Means Alogrithmus: () Lege Clusteranzahl K fest () Wahl von Startwerten für die Clusterzentren, z.b. zufällig gewählte Werte (3) Zuordnung der Objekte zu den Clusterzentren: jedes Objekt g wird jenem Clusterzentrum k zugeordnet, zu dem die quadrierte euklidische Distanz mimal ist. g k k arg m(d damit: SQ ( K) wird mimiert, d g, k k gk da jedem Schritt SQ ( K) m d berechnet wird. k,...,k g k,..., K g, k g, k ) 0
6 Kapitel VI. Clusteranalyse (4) Neuberechnung der Clusterzentren: nach der Zuordnung aller Objekte zu den K Clustern werden die Clusterzentren neu berechnet: sei n kj = Zahl der Objekte des Clusters k mit gültigem Angaben der Variablen j xgj damit: xkj gk nkj x kj ist Mittelwert für Variable j über alle Objekte g Cluster k (5) Iteration: sofern sich im Schritt (3) die Zuordnung der Objekte geändert hat, wird bei Schritt (3) fortgefahren; andernfalls endet der Algorithmus Beispiel (Bacher 994) geg. Datamatrix mit 9 Objekten und Variablen: Datenmatrix Matrix der quadrierten euklidischen Distanzen X X A B C D E F G H I A - 0 B - 0 C D E F G H I Bildung von 3 Clustern (K = 3) Anwendung des K-Means Algorithmus auf geg. Objekte Erläuterungen:. Iteration Clusterzentren. Iteration Clusterzentren 3. Iteration Clusterzentren (Startwerte) (Startwerte) (Startwerte) C C C3 C C C3 C C C3 X -,00 -,00 -,00 -,00,40 0,00 -,50 3,5 0,00 X,00,00 -,00,00,0 -,33,50,5 -,33 X X Zuord. Zuord. Zuord. A - 0,00,00 0,00 C* 0,00 0,80 9,43 C 0,50 9,3 9,43 C B -,00 0,00 6,00 C*,00,60,09 C* 0,50 8,3,09 C C - - 0,00 6,00 0,00 C3* 0,00 9,0,45 C3,50 36,3,45 C3 D 0-8,00 0,00,00 C3* 8,00 6,00 0, C3 8,50,3 0, C3 E - 3,00 3,00 5,00 C3* 3,00,0, C3,50 5,63, C3 F 7,00 9,00 5,00 C* 7,00 0,0 5,09 C,50,63 5,09 C G 3 6,00 6,00 3,00 C* 6,00 0,40 0,09 C 0,50 0,3 0,09 C H 4 37,00 5,00 4,00 C* 37,00,60 7,09 C 30,50 0,63 7,09 C I ,00 6,00 50,00 C* 40,00 3,0 34,75 C 3,50,3 34,75 C neue Clusterzentren neue Clusterzentren neue Clusterzentren C C C3 C C C3 C C C3 -,00,40 0,00 -,50 3,5 0,00 -,50 3,5 0,00,00,0 -,33,50,5 -,33,50,5 -,33 Zahl der Vertauschungen = 9 Zahl der Vertauschungen = Zahl der Vertauschungen = 0 die Objekte A, B, C werden als Startwerte für Clusterzentren der Cluster C, C, C3 gewählt die restlichen Objekte werden jenem Cluster zugeordnet, zu dem es die kleste quadrierte euklidische Distanz besitzt (fettgedruckte Werte) das neue Clusterzentrum für C ergibt sich der. Iteration (C besteht aus den Objekten B, F, G, H, I): x ( 3 4 4) / 5.40 x ( 3) / 5.0 der. Iteration wird das Objekt B eem neuen Cluster zugeordnet: C der 3. Iteration tritt kee Veränderung der Zuordnung mehr auf, Algorithmus stoppt (Bacher 994) 3 4
7 Bemerkung: jedem Iterationsschritt wird die Streuungsquadratsumme den Clustern SQ (K) kleer oder bleibt gleich Algorithmus fdet für SQ (K) e lokales Mimum. D.h. das Ergebnis ist von den gewählten Startwerten abhängig!! D. h. diese sd geeignet auszuwählen und das Ergebnis ist ggf.hterher kritisch zu hterfragen. diese Variante des K-Means Algorithmus wurde 965 von Forgy entwickelt und wird deshalb auch als Forgy Methode bezeichnet zu dieser Basis-Variante des Algorithmus existieren verschiedene Modifikationen K-Means können auch andere Distanzmaße verwendet werden (damit ist auch Behandlung nicht-numerischer Variablen möglich, wenn für diese die Durchschnittsbildung Bedeutung trägt. (Vorsicht z.b. bei Schulnoten!)) VII..3 EM Algorithmus EM-Algorithmus (Expected-Maximum-Likelihood-Estimator) ist ee Verallgemeerung des K-Means-Verfahrens: Zugehörigkeit ees Objektes g zu eem Cluster k ist mit eer bestimmten Wahrschelichkeit gegeben probabilistisches Verfahren im Schritt (3) des K-Means-Algorithmus wird für jedes Objekt g die Zuordnungswahrschelichkeit zum Cluster k berechnet im Schritt (4) werden die Klassenzentren Maximum-Likelihood-Schätzung berechnet x kj als Der Aufwand pro Iteration ist lear G, d.h. der Algorithmus hat gerge Komplexität, da nicht alle G ² Distanzen berücksichtigt werden müssen. 5 6 Annahmen für EM-Algorithmus: den zu clusternden Objekten liegen K unbekannte (= nicht direkt beobachtbare) Klassen (Cluster) zugrunde (auch latente Klassen genannt) diese Klassen erklären die beobachteten Variablen jede Klasse k besitzt jeder Variablen j ee Normalverteilung mit Mittelwert kj(klassenzentrum) und Varianz kj (d.h. entspricht K-Means) kj x kj jeder Klasse k sd alle Variablen voneander unabhängig (Mitchell 997) 7 8
8 Beispiel: g Objekte werden durch latente Klassen erzeugt (K = ) x gj beobachteter Wert von Objekt g für Variable j ( beobachtete Variable: j = im folgenden: verefacht zu ) x g beide Klassen haben Normalverteilung mit identischer Varianz gesucht ist Hypothese h Normalverteilungen (, ), d.h. Mittelwerte der beiden für jeden Mittelwert ist Maximum-Likelihood-Schätzung sees Wertes gleichbedeutend mit Mimierung der quadrierten Fehler: g i ( x i ) m (für, ) x g (Mitchell 997) ( xi, zi, zi) mit beobachteter Wert von Objekt i (i =,..., g) (Instanz) geben an, welche der beiden Normalverteilungen zur Generierung von x i verwendet wurden ist: sd die nicht beobachteten Variablen i-tes Objekt kann beschrieben werden durch x i : z i z :, i z ie : z ie { 0,} für e, z ie : x i ist mit Normalverteilung e erzeugt worden Werte von z ie werden durch den EM-Algorithmus sukzessive geschätzt unter Verwendung der Hypothese h, ) ( Schritt (3): berechne Erwartungswert E[ z ie ] unter Verwendung der Hypothese h Schritt (4): berechne neue Maximum-Likelihood-Schätzung h (, ) unter Verwendung der Erwartungswerte E[ z ie ]; h wird neue Hypothese h 9 30 E[ z ie ] ist Wahrschelichkeit, daß beobachteter Wert von e-ter Normalverteilung erzeugt worden ist: E[ z ie ] p( x x ) i n ( x ) i e n p( x x ) ( x ) i n damit: E[ z ie ] kann aus, berechnet werden e kann neu berechnet werden durch g e E[ zie ] xi ( e,) g i d.h. ist gewichteter Mittelwert der x e x i e, e i i e n x i EM-Algorithmus berechnet gesuchte Mittelwerte der Normalverteilungen iterativ - ausgehend von Startwerten für die Mittelwerte (Klassenzentren) Algorithmus stoppt, sobald die Verbesserung der Schätzwerte kleer als e vorgegebener Schwellwert ist EM-Algorithmus fdet ee Hypothese h, bei der der Fehler e lokales Mimum erreicht. EM-Algorithmus kann i.a. mit k Normalverteilungen und m beobachteten Variablen defiert werden, siehe (Mitchell 997), (Bacher 994) 3 3
VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrClusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrData Mining. Klassifikation. Assoziationsregeln. Clustering
Data Mining Klassifikation Assoziationsregeln Clustering Klassifikationsregeln Vorhersageattribute V1, V2,..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1) P2(V2)... Pn(Vn) A = c Prädikate
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
MehrClusteranalyse Hierarchische Verfahren
Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrClustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003
Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts
MehrClusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrZiel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.
8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrKap. 5 Spatial (räumliches) Data Mining
Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrMultivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
MehrOPT Optimierende Clusteranalyse
Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrProgrammierkurs Python II
Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrMaschinelles Lernen in der Bioinformatik
Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
Mehr3.Wiederholung: Toleranzbereiche Für EX Geg:
3.Wiederholung: Toleranzbereiche Für EX Geg: Vl. 24.2.2017 Schätzfunktion für Güte: Ist X Problem: Feb 17 13:21 > Wir berechnen Bereiche (Toleranzbereiche) für sind untere und obere Grenzen, berechnet
MehrAuswahl repräsentativer Netznutzungsfälle zur Bewertung zukünftiger Systemzustände in der Betriebsplanung elektrischer Übertragungsnetze
Auswahl repräsentativer Netznutzungsfälle zur Bewertung zukünftiger Systemzustände in der Betriebsplanung elektrischer Übertragungsnetze Oliver Scheufeld, Lukas Kalisch, Andreas Moormann, Simon Krahl,
MehrJ.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell
Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen Literatur Chris Bishop: Pattern Recognition i and Machine Learning. Jiaweii Han und Micheline Kamber: Data Mining i Concepts and Techniques. Ulrike
MehrAlgorithmen zur Kundensegmentierung
Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Mehr1 Beispiele multivariater Datensätze... 3
Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
Mehr1 Einleitung. 2 Clustering
Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick
MehrAnalyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung
Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Zusammenfassung der Diplomarbeit an der Hochschule Zittau/Görlitz Maria Kiseleva Motivation
MehrKapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien
Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Eine Clusteranalyse dient allgemein dazu, eine Menge von Objekten in Gruppen (Cluster) zu unterteilen, wobei jede Gruppe in sich möglichst
MehrClusteranalyse und Display-Methoden
Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich
MehrStatistische Eigenschaften von Clusterverfahren
Universität Potsdam Mathematisch-Naturwissenschaftliche Fakultät Institut für Mathematik Diplomarbeit Statistische Eigenschaften von Clusterverfahren Andrea Schorsch Matrikelnummer: 715466 Sommersemester
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
MehrClustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrMaschinelles Lernen II
Maschinelles Lernen II! Vorlesung Computerlinguistische Techniken Alexander Koller! 30. Januar 2015 Heute Überwachtes Lernen: Maximum-Entropy-Modelle Unüberwachtes Lernen: Clustering Maximum Entropy: Motivation
Mehr2 Einlesen von Datensätzen
2 Einlesen von Datensätzen 2.1 Einlesen von SPSS-Datenfiles SPSS bietet die beiden kompatiblen Datenformate.sav und.por zum Speichern und Einlesen von Dateien an. Daten dieses Formats können problemlos
MehrClusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI
Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte
Mehrp = h n (K)= Juli vl smart vp qk notebook Praktische Lösung des Problems: mit den Werten
I. Eigenschaften von Schätzfunktionen Wir wollen den unbekannten Anteil p von Autos ermitteln, die mit Katalysator fahren. Mathematisch können wir das Problem wie folgt beschreiben: Sei X der Autotyp eines
MehrClusteranalyse für Netzwerke
Alexandra Rebecca Klages Clusteranalyse für Netzwerke PETER LANG Internationaler Verlag der Wissenschaften Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen 7 2.1 Netzwerktheorie 7 2.1.1 Definitionen 7 2.1.2
MehrClusteranalyse. Anwendungsorientierte Einführung in Klassifikationsverfahren. von. Universitätsprofessor Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung in Klassifikationsverfahren von Universitätsprofessor Dr. Johann Bacher Johannes-Kepler-Universität, Linz Akademischer Rat Dr. Andreas Pöge Universität Bielefeld
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
MehrKapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrProduktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien
Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrKorrektur des Bias Feldes in MR Aufnahmen
Sebastian Brandt Korrektur des Bias Feldes in MR Aufnahmen Folie 1 Korrektur des Bias Feldes in MR Aufnahmen Seminar Medizinische Bildverarbeitung Sebastian Brandt sbrandt@uni-koblenz.de Universität Koblenz-Landau
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler
Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler. Wiederholung
Konzepte II Netzwerkanalyse für Politikwissenschaftler Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum geht es? Bisher: Eigenschaften einzelner Punkte bzw. des Netzwerkes Definiert
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
Mehr3. Analyse der Kamerabewegung Video - Inhaltsanalyse
3. Analyse der Kamerabewegung Video - Inhaltsanalyse Stephan Kopf Bewegungen in Videos Objektbewegungen (object motion) Kameraoperationen bzw. Kamerabewegungen (camera motion) Semantische Informationen
MehrInstitut für angewandte Datenanalyse GmbH
Institut für angewandte Datenanalyse GmbH Latent Class Cluster Analysen (LCCA) Was erwartet Sie nachfolgend? Einführung Klassifizierung der Segmentierungs-Verfahren Case Study Urlaubsreisen Das Prinzip
Mehr