Methoden zur Cluster - Analyse

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Clusteranalyse: Gauß sche Mischmodelle

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Inhaltliche Planung für die Vorlesung

Exploration und Klassifikation von BigData

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg

Projekt Maschinelles Lernen WS 06/07

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

2. Datenvorverarbeitung

Seminar zum Thema Künstliche Intelligenz:

Textmining Clustering von Dokumenten

Signalverarbeitung 2. Volker Stahl - 1 -

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

Proseminar: Web-Performance

Data Warehousing und Data Mining

Klassifikation im Bereich Musik

weitere Modelle und Methoden

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Kapitel 5: Clustering

Kapitel 5: Ensemble Techniken

Theoretische Informatik 1

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

8. Clusterbildung, Klassifikation und Mustererkennung

Data Mining und Knowledge Discovery in Databases

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Evolutionäre Algorithmen in der Spracherkennung

Numerische Methoden und Algorithmen in der Physik

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Streaming Data: Das Modell

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Principal Component Analysis (PCA)

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Technische Universität

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Proseminar - Data Mining

Data Mining im Einzelhandel Methoden und Werkzeuge

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Data Mining - Wiederholung

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Verbesserungsheuristiken

6. Multivariate Verfahren Zufallszahlen

Vorlesung 3 MINIMALE SPANNBÄUME

Computerlinguistische Textanalyse

Schriftlicher Test Teilklausur 2

Was bisher geschah. 1. Zerlegung in monotone Polygone 2. Triangulierung der monotonen Teilpolygone

Grundgesamtheit und Stichprobe

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Mittelwert und Standardabweichung

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Ein Algorithmus für die

Clustering Seminar für Statistik

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Einführung in die Bioinformatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Algorithmen und Datenstrukturen 1

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

1.5 Berechnung von Rangzahlen

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

ADS: Algorithmen und Datenstrukturen 2

in vielen technischen und wissenschaftlichen Anwendungen erforderlich: hohe Präzision große Dynamik möglich durch Verwendung von Gleitkommazahlen

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Methoden der Werkstoffprüfung Kapitel I Grundlagen. WS 2009/2010 Kapitel 1.0

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Einführung in die Bioinformatik

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall Hochschule Furtwangen

Grundlegende Eigenschaften von Punktschätzern

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Seminar aus Informatik

Algorithmische Bioinformatik 1

antiproportionale Zuordnungen mit Anwendungen

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Signalverarbeitung 2. Volker Stahl - 1 -

Einführung in die C++ Programmierung für Ingenieure

Kern- und Schulcurriculum Mathematik Klasse 5/6. Stand Schuljahr 2009/10

Kapitel 7. Crossvalidation

3. Das Reinforcement Lernproblem

Large-Scale Image Search

Selected Topics in Machine Learning and Reverse Engineering

Neue Wege Klasse 6 Schulcurriculum EGW

Routing Algorithmen. Begriffe, Definitionen

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Latente Dirichlet-Allokation

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

Flussdiagramm / Programmablaufplan (PAP)

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Geometrische Algorithmen

Maschinelles Lernen in der Bioinformatik

Transkript:

Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics K4 1/14

Einführung Cluster - Analyse Finde ähnliche Strukturen in großen Datensätzen Cluster. Ordne jedes Objekt einem Cluster zu Clustering. k-means-algorithmus Learning Vector Quantization EM-Algorithmus k-nearest-neighbor Klassifikation Beziehung zw. Eigenschaften der Objekte und Klassenzuordnung unbekannt! Als black box Algorithmen zur Klassifikation und Mustererkennung genutzt. Machine learning in bioinformatics K4 2/14

k-means-algorithmus k-means-algorithmus.. finde Cluster und deren Clusterzentren in einer Menge ungelabelter Objekte. Gegeben: initiale Menge an Zentren, alterniere die folgenden Schritte: 1. Zentren identifiziere Teilmenge an Trainingspunkten (Cluster), die näher an diesem Zentrum liegen als an allen anderen 2. berechne Mittelwert aller Eigenschaften der Datenpunkte neues Zentrum des Clusters Iteriere bis Algorithmus konvergiert. Machine learning in bioinformatics K4 3/14

k-means-algorithmus Beispiel: Ein Durchlauf des k-means Algorithmus zur Bestimmung von 3 Gruppen. Zufällige Wahl der initialen Clusterzentren Ordne Objekte (Rechtecke) den ihnen am nächsten liegenden Clusterzentren zu Neuberechnung der Zentren anhand neuer Zuordnung Neuverteilung der Objekte zu den Clusterzentren die am nächsten liegen Machine learning in bioinformatics K4 4/14

k-means-algorithmus k-means mit Prototypen Bisher: Cluster definiert durch Zentrum, Objekte nach min. Abstand zum Zentrum zugeordnet. Problem: Ausreiser! Lösungsansatz: Einführung von R Prototypen für jede Klasse K Führe k-means in jeder Klasse einzeln durch um R Prototypen zu finden R Zentren von R Sub-Klassen jeder Klasse! Label jeden der K R Prototypen entspr. der zugehörigen Klasse Klassifiziere ein Objekt x zu der Klasse mit nächstliegenden Prototyp Machine learning in bioinformatics K4 5/14

k-means-algorithmus k-means mit Prototypen Problem: Einige der Prototypen zu nah an den Klassengrenzen Klassifizierungsfehler! Warum? Bei Einzeldurchführung von k-means, Einfluss benachbarter Klassen nicht berücksichtigt. Lösung: Benutze alle Datenpunkte um Prototypen zu bestimmen! Machine learning in bioinformatics K4 6/14

Learning Vector Quantization - LVQ Learning Vector Quantization - LVQ Idee: Trainingspunkte ziehen richtige Prototypen an und stoßen falsche ab. 1. Wähle R initiale Prototypen für jede Klasse m 1 (k), m 2 (k),..., m R (k), k = 1, 2,..., K 2. Wähle ein Trainingsobjekt x i zufällig (Sample mit Zurücklegen!), m j (k) ist nächster Prototyp zu x i a) Falls x i in Klasse k, verschiebe Prototyp in Richtung x i : b) sonst, schiebe Prototyp von x i weg: m j (k) m j (k) + ɛ(x i m j (k)) m j (k) m j (k) ɛ(x i m j (k)) 3. Wiederhole 2, wobei Lernrate ɛ mit jeder Iteration Richtung 0 reduziert wird. Machine learning in bioinformatics K4 7/14

Learning Vector Quantization - LVQ Bild: k-means mit 5 Prototypen Bild: LVQ, gestartet mit k-means Lösung. Prototypen wurden von den Klassengrenzen weggeschoben. Machine learning in bioinformatics K4 8/14

EM Algorithmus Gauss sche Mischverteilungen - EM Algorithmus Ähnlich k-means und LVQ, zur Bestimmung weicher Klassengrenzen. Jedes Cluster durch Gaussverteilung mit Centroid und Covariancematrix beschrieben. 1. E-Schritt: Jeder Beobachtung ein Gewicht für jedes Cluster zugewiesen, entspr. der Verteilung Punkte nahe Centroid - Gewicht nahe 1 für dieses Cluster und 0 für alle anderen, Punkte zwischen Centroids bekommen entspr. Gewichtsverteilung 2. M-Schritt: Neuberechnung von Centroids und Covarianzen für jedes Cluster EM Algorithmus weiche Clustering Methode Machine learning in bioinformatics K4 9/14

EM Algorithmus Bild: k-means mit 5 Prototypen Bild: EM Algorithmus, gestartet auf k-means Lösung. Klassengrenzen grob ähnlich, aber für Gaussian Model weich! Obwohl beide Methoden einen grünen Prototyp angeben, kann Gaussian Model diese Region ignorieren. Machine learning in bioinformatics K4 10/14

k-nearest-neighbor Klassifikation k-nearest-neighbor Klassifikation Speicherbasierte Methode, welche kein trainiertes Model vorraussetzt. Prinzip: Gegeben ein Objekt x 0 Finde k Trainingsobjekte x ( r), r = 1,..., k, die am nächsten an x 0 liegen Klassifiziere nach Mehrheitsprinzip zwischen den k Nachbarn Geeignet für Probleme bei denen: viele mögliche Prototypen per Klasse Klassengrenzen sehr unregelmäßig Vielfältige Anwendung u.a. in Handschrifterkennung, Analyse von Satellitenbildern und EKG Mustern. Machine learning in bioinformatics K4 11/14

k-nearest-neighbor Klassifikation Bild: k-means mit 5 Prototypen Bild: 15-nearest Neighbor Entscheidungsgrenze weicher als bei k-means Klassifikationen. Machine learning in bioinformatics K4 12/14

k-nearest-neighbor Klassifikation Bild: k-means mit 5 Prototypen Bild: 1-nearest Neighbor Beziehung zu Protoyp-Methoden: k Trainingsobjekt(e) entsprechen 1 Prototyp. Machine learning in bioinformatics K4 13/14

k-nearest-neighbor Klassifikation How to choose k? Problem: kleines k Bias klein, aber Varianz hoch! Lösungsansatz: k = 1 k + + solange Fehlerrate und Varianz sich verbessern Abhängig vom Problem erhält man verschiedene Werte für k. Machine learning in bioinformatics K4 14/14