GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems



Ähnliche Dokumente
Exploration und Klassifikation von BigData

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

down-vorgehen bei Anforderungsanalysen als notwendige Ergänzung zum Bottom-up

Text-Mining: Einführung

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung

Simulation LIF5000. Abbildung 1

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Software Survivability

Einführung in das Arbeiten mit MS Excel. 1. Bearbeitungs

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs

W-Rechnung und Statistik für Ingenieure Übung 11

Übungsblatt Teiler, Vielfache, Teilbarkeit und Primzahlen Klasse 6

Evolutionary Dilemmas in a Social Network

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Die Wahlpflichtfächer. Operations Research Statistik/Ökonometrie. Optimierung linearer Modelle Statistische Analyseverfahren

Energiemanagementsysteme

Anwendung: Multiplikatoren-Report

Wie Google Webseiten bewertet. François Bry

Praktikum am 16. April 2008 Variablen

Verbesserung der häuslichen Versorgung von Palliativpatienten durch Unterstützung pflegender Angehöriger

Modul 7: Geschäftsprozesse, SLA, ITIL und CMDB (Fortsetzung)

Erwin Grüner

Ökonomische Auswirkungen der Baumartenwahl unter Berücksichtigung klimatisch bedingter Risiken

Schleswig-Holstein Kernfach Mathematik

Einführung in die Bioinformatik

Fuzzy Logik und Genetische Algorithmen für adaptive Prozesskontrolle

D a s P r i n z i p V o r s p r u n g. Anleitung. - & SMS-Versand mit SSL (ab CHARLY 8.11 Windows)

Elternzeit Elternzeit (EZ)

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Mustererkennung in Energieverbrauchsdaten

Lernen neuer Malware-URL-Muster in einem Hostblocking-System

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

R ist freie Software und kann von der Website.

Clustering Seminar für Statistik

Schwerpunkt Statistik

KOSTENTRÄGER VERWALTUNG / ZUWEISUNG

Einführung in die Informatik

Wärmebildkamera. Arbeitszeit: 15 Minuten

Probabilistisches Tracking mit dem Condensation Algorithmus

Funktionale GUI-Programmierung in Haskell mit Grapefruit

Oversampling vermögender Haushalte PHF-Studie Private Haushalte und ihre Finanzen (PHF)

1 Belastung. 1.1 Standortbestimmung 1.2 Belastungsvorhersage 1.3 Favoriten

Klausur zur Vorlesung Stochastische Modelle in Produktion und Logistik im SS 2010

Kapitel MK:IV. IV. Modellieren mit Constraints

WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer

Wie findet das Navi den Weg?

Copyright 2014 ibb Konstruktionsdienstleistungs GmbH. All rights reserved.

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall Hochschule Furtwangen

Thüringen, Bayern, Sachsen, Mecklenburg-Vorpommern und Baden-Württemberg vorn

Energieeffiziente Empfänger in Sensornetzwerken

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Scala kann auch faul sein

TEMPLATE SERVICEKATALOG

Informationsveranstaltung Ende Q1.2

Application Requirements Engineering

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Stichprobenauslegung. für stetige und binäre Datentypen

Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial

Dreamweaver 8 Einführung

Architektur des agimatec-validation Frameworks

Der Anspruch an eine ethische Nutzen- und Kostenbewertung

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Media Teil III. Begriffe, Definitionen, Übungen

GS-Buchhalter/GS-Office 2015 Saldovorträge in folgenden Wirtschaftsjahren erfassen

KI im Weltall: Der Remote Agent

Installation von horizont 4 bei Verwendung mehrerer Datenbanken

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

1.2 Beweis, Theorien, Hypothesen und wissenschaftliche Methodik 9

7.3 Einrichtung 13. Monatslohn. Auszahlung Ende Jahr / Ende der Beschäftigung

Muster mit Beispielen

Speicher in der Cloud

Relationale Prozessmodellierung in kooperativer Gebäudeplanung

State-of-the-Art in Software Product Line Testing and Lessons learned

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung

Inhalt. Fragestellungen. ...we make the invisible visible... Analysen und deren Anwendung Erfahrungen

Daniel Warneke Ein Vortrag im Rahmen des Proseminars Software Pioneers

Ergebnisbericht Die Akzeptanz der elektronischen Gesundheitskarte

Bernadette Büsgen HR-Consulting

Typo3 - Schulung: Fortgeschrittene I an der Hochschule Emden/Leer

Frankfurt am Main. Dortmund. Stuttgart. Düsseldorf

Leben mit Demenz im Jahr 2030

1. EINLEITUNG 2. GLOBALE GRUPPEN Globale Gruppen anlegen

Vorgaben der DIN ISO Statistische Verfahren für Eignungsprüfungen durch Ringversuche

Bioinformatik: Hype oder Hoffnung?

WEKA A Machine Learning Interface for Data Mining

FAQ Verwendung. 1. Wie kann ich eine Verbindung zu meinem virtuellen SeeZam-Tresor herstellen?

Der Vortrag besteht aus 27 Seiten! Ich habe 15 Minuten. + 1 Minute Diskussion Passt!

Freigabemitteilung Nr. 39. Neue Funktionen adresse zurücksetzen / ändern Kennung ändern Anlegen von OCS (elektr. Postfach) Mailbenutzern

Kriminologische Fragen und Antworten

Technische Analyse der Zukunft

Forum des Freundeskreises der Flüchtlinge Rutesheim:

Kundeninformation zur Meldungserfassung mit dem SAP Solution Manager der CPRO Industry Project and Solutions GmbH

Transkript:

GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product Research and Infection Biology Hans Knöll Institute Jena Center for Bioinformatics

GMDS-Tagung 2006 Bioinformatik 1 Stabilitätsanalyse von Ergebnissen des unüberwachten Lernens aus kleinen Stichproben Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz-Institut für Naturstoff-Forschung und Infektionsbiologie Hans-Knöll-Institut Jena Center for Bioinformatics

Gliederung Einleitung Clustering von Microarray-Daten Validierung mittels Resampling Leistungsvergleich von Resampling-Techniken Strategie, Methoden, Daten Hauptergebnis Nächste-Nachbarn-Resampling Idee Ergebnisse Schlussfolgerungen

Microarray-Datencluster Clustervalidierung Liefert ein Clusteralgorithmus für Stichproben aus derselben (Misch-)Population eine stabile Partitionierung?

Resampling Clustervalidierung analytische Berechnungen Eigenschaften {g 1*,..., g R * } Schätzer g Clusteranalyse Parameter g = g(f) (unbekannt) Mischverteilung F (unbekannt) Genexpression Simulation Anzahl der Komponenten (Klassen) Cluster Stichprobe X (Sample) {X 1*,..., X * R } Resamples Schätzung F ~ parametrisch nicht-parametrisch Resampling-Methode

Resampling auf welche Weise? www.wuerfel-offensive.de Bootstrapping (parametrisch) Bootstrapping (nicht-parametrisch) Addition von Rauschen (parametrisch) Addition von Rauschen (nicht-parametrisch) Subsampling weitere Extra Folien zu Literatur / Stand der Forschung

Gliederung Einleitung Clustering vo Microarray-Daten Validierung mittels Resampling Leistungsvergleich von Resampling-Techniken Strategie, Methoden, Daten Hauptergebnis Nächste-Nachbarn-Resampling Idee Ergebnisse Schlussfolgerungen

Leistungsvergleich von Resampling-Techniken Strategie Modell: Verteilung F, Parameter g true X o X 1 X 2 X r X R Sample Resampling-Methode Resample- Datensätze Clusteranzahl Methode zur Parameterschätzung g R Konsens- Schätzwert (Mehrheitsvotum) g o g 1 g 2 g r g Bedingung 1: g o =g true Fehlerwahrscheinlichkeit: P (g r g true ) Bedingung 2: g=g true U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Leistungsvergleich von Resampling-Techniken Methoden zur Schätzung der Clusteranzahl U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Leistungsvergleich von Resampling-Techniken Daten I: Stochastische Modelle Dudoit S, Fridlyand J, Genome Biology, 2002 U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Leistungsvergleich von Resampling-Techniken Daten II: Genexpressionsdaten (Tumor) Monti et al., 2003, Machine Learning U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Leistungsvergleich von Resampling-Techniken Daten III: biologische Daten Blake and Merz, 1998, UCI repository of machine learning databases. Möller et al.,2002, NeuroImage U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Vergleichende Resampling-Studie Hauptergebnis Robustes Ranking: Fehlerwahrscheinlichkeit 1. Perturbation: addiere 1%, 5% oder 10% Rauschen 2. Subsampling ziehe zufällig 80% der Datenpunkte 3. Bootstrapping ziehe n Datenpunkte mit Zurücklegen 0.05, 0.11, 0.18 0.21 0.33 Verlust an Original-Information; ggf. kritisch für die Identifikation kleinerer Klassen bei kleinen Stichproben U. Möller, D. Radke: Performance of data resampling methods for robust class discovery based on clustering. Intelligent Data Analysis 10(2), 2006, 139-162

Gliederung Einleitung Clustering von Microarray-Daten Validierung mittels Resampling Leistungsvergleich von Resampling-Techniken Strategie, Methoden, Daten Hauptergebnis Nächste-Nachbarn-Resampling Idee Ergebnisse Schlussfolgerungen

Schätzung lokaler statt globaler Perturbationsparameter Nächste-Nachbarn-(NN)-basiertes Resampling Originalsample Originalsample Resample + 3% Rauschen + 30% Rauschen 30-NN-resampling

Stabilitätsanalyse von Resample-Partitionen Identifikation von Tumor-Subtypen aus Microarray-Daten Leukämie 999 Gene 38 Patienten 3 Klassen ALL-B ALL-T AML Methodenpaket 1 10 NN-Resamples FCM, mittlere Stabilität ganzer Cluster Methodenpaket 2 500 Subsamples! av. link., mittlere Stabilität paarweiser Zuordnungen (Golub et al., 1999; Monti et al., 2003) Möller U, Radke D, A cluster validity approach based on nearest neighbor resampling. Proc. of the Int. Conf. on Pattern Recognition (ICPR06), 2006, Hong Kong Monti et al. Consensus Clustering: A Resampling-Based Method for Class Discovery and Visualization of Gene Expression Microarray Data. Machine Learning, 2003

Stabilitätsanalyse von Resample-Partitionen Stabile Gruppen ko-exprimierter Gene Microarray-Daten einer Temperatur-Verschiebung in Aspergillus fumigatus (human-pathogener Pilz) Nierman et al., Nature, 2005 Clusterstabilität 4 klare Muster der Ko-expression Clusteranzahl bis zu 4 sehr stabile Cluster Guthke R, Kniemeyer O, Albrecht D, Brakhage AA, Möller U: Discovery of gene regulatory networks in Aspergillus fumigatus. accepted for Springer Lecture Notes in Bioinformatics, 2006 Möller, U., Radke, D., Guthke, R.: Stability analysis of gene expression time course clustering used to optimize input data for gene regulatory network reconstruction. Abstracts of the NiSIS/JCB-Workshop Top-down Approaches in systems biology - applications, Jena, May 5, 2006, pages 8-10

Schlussfolgerungen Kontext: kleine Stichprobe (N < p), Resampling (nicht-parametr.), Clustering 1) Nutze die gesamte Information der Original-Stichprobe X durch eine 1:1 -Abbildung von X auf jedes Resample. (bessere Resample-Qualität, weniger Resamples nötig) 2) Wenn die Intra-Cluster-Variabilität von Cluster zu Cluster schwanken kann, empfiehlt sich eine automatische Schätzung lokaler Perturbationsparameter, z.b. mittels knn. 3) Durch Suche nach Clustern mit einer intuitiv definierbaren Mindest-Stabilität unter Bedingung 1) können Substrukturen in nur teilweise strukturierten Daten besser gefunden werden.