Clustering. Clustering:

Größe: px
Ab Seite anzeigen:

Download "Clustering. Clustering:"

Transkript

1 Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen Datenvektoren seiner Gruppe nahe (näher als zu Vektoren anderer Gruppen k-clustering: Clustern einer Datenmenge in k Gruppen Viele Clusterungsprobleme sind NP-hart! Folie 246

2 Genexpression (1) Genexpression: Biosynthese eines Genprodukts (Umsetzung der genetischen Information in Proteine) IdR. Transkription von DNA zu mrna und anschließender Translation von mrna zu Protein. Experimentelle Mikrobiologie: Experimentelle Bestimmung der Expression von Genen Microarray-Technologie: Viele Gene können gleichzeitig untersucht werden (>10000) cdna Microarrays: komplementäre DNA Folie 247

3 Genexpression (2) cdna-microarrays: Glasscheibe mit mehreren tausend regelmäßig angeordneten Feldern (Spots) Jeder Spot enthält cdna eines bestimmten Gens Ziel mrna wird markiert Alle nicht hybridisierten Targets werden abgewaschen Lichtintensität wird anschließend gemessen Intensität spiegelt Expressionslevel wieder Folie 248

4 Genexpression (3) Biologische Fragestellungen: Welche Funktionen haben die einzelnen Gene und in welchen zellulären Prozessen sind sie beteiligt? Wie werden Gene reguliert, wie interagieren Gene und Genprodukte? Wie sind die Interaktionsnetzwerke aufgebaut? Wie unterscheiden sich die Expressionslevel in verschiedenen Zelltypen und Zuständen? Folie 249

5 Genexpressionsanalyse Aufgabenstellung: Datenanalyse, Data Mining Dimensionsreduktion und Visualisierung Finden von Gruppen co-regulierter Gene, funktional zusammenhängender Gene Lösung: Clusteranalyse, Clustering der Gene Algorithmen: Hierarchisches Clustern Self-organizing maps (SOMs) Hauptkomponentenanalyse (PCA) K-Means,... Folie 250

6 Minimum Sum of Squares Clustering MSSC: NP-hartes kombinatorisches Minimierungsproblem K n 2 2 min ˆ ˆ p d ( xi, xj) = d ( xpi (), xi) i= 1 j C i= 1 mit xˆ i 1 = C i i j C { } und C = j {1,..., n} pj () = i i i x j m x R, i = 1,..., n: n Eingabevektoren der Dimension m i C i : zu Cluster i zugeordnete Vektoren p:{1,.., n} {1,..., k}: Zuordnung von Vektor zu Cluster Folie 251

7 Der k-means Algorithmus k-means: Wiederholtes Zuweisen der Inputvektoren zu Clustern und Neuberechnung der Clusterzentren Zuweisen durch Bestimmung des Zentrums mit geringstem Abstand Abbruchkriterium: Clusterzentren haben sich nicht geändert Konvergiert gegen lokales Optimum der MSSC Zielfunktion Wähle Clusterzentren Zuordnung Vektoren zu Clustern Neuberechnung der Clusterzentren Ende Folie 252

8 Memetische Algorithmen fürs MSSC Wichtige Schritte: Bestimmung der Zielfunktion Bestimmung der Repräsentation von Lösungen Wahl der lokalen Suche Entwicklung eines Mutationsoperators Entwicklung eines Rekombinationsoperators Folie 253

9 Memetische Algorithmen fürs MSSC Bestimmung der Zielfunktion: MSSC Funktion n 2 ( ) = ( ˆpi (), i) i = 1 f p d x x Bestimmung der Repräsentation von Lösungen: Abbildung p kann so kodiert werden: p : Vektor 1 wird Cluster 1 zugewiesen Vektor 2 wird Cluster 3 zugewiesen Clusterzentren können aus p berechnet oder gespeichert werden Werden in MA gespeichert Folie 254

10 Memetische Algorithmen fürs MSSC Wahl der lokalen Suche: K-Means, Input: k Clusterzentren Mutationsoperatoren: Operator MM: - Ein zufällig gewählter Vektor wird als Clusterzentrum für ein zufällig gewähltes Cluster herangezogen Operator FM: - Zwei Cluster i und j werden zufällig gewählt - Der Vektor mit der größten Distanz zum Mean von Cluster i wird als Clusterzentrum (mean) von Cluster j verwendet Folie 255

11 Memetische Algorithmen fürs MSSC Rekombinationsoperatoren: Operator UX (uniform Crossover): - Die Mean-Vektoren werden mit gleicher Wahrscheinlichkeit von den beiden Eltern gewählt Operator RX: - Mean-Vektoren in Elter a werden durch Mean-Vektoren von Elter b ersetzt - Mean-Vektoren aus überrepräsentierten Bereichen sollen gelöscht werden - Mean-Vektoren sollen zu unterrepräsentierten Bereichen hinzugefügt werden Folie 256

12 MSSC: RX Rekombination Rekombinationsoperator RX: Elter a: a 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a 10 Discard List: a 2 a 5 a 5 a 7 a 10 Elter b: Kind: b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 b 10 a 1 b 4 a 3 a 4 b 6 a 6 b 3 a 8 a 9 a 10 Split List: a 3 a 6 a 6 a 8 Gewählte Paare: (a 3,a 2 ) (a 8,a 5 ) (a 6,a 7 ) b i a j : a j ist nächster Mean-Vektor zu b i Folie 257

13 Clustering - Distanzen zwischen Lösungen Distanzen: Wichtig, wenn man Lösungen von Clusterungsalgorithmen vergleichen will Wichtig für Fitnesslandschaftsanalyse Vorschlag 1: Center-Distanz: n Dpq (, ) = dx ( ˆ ˆ pi (), xqi ()) i= 1 Nachteil: Abhängig vom MSSC-Kriterium, schwer interpretierbar Folie 258

14 Clustering - Distanzen zwischen Lösungen Ziel: Zählen, der Vektoren die unterschiedlich zugeordnet wurden Vorschlag 2: Matching: Ordne Cluster von Lösung A Clustern von Lösung B zu Zuordnung über Clusterzugehörigkeit Zähle die gemeinsamen Vektoren der zugeordneten Cluster Folie 259

15 Clustering Matching & Distanzberechnung Matching: Zähler = 0 Für jedes Cluster i aus Lösung A: - Finde Cluster j aus Lösung B mit den meisten Vektoren aus i - Finde Cluster k aus Lösung A mit den meisten Vektoren aus j - Wenn i=k, erhöhe Zähler um Anzahl der gemeinsamen Vektoren Distanz = Anzahl Vektoren - Zähler Folie 260

16 Clustering Matching & Distanzberechnung Illustration: Lösung A: a 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a Lösung B: Gemeinsame Vektoren: b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 b = 62 Folie 261

17 MSSC Fitness-Distanz-Korelation Verteilung der k-means Lösungen: Matching, FDC: 0.59 Center-Distanz, FDC: 0.66 Folie 262

18 Genexpressionsanalyse mit MA (1) Clusterung der Expressionsdaten Minimum-Sum-Of-Squares Clustering (NP-Hart) Minimierung des Abstandes zum Repräsentanten eines Clusters MA mit k-means lokaler Suche Genexpressionsuntersuchung: - Expression von 6565 Genen über 2 Zellzyklen (Messung an 17 Zeitpunkten) - 2 Zeitpunkte wurden eliminiert Expressionsmuster sind Zeitreihen aus 15 Punkten - Variationsfilter reduziert Datensatz auf 2931 Folie 263

19 Genexpressionsanalyse mit MA (2) Ergebnisse Vergleich MA-Operatoren: Oben: zuvor beschriebene Daten, unten: zufällig erzeugte Daten mit bekanntem Optimum Alg. Gen Nr. LS Iter LS Best Avg. Obj. Error MLS % MA-UX % MA-RX % MA-FM % MA-MM % MLS % MA-UX % MA-RX % MA-FM % MA-MM % Folie 264

20 Genexpressionsanalyse mit MA (3) Ergebnisse: Vergleich zu einfachem k-means: Zuordnung der Gene zu den Clustern stark unterschiedlich! Gene in MA-Cluster 14 verteilen sich auf 5 k-means-cluster: 1(5 Gene), 5(3 Gene), 15(36 Gene), 22(4 Gene), 23(40 Gene) k-means MA Folie 265

Genexpression (1) Clustering

Genexpression (1) Clustering Clusterg Clusterg: Grupperug ud Etelug eer Datemege ach ählche Merkmale Uüberwachte Klassfzerug (Neuroale Netze- Termologe) Dstazkrterum: E Datevektor st zu adere Datevektore seer Gruppe ahe (äher als

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 0 6. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 011 9. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (.000.000.000 Basenpaare)

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

OPT Optimierende Clusteranalyse

OPT Optimierende Clusteranalyse Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Repräsentation von Lösungen (1)

Repräsentation von Lösungen (1) Repräsentation von Lösungen (1) Kontinuierliche Optimierung: Binäre Optimierung: x x1 x2 x n n = (,,, ) R x = ( x1, x2,, x ) {0,1} n n Lokale Suche: x i = x i + ε Lokale Suche: x i = 1-x i 0.5 0.9 0.2

Mehr

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Seminar über Neuronale Netze und Maschinelles Lernen WS 06/07

Seminar über Neuronale Netze und Maschinelles Lernen WS 06/07 Universität Regensburg Naturwissenschaftliche Informatik Seminar über Neuronale Netze und Maschinelles Lernen WS 06/07 Cluster-Algorithmen II: Neural Gas Vortragender: Matthias Klein Gliederung Motivation:

Mehr

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG 195 Bildsegmentierung! Aufgabe: Bestimme inhaltlich zusammenhängende, homogene Bereiche eines Bildes! Weit verbreitetes Problem in der Bildverarbeitung! Viele

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

x x x x Repräsentation von Lösungen (2) Repräsentation von Lösungen (1)

x x x x Repräsentation von Lösungen (2) Repräsentation von Lösungen (1) Repräsentation von Lösungen () Repräsentation von Lösungen () Kontinuierliche Optimierung: x x x x n Binäre Optimierung: n = (,,, ) R x = ( x, x,, x ) {0,} n n Lokale Suche: x i = x i + ε Lokale Suche:

Mehr

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

Wissensbasierte Systeme

Wissensbasierte Systeme Analytisch lösbare Optimierungsaufgaben Das Chaos-Spiel gründet auf der folgenden Vorschrift: Man startet von einem beliebigen Punkt aus geht auf einer Verbindung mit einem von drei zufällig gewählten

Mehr

Optimale Produktliniengestaltung mit Genetischen Algorithmen

Optimale Produktliniengestaltung mit Genetischen Algorithmen Optimale Produktliniengestaltung mit Genetischen Algorithmen 1 Einleitung 2 Produktlinienoptimierung 3 Genetische Algorithmen 4 Anwendung 5 Fazit Seite 1 Optimale Produktliniengestaltung mit Genetischen

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 08.07.2010 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved. Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.

Mehr

10. Vorlesung Stochastische Optimierung

10. Vorlesung Stochastische Optimierung Soft Control (AT 3, RMA) 10. Vorlesung Stochastische Optimierung Genetische Algorithmen 10. Vorlesung im Aufbau der Vorlesung 1. Einführung Soft Control: Definition und Abgrenzung, Grundlagen "intelligenter"

Mehr

Inhalt Genexpression Microarrays E-Northern

Inhalt Genexpression Microarrays E-Northern Inhalt Genexpression Microarrays E-Northern Genexpression Übersicht Definition Proteinbiosynthese Ablauf Transkription Translation Transport Expressionskontrolle Genexpression: Definition Realisierung

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Genetische Algorithmen. Uwe Reichel IPS, LMU München 8. Juli 2008

Genetische Algorithmen. Uwe Reichel IPS, LMU München 8. Juli 2008 Genetische Algorithmen Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 8. Juli 2008 Inhalt Einführung Algorithmus Erweiterungen alternative Evolutions- und Lernmodelle Inhalt 1 Einführung

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Segmentierung. Inhalt. Segmentierung

Segmentierung. Inhalt. Segmentierung Segmentierung Inhalt Segmentierung Definition der Segmentierung Kantenbasierte Segmentierung Regionenbasierte Segmentierung Globaler Schwellenwert (threshold) Adaptiver Schwellenwert Region Growing Segmentierung

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Transcriptomics: Analysis of Microarrays

Transcriptomics: Analysis of Microarrays Transcriptomics: Analysis of Microarrays Dion Whitehead dion@uni-muenster.de Division of Bioinformatics, Westfälische Wilhelms Universität Münster Microarrays Vorlesungsüberblick : 1. Überblick von Microarray

Mehr

Genexpressionsdatenbanken

Genexpressionsdatenbanken Genexpressionsdatenbanken ArrayExpress Gliederung Mikroarrays Struktur von Genexpressionsdatenbanken Arrayexpress Aufbau und Statistik Standardisierung Abfragen und Einstellen von Daten Mikroarrays Glasplatte

Mehr

Kapitel 4 (Forts.) Genexpression

Kapitel 4 (Forts.) Genexpression Kapitel 4 (Forts.) Genexpression Genexpressionsexperimente Verfahren Anwendungsgebiete Systematische Probleme, Normalisierung Analyse von Genexpressionsdaten Differentielle Expression Clustering zur Ko-Expression

Mehr

Genetische Algorithmen

Genetische Algorithmen Genetische Algorithmen Prof. Dr. Ottmar Beucher Dezember 2001 Genetische Algorithmen 1 Optimierungsaufgaben Ein einfaches Beispiel Prinzipielle Formulierung Lösungsansätze Genetische Algorithmen Anwendungen

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist

Datenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist 4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in

Mehr

Genetische und Evolutionäre Algorithmen (Vol. 1)

Genetische und Evolutionäre Algorithmen (Vol. 1) Vortrag über Genetische und Evolutionäre Algorithmen (Vol. ) von Adam El Sayed Auf und Kai Lienemann Gliederung: ) Einführung 2) Grundkonzept 3) Genaue Beschreibung des Genetischen Algorithmus Lösungsrepräsentation

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Übung 11 Genregulation bei Prokaryoten

Übung 11 Genregulation bei Prokaryoten Übung 11 Genregulation bei Prokaryoten Konzepte: Differentielle Genexpression Positive Genregulation Negative Genregulation cis-/trans-regulation 1. Auf welchen Ebenen kann Genregulation stattfinden? Definition

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 09.07.2009 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Algorithmen zur Kundensegmentierung

Algorithmen zur Kundensegmentierung Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

Forschungsmethodik II, SS 2010

Forschungsmethodik II, SS 2010 Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:

Mehr

Genetische und Evolutionäre Algorithmen (Vol. 2)

Genetische und Evolutionäre Algorithmen (Vol. 2) Vortrag über Genetische und Evolutionäre Algorithmen (Vol. 2) von Adam El Sayed Auf und Kai Lienemann Gliederung: 4) Rückblick 5) Allgemeine Einführung 6) Genauere Beschreibung von Evolutionären Strategien

Mehr

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang

Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C

Mehr

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut

Mehr

Institut für angewandte Datenanalyse GmbH

Institut für angewandte Datenanalyse GmbH Institut für angewandte Datenanalyse GmbH Latent Class Cluster Analysen (LCCA) Was erwartet Sie nachfolgend? Einführung Klassifizierung der Segmentierungs-Verfahren Case Study Urlaubsreisen Das Prinzip

Mehr

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik

Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik Naturwissenschaft Frank Thierolf Mathematische Modelle und Methoden zur Genexpressionsanalyse in der Bioinformatik Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico AlgoBio WS 16/17 Genexpressionanalyse Annalisa Marsico 14.12.2016 Die Mikroarray-Revolution Mikroarrays messen die Genexpression Warum ist es wichtig, die Genexpression zu messen? Die Vielfalt der Zellen

Mehr

Computerübung zu Multivariaten Verfahren

Computerübung zu Multivariaten Verfahren Computerübung zu Multivariaten Verfahren Klaus Schliep & Klaus Hechenbichler 18. Februar 2004 Daten Bevor mit dem Einstieg in die eigentliche Anwendung von multivariaten statistischen Verfahren begonnen

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Approximationsalgorithmen 1. Vorlesung Joachim Spoerhase Alexander Wolff Lehrstuhl für Informatik I Wintersemester 2017/18 Bücher zur Vorlesung Vijay V. Vazirani Approximation Algorithms Springer-Verlag

Mehr

Bayesianische Netzwerke I

Bayesianische Netzwerke I Bayesianische Netzwerke I Christiane Belitz 2.5.2003 Überblick Der Vortrag basiert auf Using Bayesian Networks to Analyze Expression Data von Friedman et al. (2000) Definition: Bayesianisches Netzwerk

Mehr

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Ludmila Himmelspach Institut für Informatik Heinrich-Heine-Universität Düsseldorf D-40225 Düsseldorf, Deutschland himmelspach@cs.uni-duesseldorf.de

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Übung zum Projektseminar Wetterlagen und Feinstaub

Übung zum Projektseminar Wetterlagen und Feinstaub Universität Augsburg Fakultät für Angewandte Informatik Institut für Physische Geographie und Quantitative Methoden Prof. Dr. Jucundus Jacobeit Übung zum Projektseminar Wetterlagen und Feinstaub Montag

Mehr

Synthese Eingebetteter Systeme. Übung 6

Synthese Eingebetteter Systeme. Übung 6 12 Synthese Eingebetteter Systeme Sommersemester 2011 Übung 6 Michael Engel Informatik 12 TU Dortmund 2011/07/15 Übung 6 Evolutionäre Algorithmen Simulated Annealing - 2 - Erklären Sie folgende Begriffe

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Optimale Stationierung von Rettungshubschraubern

Optimale Stationierung von Rettungshubschraubern Rettungshubschraubern Universität Stuttgart Mathematische Modellierung Priv.-Doz. Dr. Iryna Rybak SS16 08.06.2016- Julia Löffelhardt Gliederung 1. Einführung 2. Modellrahmen 3. 1 Hubschrauber 1. 1 Hubschrauber,

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Sommersemester 213 Übersicht Vektoren elementar Information Retrieval

Mehr

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups Seminar im Fach Informatik Sommersemester 2006 Sascha Rüger Gliederung 1. Einleitung 2. Data Mining Systeme 3. Auswertung 4. Weitere Untersuchungen 5. Fazit 1. Einleitung (1) wichtige Aufgabe der Datenanalyse:

Mehr

Molekulare Systeme 2 Zellulärer Metabolismus

Molekulare Systeme 2 Zellulärer Metabolismus Molekulare Systeme Zellulärer Metabolismus Dr. Jochen Forberg Institut für Medizinische Informatik, Statistik und Epidemiologie Kinetik des zellulären Stoffwechsels Der zelluläre Stoffwechsel ist ein komplexes

Mehr

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M. Methoden & Tools für die Expressionsdatenanalyse U. Scholz & M. Lange Folie #7-1 Vorgehensmodell Expressionsdatenverarbeitung Bildanalyse Normalisierung/Filterung Datenauswertung U. Scholz & M. Lange Folie

Mehr

Segmentierung von Punktwolken anhand von geometrischen und radiometrischen Informationen

Segmentierung von Punktwolken anhand von geometrischen und radiometrischen Informationen von Punktwolken anhand von geometrischen und radiometrischen Informationen Mathias BURGER, Daniel WUJANZ, Frank NEITZEL Technische Universität Berlin 16. Oldenburger 3D Tage 02. Februar 2017 In diesem

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Vergleich zwischen kmeans und DBScan

Vergleich zwischen kmeans und DBScan Vergleich zwischen kmeans und DBScan Patrick Breithaupt und Christian Kromm Vorlesung/Seminar: Information Retrieval patrick.breithaupt@stud.uni-heidelberg.de kromm@stud.uni-heidelberg.de 11. Januar 2016

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 01 8. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Betriebliche Optimierung

Betriebliche Optimierung Betriebliche Optimierung Joachim Schauer Institut für Statistik und OR Uni Graz Joachim Schauer ( Institut für Statistik und OR Uni Graz Betriebliche ) Optimierung 1 / 19 1 Joachim Schauer ( Institut für

Mehr

Gutartig oder bösartig? Die Diagnose aus dem Rechner

Gutartig oder bösartig? Die Diagnose aus dem Rechner Gutartig oder bösartig? Die Diagnose aus dem Rechner Eine Krankheit Drei Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei unterschiedliche Formen dieser Krankheit A B C A B C 100% 60% 65% 40%

Mehr

Untersuchungen zur differenziellen Genexpression im ZNS von Noradrenalintransporter-Knockout- und Wildtyp-Mäusen

Untersuchungen zur differenziellen Genexpression im ZNS von Noradrenalintransporter-Knockout- und Wildtyp-Mäusen Untersuchungen zur differenziellen Genexpression im ZNS von Noradrenalintransporter-Knockout- und Wildtyp-Mäusen Inaugural-Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) der Mathematisch-Naturwissenschaftlichen

Mehr