Klassifikation und Ähnlichkeitssuche
|
|
- Karoline Hertz
- vor 6 Jahren
- Abrufe
Transkript
1 Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell ähnliche Moleküle haben mit einer gewissen Wahrscheinlichkeit auch ähnliche biologische Eigenschaften Ähnlichkeitssuche Unüberwachtes Lernen (keine Klasseneinteilung vorgegeben) Hauptkomponentenanalyse(PCA), Cluster-Analyse Überwachtes Lernen (Klasseneinteilung vorgegeben) Diskriminanzanalyse, Support Vector Machine (SVM) Klassifikation
2 Ähnlichkeit Die Ähnlichkeit von Objekten hängt von den gewählten Deskriptoren ab Farbe Größe Gestalt Ähnlichkeitssuche Problemstellung Ein aktives Molekül sei bekannt finde ähnliche Moleküle in einer Datenbank auf der Basis von Fragmenten Vorgehensweise Berechne Fingerprints Suche ähnliche Moleküle mit Hilfe des Tanimotokoeffizienten als Maß für die Ähnlichkeit S AB c = a + b c 0 S AB S AB Tanimoto-Koeffizient für Bitvektoren (z. B. Fingerprints) a Anzahl der in Struktur A gesetzten Bits (=) b Anzahl der in Struktur B gesetzten Bits c Anzahl der in den Strukturen A und B gemeinsam gesetzten Bits Klassifikation 2
3 Tanimoto-Koeffizient Beispiel für Fingerprint {aromatisch,ring, C, N, O, S, P, Halogen} {,,, 0, 0, 0, 0, 0} {0,,, 0, 0, 0, 0, 0}.00 2/(3+2-2)=0.66 /(3+3-)=0.20 3/(3+5-3)= {0, 0,,,, 0, 0, 0} {,,,, 0, 0, 0, }.00 Hauptkomponentenanalyse (PCA) Problemstellung Lassen sich die Moleküle in Gruppen zusammenfassen? Welches sind die entscheidenden Deskriptoren im Datensatz? Erforderliche Daten Matrix mit Deskriptoren für jedes Molekül, aber keine Klassen Die Hauptkomponentenanalyse (principal component analysis) erzeugt aus korrelierten Variablen (Deskriptoren) unkorrelierte Variablen (PCs). Die Transformation der Deskriptormatrix wird so durchgeführt, dass die Datenpunkte entlang der ersten Hauptachse t die größte Streuung (Varianz) aufweisen. Die zweite Hauptachse t 2 ist orthogonal zur ersten und weist die nächstgrößte Varianz auf. t 2 5 t Projektion der ursprünglichen Deskriptoren im Koordinatensystem x, x 2 in das rotierte Koordinatensystem t, t 2. X X Klassifikation 3
4 PCA am Beispiel von P-Glycoprotein logp MR TPSA Ringe Ladung rot_bdg Name Reserpine Epirubicin Dipyridamole Amitriptyline In einer grafischen Darstellung (Biplot) lassen sich sich die Moleküle qualitativ in Gruppen einteilen (geeignete Deskriptoren und Moleküleigenschaften vorausgesetzt) Der cosinus des Winkels der Ladungsvektoren weist auf Korrelation der Deskriptoren hin. Die Länge der Ladungsvektoren entspricht der Relevanz der Deskriptoren PC TPSA SMR 2 rings b_rotn FCharge SlogP Biplot des PGP-Datensatzes mit 2 Molekülen und 6 Deskriptoren PC Cluster-Analyse Ziel Gruppierung von Molekülen anhand ihrer Ähnlichkeit Moleküle innerhalb eines Clusters sollen möglichst ähnlich sein Moleküle in verschiedenen Clustern sollen möglichst unterschiedlich sein Erforderliche Daten Matrix mit Deskriptoren für jedes Molekül, aber keine Klassen Ablauf Fingeprint Deskriptor paarweise Ähnlichkeit Aufteilung in Untergruppen Klassifikation 4
5 Methoden zur Cluster-Analyse Nicht-hirarchische Cluster-Analyse hirarchische Cluster-Analyse z. B. k-mittelwert Clustering agglomerativ divisiv Distanzmaße für kontinuierliche Daten B B A A Euklidische Distanz Manhattan (Cityblock) Distanz D A, B = N ( xia xib ) i= 2 D A, B = N i= x ia x ib Klassifikation 5
6 Distanzen zwischen Gruppen single linkage (nearest neighbour) complete linkage (furthest neighbour) average linkage Ward linkage Minimales Anwachsen der Summe der Quadrate der Abstände der Objekte zum Schwerpunkt eines Clusters Beispiel: Hirarchisches Clustering Cluster Dendrogram Height Hirarchisches Clustering des PGP-Datensatzes von 2 Molekülen unter Verwendung der Deskriptoren logp und TPSA Cluster Dendrogram Height d hclust (*, "complete") d hclust (*, "complete") Optionen: Euklidische Distanz, complete linkage Klassifikation 6
7 Überwachtes Lernen Problemstellung Vorhersage der Zugehörigkeiten von Molekülen zu bestimmten Klassen (z. B. toxisch/nicht toxisch, <0 / 0, hohe / mittlere / geringe Aktivität) erforderliche Daten Trainingsdatensatz bestehend aus einer Matrix mit Deskriptoren für jedes Molekül und Klassenzuordnung der Moleküle Wissensbasierte Vorgehensweise Trainigsdaten Modell Validierung Vorhersage Lineare Diskriminanzanalyse (LDA) Aus den Deskriptoren des Trainigsdatensatzes werden Diskriminanzfunktionen aufgestellt, die Moleküle in einem geeigneten Koordinatensystem dargestellt und eine Trennlinie bzw. Trennebene ermittelt. Neue Substanzen können klassifiziert werden, indem die Werte der Deskriptoren in die Diskriminanzfunktion eingesetzt werden. Die Zuordnung in eine bestimmte Klasse erfolgt dann aufgrund der berechneten Koordinaten relativ zur Trennlinie bzw. Trennebene. Klassifikation 7
8 Praktische Aspekte der LDA Ein Molekül darf nicht mehreren Klassen gleichzeitig zugehören. Die Anzahl der Deskriptoren sollte klein sein und das Verhältnis der Anzahl der Moleküle zur Anzahl der Deskriptoren mindestens 3. Die Anzahl der Moleküle in jeder Klasse sollte ähnlich sein. Die Schwerpunkte der einzelnen Klassen sollte deutlich unterschiedlich sein. Ausreißer können die Analyse verfälschen. x x x x Beispiel: LDA für PGP LDA des PGP-Datensatzes von 2 Molekülen unter Verwendung der Deskriptoren SlogP und TPSA Substanz pk Klasse logp TPSA s 2 calc$x Index s Mittelwert der Klassen Klasse logp TPSA pk < Klassenzuordnung Trainingsdatensatz LOO-Kreuzvalidierung 2 obs. 2 obs calc. calc. Klassifikation 8
9 Support Vector Machines (SVM) Training Orientiere eine (Hyper)ebene so, dass alle Punktgruppen optimal getrennt werden Vorhersage Auf welcher Seite der Ebene liegt ein neuer Punkt? Support Vector Machine (SVM) Wie orientiert man die Ebene? Trennung mit maximaler Trennspanne Support Vectors Punkte, die am dichtesten an der trennenden Eben liegen bestimmen die Lage der Ebene. Klassifikation 9
10 Support Vector Machine (SVM) Nicht saparierbare Trainingsdaten Bestrafe nicht separierte Daten proportional zum gewichteten Abstand zur Trennebene Projektion der Daten und Trennung im hochdimensionale Raum Klassifikation 0
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrSchnelle Diskriminanzanalyse mit vielen Variablen
Schnelle Diskriminanzanalyse mit vielen Variablen Bernd Heinen SAS Institute GmbH In der Neckarhelle 162 Heidelberg Bernd.heinen@jmp.com Zusammenfassung Diskriminanzanalyse erfordert die Schätzung der
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrClusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrSelbstständiges Lernen
Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse
Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse Noémie Becker & Dirk Metzler http://evol.bio.lmu.de/_statgen 3. Juli 2013 Übersicht 1 Ruf des Kleinspechts 2 Modell Vorgehen der
MehrCharakterisierung von 1D Daten
Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrVorlesung Digitale Bildverarbeitung Sommersemester 2013
Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrClusteranalyse und Display-Methoden
Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 5. Juli 2011 Zunächst: PCA (Hauptkomponentenanalyse) ist eine mathematische Prozedur, die eine Anzahl von (möglicherweise korrelierten) Variablen
MehrInhaltsverzeichnis 1. EINLEITUNG...1
VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5
Mehr11.8 Diskriminanzanalyse
11.8 Diskriminanzanalyse Die Diskriminanzanalyse bezieht sich auf dieselbe Erhebungssituation wie die einfaktorielle MANOVA und teilt deren Voraussetzungen (vgl. Abschn. 11.7.1): Beobachtungsobjekte aus
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrPrincipal Component Analysis (PCA) (aka Hauptkomponentenanalyse)
Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse
Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse Martin Hutzenthaler & Dirk Metzler http://evol.bio.lmu.de/_statgen 6. Juli 2010 Übersicht 1 Ruf des Kleinspechts 2 Modell Vorgehen
MehrNichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität
Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrVergleich von Partial Cox Regression und Lasso zur Analyse von U berlebenszeiten bei hochdimensionalen Daten
Vergleich von Partial Cox Regression und Lasso zur Analyse von U berlebenszeiten bei hochdimensionalen Daten Claudia-Martina Messow Robertson Centre for Biostatistics, University of Glasgow Situation Methoden
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrLineare Algebra und Datenwissenschaften in Ingenieur- und Informatikstudiengängen
Lineare Algebra und Datenwissenschaften in Ingenieur- und Informatikstudiengängen Heiko Knospe Technische Hochschule Köln heiko.knospe@th-koeln.de 6. September 26 / 2 Einleitung Das Management und die
Mehr1 Beispiele multivariater Datensätze... 3
Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und
MehrAufgaben zur Multivariaten Statistik
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten
MehrMaschinelles Lernen in der Bioinformatik
Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 5/6 Selbständiges Lernen Jana Hertel Professur für Bioinformatik Institut
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
MehrÄhnlichkeits- und Distanzmaße
Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis Department of Statistics and Mathematics
MehrWenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces
EFME-Zusammenfassusng WS11 Kurze Fragen: Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces Unter welcher Bedingung konvergiert der Online Perceptron Algorithmus?
MehrMultivariate Statistik
Multivariate Statistik von Univ.-Prof. Dr. Rainer Schlittgen Oldenbourg Verlag München I Daten und ihre Beschreibung 1 1 Einführung 3 1.1 Fragestellungen 3 1.2 Datensituation 8 1.3 Literatur und Software
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
Mehrk-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
MehrHauptkomponenten-basierte Klassifikationsverfahren (PCA)
Hauptkomponenten-basierte Klassifikationsverfahren (PCA) Projektseminar: Wetterlagen und Feinstaub - Übung Dozent: Claudia Weitnauer Referent: Esther Oßwald, Julian Dare Datum: 30.05.2011 Übersicht 1 Einleitung
MehrClusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
MehrNeuronale Netze. Prof. Dr. Rudolf Kruse
Neuronale Netze Prof. Dr. Rudolf Kruse Computational Intelligence Institut für Intelligente Kooperierende Systeme Fakultät für Informatik rudolf.kruse@ovgu.de Rudolf Kruse Neuronale Netze 1 Überwachtes
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
MehrClustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang
Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang Eine Krankheit Drei alternative Therapien Klinische Studie Im Mittel 75% 55% 35% Erfolg Drei Subtypen der Krankheit A B C
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrEntwicklung chemometrischer Methoden fur die Klassifikation von Bakterien mittels Mikro-Raman-Spektroskopie
Entwicklung chemometrischer Methoden fur die Klassifikation von Bakterien mittels Mikro-Raman-Spektroskopie Von der Fakultat fur Lebenswissenschaften der Technischen Universitat Carolo-Wilhelmina zu Braunschweig
MehrStrukturerkennende Verfahren
Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner
MehrChemometrie: von Daten zu Information
Chemometrie: von Daten zu Information Chemometrie: Definition Warnungen Daten von Anscombe: numerisch x y x y x y x y 0 8.04 0 9.4 0 7.46 8 6.58 8 6.95 8 8.4 8 6.77 8 5.76 3 7.58 3 8.74 3 2.74 8 7.7 9
MehrBesprechung der Aufgabe zur LDA
Besprechung der Aufgabe zur LDA I Führen Sie für den Iris-Datensatz für die verschiedenen Kombinationen von Spezies jeweils eine LDA durch. Bestimmen Sie die Diskriminanten und die Fehlklassikationsraten.
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrBild-Erkennung & -Interpretation
Kapitel I Bild-Erkennung & -Interpretation FH Aachen / Jülich, FB 9 Prof. Dr. rer.nat. Walter Hillen (Dig Img I) 1 Einführung Schritte zur Bilderkennung und Interpretation: Bild-Erfassung Vorverarbeitung
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
MehrOPT Optimierende Clusteranalyse
Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin:
MehrData Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrIdeen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn
Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-
MehrVergleich von SVM und Regel- und Entscheidungsbaum-Lernern
Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrFeature Selection / Preprocessing
1 Feature Selection / Preprocessing 2 Was ist Feature Selection? 3 Warum Feature Selection? Mehr Variablen führen nicht automatisch zu besseren Ergebnissen. Lernen von unwichtigen Daten Mehr Daten notwendig
MehrModulklausur Multivariate Verfahren. Datum Punkte Note. Termin: 26. September 2008, Uhr Prüfer: Univ.-Prof. Dr. H.
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 26. September 2008, 9.00-11.00 Uhr Prüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
Mehr4.3 Hierarchisches Clustering
4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,
MehrSingular Value Decomposition
Singular Value Decomposition (Singulärwertzerlegung) Seminar Robust Design Vitali Müller 2 Inhalt Was ist die SVD? Interpretationen Anwendungsmöglichkeiten Berechnung 3 Datenmatrix Experiment mit n Objekten
Mehr3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
MehrStatistische Methoden in der Wirtschaftsund Sozialgeographie
Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 0.5--45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-
MehrQSAR, QSAR, Statistik, Korrelation, Similarität & Deskriptoren
QSAR, QSAR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug designs am Computer Erfordert das Vorhandensein einer Anzahl von Leitstrukturen, z.b. aus dem High Throughput
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrSemiüberwachte Paarweise Klassifikation
Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrInhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1
V Inhaltsverzeichnis Vorwort XI 1 Einführung in die multivariate Datenanalyse 1 1.1 Was ist multivariate Datenanalyse? 1 1.2 Datensätze in der multivariaten Datenanalyse 4 1.3 Ziele der multivariaten Datenanalyse
MehrEinführung R. Neubecker, WS 2018 / 2019
Mustererkennung Einführung R. Neubecker, WS 2018 / 2019 1 Übersicht Hyperebenen-Mathematik Anmerkungen Zusammenfassung Mustererkennung (Pattern recognition) Mustererkennung ist die Fähigkeit, in einer
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
MehrA linear-regression analysis resulted in the following coefficients for the available training data
Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrLineare Klassifikatoren. Volker Tresp
Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare
Mehr