Methoden zur Cluster - Analyse

Größe: px
Ab Seite anzeigen:

Download "Methoden zur Cluster - Analyse"

Transkript

1 Kapitel 4 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics K4 1/14

2 Einführung Cluster - Analyse Finde ähnliche Strukturen in großen Datensätzen Cluster. Ordne jedes Objekt einem Cluster zu Clustering. k-means-algorithmus Learning Vector Quantization EM-Algorithmus k-nearest-neighbor Klassifikation Beziehung zw. Eigenschaften der Objekte und Klassenzuordnung unbekannt! Als black box Algorithmen zur Klassifikation und Mustererkennung genutzt. Machine learning in bioinformatics K4 2/14

3 k-means-algorithmus k-means-algorithmus.. finde Cluster und deren Clusterzentren in einer Menge ungelabelter Objekte. Gegeben: initiale Menge an Zentren, alterniere die folgenden Schritte: 1. Zentren identifiziere Teilmenge an Trainingspunkten (Cluster), die näher an diesem Zentrum liegen als an allen anderen 2. berechne Mittelwert aller Eigenschaften der Datenpunkte neues Zentrum des Clusters Iteriere bis Algorithmus konvergiert. Machine learning in bioinformatics K4 3/14

4 k-means-algorithmus Beispiel: Ein Durchlauf des k-means Algorithmus zur Bestimmung von 3 Gruppen. Zufällige Wahl der initialen Clusterzentren Ordne Objekte (Rechtecke) den ihnen am nächsten liegenden Clusterzentren zu Neuberechnung der Zentren anhand neuer Zuordnung Neuverteilung der Objekte zu den Clusterzentren die am nächsten liegen Machine learning in bioinformatics K4 4/14

5 k-means-algorithmus k-means mit Prototypen Bisher: Cluster definiert durch Zentrum, Objekte nach min. Abstand zum Zentrum zugeordnet. Problem: Ausreiser! Lösungsansatz: Einführung von R Prototypen für jede Klasse K Führe k-means in jeder Klasse einzeln durch um R Prototypen zu finden R Zentren von R Sub-Klassen jeder Klasse! Label jeden der K R Prototypen entspr. der zugehörigen Klasse Klassifiziere ein Objekt x zu der Klasse mit nächstliegenden Prototyp Machine learning in bioinformatics K4 5/14

6 k-means-algorithmus k-means mit Prototypen Problem: Einige der Prototypen zu nah an den Klassengrenzen Klassifizierungsfehler! Warum? Bei Einzeldurchführung von k-means, Einfluss benachbarter Klassen nicht berücksichtigt. Lösung: Benutze alle Datenpunkte um Prototypen zu bestimmen! Machine learning in bioinformatics K4 6/14

7 Learning Vector Quantization - LVQ Learning Vector Quantization - LVQ Idee: Trainingspunkte ziehen richtige Prototypen an und stoßen falsche ab. 1. Wähle R initiale Prototypen für jede Klasse m 1 (k), m 2 (k),..., m R (k), k = 1, 2,..., K 2. Wähle ein Trainingsobjekt x i zufällig (Sample mit Zurücklegen!), m j (k) ist nächster Prototyp zu x i a) Falls x i in Klasse k, verschiebe Prototyp in Richtung x i : b) sonst, schiebe Prototyp von x i weg: m j (k) m j (k) + ɛ(x i m j (k)) m j (k) m j (k) ɛ(x i m j (k)) 3. Wiederhole 2, wobei Lernrate ɛ mit jeder Iteration Richtung 0 reduziert wird. Machine learning in bioinformatics K4 7/14

8 Learning Vector Quantization - LVQ Bild: k-means mit 5 Prototypen Bild: LVQ, gestartet mit k-means Lösung. Prototypen wurden von den Klassengrenzen weggeschoben. Machine learning in bioinformatics K4 8/14

9 EM Algorithmus Gauss sche Mischverteilungen - EM Algorithmus Ähnlich k-means und LVQ, zur Bestimmung weicher Klassengrenzen. Jedes Cluster durch Gaussverteilung mit Centroid und Covariancematrix beschrieben. 1. E-Schritt: Jeder Beobachtung ein Gewicht für jedes Cluster zugewiesen, entspr. der Verteilung Punkte nahe Centroid - Gewicht nahe 1 für dieses Cluster und 0 für alle anderen, Punkte zwischen Centroids bekommen entspr. Gewichtsverteilung 2. M-Schritt: Neuberechnung von Centroids und Covarianzen für jedes Cluster EM Algorithmus weiche Clustering Methode Machine learning in bioinformatics K4 9/14

10 EM Algorithmus Bild: k-means mit 5 Prototypen Bild: EM Algorithmus, gestartet auf k-means Lösung. Klassengrenzen grob ähnlich, aber für Gaussian Model weich! Obwohl beide Methoden einen grünen Prototyp angeben, kann Gaussian Model diese Region ignorieren. Machine learning in bioinformatics K4 10/14

11 k-nearest-neighbor Klassifikation k-nearest-neighbor Klassifikation Speicherbasierte Methode, welche kein trainiertes Model vorraussetzt. Prinzip: Gegeben ein Objekt x 0 Finde k Trainingsobjekte x ( r), r = 1,..., k, die am nächsten an x 0 liegen Klassifiziere nach Mehrheitsprinzip zwischen den k Nachbarn Geeignet für Probleme bei denen: viele mögliche Prototypen per Klasse Klassengrenzen sehr unregelmäßig Vielfältige Anwendung u.a. in Handschrifterkennung, Analyse von Satellitenbildern und EKG Mustern. Machine learning in bioinformatics K4 11/14

12 k-nearest-neighbor Klassifikation Bild: k-means mit 5 Prototypen Bild: 15-nearest Neighbor Entscheidungsgrenze weicher als bei k-means Klassifikationen. Machine learning in bioinformatics K4 12/14

13 k-nearest-neighbor Klassifikation Bild: k-means mit 5 Prototypen Bild: 1-nearest Neighbor Beziehung zu Protoyp-Methoden: k Trainingsobjekt(e) entsprechen 1 Prototyp. Machine learning in bioinformatics K4 13/14

14 k-nearest-neighbor Klassifikation How to choose k? Problem: kleines k Bias klein, aber Varianz hoch! Lösungsansatz: k = 1 k + + solange Fehlerrate und Varianz sich verbessern Abhängig vom Problem erhält man verschiedene Werte für k. Machine learning in bioinformatics K4 14/14

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg

Algorithmen zur Analyse historischer Landkarten. Benedikt Budig Universität Würzburg Algorithmen zur Analyse historischer Landkarten Benedikt Budig Universität Würzburg Einführung Einführung Algorithmen zur Analyse historischer Landkarten Einführung Algorithmen zur Analyse historischer

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Proseminar: Web-Performance

Proseminar: Web-Performance Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

weitere Modelle und Methoden

weitere Modelle und Methoden weitere Modelle und Methoden LVQ-Netze, competetive learning, counterpropagation, motorische karten, adaptive resonance theory LVQ Struktur Lernende Vektor-Quantisierung Input-Raum mit Distanz-Funktion

Mehr

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems GMDS-Tagung 2006 Bioinformatik 1 Assessing the stability of unsupervised learning results in small-sample-size problems Ulrich Möller Email: Ulrich.Moeller@hki-jena.de Leibniz Institute for Natural Product

Mehr

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen

Inhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung

Mehr

Kapitel 5: Clustering

Kapitel 5: Clustering Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel

Mehr

Kapitel 5: Ensemble Techniken

Kapitel 5: Ensemble Techniken Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5:

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs

Mehr

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Ludmila Himmelspach Institut für Informatik Heinrich-Heine-Universität Düsseldorf D-40225 Düsseldorf, Deutschland himmelspach@cs.uni-duesseldorf.de

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Evolutionäre Algorithmen in der Spracherkennung

Evolutionäre Algorithmen in der Spracherkennung Informatik Alexander Eslava Evolutionäre Algorithmen in der Spracherkennung Studienarbeit Evolutionäre Algorithmen in der Spracherkennung Hauptseminar Einsatz Evolutionärer Strategien in Eingebetteten

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für

Mehr

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Adaptive Systeme Unüberwachtes Lernen: Adaptive Vektor Quantisierung und Kohonen Netze Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Überwachtes Lernen Alle bis lang betrachteten Netzwerke

Mehr

Streaming Data: Das Modell

Streaming Data: Das Modell Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer

Mehr

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43 1) Ermittle jeweils das arithmetische Mittel. Ordne die Datenerhebungen nach der Größe der arithmetischen Mittel. Beginne mit dem Größten. 1 45, 39, 44, 48, 42, 39, 40, 31 2 35, 31, 46, 35, 31, 42, 51,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Technische Universität

Technische Universität Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Grundlagen der Klassifikation Proseminar Grundlagen der Bildverarbeitung Christina Katz Betreuer: Dr. Michael

Mehr

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse) Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

Verbesserungsheuristiken

Verbesserungsheuristiken Verbesserungsheuristiken Bestandteile der Lokalen Suche Für schwierige Optimierungsaufgaben haben Verbesserungsheuristiken eine große praktische Bedeutung. Sie starten mit Ausgangslösungen, die von z.b.

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Computerlinguistische Textanalyse

Computerlinguistische Textanalyse Computerlinguistische Textanalyse 10. Sitzung 06.01.2014 Einführung in die Textklassifikation Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Was bisher geschah. 1. Zerlegung in monotone Polygone 2. Triangulierung der monotonen Teilpolygone

Was bisher geschah. 1. Zerlegung in monotone Polygone 2. Triangulierung der monotonen Teilpolygone Was bisher geschah Motivation, Beispiele geometrische Objekte im R 2 : Punkt, Gerade, Halbebene, Strecke, Polygon, ebene Zerlegung in Regionen (planare Graphen) maschinelle Repräsentation geometrischer

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Mittelwert und Standardabweichung

Mittelwert und Standardabweichung Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Mittelwert und Standardabweichung Überblick Mittelwert Standardabweichung Weitere Maße

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr

Ein Algorithmus für die

Ein Algorithmus für die VGG 1 Ein Algorithmus für die Visualisierung gerichteter Graphen in der Ebene (2D) Seminar Graph Drawing SS 2004 bei Prof. Bischof (Lehrstuhl für Hochleistungsrechnen) Gliederung VGG 2 Einleitung Motivation

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 01 8. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (~.000.000.000 Basenpaare)

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Algorithmen und Datenstrukturen 1

Algorithmen und Datenstrukturen 1 Algorithmen und Datenstrukturen 1 4. Vorlesung Peter F. Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de 4. Sortierverfahren Elementare Sortierverfahren - Sortieren durch

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten 7. Vorlesung Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten Seite 179 Web als ein Soziales Netzwerk Small-world Netzwerk: Niedriger (Durchschnitts) Durchmesser

Mehr

1.5 Berechnung von Rangzahlen

1.5 Berechnung von Rangzahlen 1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 5 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

in vielen technischen und wissenschaftlichen Anwendungen erforderlich: hohe Präzision große Dynamik möglich durch Verwendung von Gleitkommazahlen

in vielen technischen und wissenschaftlichen Anwendungen erforderlich: hohe Präzision große Dynamik möglich durch Verwendung von Gleitkommazahlen Inhalt Motivation 2 Integer- und Festkomma-Arithmetik Zahlendarstellungen Algorithmen für Integer-Operationen Integer-Rechenwerke Rechnen bei eingeschränkter Präzision 3 Gleitkomma-Arithmetik Zahlendarstellungen

Mehr

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind: Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

Methoden der Werkstoffprüfung Kapitel I Grundlagen. WS 2009/2010 Kapitel 1.0

Methoden der Werkstoffprüfung Kapitel I Grundlagen. WS 2009/2010 Kapitel 1.0 Methoden der Werkstoffprüfung Kapitel I Grundlagen WS 2009/2010 Kapitel 1.0 Grundlagen Probenmittelwerte ohne MU Akzeptanzbereich Probe 1 und 2 liegen im Akzeptanzbereich Sie sind damit akzeptiert! Probe

Mehr

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Computer Vision: AdaBoost D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Idee Gegeben sei eine Menge schwacher (einfacher, schlechter) Klassifikatoren Man bilde einen guten durch eine geschickte Kombination

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Kay Nieselt SS 011 9. It s hip to chip - von Microarrays zu personalisierter Medizin WSI/ZBIT, Eberhard Karls Universität Tübingen Das menschliche Genom (.000.000.000 Basenpaare)

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67 Kapitel 2.1: Die stochastische Sicht auf Signale 215 Georg Dorffner 67 Stochastische Prozesse Stochastische Prozesse sind von Zufall geprägte Zeitreihen x n f x, n 1 xn2,... n vorhersagbarer Teil, Signal

Mehr

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen

SYN Grundlagen Algorithmen Anwendung FIN. Anomalieerkennung. UnFUG WS2011/2012. Alexander Passfall <alex@passfall.de> Hochschule Furtwangen 1/23 UnFUG WS2011/2012 Alexander Passfall Hochschule Furtwangen 3. November 2011 2/23 Inhalt 1 Grundlagen Typen Funktionsweise 2 Algorithmen Outlier Detection Machine Learning 3 Anwendung

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung

Mehr

Seminar aus Informatik

Seminar aus Informatik 2012-06-15 Intrusion Detection Systems (IDS) Ziel: Erkennung von Angriffen und Ausbrüchen Host Based IDS Läuft auf dem Host Ist tief im System verankert Hat Zugriff auf: Prozessinformationen Netzwerkverkehr

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

antiproportionale Zuordnungen mit Anwendungen

antiproportionale Zuordnungen mit Anwendungen Chemie: Graphen zu -Versuchsreihen Thema: Proportionale und antiproportionale Zuordnungen mit Anwendungen Umfang: 12 Wochen Jahrgangsstufe 7 Proportionale und antiproportionale Zuordnungen Darstellen Zuordnungen

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Einführung in die C++ Programmierung für Ingenieure

Einführung in die C++ Programmierung für Ingenieure Einführung in die C++ Programmierung für Ingenieure MATTHIAS WALTER / JENS KLUNKER Universität Rostock, Lehrstuhl für Modellierung und Simulation 16. November 2012 c 2012 UNIVERSITÄT ROSTOCK FACULTY OF

Mehr

Kern- und Schulcurriculum Mathematik Klasse 5/6. Stand Schuljahr 2009/10

Kern- und Schulcurriculum Mathematik Klasse 5/6. Stand Schuljahr 2009/10 Kern- und Schulcurriculum Mathematik Klasse 5/6 Stand Schuljahr 2009/10 Klasse 5 UE 1 Natürliche en und Größen Große en Zweiersystem Römische en Anordnung, Vergleich Runden, Bilddiagramme Messen von Länge

Mehr

Kapitel 7. Crossvalidation

Kapitel 7. Crossvalidation Kapitel 7 Crossvalidation Wie im Kapitel 5 erwähnt wurde, ist die Crossvalidation die beste Technik, womit man die Genauigkeit der verschiedenen Interpolationsmethoden überprüft. In diesem Kapitel wurde

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Large-Scale Image Search

Large-Scale Image Search Large-Scale Image Search Visuelle Bildsuche in sehr großen Bildsammlungen Media Mining I Multimedia Computing, Universität Augsburg Rainer.Lienhart@informatik.uni-augsburg.de www.multimedia-computing.{de,org}

Mehr

Selected Topics in Machine Learning and Reverse Engineering

Selected Topics in Machine Learning and Reverse Engineering Selected Topics in Machine Learning and Reverse Engineering Dozenten: Prof. Dr. Fabian Theis Email: theis@ma.tum.de Prof. Dr. Oliver Junge Raum: 02.08.040? Tel.: +49 (89) 289 17987, Email: junge@ma.tum.de

Mehr

Neue Wege Klasse 6 Schulcurriculum EGW

Neue Wege Klasse 6 Schulcurriculum EGW Neue Wege Klasse 6 Schulcurriculum EGW Inhalt Neue Wege 6 Kapitel 1 Ganze Zahlen 1.1 Negative Zahlen beschreiben Situationen und Vorgänge 1.2 Anordnung auf der Zahlengeraden 1.3 Addieren und Subtrahieren

Mehr

Routing Algorithmen. Begriffe, Definitionen

Routing Algorithmen. Begriffe, Definitionen Begriffe, Definitionen Routing (aus der Informatik) Wegewahl oder Verkehrslenkung bezeichnet in der Telekommunikation das Festlegen von Wegen für Nachrichtenströme bei der Nachrichtenübermittlung über

Mehr

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

SEMINAR AUTOMATISCHE GESICHTSERKENNUNG SEMINAR AUTOMATISCHE GESICHTSERKENNUNG OBERSEMINAR AUTOMATISCHE ANALYSE VON GESICHTSAUSDRÜCKEN Organisation, Überblick, Themen Überblick heutige Veranstaltung 1. Organisatorisches 2. Überblick über beide

Mehr

Flussdiagramm / Programmablaufplan (PAP)

Flussdiagramm / Programmablaufplan (PAP) Flussdiagramm / Programmablaufplan (PAP) Basissysmbole Grenzstelle (Anfang, Zwischenhalt oder Ende des Programms/Algorithmus) Verbindung Zur Verdeutlichung der Ablaufrichtung werden Linien mit einer Pfeilspitze

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Geometrische Algorithmen

Geometrische Algorithmen Geometrische Algorithmen Thomas Röfer Motivation Scan-line-Prinzip Konvexe Hülle Distanzprobleme Voronoi-Diagramm Rückblick Manipulation von Mengen Vorrangwarteschlange Heap HeapSort swap(a, 0, 4) 1 5

Mehr

Maschinelles Lernen in der Bioinformatik

Maschinelles Lernen in der Bioinformatik Maschinelles Lernen in der Bioinformatik Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) VL 2 HMM und (S)CFG Jana Hertel Professur für Bioinformatik Institut für Informatik

Mehr