OPT Optimierende Clusteranalyse

Größe: px
Ab Seite anzeigen:

Download "OPT Optimierende Clusteranalyse"

Transkript

1 Universität Augsburg Fakultät für angewandte Informatik Lehrstuhl für Physische Geographie und Quantitative Methoden Übung zum Projektseminar: Wetterlagen und Feinstaub Leitung: Dr. Christoph Beck Referentin: Nicole Rößler, Ba.Sc., 4. Semester; Nina Wente, Ba.Sc., 5. Semester OPT Optimierende Clusteranalyse Rößler, Wente 1

2 Gliederung OPT Optimierende Clusteranalyse (Definition) CKMEANS PCACA PETISCO PETISCO & PCAXTRKMN SANDRA SANDRAS NNW Rößler, Wente 2

3 OPT Optimierende Clusteranalyse (Definition) Optimierungsverfahren: Annährungen, die eine Anzahl an Objekten (Tage) innerhalb von Gruppen so einordnet, dass eine bestimmte Funktion optimiert wird Minimierung von Schwankungen / Variabilität innerhalb einer Gruppe, gemessen als die Summe der Euklidischen Distanz zwischen den Elementen einer Gruppe und dem Mittelwert einer Gruppe Rößler, Wente 3

4 OPT Optimierende Clusteranalyse (Definition) die meisten Optimierungsverfahren in cost733cat basieren auf der k-means Clusteranalyse diese unterscheiden sich nur in der anfänglichen Aufteilung der Daten bzw. der Datenverwaltung nur SANDRA und NNW benutzen alternative Wege für die Optimierung Rößler, Wente 4

5 CKMEANS Durch den k-means Algorithmus erfolgt die Aufteilung des Datensatzes basierend auf ungleich gewichtete Felder (nach Enke und Spekat 1997) Initialisierung (Zuweisung eines Wertes / eines Gewichtes) erfolgt durch stichprobenartige Auswahl eines Objektes das Ausgangselement für das zweite Cluster ist das Objekt, das zum ersten am unterschiedlichsten ist Rößler, Wente 5

6 CKMEANS das Ausgangselement für das dritte Cluster ist das Objekt, welches zu den ersten beiden Ausgangselementen am unterschiedlichsten ist dies wird so lange wiederholt, bis jedes Cluster ein bestimmtes Muster hat Rößler, Wente 6

7 CKMEANS alle übrigen Tage werden dann der am meisten entsprechenden Klasse zugeordnet mit jedem Tag, der einer Klasse zugeordnet wird, werden die Mittelwerte neu berechnet Rößler, Wente 7

8 CKMEANS als Konsequenz wird die multidimensionale Distanz zwischen den Klassenmittelwerten kleiner, während die Variabilität innerhalb der Klassen größer wird nun setzt der schrittweise k-means Clusteringprozess ein die Mittelwerte nähern sich hierbei einer finalen Ordnung an, welche keine Ähnlichkeit mit der Startaufteilung hat Rößler, Wente 8

9 CKMEANS um Repräsentativität beizubehalten, werden die Klassen nur dann im Prozess beibehalten, wenn sie nicht unter einen bestimmten Schwellenwert fallen, z.b 5% aller Tage ansonsten wird die Klasse aufgelöst und der Inhalt fließt in die übrigen Klassen mit ein Rößler, Wente 9

10 PCACA in einem vorbereitendem Schritt wird ein High- Pass-Filter, welcher den 13-Tage- Durchschnitt nutzt, auf die Eingangsdaten angewendet, der der Ausblendung des jahreszeitlichen Ablaufs dient Rößler, Wente 10

11 PCACA anschließend wird eine s-mode PCA auf die gefilterten Daten angewandt um die Co- Proportionalität zu reduzieren, die numerischen Kalkulationen zu vereinfachen und um die Durchführung der anschließenden Clusteranalyse zu verbessern die tägliche PC-Score Zeitreihe der verbleibenden PCs ist das Material für den Clustering-Prozess Rößler, Wente 11

12 PCACA Um die Startaufteilung für die k-means Prozedur zu erhalten, wird die hierarchische Clusteranalyse von Ward vorgenommen Rößler, Wente 12

13 PETISCO versucht nicht die Aufteilung des Datensatzes zu optimieren, sonder eher optimale Mittelwerte zu finden ähnelt Leader-Algorithmus, enthält aber ein Optimierungsverfahren für die Ausgangselemente wie bei LUND werden hier Schlüsselmuster für alle Tage bestimmt, aber hier mit Schwellenwert von 0,9 für die Muster Korrelation r Rößler, Wente 13

14 PETISCO wenn mehr atm. Level berechnet werden, ist r der Minimalwert der Korrelationskoeffizienten, für jedes Level getrennt berechnet Im Gegensatz zum Leader-Algorithmus, wird das Schlüsselmuster als der Mittelwert der sog. Schlüsselgruppen berechnet, welche aus dem Schlüsseltag und allen Werten, die stark mit ihm korrelieren, besteht Rößler, Wente 14

15 PETISCO in einem sich wiederholenden Vorgang wird die Berechnung des Schlüsselgruppenmittelwertes und die Suche nach neuen Mitgliedern für die Schlüsselgruppe vorgenommen, bis ein optimiertes Schlüsselmuster besteht, das sich nicht mehr verändert folglich wird die Schlüsselgruppe in Abschnitten von max. Teilnehmeranzahl optimiert aus diesen Schlüsselgruppen werden die Rößler, Wente größten als finale 15 Gruppen ausgewählt

16 PETISCO & PCAXTRKMN alle verbleibenden Tage werden diesen entsprechend ihres maximalen Korrelationskoeffizienten zugeordnet für diese k-means Variante wird die anfängliche Aufteilung entsprechend d. PCAXTR Methode, gerade schon beschrieben, verwendet demnach einzige Optimierungsmethode, die Einschränkungen bezügl. Der Anzahl der Objekte enthält Rößler, Wente 16

17 SANDRA der Unterschied zu k-means sind sog. falsche Re-Zuordnungen, z.b. können Objekte aus ihrem nahsten Cluster entfernt werden, abhängig von der Wahrscheinlichkeit P, welche zu Anfang groß ist, aber während dem Optimierungsprozess langsam abnimmt Folglich, wenn der Prozess an einem Punkt schlechtester Qualität angekommen ist, können manche neu zugeordnet werden, was zu einer kompletten Verbesserung in den folgenden Schritten führen kann Rößler, Wente 17

18 SANDRA mit dem Ziel langsam P zu reduzieren, wird ein Kontrollparameter T, welches zu Beginn eine große Zahl ist, und schrittweise mit einem Cooling Faktor C reduziert wird um die Laufzeit zu verkürzen, wird ein relativ kleiner Cooling-Faktor verwendet; Er wiederholt den ganzen Prozess 1000 mal mit zufällig aufgeteilter Anfangsverteilung und einem zufälligen Schema für Objekt und Cluster- Anordnung Rößler, Wente 18

19 SANDRA dies führt zu einer diversifizierten Chronologie für den Test, somit entstehen verschiedene Wege sich an das globale Optimum anzunähern von diesen 1000 Ergebnissen wird das Beste entsprechend der Zwischen-Typ-Varianz ausgewählt Rößler, Wente 19

20 SANDRAS Methode unterscheidet sich nur durch die Messwertverarbeitung von SANDRA Anstatt einzelner Tages-Muster werden Drei- Tages-Sequenzen genutzt, weshalb die Entstehungsgeschichte des letzten Tages in dieser Sequenz in der Gruppen-Definition enthalten ist Rößler, Wente 20

21 SANDRAS Im Prinzip könnte dieser Ansatz auf alle Klassifikations-Ansätze angewandt werden, aber er ist nur im Datensatz für das SANDRA- Schema enthalten, um eine Vorschau der zugehörigen Effekte zu erhalten Rößler, Wente 21

22 NNW Das SOFM-Netzwerk (Self-organising Features Map) hat die Fähigkeit zu lernen, ohne dass die Arbeitsleistung in den ausgewählten Mustern angegeben wird zusätzlich kann es Daten in eine bestimmte Anzahl an Kategorien mit nur zwei Neuronen- Layer aufteilen (ein Input- und ein Output- Layer) Rößler, Wente 22

23 NNW Letzteres besteht aus einem Neuron für jede mögliche Leistungs-Kategorie Ziel ist es, bedeutende Features in den Input-Daten zu finden Rößler, Wente 23

Übung zum Projektseminar Wetterlagen und Feinstaub

Übung zum Projektseminar Wetterlagen und Feinstaub Universität Augsburg Fakultät für Angewandte Informatik Institut für Physische Geographie und Quantitative Methoden Prof. Dr. Jucundus Jacobeit Übung zum Projektseminar Wetterlagen und Feinstaub Montag

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Hauptkomponenten-basierte Klassifikationsverfahren (PCA)

Hauptkomponenten-basierte Klassifikationsverfahren (PCA) Hauptkomponenten-basierte Klassifikationsverfahren (PCA) Projektseminar: Wetterlagen und Feinstaub - Übung Dozent: Claudia Weitnauer Referent: Esther Oßwald, Julian Dare Datum: 30.05.2011 Übersicht 1 Einleitung

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

WETRAX (Weather Patterns, Storm TRAcks and related precipitation Extremes) Arbeitspaket 3 Wetterlagen

WETRAX (Weather Patterns, Storm TRAcks and related precipitation Extremes) Arbeitspaket 3 Wetterlagen WETRAX (Weather Patterns, Storm TRAcks and related precipitation Extremes) Arbeitspaket 3 Wetterlagen Markus Homann, Christoph Beck, Jucundus Jacobeit, Andreas Philipp University of Augsburg, Institute

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2 Tom Schelthoff 30.11.2018 Inhaltsverzeichnis Deep Learning Seed-Stabilität Regularisierung Early Stopping Dropout Batch Normalization

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Technische Universität München SoSe 2017 Fakultät für Informatik, I-16 Lösungsblatt 4 Dr. Stefanie Demirci 31. Mai 2017 Rüdiger Göbl, Mai Bui Algorithmen und Datenstrukturen Aufgabe 1 Komplexität Berechnung

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,

Mehr

Der diskrete Kalman Filter

Der diskrete Kalman Filter Der diskrete Kalman Filter Fachbereich: Informatik Betreuer: Marc Drassler Patrick Winkler 1168954 6. Dezember 2004 Technische Universität Darmstadt Simulation und Systemoptimierung Darmstadt Dribbling

Mehr

PCA based feature fusion

PCA based feature fusion PCA based feature fusion Seminar Inhaltsbasierte Bildsuche WS 04/05 Übersicht Motivation: PCA an einem Beispiel PCA in der Bildsuche Tests Zusammenfassung / Ausblick Diskussion / Demo 2 Motivation: PCA

Mehr

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 6 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Messwiederholungen und abhängige Messungen

Messwiederholungen und abhängige Messungen Messwiederholungen und abhängige Messungen t Tests und Varianzanalysen für Messwiederholungen Kovarianzanalyse Thomas Schäfer SS 009 1 Messwiederholungen und abhängige Messungen Bei einer Messwiederholung

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI

Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Visualizing Similarities in Music

Visualizing Similarities in Music who is who 1 Visualizing Similarities in Music Projekt MusicMiner unter der Leitung von: MSc. Fabian Mörchen Prof. Dr. Alfred Ultsch Databionics Research Group Philipps-Universität Marburg who is who 2

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Bildverarbeitung Herbstsemester. Mustererkennung

Bildverarbeitung Herbstsemester. Mustererkennung Bildverarbeitung Herbstsemester Herbstsemester 2009 2012 Mustererkennung 1 Inhalt Einführung Mustererkennung in Grauwertbildern Ähnlichkeitsmasse Normalisierte Korrelation Korrelationskoeffizient Mustererkennung

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11 ALBERT-LUDWIGS-UNIVERSITÄT FREIBURG INSTITUT FÜR INFORMATIK Lehrstuhl für Mustererkennung und Bildverarbeitung Prof. Dr.-Ing. Hans Burkhardt Georges-Köhler-Allee Geb. 05, Zi 0-09 D-790 Freiburg Tel. 076-03

Mehr

Grundlagen verteilter Systeme

Grundlagen verteilter Systeme Universität Augsburg Insitut für Informatik Prof. Dr. Bernhard Bauer Wolf Fischer Christian Saad Wintersemester 08/09 Übungsblatt 7 17.12.08 Grundlagen verteilter Systeme Lösungsvorschlag Aufgabe 1: a)

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Einstieg in die Informatik mit Java

Einstieg in die Informatik mit Java 1 / 27 Einstieg in die Informatik mit Java Methoden / Funktionen Gerd Bohlender Institut für Angewandte und Numerische Mathematik Gliederung 2 / 27 1 Überblick 2 Zweck von Methoden 3 Methodendefinition

Mehr

insara: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen

insara: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen insara: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen Von der Fakultät für Lebenswissenschaften der Technischen Universität Carolo-Wilhelmina zu

Mehr

Inhaltsverzeichnis 1. EINLEITUNG...1

Inhaltsverzeichnis 1. EINLEITUNG...1 VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5

Mehr

Decision-Tree-Klassifikator

Decision-Tree-Klassifikator D3kjd3Di38lk323nnm Decision-Tree-Klassifikator Decision Trees haben einige Vorteile gegenüber den beiden schon beschriebenen Klassifikationsmethoden. Man benötigt in der Regel keine so aufwendige Vorverarbeitung

Mehr

9. Rekursion. 1 falls n 1 n (n 1)!, andernfalls. Experiment: Die Türme von Hanoi. Links Mitte Rechts. Mathematische Rekursion

9. Rekursion. 1 falls n 1 n (n 1)!, andernfalls. Experiment: Die Türme von Hanoi. Links Mitte Rechts. Mathematische Rekursion Experiment: Die Türme von Hanoi. Rekursion Mathematische Rekursion, Terminierung, der Aufrufstapel, Beispiele, Rekursion vs. Iteration Links Mitte Rechts Mathematische Rekursion Viele mathematische Funktionen

Mehr

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung 26.10.2016, TP 2: Arbeiten von A.R.T. TP2: Tracking und Umfelderkennung Markerloses Tracking texturierte Objekte Umfelderkennung

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik Babeş-Bolyai Universität Fakultät für Mathematik und Informatik Oktober 2018 Im Alltag... Laut den meteorologischen Vorhersagen wird es morgen regnen. Ob ich riskiere und die Wette verlieren werde? Ich

Mehr

Methodenlehre. Vorlesung 5. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 5. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 5 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ 20.2.13 Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Definition Ein Heap (priority queue) ist eine abstrakte Datenstruktur mit folgenden Kennzeichen:

Definition Ein Heap (priority queue) ist eine abstrakte Datenstruktur mit folgenden Kennzeichen: HeapSort Allgemeines Sortieralgorithmen gehören zu den am häufigsten angewendeten Algorithmen in der Datenverarbeitung. Man hatte daher bereits früh ein großes Interesse an der Entwicklung möglichst effizienter

Mehr

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Verfahren zur Skalierung. A. Die klassische Vorgehensweise - nach der Logik der klassischen Testtheorie Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items

Mehr

9 Arrangements und Dualität

9 Arrangements und Dualität 9 Arrangements und Dualität 9.1 Strahlenverfolgung und Diskrepanz Wir betrachten eine Anwendung aus der Computergraphik: realistische Bilder von 3D- Szenen lassen sich durch ray tracing berechnen. Für

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Algorithmische Methoden für schwere Optimierungsprobleme

Algorithmische Methoden für schwere Optimierungsprobleme Algorithmische Methoden für schwere Optimierungsprobleme Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Die Forschungsuniversität Meyerhenke, in der Institut für Theoretische

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Verteidigung der Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Von: Tom Fels 23.11.2015 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Motivation Motivation PROGNOSEN Schätzung zukünftiger

Mehr

Institut für angewandte Datenanalyse GmbH

Institut für angewandte Datenanalyse GmbH Institut für angewandte Datenanalyse GmbH Latent Class Cluster Analysen (LCCA) Was erwartet Sie nachfolgend? Einführung Klassifizierung der Segmentierungs-Verfahren Case Study Urlaubsreisen Das Prinzip

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Post Hoc Tests A priori Tests (Kontraste) Nicht-parametrischer Vergleich von Mittelwerten 50 Ergebnis der ANOVA Sprossdichte der Seegräser 40 30 20 10

Mehr

Zusammenhangsmaße II

Zusammenhangsmaße II Sommersemester 2009 Wiederholung/ Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins:

Mehr

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung

Mehr

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Zusammenhangsmaße II

Zusammenhangsmaße II Sommersemester 2009 Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins: Kapitel

Mehr

Stochastische Approximation des Value at Risk

Stochastische Approximation des Value at Risk Stochastische Approximation des Value at Risk Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit die sogenannte Solvency-II-Richtlinie der Versicherungsaufsicht.

Mehr

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany), Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Kryptographische Protokolle

Kryptographische Protokolle Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit

Mehr

Strukturelle SVM zum Graph-labelling

Strukturelle SVM zum Graph-labelling 23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen

Mehr

Stochastische Approximation des Value at Risk

Stochastische Approximation des Value at Risk Stochastische Approximation des Value at Risk Zusammenfassung der Masterarbeit an der Universität Ulm Annemarie Bitter Motivation Eines der wichtigsten Projekte der Versicherungswirtschaft ist derzeit

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 12, Henning Meyerhenke

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 12, Henning Meyerhenke Algorithmische Methoden zur Netzwerkanalyse Vorlesung 12, 25.01.2012 Henning Meyerhenke 1 KIT Henning Universität desmeyerhenke: Landes Baden-Württemberg und nationales Algorithmische Forschungszentrum

Mehr

Effiziente Algorithmen (SS2015)

Effiziente Algorithmen (SS2015) Effiziente Algorithmen (SS205) Kapitel 5 Approximation II Walter Unger Lehrstuhl für Informatik 2.06.205 07:59 5 Inhaltsverzeichnis < > Walter Unger 5.7.205 :3 SS205 Z Inhalt I Set Cover Einleitung Approximation

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

Inhaltsverzeichnis. Teil I Einführung in R 43. Vorwort 11. Fragestellungen und Methoden 13. Kapitel 1 Einführung 17

Inhaltsverzeichnis. Teil I Einführung in R 43. Vorwort 11. Fragestellungen und Methoden 13. Kapitel 1 Einführung 17 Vorwort 11 Fragestellungen und Methoden 13 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von R... 20 1.4 WiekanndiesesBuchverwendetwerden?... 20 1.5

Mehr

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 5 bis 8 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Ein Schwellenwertelement (Threshold Logic Unit, TLU) ist eine Verarbeitungseinheit für Zahlen mitneingängenx,...,x n und einem

Mehr