5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
|
|
- Caroline Schneider
- vor 6 Jahren
- Abrufe
Transkript
1 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene Ansätze von nichtpartitionierenden Verfahren zu kennen und Clusteranlayse mit der Entscheidungsbaumtechnik kombinieren können. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Vorbemerkungen Bei der Generierung von Entscheidungsbäumen wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie diese charakterisiert werden könnten. Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 168
2 5. Clusteranalyse Vorbemerkungen Eine Zerlegung einer Datenmenge D = {x 1,..., x n } IR p in seine Clusterstruktur ist definiert als eine Zerlegung von D in k disjunkte Teilmengen D 1,..., D k mit D = D 1... D k D i für i = 1,..., k D i D j = für i, j = 1,..., k, i j Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Vorbemerkungen Die Cluster D i sind genau dann eine gute Repräsentation der Clusterstruktur von D, falls alle Datensätze innerhalb der Cluster einen geringen Abstand und alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. kleiner Abstand bedeutet ähnliche Objekte und großer Abstand bedeutet unähnliche Objekte. Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 170
3 5. Clusteranalyse Vorbemerkungen Metrik Definition 5.1. Es sei M eine Menge. Eine Funktion d : M IR heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. d(x, y) 0 für alle x, y M. 2. d(x, y) = 0 genau dann, wenn x = y. 3. d(x, y) = d(y, x) für alle x, y M. 4. d(x, z) d(x, y) + d(y, z) für alle x, y, z M. Das Tupel (M, d) heißt metrischer Raum. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Vorbemerkungen Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): euklidische Norm: d(x, y) = p i=1 (x i y i ) 2 Anzahl verschiedener Attributwerte: d(x, y) = p i=1 δ(x i, y i ) mit δ(x i, y i ) = { 0 falls xi = y i 1 sonst Für Mengen X und Y : d(x, Y ) = X Y X Y X Y Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 172
4 5. Clusteranalyse SAHN-Clustering Sequentielle agglomerative hierarchische nichtüberlappende Verfahren Sequentielle Verfahren der Clusteranalyse ermitteln die Cluster Schritt für Schritt. Agglomerative Verfahren bauen die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge D als n Cluster. Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup eine Hierarchie von Clustern. Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. Die Vorderung D i D j stellt eine Nichtüberlappung der Cluster dar. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse SAHN-Clustering Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) 1. Setze C := {{x 1 },..., {x n }} und k := n. 2. Bestimme C i und C j mit d(c i, C j ) = min 1 r,s k,r s d(c r, C s ) Falls d(c i, C j ) > dmax gehe zu C := (C \ {C i, C j }) (C i C j ) und k := k 1 Falls k = 1 gehe zu 4. Sonst weiter mit Ausgabe von k und C. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 174
5 5. Clusteranalyse SAHN-Clustering In dem Algorithmus wird ein Abstandsmaß d(c i, C j ) für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.typischerweise benutzt man: Minimalabstand (Single Linkage): d(c i, C j ) = Maximalabstand (Complete Linkage): d(c i, C j ) = mittlerer Abstand (Average Linkage): d(c i, C j ) = min x C i,y C j d(x, y) max d(x, y) x C i,y C j 1 C i C j x C i,y C j d(x, y) Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse SAHN-Clustering Der Parameter dmax legt fest, bis zu welchem Abstand Cluster verschmolzen werden. Schritt 3 bedeutet: Die einzelnen Cluster C i, C j werden aus der Clusterstruktur entfernt und ein neues Cluster mit den Datensätzen aus C i vereinigt mit den Datensätzen aus C j wird in die Clusterstruktur eingefügt. Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 176
6 5. Clusteranalyse SAHN-Clustering Dendogramm Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man dmax variiert. a b f g e c d e f g a b c d Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse k-means k-means Verfahren Cluster C i können auch durch ihre Zentren v i charakterisiert werden. Die Zuordnung einzelner Datensätze x i zu den k Clustern erfolgt dann mit der Nächste-Nachbar-Regel, d.h. x j gehört zu Cluster C i genau dann, wenn gilt: d(x j, v i ) = min d(x j, v l ) l=1,...,k Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: v i := 1 C i x l C i x l Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 178
7 5. Clusteranalyse k-means Bestimmt man die Clusterzentren neu, so ergeben sich möglicherweise andere Cluster, da die Zugehörigkeit eines Datensatzes x j zu einem Cluster C i ja über die Clusterzentren definiert ist. Nach der Veränderung der Clusterzentren muß demnach auch eine neue Aufteilung der Datensätze auf Cluster erfolgen. Dies führt wiederum zu neuen Clusterzentren. k-means Algorithmus: Es werden abwechselnd die Cluster und ihre Zentren bestimmt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse k-means Algorithmus 5.2. Gegeben Datenmenge D, eine gewünschte Clusteranzahl k, eine maximale Anzahl von Iterationen tmax. 1. Initialisiere Prototypen v 1,..., v k. 2. Ordne die Datensätze x i gemäß der Nächste-Nachbar-Regel den k Zentren zu. So entstehen neue Cluster C 1,..., C k. 3. t := t + 1. Falls t = tmax gehe zu 4. Berechne die Zentren v i von C i neu. 4. Ausgabe der Clusterstruktur und der Zentren v 1,..., v k. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 180
8 5. Clusteranalyse k-means Bemerkungen: Die Prototypen in Schritt 1 können z.b. k zufällig ausgewählte Datensätze sein. Alternative Abbruchbedingungen für den Algorithmus: In den Iteration t und t + 1 enthalten die Cluster die gleichen Datensätze. Bestimmung eines Maßes für die Änderung an den Clusterzentren. Abbruch, falls dieses Maß einen kritische Grenze unterschreitet. Die Berechnung des Schwerpunktes ist nur in Vektorräumen möglich. Liegt kein Vektorraum vor, müssen die Prototypen v i auf eine andere Weise ermittelt werden. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse k-means Der k-means-algorithmus versucht, Abweichungen von den Schwerpunkten der Cluster klein zu halten. Dies entspricht der Minimierung des folgende Maßes: wc(c) = k i=1 x j C i d(x j, v i ) 2 Dies führt häufig zu kreisförmigen (oder elliptischen) Clustern gleicher Größe. Clusterstrukturen können aber auch irregulär sein. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 182
9 5. Clusteranalyse Hopkins-Index Hopkins-Index Eine Clusteranalyse ist natürlich nur dann sinnvoll, wenn die zu analysierenden Datensätze auch wirklich Häufungen enthalten. Um dies festzustellen, eignet sich der Hopkins-Index h. Zur Bestimmung des Hopkins-Index wählt man: ein m << n, zufällig und gleichverteilt m Punkte R = {r 1,..., r m } aus der konvexen Hülle der Datensätze D sowie m Datensätze S = {s 1,..., s m } D. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Hopkins-Index Es seien nun: d ri := der Abstand von r i zum nächsten Datensatz in D. d si := der Abstand von s i zum nächsten Nachbarn in D. Der Hopkins-Index h ist dann definiert durch h = m i=1 dp r i m i=1 dp r i + m i=1 dp s i Der Hopkins-Index hängt stark von der Wahl von R und S ab. Daher sollte man die Bestimmung des Hopkins-Index mehrmal durchführen und den Mittelwert der einzelnen Werte nehmen. Der Wertebereich des Hopkins-Index ist h [0, 1]. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 184
10 5. Clusteranalyse Hopkins-Index Interpretation des Hopkins-Index 1. Für h 0.5 sind die Abstände zwischen den Datensätzen aus D etwa so groß wie die Abstände zwischen beliebigen Punkten innerhalb der konvexen Hülle von D. Dies deutet darauf hin, daß S (bzw. D) eine ähnliche Verteilung hat wie die Menge R. Da R zufällig verteilt ist, ist also auch D zufällig verteilt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Hopkins-Index 2. Für h 0 sind die Abstände zwischen den Daten aus D relativ groß. Dieser Fall kann auftreten, wenn die Datensätze von D regelmäßig in etwa gleichem Abstand in der konvexen Hülle verteilt sind. Kleine Werte des Hopkins-Index deuten also auf eine regelmäßige Struktur von D hin. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 186
11 5. Clusteranalyse Hopkins-Index 3. Für h 1 sind die Abstände zwischen den Datensätzen aus D relativ klein. Dies kann durch Cluster verursacht werden, innerhalb derer die Daten relativ dicht liegen. Aus einem hohen Hopkins-Index kann also geschlossen werden, daß D eine ausgeprägte Clusterstruktur besitzt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 187
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrProseminar: Web-Performance
Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrAnwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrStatistik und Graphentheorie
Statistik und Graphentheorie Sommersemester 2012 3. Juli 2012 Teil Graphentheorie Name: Matrikelnummer: 1 (12) 2 (12) 3 (12) 4 (12) 5 (12) (60) Aufgabe 1 (12 Punkte) Gegeben sei das folgende Netzwerk:
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
MehrSeminar zum Thema Künstliche Intelligenz: Clusteranalyse
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................
MehrMathematik I. Vorlesung 19. Metrische Räume
Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors
Mehr4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140
4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}
MehrSeminar Einführung in die Kunst mathematischer Ungleichungen
Seminar Einführung in die Kunst mathematischer Ungleichungen Geometrie und die Summe von Quadraten Clara Brünn 25. April 2016 Inhaltsverzeichnis 1 Einleitung 2 1.1 Geometrie allgemein.................................
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrEine Indexstruktur zur schnellen Nächste-Nachbar-Suche im metrischen Raum
Eine struktur zur schnellen Nächste-Nachbar-Suche im metrischen Raum (Zusammenarbeit mit Sören Balko) Brandenburgische Technische Universität Cottbus Institut für Informatik 4. Juli 2007 Gliederung 1 2
MehrStatistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)
Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Mehr2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
MehrVier-Farben-Vermutung (1)
Vier-Farben-Vermutung (1) Landkarten möchte man so färben, dass keine benachbarten Länder die gleiche Farbe erhalten. Wie viele Farben braucht man zur Färbung einer Landkarte? Vier-Farben-Vermutung: Jede
MehrZahlen und metrische Räume
Zahlen und metrische Räume Natürliche Zahlen : Die natürlichen Zahlen sind die grundlegendste Zahlenmenge, da man diese Menge für das einfache Zählen verwendet. N = {1, 2, 3, 4,...} bzw. N 0 = {0, 1, 2,
MehrDas Voronoi Diagramm. 1. Definition. 2. Eigenschaften. 3. Größe und Speicherung. 4. Konstruktion. 5. Verwendung
Das Voronoi Diagramm 1. Definition 2. Eigenschaften 3. Größe und Speicherung 4. Konstruktion 5. Verwendung Das Voronoi- Diagramm Voronoi Regionen Euklidische Distanz: d(p,q) = (px-qx)^2+(py-qy)^2 Das Voronoi-Diagramm
MehrAnpassungstests VORGEHENSWEISE
Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel
Mehr5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
MehrZahlen und metrische Räume
Zahlen und metrische Räume Natürliche Zahlen : Die natürlichen Zahlen sind die grundlegendste Zahlenmenge, da man diese Menge für das einfache Zählen verwendet. N = {1, 2, 3, 4,...} Ganze Zahlen : Aus
MehrTopologische Räume und stetige Abbildungen Teil 2
TU Dortmund Mathematik Fakultät Proseminar zur Linearen Algebra Ausarbeitung zum Thema Topologische Räume und stetige Abbildungen Teil 2 Anna Kwasniok Dozent: Prof. Dr. L. Schwachhöfer Vorstellung des
MehrInhalt dieses Kapitels. Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen
2. Clustering Inhalt dieses Kapitels 3. Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization, Initialisierung
MehrAnalysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME
Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME Dietmar A. Salamon ETH-Zürich 23. Februar 2015 1 Topologische Grundbegriffe Sei (X, d) ein metrischer Raum, d.h. X ist eine Menge und d : X X R ist
MehrAnalysis I - Stetige Funktionen
Kompaktheit und January 13, 2009 Kompaktheit und Funktionengrenzwert Definition Seien X, d X ) und Y, d Y ) metrische Räume. Desweiteren seien E eine Teilmenge von X, f : E Y eine Funktion und p ein Häufungspunkt
MehrMathematik für Anwender II
Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines
Mehr5. Lokale Suchverfahren. Beispiel TSP: k-change Nachbarschaft. Nachbarschaft. k-opt Algorithmus
5. Lokale Suchverfahren Lokale Suche 5. Lokale Suchverfahren Beispiel TSP: k-change Nachbarschaft Optimale Lösungen können oft nicht effizient ermittelt werden. Heuristiken liefern zwar zulässige Lösungen,
MehrAlgorithms for Regression and Classification
Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik
MehrKapitel 5: Clustering
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2006/2007 Kapitel
MehrFortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrEinführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
MehrKapitel VI. Euklidische Geometrie
Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrSeminar Komplexe Objekte in Datenbanken
Seminar Komplexe Objekte in Datenbanken OPTICS: Ordering Points To Identify the Clustering Structure Lehrstuhl für Informatik IX - Univ.-Prof. Dr. Thomas Seidl, RWTH-Aachen http://www-i9.informatik.rwth-aachen.de
Mehr2. Repräsentationen von Graphen in Computern
2. Repräsentationen von Graphen in Computern Kapitelinhalt 2. Repräsentationen von Graphen in Computern Matrizen- und Listendarstellung von Graphen Berechnung der Anzahl der verschiedenen Kantenzüge zwischen
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrÜber Randeffekte bei der Dichteschätzung räumlich verteilter Daten
Über Randeffekte bei der Dichteschätzung räumlich verteilter Daten Andreas Fröhlich, Thomas Selhorst, Christoph Staubach FLI-Wusterhausen DVG Tagung Graz, September 2008 Institut für Epidemiologie Gliederung
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Mehr6. Flüsse in Netzwerken Berechnung maximaler Flüsse. dann berechnet der Markierungsalgorithmus für beliebige Kapazitätsfunktionen
6. Flüsse in Netzwerken Berechnung maximaler Flüsse Satz 6.4. Ersetzt man in Algorithmus 6.1 den Schritt 2 durch 2a. Wähle den Knoten, der zuerst in eingefügt wurde. Setze. dann berechnet der arkierungsalgorithmus
MehrFragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
MehrKapitel 3 Schließende Statistik
Beispiel 3.4: (Fortsetzung Bsp. 3.) bekannt: 65 i=1 X i = 6, also ˆp = X = 6 65 = 0, 4 Überprüfen der Voraussetzungen: (1) n = 65 30 () n ˆp = 6 10 (3) n (1 ˆp) = 39 10 Dr. Karsten Webel 194 Beispiel 3.4:
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrDer Algorithmus von Bresenham
Der Algorithmus von Bresenham Das Bresenham-Verfahren beruht im wesentlichen auf zwei grundsätzliche Beobachtungen: - Es reicht ein Verfahren aus um Geraden mit einer Steigung im Bereich von null bis eins
MehrKapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen
Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population
Mehr4 Diskrete Wahrscheinlichkeitsverteilungen
4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrRandomisierte Algorithmen 2. Erste Beispiele
Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest
MehrLineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.
Dr. V. Gradinaru D. Devaud Herbstsemester 5 Lineare Algebra für D-ITET, D-MATL, RW ETH Zürich D-MATH Beispiellösung für Serie Aufgabe..a Bezüglich des euklidischen Skalarprodukts in R ist die Orthogonalprojektion
MehrGeometrische Algorithmen
Geometrische Algorithmen Thomas Röfer Motivation Scan-line-Prinzip Konvexe Hülle Distanzprobleme Voronoi-Diagramm Rückblick Manipulation von Mengen Vorrangwarteschlange Heap HeapSort swap(a, 0, 4) 1 5
Mehr6. Flüsse und Zuordnungen
6. Flüsse und Zuordnungen In diesem Kapitel werden Bewertungen von Kanten als maximale Kapazitäten interpretiert, die über solch eine Kante pro Zeiteinheit transportiert werden können. Wir können uns einen
Mehrentspricht der Länge des Vektorpfeils. Im R 2 : x =
Norm (oder Betrag) eines Vektors im R n entspricht der Länge des Vektorpfeils. ( ) Im R : x = x = x + x nach Pythagoras. Allgemein im R n : x x = x + x +... + x n. Beispiele ( ) =, ( 4 ) = 5, =, 4 = 0.
MehrBioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
MehrBeschleunigung hierarchischer Clusterverfahren für allgemeine metrische Distanzmaße. Till Schäfer. Algorithm Engineering Report TR13-1-002 Juni 2013
Beschleunigung hierarchischer Clusterverfahren für allgemeine metrische Distanzmaße Till Schäfer Algorithm Engineering Report TR13-1-002 Juni 2013 ISSN 1864-4503 Fakultät für Informatik Algorithm Engineering
MehrEuklidische Distanzmatrizen. Andrei Grecu
Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer
MehrDiskrete Strukturen Kapitel 2: Grundlagen (Relationen)
WS 2016/17 Diskrete Strukturen Kapitel 2: Grundlagen (Relationen) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_16
MehrWas bisher geschah. Klassifikation: Zuordnung Merkmal (Symptom) Lösung (Diagnose)
Was bisher geschah Klassifikation: Zuordnung Merkmal (Symptom) Lösung (Diagnose) M Menge aller Merkmale L Menge aller Lösungen Zuordnung als Relation R M L Zuordnung als Funktion f : M L {0, 1} (charakteristische
MehrZufallszahlen. Diskrete Simulation. Zufallszahlengeneratoren - Zufallszahlen
Zufallszahlen Zufallszahlengeneratoren Transformation von Zufallszahlen Test von Zufallszahlengeneratoren Otto-von-Guericke-Universität Magdeburg Thomas Schulze Zufallszahlengeneratoren - Zufallszahlen
MehrMaschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 3. Übungsblatt Aufgabe 1: Version Space, Generalisierung und Spezialisierung Gegeben sei folgende Hierarchie von Begriffen:
MehrHierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
Mehr9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
MehrData-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den
MehrWiederholung zu Flüssen
Universität Konstanz Methoden der Netzwerkanalyse Fachbereich Informatik & Informationswissenschaft SS 2008 Prof. Dr. Ulrik Brandes / Melanie Badent Wiederholung zu Flüssen Wir untersuchen Flüsse in Netzwerken:
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrNr. 4: Pseudo-Zufallszahlengeneratoren
Proseminar: Finanzmathematische Modelle und Simulationen Martin Dieckmann WS 09/0 Nr. 4: Pseudo-Zufallszahlengeneratoren Begriff Pseudo-Zufallszahl Zufallszahlen im Rechner entstehen letztlich immer durch
MehrTechnische Universität
Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Grundlagen der Klassifikation Proseminar Grundlagen der Bildverarbeitung Christina Katz Betreuer: Dr. Michael
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
Mehr12 Der Abstand eines Punktes von einer Geraden Seite 1 von Der Abstand eines Punktes von einer Geraden
12 Der Abstand eines Punktes von einer Geraden Seite 1 von 5 12 Der Abstand eines Punktes von einer Geraden Die Bestimmung des Abstands eines Punktes von einer Geraden gehört zu den zentralen Problemen
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrVorlesung Maschinelles Lernen
Prof. Dr. phil. Dr. rer. nat. habil. M.Schenke Vorlesung Maschinelles Lernen Basierend auf der Vorlesung und dem Buch»Methoden wissensbasierter Systeme«von Christoph Beierle und Gabriele Kern-Isberner
MehrVisualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
MehrAlgorithmen für Ad-hoc- und Sensornetze Nachtrag zu VL 06 Doubling Dimensions
Algorithmen für Ad-hoc- und Sensornetze Nachtrag zu VL 06 Doubling Dimensions Dr. rer. nat. Bastian Katz 0. Juni 009 (Version vom. Juni 009) Von Kreisen, Kugeln und Bällen Definition In einem metrischen
MehrVorlesung 3 MINIMALE SPANNBÄUME
Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
Mehr8. Clusterbildung, Klassifikation und Mustererkennung
8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion
MehrHöhere Mathematik für Physiker II
Universität Heidelberg Sommersemester 2013 Wiederholungsblatt Übungen zur Vorlesung Höhere Mathematik für Physiker II Prof Dr Anna Marciniak-Czochra Dipl Math Alexandra Köthe Fragen Machen Sie sich bei
Mehr2. Stetige lineare Funktionale
-21-2. Stetige lineare Funktionale Die am Ende von 1 angedeutete Eigenschaft, die ein lineares Funktional T : D(ú) 6 verallgemeinerten Funktion macht, ist die Stetigkeit von T in jedem n 0 0 D(ú). Wenn
MehrKapitel 9 WAHRSCHEINLICHKEITS-RÄUME
Kapitel 9 WAHRSCHEINLICHKEITS-RÄUME Fassung vom 12. Januar 2001 121 WAHRSCHEINLICHKEITS-RÄUME Stichproben-Raum. 9.1 9.1 Stichproben-Raum. Die bisher behandelten Beispiele von Naturvorgängen oder Experimenten
Mehr3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. 3.5 Datenbanktechniken zur Leistungssteigerung. 3. Clustering. Inhalt dieses Kapitels
3.1 Einleitung 3. Clustering Inhalt dieses Kapitels Ziel des Clustering, Distanzfunktionen, Anwendungen, Typen von Algorithmen 3.2 Partitionierende Verfahren k-means, k-medoid, Expectation Maximization,
MehrWas bisher geschah. 1. Zerlegung in monotone Polygone 2. Triangulierung der monotonen Teilpolygone
Was bisher geschah Motivation, Beispiele geometrische Objekte im R 2 : Punkt, Gerade, Halbebene, Strecke, Polygon, ebene Zerlegung in Regionen (planare Graphen) maschinelle Repräsentation geometrischer
MehrUniversität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme
Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar
MehrLineare Algebra I. - 1.Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß. Monday 12 September 16
Lineare Algebra I - 1.Vorlesung - Prof. Dr. Daniel Roggenkamp & Falko Gauß 1. Mengen und Abbildungen: Mengen gehören zu den Grundlegendsten Objekten in der Mathematik Kurze Einführung in die (naive) Mengelehre
MehrFehlererkennung und Fehlerkorrektur in Codes
Fehlererkennung und Fehlerkorrektur in Codes Blockcodes und Hamming Abstand Untersuchungen zu Codierungen von Informationen, die über einen Nachrichtenkanal übertragen werden sollen, konzentrieren sich
Mehr