4.Tutorium Multivariate Verfahren
|
|
|
- Charlotte Giese
- vor 8 Jahren
- Abrufe
Transkript
1 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: und Nicole Schüller: und Institut für Statistik, LMU München 1 / 17
2 Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 2 / 17
3 Idee der Clusteranalyse Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 3 / 17
4 Idee der Clusteranalyse Problemstellung Einteilung einer Menge von n Individuen {a 1,..., a n } in Teilmengen, sogenannte Cluster! Die Einteilung soll so erfolgen, dass sich die Individuen innerhalb eines Clusters möglichst ähnlich sind (Homogenität innerhalb der Cluster) sich die Cluster untereinander möglichst unterscheiden (Heterogenität über die Cluster hinweg) Beachte: Die Klassen/Gruppen sind vorab nicht bekannt und werden gesucht! (im Gegensatz zur Diskriminanzanalyse) 4 / 17
5 Idee der Clusteranalyse Datensituation Gegeben sind n Individuen mit zugehörigen Merkmalsvektoren x i, i = 1,..., n C = {C 1,..., C k } sei eine Partition der Individuen in k Cluster Gesucht ist eine disjunkte Zerlegung {C 1,..., C k } mit folgenden Eigenschaften: k a) C i = {a 1,..., a n } i=1 b) C i C j = i j 5 / 17
6 Distanzmaße Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 6 / 17
7 Distanzmaße Distanz zwischen den Individuen Für Distanzmaße d : Ω x Ω R postuliert man: d(a i, a j ) = d(a j, a i ) d(a i, a i ) = 0 d(a i, a j ) 0 i, j d(a i, a j ) d(a i, a r ) + d(a r, a j ) (Dreiecksungleichung) Typische Distanzmaße: p d q (x i, x j ) = q l=1 (x il x jl ) q (L q -Metrik) p d 2 (x i, x j ) = l=1 (x il x jl ) 2 (euklidische Distanz) d 1 (x i, x j ) = p l=1 x il x jl (Manhattan-Metrik) 7 / 17
8 Hierarchische Klassifikationsverfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 8 / 17
9 Hierarchische Klassifikationsverfahren Grundstruktur Konstruktion einer Hierarchie von Partitionen C = {C 1,..., C k }. Die Anzahl der Cluster variiert dabei von 1 bis zur Anzahl der Individuen! Agglomerative Verfahren: zu Beginn bildet jedes Individuum einen eigenen Cluster Divisive Verfahren: zu Beginn ein großer Cluster, der alle Individuen enthält Merke: Die Hierarchie enthält das Klassifikationsergebnis für jede mögliche Anzahl an Clustern (beliebig wählbar) Hierarchischen Klassifikationen erfordern Definition der Distanz zwischen Individuen (vgl. Metriken Folie 7) Distanz zwischen Clustern Linkage 9 / 17
10 Hierarchische Klassifikationsverfahren Linkage-Methoden C r, C s : Cluster Single Linkage: D(C r, C s ) = Complete Linkage: D(C r, C s ) = Average Linkage: D(C r, C s ) = 1 min a i C r,a j C s d(a i, a j ) max d(a i, a j ) a i C r,a j C s C r C s Zentroid-Verfahren: D(C r, C s ) = x r x s 2 a i C r,a j C s d(a i, a j ) Cr Cs Ward: D(C r, C s ) = C r + C x s r x s 2, x r, x s : Mittelwert der Individuen in Cluster C r, C s 10 / 17
11 Hierarchische Klassifikationsverfahren Agglomerative Verfahren Algorithmus: 1 Start: Feinste Partition: Jedes Individuum bildet einen eigenen Cluster: C = {{a 1 },..., {a n }} 2 Vereinige im ν-ten Schritt zwei Cluster C r, C s mit dem kleinsten Abstand und berechne den Homogenitätsindex: h ν = min r s D(C r, C s ). 3 Wiederhole 2. bis ein großer Cluster entsteht, der alle Individuen enthält: C = {a 1,..., a n } Die Distanzen der Individuen werden durch die festgelegte Metrik, die Distanzen der Cluster durch die festgelegte Linkage-Methode bestimmt! 11 / 17
12 Hierarchische Klassifikationsverfahren Divisive Verfahren Algorithmus: 1 Start: Gröbste Partition: Ein großer Cluster, der alle Individuen enthält: C = {a 1,..., a n }. 2 Sukzessive Unterteilung der Partition bis die feinste Partition entsteht: C = {{a 1 },..., {a n }} Beachte: 2 n 1 Möglichkeiten zu splitten Für großes n ist agglomerativ einfacher! 12 / 17
13 Hierarchische Klassifikationsverfahren Dendrogramm Graphische Darstellung einer hierarchischen Clusterung y Achse: Homogenitätsmaß h je kleiner h, desto homogener ist der Cluster! Sukzessives Zusammenfassen bzw. sukzessive Aufteilung im Plot erkennbar. 13 / 17
14 Nichthierarchische Verfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 14 / 17
15 Nichthierarchische Verfahren Grundprinzip Ziel: Finde die Partition C = {C 1,..., C k } bestehend aus k Clustern, die bezüglich eines Gütekriteriums optimal ist! Man betrachtet für jede Partition ein Optimalitätskriterium, das die Heterogenität erfasst: H(C opt ) = min H(C) C Austauschverfahren: 1 Wähle eine zufällige Ausgangspartionen aus k Individuen 2 Prüfe in der Partition C alt, ob die Zuordnung jeweils eines Individuums in einen anderen Cluster, das betrachtete Optimalitätskriterium minimiert. Beachte: Die Anzahl der Cluster k muss vom Anwender fest vorgegeben werden! Je nach gewählter Ausgangspartition, können unterschiedliche Cluster entstehen. 15 / 17
16 Nichthierarchische Verfahren Optimalitätskriterien 1 Varianzkriterium k H(C) = x i x r 2 r=1 x i C r 2 Determinantenkriterium ˆ= k-means clustering H(C) = W(C) C min 3 Verallgemeinertes Determinantenkriterium H(C) = k r=1 ( ) 1 n r log W(C r ) n r C min Merke: Die Determinante entspricht einer verallgemeinerten Varianzmatrix! 16 / 17
17 Nichthierarchische Verfahren k-means clustering Vorgehen: 1 Wähle zufällig k Individuen bzw. die zugehörigen Merkmalsvektoren x als Clusterschwerpunkte Z r, r = 1,..., k. Die Clusteranzahl k ist fest! 2 Ordne jedes Individuum dem Clusterzentrum zu, zu dem die geringste Distanz d r, r = 1,..., k besteht. 3 Berechne neue Clusterschwerpunkte Z r, r = 1,..., k als Mittelwertsvektoren der Merkmalsvektoren der Individuen im Cluster! 4 Wiederhole 2. und 3. bis zur Konvergenz. 17 / 17
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
z Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
Data Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
Seminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
Dokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Clusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Clusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
Clustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010
Clustering Uwe Reichel IPS, LMU München [email protected] 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Statistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 [email protected] Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
Textmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
Clustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
Methoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................
4.3 Hierarchische Klassifikationsverfahren
4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen
Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)
Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche
Was ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell
Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur
Clusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
Einführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
Vorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
Clusteranalyse Hierarchische Verfahren
Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges
Inhaltliche Planung für die Vorlesung
Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme
Clustering. Kursfolien. Karin Haenelt
Clustering Kursfolien Karin Haenelt..0 Themen Einführung Beispiele informelle Bestimmung Schritte zur Clusterbildung Variablenauswahl: Objekte, Attribute, ObjektAttributMatrix. Klassifikation: Ähnlichkeitsberechnung.
Eine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
Multivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
Einführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
Segmentierung. Seminar: Medizinische Visualisierung. Daniel Lange
Segmentierung Daniel Lange 06.05.2004 Seminar: Medizinische Visualisierung Segmentierung 2 Überblick Einführung / Begriffsdefinition Punktorientierte Verfahren Kanten-/Konturorientierte Verfahren Regionenorientierte
Übungen zur Wahrscheinlichkeitstheorie und Statistik
Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils
Mathematische Grundlagen der Computerlinguistik
Centrum für Informations- und Sprachverarbeitung (CIS) 10. Juni 2014 Table of Contents 1 2 Äquivalenz Der Begriff der Äquivalenz verallgemeinert den Begriff der Gleichheit. Er beinhaltet in einem zu präzisierenden
Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, Henning Meyerhenke
Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, 01.02.2012 Henning Meyerhenke 1 KIT Henning Universität desmeyerhenke: Landes Baden-Württemberg und nationales Algorithmische Forschungszentrum
Multivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
5. Übungsblatt zur Einführung in die Stochastik
Fachbereich Mathematik Prof. Dr. Michael Kohler Dipl.-Math. Andreas Fromkorth Dipl.-Inf. Jens Mehnert SS 09 25.5.2009 5. Übungsblatt zur Einführung in die Stochastik Aufgabe 18 Drei Spieler bekommen jeweils
Einführung in die Wahrscheinlichkeitsrechnung
Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze
Mathematik für Anwender II
Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines
Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit
Vortrag zum Seminar zur Analysis, 10.05.2010 Michael Engeländer, Jonathan Fell Dieser Vortrag stellt als erstes einige Sätze zu Cauchy-Folgen auf allgemeinen metrischen Räumen vor. Speziell wird auch das
8. Clusterbildung, Klassifikation und Mustererkennung
8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion
Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mathematik I. Vorlesung 19. Metrische Räume
Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors
Korrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
Kapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
Datamining Ein kleiner Einblick
Datamining Ein kleiner Einblick Autoren: Boris Kulig u. Bertram Schäfer Inhaltsverzeichnis 1 Begriff, Funktion, Verfahren 1 2 Clusteranalyse 1 2.1 Proximitätsmaße 3 2.1.1 Nominal-Skala 3 2.1.2 Metrische
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
Technische Universität
Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Grundlagen der Klassifikation Proseminar Grundlagen der Bildverarbeitung Christina Katz Betreuer: Dr. Michael
Wortarten und Korpus
Linguistik Computerlinguistik Petra Steiner Wortarten und Korpus Automatische Wortartenklassifikation durch distributionelle und quantitative Verfahren. Shaker Verlag Aachen 2004 Bibliografische Information
entspricht der Länge des Vektorpfeils. Im R 2 : x =
Norm (oder Betrag) eines Vektors im R n entspricht der Länge des Vektorpfeils. ( ) Im R : x = x = x + x nach Pythagoras. Allgemein im R n : x x = x + x +... + x n. Beispiele ( ) =, ( 4 ) = 5, =, 4 = 0.
Teil II. Wahrscheinlichkeitsrechnung
Teil II Wahrscheinlichkeitsrechnung Deskriptive Statistik und Wahrscheinlichkeitsrechnung (SS 2014) Folie 129 5 Zufallsexperimente Inhaltsverzeichnis (Ausschnitt) 5 Zufallsexperimente Ergebnisse Ereignisse
Lehrbuch der Statistik
Jürgen Bortz Lehrbuch der Statistik Für Sozialwissenschaftler Zweite, vollständig neu bearbeitete und erweiterte Auflage Mit 71 Abbildungen und 223 Tabellen Springer-Verlag Berlin Heidelberg New York Tokyo
Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya
Konvergenz einer Folge 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge: Inhalt Drei Verhaltensmuster von Folgen. Beispiele 1 ) = 1 n, = n n +1, 2 ) = ( 1)n n +1 n und ihre graphischen Darstellungen.,
Methoden zur Segmentierung von Daten
Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Clusteranalyse 3 2.1 Allgemeines..............................
Vorlesung Maschinelles Lernen
Prof. Dr. phil. Dr. rer. nat. habil. M.Schenke Vorlesung Maschinelles Lernen Basierend auf der Vorlesung und dem Buch»Methoden wissensbasierter Systeme«von Christoph Beierle und Gabriele Kern-Isberner
7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238
7 Woche Extra-Material: - Beispiele von Codes 7 Woche: Beispiele von Codes 144/ 238 Hamming-Matrix H(h) und Hammingcode H(h) Wir definieren nun eine Parity-Check Matrix H(h) von einem neuen Code: Parametrisiert
Formelsammlung zu Multivariate Verfahren
Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version 0804204 Diese Formelsammlung darf in der Klausur verwendet
Hierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23
Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...
Modulklausur Multivariate Verfahren
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
1 Euklidische und unitäre Vektorräume
1 Euklidische und unitäre Vektorräume In diesem Abschnitt betrachten wir reelle und komplexe Vektorräume mit Skalarprodukt. Dieses erlaubt uns die Länge eines Vektors zu definieren und (im Fall eines reellen
Graphische Datenverarbeitung und Bildverarbeitung
Graphische Datenverarbeitung und Bildverarbeitung Hochschule Niederrhein Merkmale und Klassifikation Graphische DV und BV, Regina Pohle, 16. Merkmale und Klassifikation 1 Einordnung in die Inhalte der
Quadtrees und Meshing
Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 24.06.2014 Motivation: Meshing von Platinenlayouts Zur Simulation der Hitzeentwicklung
Data Mining: Klassifikations- und Clusteringverfahren
Westfälische Wilhelms-Universität Münster Data Mining: Klassifikations- und Clusteringverfahren Ausarbeitung im Rahmen des Projektseminars CRM für Finanzdienstleister im Fachgebiet Wirtschaftsinformatik
Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen
Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung
Einführung in die Cluster-Analyse mit SAS
Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse
Algorithms for Regression and Classification
Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik
Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren
Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren Michael Wiedenbeck & Cornelia Züll Zentrum für Umfragen, Methoden und Analysen, Mannheim Zusammenfassung Nach
1 Zahlentheorie. 1.1 Kongruenzen
3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern
Klimatypänderungen in Deutschland im 20. Jahrhundert. P.C. Werner, F.-W. Gerstengarbe, H. Österle
Klimastatusbericht 2001 DWD 185 Klimatypänderungen in Deutschland im 20. Jahrhundert P.C. Werner, F.-W. Gerstengarbe, H. Österle Zusammenfassung Vorgestellt wird eine objektive Klimaeinteilung Deutschlands
Vorlesung 3 MINIMALE SPANNBÄUME
Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei
Euklidische Distanzmatrizen. Andrei Grecu
Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer
Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)
Empirische Verteilungsfunktion
Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive
