4.Tutorium Multivariate Verfahren

Größe: px
Ab Seite anzeigen:

Download "4.Tutorium Multivariate Verfahren"

Transkript

1 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: und Nicole Schüller: und Institut für Statistik, LMU München 1 / 17

2 Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 2 / 17

3 Idee der Clusteranalyse Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 3 / 17

4 Idee der Clusteranalyse Problemstellung Einteilung einer Menge von n Individuen {a 1,..., a n } in Teilmengen, sogenannte Cluster! Die Einteilung soll so erfolgen, dass sich die Individuen innerhalb eines Clusters möglichst ähnlich sind (Homogenität innerhalb der Cluster) sich die Cluster untereinander möglichst unterscheiden (Heterogenität über die Cluster hinweg) Beachte: Die Klassen/Gruppen sind vorab nicht bekannt und werden gesucht! (im Gegensatz zur Diskriminanzanalyse) 4 / 17

5 Idee der Clusteranalyse Datensituation Gegeben sind n Individuen mit zugehörigen Merkmalsvektoren x i, i = 1,..., n C = {C 1,..., C k } sei eine Partition der Individuen in k Cluster Gesucht ist eine disjunkte Zerlegung {C 1,..., C k } mit folgenden Eigenschaften: k a) C i = {a 1,..., a n } i=1 b) C i C j = i j 5 / 17

6 Distanzmaße Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 6 / 17

7 Distanzmaße Distanz zwischen den Individuen Für Distanzmaße d : Ω x Ω R postuliert man: d(a i, a j ) = d(a j, a i ) d(a i, a i ) = 0 d(a i, a j ) 0 i, j d(a i, a j ) d(a i, a r ) + d(a r, a j ) (Dreiecksungleichung) Typische Distanzmaße: p d q (x i, x j ) = q l=1 (x il x jl ) q (L q -Metrik) p d 2 (x i, x j ) = l=1 (x il x jl ) 2 (euklidische Distanz) d 1 (x i, x j ) = p l=1 x il x jl (Manhattan-Metrik) 7 / 17

8 Hierarchische Klassifikationsverfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 8 / 17

9 Hierarchische Klassifikationsverfahren Grundstruktur Konstruktion einer Hierarchie von Partitionen C = {C 1,..., C k }. Die Anzahl der Cluster variiert dabei von 1 bis zur Anzahl der Individuen! Agglomerative Verfahren: zu Beginn bildet jedes Individuum einen eigenen Cluster Divisive Verfahren: zu Beginn ein großer Cluster, der alle Individuen enthält Merke: Die Hierarchie enthält das Klassifikationsergebnis für jede mögliche Anzahl an Clustern (beliebig wählbar) Hierarchischen Klassifikationen erfordern Definition der Distanz zwischen Individuen (vgl. Metriken Folie 7) Distanz zwischen Clustern Linkage 9 / 17

10 Hierarchische Klassifikationsverfahren Linkage-Methoden C r, C s : Cluster Single Linkage: D(C r, C s ) = Complete Linkage: D(C r, C s ) = Average Linkage: D(C r, C s ) = 1 min a i C r,a j C s d(a i, a j ) max d(a i, a j ) a i C r,a j C s C r C s Zentroid-Verfahren: D(C r, C s ) = x r x s 2 a i C r,a j C s d(a i, a j ) Cr Cs Ward: D(C r, C s ) = C r + C x s r x s 2, x r, x s : Mittelwert der Individuen in Cluster C r, C s 10 / 17

11 Hierarchische Klassifikationsverfahren Agglomerative Verfahren Algorithmus: 1 Start: Feinste Partition: Jedes Individuum bildet einen eigenen Cluster: C = {{a 1 },..., {a n }} 2 Vereinige im ν-ten Schritt zwei Cluster C r, C s mit dem kleinsten Abstand und berechne den Homogenitätsindex: h ν = min r s D(C r, C s ). 3 Wiederhole 2. bis ein großer Cluster entsteht, der alle Individuen enthält: C = {a 1,..., a n } Die Distanzen der Individuen werden durch die festgelegte Metrik, die Distanzen der Cluster durch die festgelegte Linkage-Methode bestimmt! 11 / 17

12 Hierarchische Klassifikationsverfahren Divisive Verfahren Algorithmus: 1 Start: Gröbste Partition: Ein großer Cluster, der alle Individuen enthält: C = {a 1,..., a n }. 2 Sukzessive Unterteilung der Partition bis die feinste Partition entsteht: C = {{a 1 },..., {a n }} Beachte: 2 n 1 Möglichkeiten zu splitten Für großes n ist agglomerativ einfacher! 12 / 17

13 Hierarchische Klassifikationsverfahren Dendrogramm Graphische Darstellung einer hierarchischen Clusterung y Achse: Homogenitätsmaß h je kleiner h, desto homogener ist der Cluster! Sukzessives Zusammenfassen bzw. sukzessive Aufteilung im Plot erkennbar. 13 / 17

14 Nichthierarchische Verfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 14 / 17

15 Nichthierarchische Verfahren Grundprinzip Ziel: Finde die Partition C = {C 1,..., C k } bestehend aus k Clustern, die bezüglich eines Gütekriteriums optimal ist! Man betrachtet für jede Partition ein Optimalitätskriterium, das die Heterogenität erfasst: H(C opt ) = min H(C) C Austauschverfahren: 1 Wähle eine zufällige Ausgangspartionen aus k Individuen 2 Prüfe in der Partition C alt, ob die Zuordnung jeweils eines Individuums in einen anderen Cluster, das betrachtete Optimalitätskriterium minimiert. Beachte: Die Anzahl der Cluster k muss vom Anwender fest vorgegeben werden! Je nach gewählter Ausgangspartition, können unterschiedliche Cluster entstehen. 15 / 17

16 Nichthierarchische Verfahren Optimalitätskriterien 1 Varianzkriterium k H(C) = x i x r 2 r=1 x i C r 2 Determinantenkriterium ˆ= k-means clustering H(C) = W(C) C min 3 Verallgemeinertes Determinantenkriterium H(C) = k r=1 ( ) 1 n r log W(C r ) n r C min Merke: Die Determinante entspricht einer verallgemeinerten Varianzmatrix! 16 / 17

17 Nichthierarchische Verfahren k-means clustering Vorgehen: 1 Wähle zufällig k Individuen bzw. die zugehörigen Merkmalsvektoren x als Clusterschwerpunkte Z r, r = 1,..., k. Die Clusteranzahl k ist fest! 2 Ordne jedes Individuum dem Clusterzentrum zu, zu dem die geringste Distanz d r, r = 1,..., k besteht. 3 Berechne neue Clusterschwerpunkte Z r, r = 1,..., k als Mittelwertsvektoren der Merkmalsvektoren der Individuen im Cluster! 4 Wiederhole 2. und 3. bis zur Konvergenz. 17 / 17

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Proseminar: Web-Performance

Proseminar: Web-Performance Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Clusteranalyse K-Means-Verfahren

Clusteranalyse K-Means-Verfahren Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher

Mehr

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5. 5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010 Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Clustern von numerischen Wettervorhersagen

Clustern von numerischen Wettervorhersagen Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?

Mehr

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................

Mehr

Keimreaktionen auf Antibiotikagruppen

Keimreaktionen auf Antibiotikagruppen Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen

Mehr

4.3 Hierarchische Klassifikationsverfahren

4.3 Hierarchische Klassifikationsverfahren 4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen

Mehr

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse) Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Clusteranalyse Hierarchische Verfahren

Clusteranalyse Hierarchische Verfahren Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges

Mehr

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010 Statistik für Punktprozesse Seminar Stochastische Geometrie und ihre Anwendungen WS 009/00 Inhalt I. Fragestellung / Problematik II. Ansätze für a) die Schätzung der Intensität b) ein Testverfahren auf

Mehr

Inhaltliche Planung für die Vorlesung

Inhaltliche Planung für die Vorlesung Vorlesung: Künstliche Intelligenz - Mustererkennung - P LS ES S ST ME Künstliche Intelligenz Miao Wang 1 Inhaltliche Planung für die Vorlesung 1) Definition und Geschichte der KI, PROLOG 2) Expertensysteme

Mehr

Clustering. Kursfolien. Karin Haenelt

Clustering. Kursfolien. Karin Haenelt Clustering Kursfolien Karin Haenelt..0 Themen Einführung Beispiele informelle Bestimmung Schritte zur Clusterbildung Variablenauswahl: Objekte, Attribute, ObjektAttributMatrix. Klassifikation: Ähnlichkeitsberechnung.

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Segmentierung. Seminar: Medizinische Visualisierung. Daniel Lange

Segmentierung. Seminar: Medizinische Visualisierung. Daniel Lange Segmentierung Daniel Lange 06.05.2004 Seminar: Medizinische Visualisierung Segmentierung 2 Überblick Einführung / Begriffsdefinition Punktorientierte Verfahren Kanten-/Konturorientierte Verfahren Regionenorientierte

Mehr

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Übungen zur Wahrscheinlichkeitstheorie und Statistik Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils

Mehr

Mathematische Grundlagen der Computerlinguistik

Mathematische Grundlagen der Computerlinguistik Centrum für Informations- und Sprachverarbeitung (CIS) 10. Juni 2014 Table of Contents 1 2 Äquivalenz Der Begriff der Äquivalenz verallgemeinert den Begriff der Gleichheit. Er beinhaltet in einem zu präzisierenden

Mehr

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, Henning Meyerhenke

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, Henning Meyerhenke Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, 01.02.2012 Henning Meyerhenke 1 KIT Henning Universität desmeyerhenke: Landes Baden-Württemberg und nationales Algorithmische Forschungszentrum

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

5. Übungsblatt zur Einführung in die Stochastik

5. Übungsblatt zur Einführung in die Stochastik Fachbereich Mathematik Prof. Dr. Michael Kohler Dipl.-Math. Andreas Fromkorth Dipl.-Inf. Jens Mehnert SS 09 25.5.2009 5. Übungsblatt zur Einführung in die Stochastik Aufgabe 18 Drei Spieler bekommen jeweils

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze

Mehr

Mathematik für Anwender II

Mathematik für Anwender II Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines

Mehr

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit Vortrag zum Seminar zur Analysis, 10.05.2010 Michael Engeländer, Jonathan Fell Dieser Vortrag stellt als erstes einige Sätze zu Cauchy-Folgen auf allgemeinen metrischen Räumen vor. Speziell wird auch das

Mehr

8. Clusterbildung, Klassifikation und Mustererkennung

8. Clusterbildung, Klassifikation und Mustererkennung 8. Clusterbildung, Klassifikation und Mustererkennung Begriffsklärung (nach Voss & Süße 1991): Objekt: wird in diesem Kapitel mit einem zugeordneten Merkmalstupel (x 1,..., x M ) identifiziert (Merkmalsextraktion

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Mathematik I. Vorlesung 19. Metrische Räume

Mathematik I. Vorlesung 19. Metrische Räume Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors

Mehr

Wissensbasierte Systeme

Wissensbasierte Systeme Analytisch lösbare Optimierungsaufgaben Das Chaos-Spiel gründet auf der folgenden Vorschrift: Man startet von einem beliebigen Punkt aus geht auf einer Verbindung mit einem von drei zufällig gewählten

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

Datamining Ein kleiner Einblick

Datamining Ein kleiner Einblick Datamining Ein kleiner Einblick Autoren: Boris Kulig u. Bertram Schäfer Inhaltsverzeichnis 1 Begriff, Funktion, Verfahren 1 2 Clusteranalyse 1 2.1 Proximitätsmaße 3 2.1.1 Nominal-Skala 3 2.1.2 Metrische

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Technische Universität

Technische Universität Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Grundlagen der Klassifikation Proseminar Grundlagen der Bildverarbeitung Christina Katz Betreuer: Dr. Michael

Mehr

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen. Aufgabenstellung Klausur Methoden der Marktforschung 0.08.004 Der Automobilhersteller People Car verkauft eine neue Variante seines Erfolgsmodells Wolf zunächst nur auf einem Testmarkt. Dabei muss das

Mehr

Wortarten und Korpus

Wortarten und Korpus Linguistik Computerlinguistik Petra Steiner Wortarten und Korpus Automatische Wortartenklassifikation durch distributionelle und quantitative Verfahren. Shaker Verlag Aachen 2004 Bibliografische Information

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

entspricht der Länge des Vektorpfeils. Im R 2 : x =

entspricht der Länge des Vektorpfeils. Im R 2 : x = Norm (oder Betrag) eines Vektors im R n entspricht der Länge des Vektorpfeils. ( ) Im R : x = x = x + x nach Pythagoras. Allgemein im R n : x x = x + x +... + x n. Beispiele ( ) =, ( 4 ) = 5, =, 4 = 0.

Mehr

Teil II. Wahrscheinlichkeitsrechnung

Teil II. Wahrscheinlichkeitsrechnung Teil II Wahrscheinlichkeitsrechnung Deskriptive Statistik und Wahrscheinlichkeitsrechnung (SS 2014) Folie 129 5 Zufallsexperimente Inhaltsverzeichnis (Ausschnitt) 5 Zufallsexperimente Ergebnisse Ereignisse

Mehr

Lehrbuch der Statistik

Lehrbuch der Statistik Jürgen Bortz Lehrbuch der Statistik Für Sozialwissenschaftler Zweite, vollständig neu bearbeitete und erweiterte Auflage Mit 71 Abbildungen und 223 Tabellen Springer-Verlag Berlin Heidelberg New York Tokyo

Mehr

Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya

Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge 1-E1 Ma 1 Lubov Vassilevskaya Konvergenz einer Folge: Inhalt Drei Verhaltensmuster von Folgen. Beispiele 1 ) = 1 n, = n n +1, 2 ) = ( 1)n n +1 n und ihre graphischen Darstellungen.,

Mehr

Methoden zur Segmentierung von Daten

Methoden zur Segmentierung von Daten Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Clusteranalyse 3 2.1 Allgemeines..............................

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Prof. Dr. phil. Dr. rer. nat. habil. M.Schenke Vorlesung Maschinelles Lernen Basierend auf der Vorlesung und dem Buch»Methoden wissensbasierter Systeme«von Christoph Beierle und Gabriele Kern-Isberner

Mehr

7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238

7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238 7 Woche Extra-Material: - Beispiele von Codes 7 Woche: Beispiele von Codes 144/ 238 Hamming-Matrix H(h) und Hammingcode H(h) Wir definieren nun eine Parity-Check Matrix H(h) von einem neuen Code: Parametrisiert

Mehr

Formelsammlung zu Multivariate Verfahren

Formelsammlung zu Multivariate Verfahren Institut für Statistik Gerhard Tutz, Moritz, Wolfgang Pößnecker Sommersemester 204 Formelsammlung zu Multivariate Verfahren Inhaltsverzeichnis Version 0804204 Diese Formelsammlung darf in der Klausur verwendet

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Cluster Analyse Katharina Morik, Uwe Ligges Informatik LS 8 13.7.2010 1 von 38 Gliederung Informatik LS 8 1 Lernaufgabe Cluster-Analyse Abstandsmaße Optimierungsprobleme 2 K-Means

Mehr

1 Euklidische und unitäre Vektorräume

1 Euklidische und unitäre Vektorräume 1 Euklidische und unitäre Vektorräume In diesem Abschnitt betrachten wir reelle und komplexe Vektorräume mit Skalarprodukt. Dieses erlaubt uns die Länge eines Vektors zu definieren und (im Fall eines reellen

Mehr

Graphische Datenverarbeitung und Bildverarbeitung

Graphische Datenverarbeitung und Bildverarbeitung Graphische Datenverarbeitung und Bildverarbeitung Hochschule Niederrhein Merkmale und Klassifikation Graphische DV und BV, Regina Pohle, 16. Merkmale und Klassifikation 1 Einordnung in die Inhalte der

Mehr

Quadtrees und Meshing

Quadtrees und Meshing Vorlesung Algorithmische Geometrie INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 24.06.2014 Motivation: Meshing von Platinenlayouts Zur Simulation der Hitzeentwicklung

Mehr

Data Mining: Klassifikations- und Clusteringverfahren

Data Mining: Klassifikations- und Clusteringverfahren Westfälische Wilhelms-Universität Münster Data Mining: Klassifikations- und Clusteringverfahren Ausarbeitung im Rahmen des Projektseminars CRM für Finanzdienstleister im Fachgebiet Wirtschaftsinformatik

Mehr

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren

Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren Michael Wiedenbeck & Cornelia Züll Zentrum für Umfragen, Methoden und Analysen, Mannheim Zusammenfassung Nach

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Klimatypänderungen in Deutschland im 20. Jahrhundert. P.C. Werner, F.-W. Gerstengarbe, H. Österle

Klimatypänderungen in Deutschland im 20. Jahrhundert. P.C. Werner, F.-W. Gerstengarbe, H. Österle Klimastatusbericht 2001 DWD 185 Klimatypänderungen in Deutschland im 20. Jahrhundert P.C. Werner, F.-W. Gerstengarbe, H. Österle Zusammenfassung Vorgestellt wird eine objektive Klimaeinteilung Deutschlands

Mehr

Vorlesung 3 MINIMALE SPANNBÄUME

Vorlesung 3 MINIMALE SPANNBÄUME Vorlesung 3 MINIMALE SPANNBÄUME 72 Aufgabe! Szenario: Sie arbeiten für eine Firma, die ein Neubaugebiet ans Netz (Wasser, Strom oder Kabel oder...) anschließt! Ziel: Alle Haushalte ans Netz bringen, dabei

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht

Mehr

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

5 Statistische Auswertung der Ergebnisse

5 Statistische Auswertung der Ergebnisse 5 Statistische Auswertung der Ergebnisse 5.1 Theoretische Grundlagen 1 Bei großen Probenserien mit vielen gemessenen Größen ist eine Auswertung von Hand nicht mehr möglich. Deshalb wurden verschiedene

Mehr

5. DIFFERENZIEREN UND INTEGRIEREN

5. DIFFERENZIEREN UND INTEGRIEREN 5. DIFFERENZIEREN UND INTEGRIEREN 1 Sei f eine auf R oder auf einer Teilmenge B R definierte Funktion: f : B R Die Funktion heißt differenzierbar in x 0 in B, falls sie in diesem Punkt x 0 lokal linear

Mehr