4.4 Hierarchische Clusteranalyse-Verfahren
|
|
- Innozenz Feld
- vor 6 Jahren
- Abrufe
Transkript
1 Clusteranalyse Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung zweier Cluster: Pro Schritt werden diejenigen zwei Cluster bzw. Datenobjekte mit dem geringsten Abstand zueinander fusioniert *) (3) Schritt (2) wird solange wiederholt, bis alle Datenobjekte in einem einzigen Cluster liegen! (4) Der Anwender muß entscheiden, ab welcher Clusterzahl die beste Aufteilung vorliegt! *) Vorsicht: beim WARD-Verfahren anderes Fusionierungskriterium! Dazu müssen zwei Abstands-Messungen durchgeführt werden: a) Distanz zwischen zwei Datenobjekten siehe die Beispiele in Kap. 4.2 b) Distanz zwischen zwei Clustern: *) Aggregation der Einzeldistanzen der Datenobjekte zwischen diesen beiden Clustern bzw. andere Kombination von Einzeldistanzen der Datenobjekte zwischen diesen beiden Clustern Distanz zwischen Cluster-Mittelpunkten *) um die zwei Cluster zu bestimmen, die fusioniert werden sollen!
2 Clusteranalyse Fusionierungsmethoden: Die hierarchischen Clusterverfahren unterscheiden sich in der Art, wie die Cluster A i und A k fusioniert werden, z.b.: Fusionierung aufgrund der geringsten Distanz zweier Paare aus zwei Clustern ("Single Linkage", "Nearest-Neighbour") Fusionierung aufgrund der kleinsten Maximaldistanz zweier Paare aus zwei Clustern ("Complete Linkage") X2 Cluster 2 Single Linkage "Nächster Nachbar" Complete Linkage "Entferntester Nachbar" Cluster 1 X1
3 Clusteranalyse SPSS bietet sieben verschiedene Fusionierungsmethoden an: Distanzmaß d ik zwischen zwei Clustern Single Linkage, Nächster Nachbar Complete Linkage, Entferntester Nachbar Linkage zwischen den Gruppen, Average Linking Linkage innerhalb der Gruppen Centroid-Verfahren Median-Verfahren Berechnung d ik = d s : Distanz zwischen dem nächstgelegenen Fallpaar 1 d ik = d c : Distanz zwischen dem entferntesten Fallpaar 1 Durchschnitt aller möglichen paarweise Distanzen zwischen den zwei Clustern Durchschnitt aller möglichen paarweise Distanzen der zwei Cluster, auch der innerhalb eines Clusters Distanz zwischen den Mittelpunkten der Variablen zweier Cluster Distanz zwischen den Medianwerten der Variablen zweier Cluster Eigenschaften kontrahierend; neigt zur Kettenbildung dilatierend; neigt zur Bildung kleiner Gruppen konservativ möglichst geringe Distanz innerhalb des neuen Clusters konservativ konservativ Erläuterungen zu obigen Eigenschaften der Fusionierungsmethoden: Dilatierend: Kontrahierend: Konservativ: Kettenbildung: sehr viele einzelne gleich große Gruppen wenige große Gruppen und viele kleine Gruppen Ausreißer können identifiziert werden (die kleinen Gruppen) weder dilatierend noch kontrahierend bildet "Brücken" zwischen eng aneinanderliegenden Objekten und faßt diese dann zu einer Gruppe zusammen, obwohl Bildung zweier Gruppen möglich wäre! 1 wobei jeweils ein Fall aus einem der beiden Cluster stammt!
4 Clusteranalyse Verfahren von Ward: jedes Clusterpaar wird rechnerisch zu einem neuen Cluster zusammengefaßt dann wird die Summe der euklidischen Abstände aller Datenobjekte dieses Clusters zu ihrem Clustermittelpunkt berechnet, also die Clusterinterne Fehlerquadratsumme dasjenige Clusterpaar wird schließlich fusioniert, bei dem diese Fehlerquadratsumme am kleinsten ist bzw. am wenigsten vergrößert wird. minimaler Zuwachs an Heterogenität bei der Fusionierung!!! minimal möglicher Verlust an Homogenität neigt zur Bildung gleichgroßer Gruppen die für g Gruppen erzielte Partition ist nicht notwendig die optimale Partition hinsichtlich des Varianzkriteriums des Clusterzentrenverfahrens Start: jedes Objekt sein eigener Cluster, also beim Start sind alle Clusterinternen Fehlerquadratsummen gleich null! Empfehlungen zu den Verfahren: Single Linkage: findet Ausreißer (bleiben lange allein, als eigene Gruppe!) Linkage zwischen den Gruppe, Ward-Verfahren beides gute, konservative Verfahren
5 Clusteranalyse Zur Anzahl optimaler Cluster: Jedes Objekt sein eigener Cluster Ein Cluster für alle Objekte Pro Fusionierung zweier Cluster: Abbruchkriterium: *) Fehlerquadratsummen gleich null Homogenität der Cluster maximal Fehlerquadratsumme maximal Homogenität der Cluster gleich null Fehlerquadratsumme steigt an Homogenität der Cluster nimmt ab Gesamt-Fehlerquadratsumme steigt stark an ("Ellenbogen-Kriterium") hier Gruppen-Fusionierung abbrechen!!!! *) Gesamt-Fehlerquadratsumme: Summe über alle Cluster-internen-Fehlerquadratsummen: FQS = FQS 1 + FQS FQS 3. Fehlerquadratsumme innerhalb eines Clusters k: Summe der quadrierten euklidischen Abstände aller Datenobjekte eines Clusters zum Clustermittelwert: FQS k = n k n k i= 1 d( x i x k ) = p i= 1 j= 1 ( x ij x kj ) 2 p x i n k xk d(x,y) Anzahl Merkmale pro Datenobjekt Element aus Cluster k Anzahl Elemente in Cluster k Mittelpunkt(-svektor) in Cluster k (MIttelwerte pro Merkmal) euklidischer Abstand zwischen x und y, also Summe aller p quadrierten Differenzen der Merkmale 1,2,..., p der zwei Datenobjekte x und y d(x, k x ) euklidischer Abstand zwischen x und k x, also Summe aller p quadrierten Differenzen pro Merkmal zu seinem Mittelwert in Cluster k
6 Clusteranalyse Ein Beispiel: Linkage zwischen Gruppen mit Euklidischer Abstand: Dendrogramm: Stufe der Fusionierung Abnahme der Anzahl Cluster Zunahme der Summe der Cluster-internen Fehlerquadratsummen Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine 1 C A S E Label Num òûòòòòòø 2 ò ùòòòòòòòòòø 4 òòòòòòò ùòòòòòòòòòòòòòòòø 3 òòòòòòòòòòòòòòòòò ùòòòòòòòòòòòòòòòø 5 òòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòòò ó 10 òòòòòòò ó 7 òòòûòø ó 9 òòò ùòòòòòòòòòòòø ó 6 òòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 8 òòòòòòòòòòòòòòòòò X X1 1 Die von SPSS angegebene Fehlerquadratsumme ist auf 0 bis 25 reskaliert!
7 Clusteranalyse Programm SPSS: Analysieren Klassifizieren Hierarchische Clusteranalyse Übung 1: Obiges Beispiel nachvollziehen: Linkage zwischen den Gruppen (=Average Linking) Übung 2: AUsreißer identifizieren für obiges Beispiel: Single Linking Fusionierungsmethode Abstandsmaß
8 Clusteranalyse Einige Output-Ergebnisse von SPSS: Näherungsmatrix = Matrix der Distanzen zwischen den Datenobjekten: Fall Quadriertes euklidisches Distanzmaß ,000 1,000 5,000 5,000 10,000 20,000 18,000 52,000 32,000 26, ,000,000 8,000 2,000 9,000 13,000 13,000 41,000 25,000 25, ,000 8,000,000 10,000 5,000 25,000 17,000 53,000 29,000 13, ,000 2,000 10,000,000 5,000 5,000 5,000 25,000 13,000 17, ,000 9,000 5,000 5,000,000 10,000 4,000 26,000 10,000 4, ,000 13,000 25,000 5,000 10,000,000 2,000 8,000 4,000 18, ,000 13,000 17,000 5,000 4,000 2,000,000 10,000 2,000 8, ,000 41,000 53,000 25,000 26,000 8,000 10,000,000 4,000 26, ,000 25,000 29,000 13,000 10,000 4,000 2,000 4,000,000 10, ,000 25,000 13,000 17,000 4,000 18,000 8,000 26,000 10,000,000 Dies ist eine Unähnlichkeitsmatrix Linkage zwischen den Gruppen: Koeffizienten: jeweils neue (erhöhte) Fehlerquadratsumme Zuordnungsübersicht Schritt Zusammengeführte Erstes Vorkommen Cluster des Clusters Nächster Cluster 1 Cluster 2 Koeffizienten Cluster 1 Cluster 2 Schritt 1 2 1, , , , , , , , ,
9 Clusteranalyse Anzahl der Cluster Fall Vertikales Eiszapfendiagramm X X X X X X X X X X X X X X X X X X X 2 X X X X X X X X X X X X X X X X X X 3 X X X X X X X X X X X X X X X X X 4 X X X X X X X X X X X X X X X X 5 X X X X X X X X X X X X X X X 6 X X X X X X X X X X X X X X 7 X X X X X X X X X X X X X 8 X X X X X X X X X X X X 9 X X X X X X X X X X X Eiszapfendiagramm: a) ist von unten nach oben zu lesen b) das erste x von unten bezeichnet die Vereinigung zweier Cluster c) anschaulicher ist das Dendrogramm Dendrogramm * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num òûòòòòòø 2 ò ùòòòòòòòòòø 4 òòòòòòò ùòòòòòòòòòòòòòòòø 3 òòòòòòòòòòòòòòòòò ùòòòòòòòòòòòòòòòø 5 òòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòòò ó 10 òòòòòòò ó 7 òòòûòø ó 9 òòò ùòòòòòòòòòòòø ó 6 òòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 8 òòòòòòòòòòòòòòòòò Distanz a) ist auf null bis 25 reskaliert, um bessere Vergleiche zu ermöglichen b) Distanz ist die Summe der cluster-internen Fehlerquadrate c) und damit auf Stufe null gleich 0!
10 Clusteranalyse Aus der obigen Zuordnungsübersicht muß selbst (mit Excel oder mit SPSS- Streudiagramm) die sog. Ellenbogen-Graphik (Elbow-Kriterium) erstellt werden: Bei derjenigen Anzahl von Clustern, wo die Fehlerquadratsumme plötzlich stark ansteigt, wird die optimale Anzahl von Clustern vermutet: Ellenbogen-Knick bei drei Clustern stärker als bei fünf Clustern 10 FQSUMME ANZCLUST X-Achse: ANZCLUST = Anzahl Cluster = n Stufe der Fusionierung = 10 Stufe der Fusionierung (nur 9 Fusionierungen maximal!) Y-Achse: FQSUMME = Fehlerquadratsumme Fazit: aufgrund dieses Kriteriums wäre die optimale Anzahl Cluster gleich zwei!
11 Clusteranalyse Das Verfahren von WARD: Ward-Linkage: Zuordnungsübersicht Zusammengeführte Cluster Fehlerquadratsumme Erstes Vorkommen des Clusters Schritt Cluster 1 Cluster 2 = Koeffizienten Cluster 1 Cluster 2 Nächster Schritt 1 1 2, , , , , , , , ,
12 Clusteranalyse Vertikales Eiszapfendiagramm Anzahl der Cluster Fall X X X X X X X X X X X X X X X X X X X 2 X X X X X X X X X X X X X X X X X X 3 X X X X X X X X X X X X X X X X X 4 X X X X X X X X X X X X X X X X 5 X X X X X X X X X X X X X X X 6 X X X X X X X X X X X X X X 7 X X X X X X X X X X X X X 8 X X X X X X X X X X X X 9 X X X X X X X X X X X Dendrogramm * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num òûòø 2 ò ùòòòø 4 òòò ùòòòòòòòòòòòø 3 òòòòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 5 òòòûòòòòòòòòòòòòòòò ó 10 òòò ó 7 òø ó 9 òôòòòòòø ó 6 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 8 òòòòòòò
13 Clusteranalyse Vergleich Linkage- und WARD-Methode: * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num òûòòòòòø 2 ò ùòòòòòòòòòø 4 òòòòòòò ùòòòòòòòòòòòòòòòø 3 òòòòòòòòòòòòòòòòò ùòòòòòòòòòòòòòòòø 5 òòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòòò ó 10 òòòòòòò ó 7 òòòûòø ó 9 òòò ùòòòòòòòòòòòø ó 6 òòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 8 òòòòòòòòòòòòòòòòò Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num òûòø 2 ò ùòòòø 4 òòò ùòòòòòòòòòòòø 3 òòòòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 5 òòòûòòòòòòòòòòòòòòò ó 10 òòò ó 7 òø ó 9 òôòòòòòø ó 6 ò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò 8 òòòòòòò Fazit: Reihenfolge der Clusterbildung zwar etwas anders, aber hier identische Ergebnisse, also Cluster!
14 Clusteranalyse Programm SPSS: Analysieren Klassifizieren Hierarchische Clusteranalyse Abspeichern der Cluster-Zugehörigkeiten: damit Weiterverarbeitung möglich, z.b. Mittelwertberechnung innerhalb der Cluster Cluster-Streudiagramme möglich z.b. für ausgewählte 2 oder 3 Variable Speicherung der Cluster- Nummern für alle Fusionierungsstufen oder nur für ausgewählte Fusionierungsstufen (Lösung = Fusionierungsstufe)
Multivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
Mehr4.3 Hierarchische Klassifikationsverfahren
4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrHaben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
MehrPräsentation der Ergebnisse von Clusteranalysen
Autorin: Antje Seidel-Schulze, Deutsches Institut für Urbanistik, Berlin Präsentation der Ergebnisse von Clusteranalysen Der folgende Themenkomplex beantwortet die Frage, wie die von Statistikprogrammen
MehrHierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
MehrClusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrClusteranalyse Hierarchische Verfahren
Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrClusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
MehrWas ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
MehrEinführung in die Cluster-Analyse mit SAS
Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and
MehrVisualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrKapitel 28 Clusteranalyse 28.1 Einführung
Kapitel 28 Clusteranalyse 28.1 Einführung Die Clusteranalyse dient dazu, eine Menge von Objekten derart in Gruppen (Cluster) zu unterteilen, daß die derselben Gruppe zugeordneten Objekte eine möglichst
MehrEinführung in die Hauptkomponentenanalyse und Faktorenanalyse mit SPSS. Datenanalyse HS09 Susan Kriete Dodds 18. November 2009
Einführung in die Hauptkomponentenanalyse und Faktorenanalyse mit SPSS Datenanalyse HS09 Susan Kriete Dodds 18. November 2009 Hauptkomponentenanalyse Öffne die Datei Kamera.csv Analysieren > Dimensionsreduzierung
MehrMethoden zur Segmentierung von Daten
Methoden zur Segmentierung von Daten Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1.................................... 2 2 Clusteranalyse 3 2.1 Allgemeines..............................
MehrGrundlagen clusteranalytischer Verfahren
Grundlagen clusteranalytischer Verfahren Institut für Soziologie - Universität Duisburg-Essen Prof. Petra Stein - Sven Vollnhals 1. April 2011 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen der Clusteranalyse
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
MehrFaktorenanalyse und Clusteranalyse
Faktorenanalyse und Clusteranalyse illustriert mithilfeder Fragestellung Die Bürger und ihre Europäische Union. Hat die EU ein Demokratie und Legitimitätsdefizit? Ausführliche Variante der Vorlesung mit
MehrMaschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity
MehrEinführung in die Ähnlichkeitsmessung
Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht
Mehr1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?
86 8. Lageparameter Leitfragen 1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung? 2) Was ist der Unterschied zwischen Parametern der Lage und der Streuung?
MehrEinführung in die Clusteranalyse
Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften Einführung in die Clusteranalyse Fabian Pfeffer 0. Mai 00 Inhaltsverzeichnis Einführung Proximitätsmaße. Ähnlichkeitsmaße bei binären
MehrModulklausur Multivariate Verfahren
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrVereinfachte Clusteranalyse mit Excel
Autor: Helmut Schels, Stadt Ingolstadt, Stadtplanungsamt Vereinfachte Clusteranalyse mit Excel Clusteranalyse mit Excel nach einer der hierarchischen Methoden (Single-Linkage) Kurzbeschreibung Hintergrund
MehrDatamining Ein kleiner Einblick
Datamining Ein kleiner Einblick Autoren: Boris Kulig u. Bertram Schäfer Inhaltsverzeichnis 1 Begriff, Funktion, Verfahren 1 2 Clusteranalyse 1 2.1 Proximitätsmaße 3 2.1.1 Nominal-Skala 3 2.1.2 Metrische
MehrLeistungsfähigkeit von Lokalisierungsverfahren im WLAN
Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Gliederung 1. Motivation 2. Möglichkeiten und Probleme WLAN Positionsbestimmung 3. Vorgehen a. Testumgebung b. Gerätschaften und Messungen c. Location
MehrProseminar: Web-Performance
Proseminar: Web-Performance Workload-Beschreibung (3) Skalierung, Clusteranalyse und algorithmen, Burstiness Skalierung Skalierungsmethoden zur Arbeitslastberechnung: unterschiedliche Einheiten können
MehrKlassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren
Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren Michael Wiedenbeck & Cornelia Züll Zentrum für Umfragen, Methoden und Analysen, Mannheim Zusammenfassung Nach
MehrStatistische Randnotizen
Landkreis /Weser Februar 08 Stabsstelle Regionalentwicklung Az.: 12.01.20 Statistische Randnotizen Geburtenziffern im Landkreis /Weser und den anderen Kreisen im Bezirk Hannover Einleitung Kenntnis über
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
Mehr13,86. Schritt 4: Berechnung des Quartilsabstandes. Unteres Quartil! #5,5.
Lösung Aufgabe A1 Detaillierter Lösungsweg: Schritt 1: Prüfung, ob die gegebene Messreihe sortiert ist, In diesem Beispiel ist dies der Fall und wir haben insgesamt 22 Messungen. Schritt 2: Berechnen des
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation
MehrWolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.
Aufgabenstellung Klausur Methoden der Marktforschung 0.08.004 Der Automobilhersteller People Car verkauft eine neue Variante seines Erfolgsmodells Wolf zunächst nur auf einem Testmarkt. Dabei muss das
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrÜberbestimmte lineare Gleichungssysteme
Überbestimmte lineare Gleichungssysteme Fakultät Grundlagen September 2009 Fakultät Grundlagen Überbestimmte lineare Gleichungssysteme Übersicht 1 2 Fakultät Grundlagen Überbestimmte lineare Gleichungssysteme
MehrDiskriminanzanalyse Beispiel
Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode
MehrBeispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
MehrKapitel VI. Euklidische Geometrie
Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und
Mehrangewandte Statistik
R Einführung Reinhold Hatzinger Kurt Hornik Herbert Nagel durch angewandte Statistik ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario Sydney Mexico City
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Mehr! " # $! %&' () * +, - +, *, $! %.' ()* +, (( / * +, * +, 0112
! " # $! %&' () * +, - +, *, $! %.' ()* +, (( / * +, * +, 0112 + $ 3! " 4 5 6 78 12 0119 + ( $! %.' () * +, 5! ) + +":(: *" 4+ ' ; < 4 " : 3 %: +! %! " + ( =:6
Mehr4. Clusteranalyse. 4.1 Einleitung
4. Clusteranalyse 4. Einleitung Die Clusteranalyse wird eingesetzt, um Objekte Kunden, Regionen etc. in Gruppen (Cluster) einzuteilen. In der Marktforschung werden beispielsweise Marktsegmente mit einer
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
MehrInhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.
5. Clustering Inhalt 5.1 Motivation 5.2 Clustering mit Repräsentanten 5.3 Hierarchisches Clustering 5.4 Dichtebasiertes Clustering 5.5 Validierung 5.6 Graphbasiertes Clustering 2 y 5.1 Motivation Datenpunkte
Mehr1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent
Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte
MehrMultivariate Verfahren
Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes
Mehrk-means Clustern in R
k-means Clustern in R Achim Zeileis 2009-02-20 Um die Ergebnisse aus der Vorlesung zu reproduzieren, wird zunächst wieder der GSA Datensatz geladen R> load("gsa.rda") und wie schon in den vorangegangenen
MehrFaktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s
Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz
MehrKapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien
Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Eine Clusteranalyse dient allgemein dazu, eine Menge von Objekten in Gruppen (Cluster) zu unterteilen, wobei jede Gruppe in sich möglichst
MehrKoordination und Motorisches Lernen systemdynamisch betrachtet. Thomas Jaitner AG Bewegungs- und Trainingswissenschaft
Koordination und Motorisches Lernen systemdynamisch betrachtet. homas Jaitner AG Bewegungs- und rainingswissenschaft Gliederung Der Ball ist rund. (Sepp Herberger) tradierte Sichtweisen von Koordination
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
MehrHeuristische Suche. Auswahl initialer Lösung. Auswahl nächster Lösung (basierend auf voriger) Such-Strategie. Qualitätsbetrachtung
Heuristische Suche Die meisten Heuristiken basieren auf iterativer Suche bestehend aus folgenden Elementen: Auswahl einer initialen (vorläufigen) Lösung (z.b. eine Sequenz) Betrachtung der Qualität der
MehrHerzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung
FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer
MehrStatistische Methoden in der Wirtschaftsund Sozialgeographie
Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 10.15-11-45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-
MehrDatenanalyse mit Excel. Wintersemester 2013/14
Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen
MehrClustering. Uwe Reichel IPS, LMU München 19. Mai 2010
Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans
MehrElementare Regressionsrechnung
Elementare Regressionsrechnung Motivation: Streudiagramm zweier metrisch skalierter Merkmale X und Y Y X Dr. Karsten Webel 107 Ziel: Erfassung des Zusammenhangs zwischen X und Y durch eine Gerade der Form
MehrKorrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
MehrSegmentierung. Seminar: Medizinische Visualisierung. Daniel Lange
Segmentierung Daniel Lange 06.05.2004 Seminar: Medizinische Visualisierung Segmentierung 2 Überblick Einführung / Begriffsdefinition Punktorientierte Verfahren Kanten-/Konturorientierte Verfahren Regionenorientierte
MehrStatistisches Data Mining (StDM) Woche 5
Statistisches Data Mining (StDM) HS 2016 Woche 5 Aufgabe 1 Lab Read and do the excersises of chapter 10.5.2 in ILSR Aufgabe 2 Clustering und MDS Die Unahnlichkeitsmatrix CD.dis im File CountriesDis.RDA
MehrGKC Statistische Grundlagen für die Korpuslinguistik Kapitel 3: Multivariate Deskription von Daten
GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 3: Multivariate Deskription von Daten 15. November 2004 Mit den univariaten Methoden des vorhergehenden Kapitels wurde an statistischen Einheiten
MehrSimulation. Lineare Regression Methode der kleinsten Quadrate (Excel-Matrix-Formel) Verknüpfung des Euler- und Newton-Verfahrens. Das Euler-Verfahren
Simulation Lineare Regression Methode der kleinsten Quadrate (Excel-Matrix-Formel) Verknüpfung des Euler- und Newton-Verfahrens Dynamische Prozesse: Prozesse, bei denen sich das zeitliche und örtliche
MehrBrückenkurs Mathematik. Mittwoch Freitag
Brückenkurs Mathematik Mittwoch 5.10. - Freitag 14.10.2016 Vorlesung 4 Dreiecke, Vektoren, Matrizen, lineare Gleichungssysteme Kai Rothe Technische Universität Hamburg-Harburg Montag 10.10.2016 0 Brückenkurs
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrNadja Pfuhl & Christian Tarnai Universität t der Bundeswehr MünchenM. Analyse von Prestigeunterschieden verschiedener FächerF
Nadja Pfuhl & Christian Tarnai Universität t der Bundeswehr MünchenM Analyse von Prestigeunterschieden verschiedener FächerF Gottfredson (1981) Unterscheidungsfaktoren für Berufe sind Geschlechterrolle,
Mehrfh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
MehrMittelwert und Standardabweichung
Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Mittelwert und Standardabweichung Überblick Mittelwert Standardabweichung Weitere Maße
MehrInterpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression
Interpolation, lineare Gleichungen (mit und ohne Lösungen) und lineare Regression Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-6020 Innsbruck, Österreich franz.pauer@uibk.ac.at
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Cluster Analyse Katharina Morik, Uwe Ligges Informatik LS 8 13.7.2010 1 von 38 Gliederung Informatik LS 8 1 Lernaufgabe Cluster-Analyse Abstandsmaße Optimierungsprobleme 2 K-Means
MehrMultivariate Statistik
Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)
MehrInhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23
Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...
MehrVarianzanalyse ANOVA
Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für
Mehrlibrary(lattice) source(file.path(pfadu, "proben.r")) form = read.table(file.path(pfadu, "bet.txt")) e.df = read.table(file.path(pfadu, "e.
library(lattice) source(file.path(pfadu, "proben.r")) form = read.table(file.path(pfadu, "bet.txt")) e.df = read.table(file.path(pfadu, "e.txt")) 1. SE (Standard Error) und Konfidenzintervall (Siehe Vorlesung,
MehrAufgaben zu Kapitel 7:
Aufgaben zu Kapitel 7: Aufgabe 1: In einer Klinik sollen zwei verschiedene Therapiemethoden miteinander verglichen werden. Zur Messung des Therapieerfolges werden die vorhandenen Symptome einmal vor Beginn
MehrKapitel 3. Minkowski-Raum. 3.1 Raumzeitlicher Abstand
Kapitel 3 Minkowski-Raum Die Galilei-Transformation lässt zeitliche Abstände und Längen unverändert. Als Länge wird dabei der räumliche Abstand zwischen zwei gleichzeitigen Ereignissen verstanden. Solche
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrÜbungsblatt 4: Multivariate Analyseverfahren
Prof Bernd Fitzenberger, PhD Dr Roland Füss Übung zur Veranstaltung Empirische Wirtschaftsforschung Aderonke Osikominu Albert-Ludwigs-Universität Freiburg Mehdi Hosseinkouchack Wintersemester 2007/08 Übungsblatt
Mehr1.1. Geradengleichung aus Steigung und y-achsenabschnitt
Version vom 4. Januar 2007 Gleichungen von Geraden in der Ebene 1999 Peter Senn * 1.1. Geradengleichung aus Steigung und y-achsenabschnitt In dieser Form lautet die Gleichung der Geraden wie folgt: g:
Mehr