Strukturerkennende Verfahren
|
|
- Christina Raske
- vor 5 Jahren
- Abrufe
Transkript
1 Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner Natur handeln, zum Beispiel Ähnlichkeiten zwischen Probanden oder Merkmalen Abhängigkeitsstrukturen und damit um Möglichkeiten zur Prognose von Ausprägungen einzelner Merkmale unter Verwendung der Ausprägungen anderer Merkmale 1
2 Wir unterscheiden zwei Situationen: Die Strukturen sind unbekannt, und es erfolgt eine Suche nach evtl. in den Daten vorliegenden Strukturen (non supervised learning). Man hat z.b. Umfragedaten vorliegen und sucht nach Gruppen von Probanden, die sich in der Umfrage ähnlich verhalten haben. Die Strukturen sind für die vorliegenden Daten im Prinzip bekannt, und man sucht nach Regeln zur Vorhersage dieser oder ähnlicher Strukturen in zukünftig anfallenden Daten (supervised learning). Man hat z.b. Daten von erkrankten und gesunden Personen vorliegen und sucht nach Möglichkeiten zur Prognose von Erkrankungen. 2
3 In Abhängigkeit vom Skalenniveau und der Art der Fragestellung kommen sehr unterschiedliche Techniken zum Einsatz, zum Beispiel Clusteranalysen, Diskriminanzanalysen, Klassifikationsbäume und neuronale Netze. Bei großen Datenmengen werden skalierbare Varianten dieser und weitere Verfahren des data mining verwendet. 3
4 Clusteranalyse Unter dem Begriff Clusteranalyse werden verschiedene Verfahren zusammengefasst, die das Ziel haben, relativ beliebige Objekte, die durch Merkmale beschrieben werden, in Teilmengen (Cluster) aufzuteilen bzw. zusammenzufassen. Angestrebt wird dabei eine möglichst große Ähnlichkeit der Objekte innerhalb eines Clusters (Homogenität im Cluster) und eine möglichst gute Trennbarkeit der verschiedenen Cluster (Heterogenität zwischen Clustern). Ein in diesem Sinne durchgeführtes Klassifikationsverfahren führt durch Zusammenfassung ähnlicher (benachbarter) Objekte zu einer Verdichtung der Information über die strukturellen Eigenschaften der zugrunde liegenden Daten. 4
5 Die Clusteranalyse liefert als exploratives, häufig heuristisches Verfahren den Ansatzpunkt für entsprechende konfirmatorische Untersuchungen der schließenden Statistik (z.b. Diskriminanzanalysen, Varianzanalysen). Die Clusteranalyse umfasst ein umfangreiches, vielfältiges Methodenspektrum und besitzt breite Anwendungsmöglichkeiten (z.b. Wahlforschung, Marktforschung, Psychologie, Archäologie, Textanalyse). 5
6 Clusteranalyseverfahren sind in allen größeren Programmen zur Datenanalyse implementiert. Die vorgestellte Auswahl orientiert sich an häufig implementierten Verfahren, die auch in SPSS verfügbar sind. Darüberhinaus gibt es auf Grund der rechen- und speicherintensiven Algorithmen spezielle Programme, die ausschließlich Verfahren der Clusteranalyse realisieren (z.b. CLUSTAN). 6
7 Grobklassifikation von Clusteranalyseverfahren (Präzisierung der Ziele der Clusterbildung) Wir beschränken uns auf Verfahren für Datensätze mit intervallskalierten Merkmalen und verwenden z.b. Euklidische Abstände. Nominal- oder ordinalskalierte Merkmale sowie Datensätze mit gemischtem Skalenniveau erfordern andere Ansätze bei den Distanz- bzw. Ähnlichkeitsmaßen. 7
8 Beispiele: - Länder und ihre volkswirtschaftlichen Kenngrößen vor dem Beitritt zur EURO-Zone; - Echte und falsche Banknoten: Der Datensatz fluryk.sav (aus Flury/Riedwyl (1990)) enthält Längenmaße von 100 echten und 100 falschen alten Schweizer Banknoten. Die Namen der Variablen und ihre Bedeutung können aus der folgenden Abbildung entnommen werden. 8
9 oben links laenge diagonal rechts unten Abbildung 1: Die an den Banknoten erfassten Maße 9
10 Die echten und falschen Banknoten können im Datensatz unterschieden werden. Diese Information wird für die Clusteranalyse allerdings nicht benutzt (keine Lernstichprobe). Ziel der Clusteranalyse ist es, die Struktur der vorliegenden Daten und damit der vorliegenden Banknoten aufzuklären. Diese Struktur kann dann evtl. später zur Unterscheidung von echten und falschen Banknoten Verwendung finden. 10
11 Eine grobe Einteilung von Verfahren der Clusteranalyse ist möglich im Hinblick auf die verwendeten Abstands- bzw. Ähnlichkeitsmaße zwischen den Objekten. die verwendeten Abstands- bzw. Ähnlichkeitsmaße zwischen Clustern (diese Maße bestimmen das Zielkriterium bei der Clusterbildung). die Art, wie eine Clusteranalyse abläuft: iterativ nicht iterativ, agglomerativ divisiv, hierarchisch nicht hierarchisch. die Art der entstehenden Zerlegung: disjunkt nicht disjunkt. 11
12 Daneben können weitere Charakteristika (z.b. statistische Annahmen über das Datenmaterial) eine Rolle spielen. Da Ähnlichkeitsmaße in entsprechende Abstandsmaße (Unähnlichkeiten) umgerechnet werden können, beschränken wir uns auf die Diskussion einiger Abstandsmaße. 12
13 Abstandsmaße zwischen Objekten Objektmengen mit intervallskalierten Merkmalen können als Punktmengen im Euklidischen Raum aufgefasst werden. Jeder Koordinate entspricht ein Merkmal, und Ziel der Clusteranalyse ist es, Punkte, die bezüglich einer vorgegebenen Abstandsfunktion im Raum benachbart liegen, zusammenzufassen. Als Abstandsfunktionen werden häufig bekannte Metriken verwendet. 13
14 Ausgangspunkt: Stichprobe vom Umfang n (untersuchte Objekte, befragte Personen), p erfasste Merkmale Datenmatrix: (x ij ) i=1,...,n j=1,...,p = x 11 x x 1p x 21 x x 2p... x n1 x n2... x np x ij... Merkmalsausprägung des Merkmalsträgers i bezüglich des Merkmals j ( Dateneditor von SPSS) 14
15 Zeilen: p Merkmalsausprägungen des entsprechenden Falles (Merkmalsträger, Proband, Objekt) Bezeichnungen: x, y,... (Vektoren) Spalten: n Werte (Ausprägungen, Realisierungen) des entsprechenden Merkmals (der Variablen) 15
16 Beispiele für Abstandsfunktionen zwischen Objekten Direkte Vorgabe einer problemspezifischen (symmetrischen) Distanzmatrix D = (d ij ) i=1,...,n, die die j=1,...,n Abstände zwischen den Objekten beschreibt (z.b. aus Expertenbefragung). Euklidischer Abstand: d 1 ( x, y) = x y = p (x j y j ) 2 j=1 Quadrierter Euklidischer Abstand: d 2 ( x, y) = (d 1 ( x, y)) 2 = x y 2 16
17 City Block Abstand: d 3 ( x, y) = p x j y j j=1 Maximum Abstand: d 4 ( x, y) = max x j y j j=1,...,p 17
18 Agglomerative Verfahren (hierarchisch, disjunkt) Aufbau einer Folge von Clusterzerlegungen Ausgangspartition: einzelnes Objekt ˆ= Cluster, Agglomeration (Vereinigung) von Clustern zu einem neuen Cluster (Kriterium: Abstand zwischen Clustern), triviale Endposition (alle Objekte in einem Cluster) Probleme: Angemessene Anzahl von Clustern? Zielkriterium bei der Agglomeration? 18
19 Bezeichne C 1,..., C l eine beliebige Zerlegung (Partition) der Objektmenge in l Cluster. Die C i sind also disjunkte Teilmengen von Objekten, die die Gesamtmenge vollständig zerlegen. Sei n k = card(c k ) (Anzahl der Objekte in C k ) und d( x, y) eine (beliebige) Abstandsfunktion zwischen den Objekten. 19
20 Beispiele für Abstandsfunktionen zwischen Clustern (bei agglomerativen Verfahren) Single linkage (nearest neighbor): D 1 (C k, C j ) = min x C k min y C j d( x, y) Complete linkage (furthest neighbor): D 2 (C k, C j ) = max x C k max y C j d( x, y) Average linkage: D 3 (C k, C j ) = 1 n k 1 n j x C k y C j d( x, y) 20
21 Centroid linkage: D 4 (C k, C j ) = s k s j 2, mit s i = 1 n i x C i x (Schwerpunkt von C i ) analog: median linkage WARD s minimum variance linkage: D 5 (C k, C j ) = n kn j n k + n j s k s j 2 (Ergibt sich, falls jeweils die beiden Cluster fusioniert werden, die dabei den geringsten Zuwachs in der Varianz der Clusterzerlegung hervorrufen; vgl. ANOVA) 21
22 Praktisches Vorgehen, falls Zahl der Cluster nicht bekannt ist: Verfolgen des Clusterprozesses mit grafischen Methoden (Dendrogramm, icicle plot) und eines Homogenitätsmaßes; Abbruch, falls dieses Maß sprunghaft ansteigt. Hinweise: Im Zusammenhang mit der Auswahl einer geeigneten Abstandsfunktion ist auch die Frage zu klären, ob bei der Clusteranalyse mit den Originaldaten oder besser mit transformierten (z.b. standardisierten) Werten gearbeitet werden soll (vgl. Faktorenanalyse). 22
23 Große Probleme mit vielen Objekten lassen sich mit diesen (hierarchischen) Verfahren nicht bewältigen (Anzahl der möglichen Unterteilungen einer Menge mit 100 Objekten in 2 Teilmengen 1 2 (2100 2) = ). Hierarchischen Methoden sind für kleinere Probleme bzw. Lernstichproben geeignet. Es gibt schnelle, wenig speicherintensive Verfahren für Probleme mit bekannter Clusteranzahl (partitionierende Verfahren) und es gibt Algorithmen, die Anfangslösung iterativ verbessern können (Austauschverfahren). 23
24 Leader /k means Algorithmus (nichthierarchisch, disjunkt, evtl. iterativ) Vorzugeben: Anzahl der Cluster ggf. je ein typisches Element (Leader) pro Cluster Bestimmung der Cluster erfolgt ausgehend von den Leadern durch Anlagerung der restlichen Elemente (z.b. nearest centroid sorting). Evtl. iteratives Vorgehen (Wiederholung des Prozesses mit den Schwerpunkten der ermittelten Clusterlösung, Austauschschritte) 24
25 Probleme: Abhängigkeit der Lösung von den Startwerten (Leadern), der Abarbeitungsreihenfolge, Auffinden lokaler Extrema,... Auswege: Kombination mit anderen Verfahren, Multistartvarianten,... 25
4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrZiel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.
8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft
MehrEntscheidungen bei der Durchführung einer Cluster-Analyse
7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des
MehrStatistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrLösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrKapitel ML: X (Fortsetzung)
Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster
MehrClusteranalyse und Display-Methoden
Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich
Mehr4.4 Hierarchische Clusteranalyse-Verfahren
Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrMathematisch-Statistische Verfahren des Risiko-Managements - SS
Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrDr. Ralf Gutfleisch, Stadt Frankfurt a.m.
Zentrale Fragestellungen: Was Wie Wann ist eine Clusteranalyse? wird eine Clusteranalyse angewendet? wird eine Clusteranalyse angewendet? Clusteranalyse = Gruppenbildungsverfahren = eine Vielzahl von Objekten
Mehr4 Clusteranalyse 4.1 Einführung
Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrClusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
MehrÄhnlichkeits- und Distanzmaße
Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrInhalt. 1 Unvollständige Clusteranalyseverfahren 35
Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
Mehr2 Einlesen von Datensätzen
2 Einlesen von Datensätzen 2.1 Einlesen von SPSS-Datenfiles SPSS bietet die beiden kompatiblen Datenformate.sav und.por zum Speichern und Einlesen von Dateien an. Daten dieses Formats können problemlos
MehrVII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mg-Verfahren VII Unüberwachte Data-Mg-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizg Maps Institut
MehrForschungsmethodik II, SS 2010
Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrKap. 5 Spatial (räumliches) Data Mining
Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrInhaltsverzeichnis 1. EINLEITUNG...1
VII Inhaltsverzeichnis Vorwort...V Verzeichnis der Abbildungen...XII Verzeichnis der Tabellen... XVI Verzeichnis der Übersichten...XXII Symbolverzeichnis... XXIII 1. EINLEITUNG...1 2. FAKTORENANALYSE...5
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrMethoden der Klassifikation und ihre mathematischen Grundlagen
Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrÜberblick über multivariate Verfahren in der Statistik/Datenanalyse
Überblick über multivariate Verfahren in der Statistik/Datenanalyse Die Klassifikation multivariater Verfahren ist nach verschiedenen Gesichtspunkten möglich: Klassifikation nach der Zahl der Art (Skalenniveau)
MehrClusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH
Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische
Mehr1 Beispiele multivariater Datensätze... 3
Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und
MehrInstitut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005
Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse II Stefan Etschberger Sommersemester 2005 Organisatorisches Vorlesung Montag, 10.15-11.45 Uhr Vorlesungsmaterialien
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrÄhnlichkeits- und Distanzmaße
Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die
MehrReader Teil 5: Clusteranalyse
r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015 Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrStatistische Eigenschaften von Clusterverfahren
Universität Potsdam Mathematisch-Naturwissenschaftliche Fakultät Institut für Mathematik Diplomarbeit Statistische Eigenschaften von Clusterverfahren Andrea Schorsch Matrikelnummer: 715466 Sommersemester
MehrClustern: Voraussetzungen
Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung
MehrDaten, Datentypen, Skalen
Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
MehrClusteranalyse Hierarchische Verfahren
Workshop Clusteranalyse Clusteranalyse Hierarchische Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 Graz, 8.-9.10.2009 1 1. Programmsystem ALMO vollständiges
MehrAufgaben zur Multivariaten Statistik
Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten
MehrKlausurvorbereitung Multivariate Statistik
Klausurvorbereitung Multivariate Statistik Aufgabe 1 (15 Punkte) Daten der Erdbeerernte für 20 Betriebe werden untersucht. Angegeben werden die Variablen Größe, Sonne und Ertrag, die die Gröÿe des Anbaugebietes
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrProduktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien
Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien Langenbach, J. Für jedes neue Produkt, welches in Europa auf den Markt gebracht wird, muss die CE-Zertifizierung beachtet werden.
MehrÜbersicht der Vorlesung
Übersicht der Vorlesung 1. Einführung 2. Bildverarbeitung 3. orphologische Operationen 4. Bildsegmentierung 5. erkmale von Objekten 6. Klassifikation 7. Dreidimensionale Bildinterpretation 8. Bewegungsanalyse
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts
MehrHaben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
Mehrk-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering
Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrFrequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
MehrMultivariate Statistik
Multivariate Statistik von Univ.-Prof. Dr. Rainer Schlittgen Oldenbourg Verlag München I Daten und ihre Beschreibung 1 1 Einführung 3 1.1 Fragestellungen 3 1.2 Datensituation 8 1.3 Literatur und Software
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrTheoretische Informatik 1
Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 02.07.2015 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP
MehrClusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI
Hüseyin Bostanci Clusterbasierte Datenanalyse auf Grundlage genetischer Algorithmen in SAP-BI Ein Verfahren zur selbständigen Ermittlung der optimalen Anzahl Cluster Diplomica Verlag Hüseyin Bostanci Clusterbasierte
MehrTypologisierung von Jungunternehmen
Jungunternehmen auf dem Weg zum konsolidierten Mittelstand Typologisierung von Jungunternehmen Dr. Anne Weber, Drs.. MIB Paul Flachskampf Institut für f r Unternehmenskybernetik e.v. Oliver Strauß Institut
MehrMultivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
MehrAufgabenstellung Klausur
Aufgabenstellung Klausur Methoden der Marktforschung 02.03.2004 Der Automobilhersteller People Car möchte nach erfolgreicher Markteinführung des neuen Modells Wolf in Deutschland dieses Modell auch auf
MehrWolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.
Aufgabenstellung Klausur Methoden der Marktforschung 0.08.004 Der Automobilhersteller People Car verkauft eine neue Variante seines Erfolgsmodells Wolf zunächst nur auf einem Testmarkt. Dabei muss das
MehrKlausur Strategisches Marketing und Internationales Marketing WS 2013/14 1
Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1 Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 Gesamtpunktzahl: 120 Aufgabe 1: Informationsgrundlagen
MehrDie Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
MehrInstitut für angewandte Datenanalyse GmbH
Institut für angewandte Datenanalyse GmbH Latent Class Cluster Analysen (LCCA) Was erwartet Sie nachfolgend? Einführung Klassifizierung der Segmentierungs-Verfahren Case Study Urlaubsreisen Das Prinzip
MehrAlgorithmen zur Kundensegmentierung
Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means
MehrClustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrWahrscheinlichkeitsrechnung und Statistik
9. Vorlesung - 2017 Monte Carlo Methode für numerische Integration Sei g : [0, 1] R stetige Funktion; man möchte 1 0 g(t)dt numerisch approximieren mit Hilfe von Zufallszahlen: Sei (U n ) n eine Folge
MehrAnalyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung
Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung Zusammenfassung der Diplomarbeit an der Hochschule Zittau/Görlitz Maria Kiseleva Motivation
MehrDr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.
Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.
MehrFormelsammlung zur Lehrveranstaltung Statistische Analyseverfahren. 4. Februar 2019
Formelsammlung zur Lehrveranstaltung Statistische Analyseverfahren 4 Februar 2019 Inhaltsverzeichnis 1 Diskriminanzanalyse 1 11 ML-Diskrimination für zwei Normalverteilungen mit identischen Kovarianzmatrizen
MehrNr. 17. hung des. Using 08/2011. uni-neu-ulm.de
HNU Working Paper Nr. 17 Marina Fedorova und Michael Grabinski Anwendung der Clusteranalyse bei der ErforschE hung des Landwirtschaftsmarkts in Regionen Using of cluster analysis in regional agricultural
MehrTheoretische Informatik 1
Theoretische Informatik 1 Approximierbarkeit David Kappel Institut für Grundlagen der Informationsverarbeitung Technische Universität Graz 10.06.2016 Übersicht Das Problem des Handelsreisenden TSP EUCLIDEAN-TSP
Mehr0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive
MehrWilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz
Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz FHDW-Fachbericht Band 1/2009 Raphael Fockel Wilhelm Nüsser (Hrsg.) Carsten Weigand
MehrAnwendungen mit SAS: Direkt aus der Praxis! Block 2
Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik
MehrClusteranalyse K-Means-Verfahren
Workshop Clusteranalyse Clusteranalyse K-Means-Verfahren Graz, 8. 9. Oktober 2009 Johann Bacher Johannes Kepler Universität Linz Linz 2009 1 1. Fragestellung und Algorithmus Bestimmung von Wertetypen (Bacher
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen Literatur Chris Bishop: Pattern Recognition i and Machine Learning. Jiaweii Han und Micheline Kamber: Data Mining i Concepts and Techniques. Ulrike
MehrKlausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik
TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN SS 97 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik 15 45
Mehrfh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
Mehr1 Übungsaufgaben zur Regressionsanalyse
1 Übungsaufgaben zur Regressionsanalyse 1 1 Übungsaufgaben zur Regressionsanalyse 1.1 Übungsaufgaben zu Seite 1 und 2 1. Wie lautet die Regressionsfunktion? 2. Welche Absatzmenge ist im Durchschnitt bei
MehrKonzepte II. Netzwerkanalyse für Politikwissenschaftler
Konzepte II Netzwerkanalyse für Politikwissenschaftler Wiederholung Räumliche Distanzen und MDS Hauptkomponenten Neuere Entwicklungen Netzwerkanalyse für Politikwissenschaftler Konzepte II (1/20) Worum
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2017 Kapitel 4: Data Mining Vorlesung:
Mehr