Anwendungen mit SAS: Direkt aus der Praxis! Block 2

Größe: px
Ab Seite anzeigen:

Download "Anwendungen mit SAS: Direkt aus der Praxis! Block 2"

Transkript

1 Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik Dr. Denise Rey 19. Dezember

2 Inhalt 1. Was ist Data Mining? 2. Clustering - Einführung 3. Clustering - Distanzen 4. Clustering - Hierarchisch 5. Clustering - Optimierung 6. Hauptkomponentenanalyse 2

3 Was ist Data Mining? Flache Datentabelle zur Analyse: Id Y 1 Y p X 1 X m 1 y1 1 y p 1 x1 1 xm n yn 1 yn p x 1 n x m n 3

4 Was ist Data Mining? Anwendungsbereiche: - Chemische Industrie (insb. pharmazeutische Industrie) - Qualitätssicherung in der Produktion - Customer Relationsship Management - Text Mining, Web Mining usw. 4

5 Was ist Data Mining? Anwendungsbereich Text Mining und Web Mining: - Filter s, Spam - Cluster von Kundenbeschwerden - Vorhersage von Kundenzufriedenheit - Vorhersage von Aktienkurse anhand von Business News - Cross and Up Selling anhand Web Analyse 5

6 Was ist Data Mining? Typische Herausforderungen bei dem Einsatz von Data Mining Methoden: - Anzahl der Beobachtungen n gross (n >> 10 6 möglich) - Anzahl der Attribute m gross (>> 10 4 möglich) - Fehlende Werte - Ausreisser und Extremwerte - Andere Datenqualitätsprobleme - Unterschiedliche Verteilungen (binär, diskret, stetig) Data Mining bezeichnet eine wissenschaftliche Disziplin die sich mit Entwicklung, Implementierung und Anwendung von Verfahren für die Analyse von grossen Datenmengen mit komplexer Struktur befasst. 6

7 Was ist Data Mining? Fachbereiche die bei Data Mining eine Rolle spielen: - Mathematische Statistik (Multivariate Statistik, Zeitreihenanalyse usw.) - Bildverarbeitung (Visualisierung, Mustererkennung) - Künstliche Intelligenz (Neuronale Netze, Genetische Algorithmen) - Computerlinguistik (Text Mining, Web Mining) - Datenbanken, Data Warehouses 7

8 Was ist Data Mining? Supervised Learning - Die Analyse hat eine Zielvariable - Dient zur Findung der signifikanten Einflussfaktoren und zur Vorhersage Id Y X 1 X m 1. y 1. x x m n y n x 1 n x m n Typische Verfahren: Regression, Entscheidungsbäume, Neuronale Netze, Support Vector Machines usw. 8

9 Was ist Data Mining? Unsupervised Learning - Es gibt keine Zielvariable - Dient zur deskriptiven Analyse eines Datenbestandes und zur Mustererkennung Id X 1 X m 1. x x m n x 1 n x m n Clusteranalyse, Hauptkomponentenverfahren, Assozia- Typische Verfahren: tionsanalyse usw. 9

10 Cluster - Einführung 10

11 Cluster - Einführung Ziele der Clusteranalyse - Bildung von Cluster die durch die Ähnlichkeit (bzw. Distanz) der Beobachtungen in Bezug auf die Attribute bestimmt werden - Einteilung der Beobachtungen in disjunkte oder non-disjunkte Mengen, so dass sie innerhalb der Klassen in Bezug auf die Inputvariablen möglichst homogen sind und zwischen den Klassen heterogen - Vorstufe für ein weiteres Verfahren wie z.b. Klassifizierung oder Vorhersage 11

12 12

13 Cluster - Distanzen Aus der Originalmatrix mit n Beobachtungen Id X 1 X m 1. x xm n x 1 n x m n 13

14 Cluster - Distanzen wird eine Distanzmatrix erzeugt 1 2 n 1 2 d(1, 2) 3. d(1, 3). d(2, 3).. n d(1, n) d(2, n) d(3, n) 14

15 Cluster - Distanzen Formale Definition der Metrik Sei X eine beliebige Menge. Eine Abbildung heisst Metrik, wenn für beliebige Elemente x, y, z X die folgenden axiomatischen Bedingungen erfüllt sind: 1. d(x, x) = 0 (identische Punkte haben Abstand 0) 2. d(x, y) = 0 x = y (nichtidentische Punkte haben nicht Abstand 0), 3. d(x, y) = d(y, x) (Symmetrie) 4. d(x, y) d(x, z) + d(z, y) (Dreiecksungleichung) 15

16 Cluster - Distanzen Distanzmasse bei stetigen Variablen Seien x = (x 1,..., x m ) und y = (y 1,..., y m ) zwei Beobachtungen mit m Attributen. Euklidische Metrik (L2 Norm) d(x, y) = (x 1 y 1 ) (x n y n ) 2 Manhatten Metrik (L1 Norm) d(x, y) = x 1 y x 1 y 1 16

17 Cluster - Distanzen Distanzmasse bei binären Variablen Jaccard Koeffizient, A und B zwei Mengen A B J(A, B) = A B Jaccard Metrik A B A B J(A, B) = 1 J(A, B) = A B (1) (2) Binäre Variablen: B = 1 B = 0 A = 1 M 11 M 10 A = 0 M 01 M 00 17

18 Cluster - Distanzen Distanzmasse bei binären Variablen Jaccard Metrik für binäre Variablen: J(A, B) = M 10 + M 01 M 10 + M 01 + M 11 (3) Andere Metriken für binäre Variablen: - Dice - Match 18

19 Cluster - Distanzen Distanzmasse bei nominalen Variablen Die Variablen werden Dummy kodiert und danach wie binäre Variablen behandelt: Dummy1 Dummy2 Dummy3 Rot Gelb Schwarz

20 Cluster - Distanzen Distanzmasse bei ordinalen Variablen Transformation via Ränge auf [0, 1] und dann Vorgehen wie bei metrischen Variablen: r neu i = r i 1, 1,..., R. R 1 20

21

22 Cluster - Distanzen Distanzmasse bei gemischt skalierten Variablen D(x, y) = m j=1 w j d(x j, y j ), m j=1 w j = 1 21

23 Cluster - Distanzen Proc Distance Bis Version SAS 9.1: Makro %DISTANCE Ab Version SAS 9.1: Proc distance Details: Syntax: PROC DISTANCE options; BY variables; ID variable; VAR level (variables opt-list) ; 22

24 Cluster - Distanzen demo1 distance.sas 23

25 Cluster - Hierarchisch Eigenschaften: - Agglomerative (buttom-up) und divisive (top-down) - Angabe der zu bildenden Clusteranzahl nicht notwendig Algorithmus für agglomeratives Clustering 1. Beginne mit n Clustern C 1,..., C n. C k = x k, i = 1,..., n 2. Bestimme die Clustern die zusammengefügt werden können: min k,l wobei D kl der Abstand zwischen 2 Cluster ist. 3. Definiere und ersetze C k, C l mit C := C k C l und gehe zu Schritt 2. D kl 24

26 25

27 26

28 27

29 28

30 29

31 Cluster - Hierarchisch Average Linkage AVERAGE Verzerrt in Richtung der Bildung der Clusters mit der gleichen Varianzen. Tendiert, Clusters mit kleinen Varianzen zu Joinen. Nicht robust gegen Ausreisser. Centroid CENTROID Die robusteste Methode gegen Outliers unter den hierarchischen Methoden. Gut bei unbalancierten und nonkonvexen Clusters. Single Linkage SINGLE Stellt keinen Bezug auf die Form der Clusters, deswegen kommt gut klar mit irreguläre clusters. Zu empfehlen bei unbalancierten und nonkonvexen Clusters. Ward WARD Ward tendiert Custers mit wenigen Beobachtungen zu paaren und ist verzerrt in Hinsicht auf Bildung balancierter Cluster. Trennscharf in diesem Fall. Density DENSITY TWOSTAGE Gut bei nicht-sphärischen und nonkonvexen Cluster. 30

32 Cluster - Hierarchisch Proc Cluster - Verfahren für agglomeratives hierarchisches Clustering - Elf Verfahren zur Definition von dem Abstand zwischen 2 Cluster - Eingangsdaten können Koordinaten oder Distanzen sein - Wenn die Eingangsdaten Koordinaten sind, sollten diese stetig sein - Wenn die Eingangsdaten Koordinaten sind, dann wird als Default der Euklidische Abstand benutzt (anders über proc distance zu verfahren) - Ordinale Daten sind mit proc cluster nicht zu empfehlen - proc cluster für sehr grosse Datenbestände nicht zu empfehlen, in diesem Fall proc fastclus zuerst benutzen - proc cluster liefert statistische Masse für die Auswahl der optimalen Clusteranzahl 31

33 Cluster - Hierarchisch Proc Cluster - Grafische Darstellung und weitere Bearbeitung der Ergebnisse anhand proc tree - Variablen mit grossen Varianzen haben mehr Einfluss auf das Clustering als Variablen mit kleinen Varianzen, Transformationen notwendig - Multikollineare Variablen auch nicht zulaessig, Transformationen notwendig - SAS Prozeduren für Transformationen: std option, proc distance, proc stdize, proc princomp, proc corresp. - Andere Prozeduren in Zusammenhang mit proc cluster: proc tree (Darestellung des Baumes), proc candisc, proc means, proc gchart, proc gplot. 32

34 Proc Cluster, Syntax Cluster - Hierarchisch PROC CLUSTER DATA= options; BY variables; COPY variables; FREQ variable; ID variable; RMSSTD variable (if the input data comes from proc fastclus); VAR variables; OUTTREE= Outputdatei für proc tree METHOD = AVERAGE / WARD / usw. STANDARD = Standardisierung der Variablen (Mean 0, Varianz 1) TRIM = p Ausreisser Kontrolle. TRIM = 10 löscht 10% der Daten mit einer geringen Dichte (benötigt Option K, Anzahl der Nachbarn) RMSSTD = Root Mean Squared Standard Deviation. Nur für Method Average, Centroid, Ward. CCC, PSEUDO, RSQUARE, SIMPLE, SPRSQ 33

35 Cluster - Hierarchisch Cubic Clustering Criterion CCC = log ( 1 E(R 2 ) 1 R 2 ) np/2 ( E(R 2 )) 1.2 Das cubic clustering criterion (CCC) testet die Hypothese: H 0 := Die Daten stammen aus einer Gleichverteilung H 1 := Die Daten stammen aus einer Mischung von mulitivariaten Normalverteilungen mit gleichen Varianzen und gleichen Gewichten. - Werte > 2 sprechen für mehr Struktur in den Daten als unter Gleichverteilung zu erwarten wäre, gute Clusters - Werte zwischen 0 und 2 sind Indikatoren für mögliche Cluster. Mit Vorsicht zu interpretieren - Negative Werte zweigen mögliche Aussreisser - CCC gültig nur im Unabhängigkeitsfall 34

36 35

37 Cluster - Hierarchisch Pseudo F Statistik ( ni=1 x i x 2) (g 1)) P SF = ( g k=1 i C k x i x k 2) (n g) - PSF soll maximiert werden - PSF misst die Separation zwischen Clustern zu einem erreichten Hierarchielevel - Sie ist nicht F-verteilt 36

38 37

39 Cluster - Hierarchisch Die Ausgabe der Outtree Tabelle NCL number of the clusters FREQ the number of observations in the current cluster HEIGHT the distance or similarity between the last clusters joined. The variable (used by the TREE procedure as the default height axis) ERSQ the approximate expected value of R2 under the uniform null hypothesis RATIO equal to [(1 ERSQ)/(1 RSQ)] (sollte > 1) LOGR natural logarithm of RATIO (sollte > 0) CCC the cubic clustering criterion 38

40 Cluster - Hierarchisch Die Ausgabe der Outtree Tabelle If the input data set contains coordinates METHOD=AVERAGE, METHOD=CENTROID, or METHOD=WARD, then additionally: DIST the Euclidean distance between the means of the last clusters joined AVLINK the average pairs distance between the last clusters joined RMSSTD the root-mean-square standard deviation of the current cluster SPRSQ the semipartial squared multiple correlation or the decrease in the proportion of variance accounted for due to joining two clusters to form the current cluster RSQ the squared multiple correlation PSF the pseudo F statistic PST2 the pseudo t2 statistic 39

41 40

42 Cluster - Hierarchisch demo2 proc cluster miles.sas demo3 proc distance cluster divorce.sas demo4 proc cluster iris.sas 41

43 Clustering via Optimierung Eigenschaften - Vorgabe der Clusteranzahl oder a-priori Schätzung der Clusteranzahl notwendig - Iterative Einteilung aller Objekte in Cluster (Minimierung der Distanz von einer Beobachtung zu dem Cluster) - Disjunkte Cluster - Vorstufe für hierarchische Clustermethoden - Parametrische (proc fastclus) - Nichtparametrische (proc modeclus) 42

44 43

45 44

46 45

47 46

48 Clustering via Optimierung Proc Fastclus, Eigenschaften - Prozedur zu Erzeugung von disjunkten Cluster auf Basis der Euklidischen Distanz zwischen quantitativen Variablen (k-means Verfahren als theoretischer Hintergrund) - Keine Baumstruktur - Als Vorschritt für hierarchisches Clustering im Fall grosser Datenmengen - Nicht robust gegen Ausreisser, Methode gut auch zur Ausreisser Entdeckung - Initial Seed bei proc fastlclus ist die erste Beobachtung ohne fehlende Werte - Standardisierung im Fall unterschiedlichen Skalen bzw. Multikollinearität (proc stdize, proc princomp usw.) 47

49 Clustering via Optimierung Proc Fastclus Syntax PROC FASTCLUS MAXCLUSTERS=n options; VAR variables ; (quantitative Variablen) ID variable ; (Zeilenidentität) FREQ variable ; (Gewichtungsvariable) BY variables ; (Gruppenanalyse) Optionen CLUSTER= Neuer Name für das Cluster (z.b. Segment) MEAN= Ausgabedatei für Statistiken OUTSTAT= Speichert Definition der Cluster INSTAT= Liest Ausgabe eines vorherigen Clusterings und weist Clusterzugehörigkeit zu; für Scoring LEAST= Abstandsmass MAXITER= Anzahl der Iterationen in Hinsicht auf LS Minimierung OUT= Orginalvariablen, Cluster, Distanzen SUMMARY, SHORT, DISTANCE 48

50 Clustering via Optimierung Ausgabe von Proc Fastclus Cluster Summary RMS Std Deviation (Root mean square distance between observations in the cluster) Maximum Distance from Seed to Observation (the maximum distance from the cluster seed to any observation in the cluster) Nearest Cluster (the number of the cluster with mean closest to the mean of the current cluster) Centroid Distance (the distance between the centroids (means) of the current cluster and the nearest other cluster) Statistics for Variables Total STD (the total standard deviation) Innerhalb STD (the pooled within-cluster standard deviation) R-Squared (the R2 for predicting the variable from the clustering (One-way)) RSQ/(1 - RSQ) (the ratio of between-cluster variance to within-cluster variance) OVER-ALL (all of the previous quantities pooled across variables) 49

51 Scoring mit Proc Fastclus Clustering via Optimierung /***Cluster Definition***/ PROC FASTCLUS DATA=data options OUTSTAT=centroids; RUN; /***Scoring neuer Daten***/ PROC FASTCLUS DATA=new options INTSTAT=centroids; OUT=scored; RUN; 50

52 Clustering via Optimierung Proc Fastclus als Vorschritt zu Proc Cluster /***Reduktion der Daten***/ PROC FASTCLUS DATA=data MAXC=20 MEAN=Mean CLUSTER=preclus; VAR variables; RUN; /***Suchen von besseren Cluster mit proc cluster***/ PROC CLUSTER DATA=mean OUTTREE=outtree; VAR variables COPY preclus; RUN; 51

53 Clustering via Optimierung demo5 proc fastclus.sas 52

54 53

55 Hauptkomponentenanalyse Einleitung - Mathematisch eine orthogonale lineare Transformation zu einem neuen Koordinatensystem so dass die groesse Varianz auf der ersten Koordinate projeziert wird, die zweitgroesste auf der zweiten Koordinate usw. - Verfahren zur Reduktion der Dimensionalität - Verfahren zur Erkennung von Strukturen in dem gegebenen Variablenraum - Einsatz bei korrelierten quantitativen Inputvariablen - Reduktion von vielen korrelierten Einflussvariablen zu wenigen unkorrelierten Hauptkomponenten - Projezierung der Beobachtungen in einem 2-dimensionalem Raum - Grafische Darstellung aller Daten - Methode zur Entdeckung multivariater Ausreisser - Hauptkomponenten als Input in andere Data Mining Verfahren (neuronale Netze, cluster usw.) 54

56 Hauptkomponentenanalyse Proc Princomp Syntax PROC PRINCOMP options; BY variables ; FREQ variable ; VAR variables; run; Optionen: OUT=Ausgabe der Originalvariablen und Hauptkomponenten (z.b. in proc cluster oder proc fastclus einzusetzen) N=Anzahl der zu berechnenden Hauptkomponenten STDStandardisierung 55

57 Hauptkomponentenanalyse Loading Plot - Darstellung der Originalvariablen - Korrelierte Variablen naheliegend - Invers korrelierte Variablen in entgegengesetzter Richtung - Länge der Pfleile zeigt die Stärke des Einflusses - Geometrisch, Kosinus der Winkel (Werte zwischen -1 und 1). Score Plot - Darstellung der Beobachtungen - Cluster der ahnlichen Beobachtungen - Zugehörigkeit zu den relevanten Einflussvariablen - Koordinaten in dem neuen Raum 56

58 Hauptkomponentenanalyse demo6 proc princomp.sas demo7 pca und clustering.sas 57

Anwendungen mit SAS: Direkt aus der Praxis! Block 3

Anwendungen mit SAS: Direkt aus der Praxis! Block 3 Anwendungen mit SAS: Direkt aus der Praxis! Block 3 Supervised Learning - Die Logistische Regression Fachhochschule Koblenz Fachbereich Mathematik und Technik Dr. Denise Rey 30. Januar 2009 1 Inhalt 1.

Mehr

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved.

Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights reserved. Clusterverfahren bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc.

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Entscheidungen bei der Durchführung einer Cluster-Analyse

Entscheidungen bei der Durchführung einer Cluster-Analyse 7712Clusterverfahren Entscheidungen bei der Durchführung einer Cluster-Analyse nach: Eckes, Thomas, und Helmut Roßbach, 1980: Clusteranalysen; Stuttgart:Kohlhammer A. Auswahl der Merkmale Festlegung des

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Strukturerkennende Verfahren

Strukturerkennende Verfahren Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8-1 - Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund 11.1.8 -

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Ähnlichkeits- und Distanzmaße

Ähnlichkeits- und Distanzmaße Einheit 1 Ähnlichkeits- und Distanzmaße IFAS JKU Linz c 2015 Multivariate Verfahren 1 0 / 41 Problemstellung Ziel: Bestimmung von Ähnlichkeit zwischen n Objekten, an denen p Merkmale erhoben wurden. Die

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH

Clusteranalyse. Florian Löwenstein. Clusteranalyse eoda GmbH Florian Löwenstein www.eoda.de 1 Übersicht Hypothesenfreies Verfahren Gehört zur Familie der Data-Mining-Techniken Ganze Verfahrensfamilie Ziel: Informationsreduktion und damit verbunden Abstraktion Typische

Mehr

Einige Grundbegriffe der Statistik

Einige Grundbegriffe der Statistik Einige Grundbegriffe der Statistik Philipp Mitteröcker Basic terms Statistik (statistics) stammt vom lateinischen statisticum ( den Staat betreffend ) und dem italienischen statista ( Staatsmann" oder

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

Distanzen und Ähnlichkeitsmaÿe

Distanzen und Ähnlichkeitsmaÿe Distanzen und Ähnlichkeitsmaÿe Michael Siebers Kognitive Systeme Universität Bamberg 25. Mai 2011 M. Siebers (KogSys) Distanzen und Ähnlichkeitsmaÿe 25. Mai 2011 1 / 14 Agenda 1 Distanzen 2 Ähnlichkeitsmaÿe

Mehr

Werkzeuge der empirischen Forschung

Werkzeuge der empirischen Forschung Werkzeuge der empirischen Forschung I. Daten und Beschreibende Statistik 1. Einführung 2. Dateneingabe, Datentransformation, Datenbehandlung 3. Beschreibende Statistik II. Schließende Statistik 1 III.

Mehr

Empirische Forschungsmethoden

Empirische Forschungsmethoden Winfried Stier Empirische Forschungsmethoden Zweite, verbesserte Auflage Mit 22 Abbildungen und 53 Tabellen Springer L Inhaltsverzeichnis I. Grundlagen 1 1.1. Methoden, Methodologie, Empirie 1 1.2. Einige

Mehr

Clusteranalyse und Display-Methoden

Clusteranalyse und Display-Methoden Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Multivariate Statistik

Multivariate Statistik Multivariate Statistik von Univ.-Prof. Dr. Rainer Schlittgen Oldenbourg Verlag München I Daten und ihre Beschreibung 1 1 Einführung 3 1.1 Fragestellungen 3 1.2 Datensituation 8 1.3 Literatur und Software

Mehr

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN SS 97 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik 15 45

Mehr

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN WS / MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik 4 26..,

Mehr

1 Beispiele multivariater Datensätze... 3

1 Beispiele multivariater Datensätze... 3 Inhaltsverzeichnis Teil I Grundlagen 1 Beispiele multivariater Datensätze... 3 2 Elementare Behandlung der Daten... 15 2.1 Beschreibung und Darstellung univariater Datensätze... 15 2.1.1 Beschreibung und

Mehr

4 Clusteranalyse 4.1 Einführung

4 Clusteranalyse 4.1 Einführung Clusteranalyse.0.0 - - Clusteranalyse. Einführung p Merkmale: X, X,..., X p (metrisch; auch ordinal möglich, falls geeignet nummeriert; nominalskaliert?!) Zu den Merkmalen werden n Datensätze bzw. Datenobjekte

Mehr

Computerübung zu Multivariaten Verfahren

Computerübung zu Multivariaten Verfahren Computerübung zu Multivariaten Verfahren Klaus Schliep & Klaus Hechenbichler 18. Februar 2004 Daten Bevor mit dem Einstieg in die eigentliche Anwendung von multivariaten statistischen Verfahren begonnen

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Gegenüberstellung alternativer Methoden zur Variablenselektion

Gegenüberstellung alternativer Methoden zur Variablenselektion Gegenüberstellung alternativer Methoden zur Variablenselektion Reinhard Strüby, Ulrich Reincke SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights

Mehr

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS Clusteranalyse Mathematisch-Statistische Verfahren des Risiko-Managements - SS 2004 Allgemeine Beschreibung (I) Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer

Mehr

MEHR ALS LINEAR ODER LOGISTISCH?

MEHR ALS LINEAR ODER LOGISTISCH? MEHR ALS LINEAR ODER LOGISTISCH? QUANTILS EN UND ADAPTIVE SPLINES IN SAS MIHAI PAUNESCU QUANTILE proc univariate data=dat; ods select moments quantiles; var sales; Basic Statistical Measures Location Variability

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

Forschungsmethodik II, SS 2010

Forschungsmethodik II, SS 2010 Forschungsmethodik II, SS 2010 Michael Kickmeier-Rust Teil 5, 26. Mai 2010 Prinzipien statistischer Verfahren: Conclusio 1 Prinzipien statistischer Verfahren > χ 2 Beispiel: 4-Felder χ 2 Beobachtet: Erwartet:

Mehr

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,

Mehr

Charakterisierung von 1D Daten

Charakterisierung von 1D Daten Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden Multivariate Distanz Multivariate Normalverteilung Minimum Distance Classifier Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz Ziele Methoden Multivariate

Mehr

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität Kapitel 0 Multikollinearität Exakte Multikollinearität Beinahe Multikollinearität Exakte Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Annahme : rg(x) = k Wenn sich eine oder

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n Streuungsmaße Diskrete Stetige Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre (empirische) (Streuung) s 2 = 1 n (X i X) 2 n 1 i=1 s 2 n var(x) Warum Division durch (n

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Angewandte Statistik mit R. Eine Einführung für Ökonomen und

Angewandte Statistik mit R. Eine Einführung für Ökonomen und Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort

Mehr

1.6 Der Vorzeichentest

1.6 Der Vorzeichentest .6 Der Vorzeichentest In diesem Kapitel soll der Vorzeichentest bzw. Zeichentest vorgestellt werden, mit dem man Hypothesen bezüglich des Medians der unabhängig und identisch stetig verteilten Zufallsvariablen

Mehr

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4 Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1

Mehr

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität

Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Nichtmetrische multidimensionale Skalierung (NMDS) Dr. Heike Culmsee Vegetationsanalyse & Phytodiversität Übersicht Ordinationsverfahren Linear methods Weighted averaging Multidimensional scaling Unconstrained

Mehr

Methoden der Klassifikation und ihre mathematischen Grundlagen

Methoden der Klassifikation und ihre mathematischen Grundlagen Methoden der Klassifikation und ihre mathematischen Grundlagen Mengenlehre und Logik A B "Unter einer 'Menge' verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

1. Referenzpunkt Transformation

1. Referenzpunkt Transformation 2.3 Featurereduktion Idee: Anstatt Features einfach wegzulassen, generiere einen neuen niedrigdimensionalen Featureraum aus allen Features: Redundante Features können zusammengefasst werden Irrelevantere

Mehr

4.4 Hierarchische Clusteranalyse-Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren Clusteranalyse 18.05.04-1 - 4.4 Hierarchische Clusteranalyse-Verfahren Ablauf von hierarchischen Clusteranalyse-Verfahren: (1) Start jedes Objekt sein eigenes Cluster, also Start mit n Clustern (2) Fusionierung

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services Statistische Datenanalyse mit R, Korrelation und Regression Dr. Andrea Denecke Leibniz Universität IT-Services Korrelationsanalyse Eine Korrelationsanalyse soll herausfinden Ob ein linearer Zusammenhang

Mehr

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale 1. Grundlagen... 1 1.1 Grundgesamtheit und Untersuchungseinheit................ 1 1.2 Merkmal oder statistische Variable........................ 2 1.3 Datenerhebung.........................................

Mehr

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35 Inhalt i Einleitung 15 1.1 Zielsetzung clusteranalytischer Verfahren 15 1.2 Homogenität als Grundprinzip der Bildung von Clustern 16 1.3 Clusteranalyseverfahren 18 1.4 Grundlage der Clusterbildung 20 1.5

Mehr

Algorithmen zur Kundensegmentierung

Algorithmen zur Kundensegmentierung Algorithmen zur Kundensegmentierung Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair Inhalt Einführung Nichtprobabilistische Clusterung Hierarchische Clusterverfahren k-means

Mehr

SAS-Treff am URZ: Formate Formate automatisieren. 2. Picture-Formate. 3. Boxplots und Formate. 4. Beschriften von Balkendiagrammen

SAS-Treff am URZ: Formate Formate automatisieren. 2. Picture-Formate. 3. Boxplots und Formate. 4. Beschriften von Balkendiagrammen SAS-Treff am URZ: Tipps und Tricks zu Formaten. November 27 Carina Ortseifen Inhalt. Formate automatisieren 2. Picture-Formate. Boxplots und Formate 4. Beschriften von n 5. Literatur Formate automatisieren.

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

Reader Teil 5: Clusteranalyse

Reader Teil 5: Clusteranalyse r. Katharina est Sommersemester 2011 12. Mai 2011 Reader Teil 5: Clusteranalyse WiMa-raktikum ei der Clusteranalyse wollen wir Gruppen in aten auffinden. ie Aufgabe ist, in vorhandenen aten Klassen resp.

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1 V Inhaltsverzeichnis Vorwort XI 1 Einführung in die multivariate Datenanalyse 1 1.1 Was ist multivariate Datenanalyse? 1 1.2 Datensätze in der multivariaten Datenanalyse 4 1.3 Ziele der multivariaten Datenanalyse

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt. Syntax *Ü2. *. corr it25 with alter li_re kontakt. *2. regression var=it25 alter li_re kontakt/statistics /dependent=it25 /enter. regression var=it25 li_re kontakt/statistics /dependent=it25 /enter. *3.

Mehr

Deskriptive Statistik

Deskriptive Statistik Helge Toutenburg Christian Heumann Deskriptive Statistik Eine Einführung in Methoden und Anwendungen mit R und SPSS Siebte, aktualisierte und erweiterte Auflage Mit Beiträgen von Michael Schomaker 4ü Springer

Mehr

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung

Mehr

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik... Inhaltsverzeichnis 1 Über dieses Buch... 11 1.1 Zum Inhalt dieses Buches... 13 1.2 Danksagung... 15 2 Zur Relevanz der Statistik... 17 2.1 Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven

Mehr

Mustererkennung und Klassifikation

Mustererkennung und Klassifikation Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz mfranz@htwg-konstanz.de www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick

Mehr

Statistische Datenanalyse

Statistische Datenanalyse Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen Übung: Dipl.-Inf. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 31.0.2010

Mehr

Kap. 5 Spatial (räumliches) Data Mining

Kap. 5 Spatial (räumliches) Data Mining Kap. 5 Spatial (räumliches) Data Mining Univ.-Prof. Dr.-Ing. Wolfgang Reinhardt AGIS / Inst. Für Angewandte Informatik (INF4) Universität der Bundeswehr München Wolfgang.Reinhardt@unibw.de www.agis.unibw.de

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders

Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders Gerhard Svolba SAS Austria Mariahilfer Straße 116 A-1070 Wien Sastools.by.gerhard@gmx.net Zusammenfassung

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1 FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr