Clusteranalyse und Display-Methoden
|
|
|
- Hennie Brinkerhoff
- vor 7 Jahren
- Abrufe
Transkript
1 Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 326 Tel.: (9) Grundlagen: Das menschliche Auge ist gut in der Lage in einem Datensatz Strukturen zu erkennen, wenn der Datensatz aus Objekten besteht, an denen maximal drei Variablen gemessen wurden. Um Gruppierungen und Strukturen in höherdimensionalen Datensätzen zu erkennen existieren verschiedene Dimensionsreduzierende Projektionsmethoden (z. B. Hauptkomponentenplots) sowie graphische Verfahren, die von den Originaldaten ausgehen (z.b. Scatterplotmatrix, CHERNOFF-Faces). Eine weitere Möglichkeit die Abstände zwischen den Objekten zu visualisieren bietet die Clusteranalyse Seite 1 von 8
2 Clusteranalyse Das Ziel der Clusteranalyse besteht in der Einteilung von Objekten in verschiedene (vorher nicht bekannte) Gruppen oder Cluster. Dabei sollen die Objekte einer Gruppe untereinander eine möglichst große Ähnlichkeit (similarity) aufweisen, während die Gruppen voneinander unähnlich sind. Mit der Clusteranalyse können Strukturen in Daten entdeckt werden (Pattern recognition), jedoch keinerlei statistische Aussagen über die Gruppenzugehörigkeiten getroffen werden. Insofern handelt es sich um ein multivariates exploratives Verfahren. Es können sowohl Variablen als auch Fälle einer Clusteranalyse unterzogen werden. Zur Clusteranalyse existiert eine Reihe von verschiedenen Algorithmen. Man unterscheidet zwischen hierarchischen (joining oder tree-clustering) und nichthierarchischen Verfahren. Während man bei der hierarchischen Clusteranalyse ohne Vorinformationen arbeiten kann, sind für die nichthierarchischen Verfahren Annahmen über die Zahl der zu erhaltenden Cluster erforderlich. Neben dem verwendeten Algorithmus wird das Ergebnis der Clusteranalyse entscheidend vom verwendeten (multivariaten) Distanz- bzw. Ähnlichkeitsmaß beeinflußt. Am häufigsten eingesetzt werden die euklidische Distanz (Euclidean distance) und die quadrierte euklidische Distanz (squared Euclidean distance) eingesetzt. Die euklidische Distanz entspricht für 2 und 3 Dimensionen dem geometrischen Abstand, während bei der Verwendung der quadrierten euklidischen Distanz benachbarte Punkte im Vergleich zu weiter entfernten Punkten näher zusammenrücken. Andere Distanzmaße sind die Manhattan-(City-Block-)-Distanz, bei der die Summe der Differenzen der Variablen berechnet wird. Dies führt dazu, dass weit entfernte Objekte (z.b. Ausreißer) im Vergleich zur euklidischen Distanz weniger stark gewichtet werden. Seite 2 von 8
3 Einige in der Clusteranalyse verwendete Distanzmaße Euklidische Distanz De ( x, y) ( xi yi ) 2 i Quadratische Euklidische Distanz D 2 ( x, y) ( x y ) 2 e i i i Manhattan-(City-Block)-Distanz DM ( x, y) xi yi i 1/ 2 Der Ablauf der hierarchischen Clusteranalyse wird meist in einem Dendrogramm (Tree plot, Baumdiagramm) dargestellt. Beim (meist durchgeführten) agglomerativen Clustern werden die Objekte hierzu schrittweise entsprechend dem jeweils geringsten multivariaten Abstand zu immer größeren Clustern vereinigt, bis hin zur Fusion aller Objekte D GLUCOSE HEPTANON HEPTANOL FORMALDE FURAN ESSIGSÄU GLYCERIN PHENOL ETHAN ETHANOL Häufig verwendete Fusions-Algorithmen für die hierarchische Clusteranalyse sind: Single linkage (nearest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem kleinsten multivariaten Abstand ( nächste Nachbarn ) bestimmt. Dieses Verfahren neigt dazu große Cluster zu bilden, bei denen die Objekte aneinandergereiht sind (Kettenbildung). Einzelne Objekte mit großem Abstand zu den übrigen Clustern werden isoliert. Complete linkage (furthest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem größten multivariaten Abstand bestimmt. Dieses Verfahren tendiert dazu kleinere Cluster zu bilden. Average Linkage (unweighted pair-group average). Die Distanz zwischen zwei Clustern wird durch den Mittelwert der Distanzen zwischen allen Objekten Seite 3 von 8
4 bestimmt. Neben dem WARD-Verfahren ist dies die am häufigsten genutzte Methode. Es werden homogene Gruppen gebildet, welche die reale Struktur des Datensatzes gut widerspiegeln. Verfahren von WARD. Bei dieser Methode wird für jedes Cluster der Mittelwert aus den Variablen berechnet. Es werden diejenigen Cluster gebildet, bei denen nach der Fusion die Summe der Distanzen der Objekte des Clusters zum Mittelwert minimal ist. Dieses Verfahren spiegelt die reale Struktur des Datensatzes gut wider, wenn die Cluster in etwa gleich groß sind. Neben Average Linkage ist dies die Methode der Wahl und sollte bei vollkommen unbekannter Datenstruktur zuerst angewandt werden. Im Unterschied zu den hierarchischen Verfahren ist bei der nichthierarchischen Clusteranalyse die Zahl der Cluster, in die die Objekte eingeordnet werden sollen, vorzugeben. Dies erfordert gewisse Hypothesen über die Struktur des Datenmaterials. Einschränkungen und Alternativen Mittels clusteranalytischer Verfahren werden interaktiv Hypothesen über die Daten generiert, die anschließend z.b. mit der Diskriminanzanalyse oder der Varianzanalyse statistisch erhärtet werden können. Weitere Verfahren um Strukturen in Daten zu erkennen sind Faktorenanalyse und Multidimensional Scaling. Zur anschaulichen Darstellung hochdimensionaler Datensätze existieren weiterhin graphische Verfahren wie die Scatterplotmatrix sowie weitere spezielle multivariate Darstellungen, z.b. die CHERNOFF-Gesichter. Unten sehen Sie eine CHERNOFF- Gesichter-Darstellung des Wasser-, Fett- und Proteingehalts von Fleischproben, wobei Case 5 der Probe mit dem höchsten Fett- und dem geringsten Proteingehalt entspricht. Seite 4 von 8
5 Chernoff Faces (T ECAPRED.ST A ) Cas e 1 Cas e 2 Cas e 3 Cas e 4 Cas e 5 Cas e 6 LEGEND: face/w = FET T, mouth/curv = PROT EIN, eyes /slant = W AS Durchführung: Übung: Programm: Datensatz: Beschreibung: Gruppierung verschiedener PNS der Saalenebenflüsse STATISTICA Saale_Ilm_Unstrut In den verschiednen Flüssen wurden die Elemente As, Cd, Co, Cr, Cu, Fe, Mn, Ni, Pb und Zn bestimmt. Kann man anhand der erhalten Elementmuster die Proben den verschiedenen Flüssen zuordnen? Bilden verschiedene Elemente Gruppen? Mit Hilfe clusteranalytischer Methoden kann ein Eindruck von der Struktur des Datensatzes erhalten werden. Als erstes soll der Einfluss der Autoskalierung beurteilt werden. Dazu wird eine Clusteranalyse (nach WARD) mit dem Datensatz Saale_Ilm_Unstrut durchgeführt. Führen Sie die Clusteranalyse für die Variablen und die Fälle durch! Anschließend wird der Datensatz Saale_Ilm_Unstrut standardisiert. ' x ij x ij x s j j Seite 5 von 8
6 Die Standardisierung der j Variablen ist hier zweckmäßig, da die Gehalte x ij der verschiedenen Elemente um mehrere Größenordnungen voneinander abweichen. Mit diesem standardisierten Datensatz werden erneut 2 Clusteranalysen (nach WARD) durchgeführt. Beurteilen Sie die Auswirkung der Autoskalierung auf die Ergebnisse der Clusteranalyse! Testen Sie den standardisierten Datensatz auf Normalverteilung und vergleichen Sie die Darstellung durch Histogramm und Probability-Probability-Plot für 2 Elemente! Die Auswirkungen der verschiedenen Fusionsalgorithmen und Distanzmaße auf die Clusterbildung soll überprüft werden. Führen Sie dazu die oben genannten Fusionsalgorithmen durch und variieren Sie für eine Methode die Distanzmaße (oben genannt)! Abschließend soll die Gruppierung anhand der verschiedenen Displaymethoden erfolgen. Stellen Sie dazu die Proben durch 4 verschiedene Displaymethoden dar. Vergleichen Sie die Aussagekraft der gewählten Methoden. Variieren Sie die Gesichtszüge der CHERNOFF-Gesichter und diskutieren Sie die Ergebnisse Protokollieren Sie die durchgeführten Schritte. Seite 6 von 8
7 Arbeitsweise mit Statistika Tabelle Standardisieren der Daten: Daten Standardisieren Histogrammdarstellung Grafik Histogramm Probability-Probability-Plot Grafik 2-D-Grafiken Probability-Probability-Plot Durchführung der Clusteranalyse Statistik multivariate explorative Techniken Clusteranalyse Agglomerativ OK Details Variablen Cluster für Fusionierung wählen Distanzmaß wählen OK Standard Skala dlink/dmax*100 ankreuzen Baumdiagramm Seite 7 von 8
8 Zur Veränderung der Distanzmaße und Fusionierungsalgorithmen Abbrechen. Darstellung der Displaymethoden Grafik Iconplots Standard Variablen Grafiktyp Option 1 OK Labels für Fälle: Fallnamen Grafik Veränderung der CHERNOFF-Gesichter Format Alle Optionen Muster Definition der CHERNOFF-Gesichter Literatur: Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, Backhaus. K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysenmethoden Eine anwendungsorientierte Einführung, 8. Auflage, Springer Verlag, 1996 Seite 8 von 8
6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher
Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
Modulklausur Multivariate Verfahren
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
Multivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
Einführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
Clustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
Multivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
4.3 Hierarchische Klassifikationsverfahren
4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen
Marktforschung und Datenanalyse
Marktforschung und Datenanalyse Lehrstuhl für BWL, insb. Marketing von Prof. Dr. Reinhold Decker Dozentin: Anja Hörmeyer (M.Sc.) Universität Bielefeld, Lehrstuhl für BWL, insb. Marketing 1 Anja Hörmeyer
Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen
Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung
Data Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1
Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1 Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 Gesamtpunktzahl: 120 Aufgabe 1: Informationsgrundlagen
Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances
Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Luisa Schwartz Universität Bonn Institut für Numerische Simulation Fraunhofer SCAI 25. September 2014 Luisa Schwartz
Was ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
Angewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
Lehrbuch der Statistik
Jürgen Bortz Lehrbuch der Statistik Für Sozialwissenschaftler Zweite, vollständig neu bearbeitete und erweiterte Auflage Mit 71 Abbildungen und 223 Tabellen Springer-Verlag Berlin Heidelberg New York Tokyo
0 Einführung: Was ist Statistik
0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen
Leistungsfähigkeit von Lokalisierungsverfahren im WLAN
Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Gliederung 1. Motivation 2. Möglichkeiten und Probleme WLAN Positionsbestimmung 3. Vorgehen a. Testumgebung b. Gerätschaften und Messungen c. Location
Teil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1
LÖSUNG 2C a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte
A. Die Grundlagen. B. Die Methoden der Datengewinnung. C. Erhebungsverfahren. Vorwort Inhaltsverzeichnis. 1. Gegenstand der Marktforschung
Vorwort Inhaltsverzeichnis A. Die Grundlagen 1. Gegenstand der Marktforschung 2. Arten der Marktforschung 3. Arten der Marktuntersuchung 4. Bedeutung von Informationen im Marketing-Entscheidungsprozess
Bivariate Zusammenhänge
Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne
Korrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
Euklidische Distanzmatrizen. Andrei Grecu
Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer
Einführung in die Cluster-Analyse mit SAS
Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse
Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23
Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...
Data Mining - Clustering. Sven Elvers
Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge
Vereinfachte Clusteranalyse mit Excel
Autor: Helmut Schels, Stadt Ingolstadt, Stadtplanungsamt Vereinfachte Clusteranalyse mit Excel Clusteranalyse mit Excel nach einer der hierarchischen Methoden (Single-Linkage) Kurzbeschreibung Hintergrund
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
Inhaltsverzeichnis. Vorwort
V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6
If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra
If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?
Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien
Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Eine Clusteranalyse dient allgemein dazu, eine Menge von Objekten in Gruppen (Cluster) zu unterteilen, wobei jede Gruppe in sich möglichst
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
Statistik, Geostatistik
Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.
Dokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
Hierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
Multivariate Verfahren
Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei
Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik
Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen 6.10.2016 Hochschule Esslingen Übungsblatt 2 Statistik Stichworte: arithmetischer Mittelwert, empirische Varianz, empirische Standardabweichung, empirischer
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
6. Faktorenanalyse (FA) von Tests
6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...
6. Übung zur Linearen Optimierung SS08
6 Übung zur Linearen Optimierung SS08 1 Sei G = (V, E) ein schlichter ungerichteter Graph mit n Ecken und m Kanten Für eine Ecke v V heißt die Zahl der Kanten (u, v) E Grad der Ecke (a) Ist die Anzahl
Multivariate Statistik
Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)
Vorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0
Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3
I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von
Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
Ein- und Zweistichprobentests
(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen
Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung
FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer
Visualisierung in Natur- und Technikwissenschaften. 0. Einführung. Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF 368 532 Prof. Dr.
Visualisierung in Natur- und Technikwissenschaften 0. Einführung Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF 368 532 Prof. Dr. Heike Leitte Vertiefung Computergraphik und Visualisierung Jürgen Hesser
Statistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
Multivariate Verfahren
Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf
Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen
Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth
Statistik für das Psychologiestudium
Dieter Rasch / Klaus D. Kubinger Statistik für das Psychologiestudium Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren ELSEVIER SPEKTRUM AKADEMISCHER
Mittelwertvergleiche, Teil II: Varianzanalyse
FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als
Data Mining-Modelle und -Algorithmen
Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,
Anpassungstests VORGEHENSWEISE
Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel
Statistik für Ökonomen
Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren
Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.
Korrespondenzanalyse Theoretische Grundlagen und die Anwendung in SPSS. Ein Vortrag von Jana Bombik, Erdmute Jahn, Claudia Philipp und Helge Siems an der Hochschule Harz im Rahmen der Vertiefungsrichtung
Florian Frötscher und Demet Özçetin
Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin [email protected] SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60
Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher
Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung
Statistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen
SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:
Data Mining Anwendungen und Techniken
Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses
Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer
Grundlagen der Bioinformatik Übung 5 Einführung in R Ulf Leser, Yvonne Mayer Introduction to R Ulf Leser: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Einführung in R Voraussetzung: funktionsfähige
Einführung in die computergestützte Datenanalyse
Karlheinz Zwerenz Statistik Einführung in die computergestützte Datenanalyse 6., überarbeitete Auflage DE GRUYTER OLDENBOURG Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL
Aufgaben zu Kapitel 5:
Aufgaben zu Kapitel 5: Aufgabe 1: Ein Wissenschaftler untersucht, in wie weit die Reaktionszeit auf bestimmte Stimuli durch finanzielle Belohnung zu steigern ist. Er möchte vier Bedingungen vergleichen:
Einführung in die Korrelationsrechnung
Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected] Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung
Mehrdimensionale Skalierung - MDS
Mehrdimensionale Skalierung - MDS Warum? Angesichts der ständigen Suche nach Differenzierungsmöglichkeiten ist es für ein Unternehmen von Vorteil zu wissen, auf welche Weise die Leistungsabnehmer seine
Statistische Methoden in der Wirtschaftsund Sozialgeographie
Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 10.15-11-45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-
Explorative Faktorenanalyse
Explorative Faktorenanalyse 1 Einsatz der Faktorenanalyse Verfahren zur Datenreduktion Analyse von Datenstrukturen 2 -Ich finde es langweilig, mich immer mit den selben Leuten zu treffen -In der Beziehung
Einführung in SPSS. 1. Die Datei Seegräser
Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten
Protokoll zur Übung Ölanalyse
Protokoll zur Übung Ölanalyse im Rahmen des Praktikums Betreuender Assistent Univ.Ass. Dipl.-Ing. Martin Schwentenwein Verfasser des Protokolls: Daniel Bomze 0726183 1 Theoretischer Hintergrund 1.1 Aufgabenstellung
Diskriminanzanalyse Beispiel
Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode
Erste Schritte mit R. 2.1 Herunterladen der freien Software R
Erste Schritte mit R 2 BevorwirunsmitdeninKap.1 eingeführten Fragestellungen beschäftigen, brauchen wir noch ein Werkzeug, um die Datensätze später wirklich auswerten zu können. Sicher lässt sich das in
Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)
1 13. Übungswoche Kapitel 12: Varianzanalyse (Fortsetzung) [ 3 ] Im Vorkurs Mathematik für Wirtschafstwissenschaftler vor Beginn des Sommersemesters 2009 wurde am Anfang und am Ende ein Test geschrieben,
Statistische Tests zu ausgewählten Problemen
Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren
Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16
Vorwort 1 1. Kapitel: Der Stellenwert der Statistik für die sozialwissenschaflliche Forschung 1 1. Zur Logik (sozial-)wissenschaftlicher Forschung 1 1. Alltagswissen und wissenschaftliches Wissen 1 2.
Bitte am PC mit Windows anmelden!
Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung
Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr
Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr Von Dr. Willy Frank DUNCKER & HUMBLOT / BERLIN Inhaltsverzeichnis 1 Einleitung : 1 1.1 Ausgangslage und Problemstellung 1 1.2 Ziel
Vorlesung Marktforschung
Vorlesung Marktforschung Multivariatenanalyse Sommersemester 2010 TU Berlin, Lehrstuhl Marketing Prof. Dr. V. Trommsdorff, Sekr. WIL-B-3-1, Wilmersdorfer Straße 148, 10585 Berlin, www.marketing-trommsdorff.de
Statistische Grundlagen I
Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.
Seminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
