Ähnlichkeits- und Distanzmaße

Größe: px
Ab Seite anzeigen:

Download "Ähnlichkeits- und Distanzmaße"

Transkript

1 Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

2 Ähnlichkeits- und Distanzmaße Wichtige Maße für metrische Variablen Euklidische Distanz Manhattan (City-Block) Distanz Korrelation als Ähnlichkeitsmaß Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Der Fall q=1 führt auf die City-Block-Distanz (auch Manhattan- Distanz) und kann als robuste Version der Euklidischen Distanz interpretiert werden Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

3 Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

4 Zeitreihenbeispiel Biologie Messungen der Genexpression zum Beispiel an (aufeinander folgenden) Tagen Statistik Jedes Gen ist codiert durch einen Vektor der Länge. steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Euklidischer Abstand Der Abstand zwischen zwei Vektoren ist die Wurzel der Summe der quadrierten Differenzen über alle Koordinaten. d ( x 1, x ) = ( - / ) + ( - / ) + E ( 5-5/ + 6 6/ = ) ( - ) 3 3/.598 steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

5 Zeitreihenbeispiel Manhattan Abstand Der Abstand zwischen zwei Vektoren ist die Summe der absoluten (unquadrierten) Differenzen über alle Koordinaten dm( x1, x ) = -/ + - / + 5-5/ + 6-6/ = 51/ = steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Korrelations-Abstand Der Abstand zwischen zwei Vektoren ist 1-ρ (oder 1- ρ ), wobei ρ die Pearson-Korrelation der beiden Vektoren ist d ( - )( - 16) ( - )( - 16) ( - )( - 16) ( - )( - 16) ( x 1, x C ) = 1 - ( - ) + ( - ) + ( 5- ) + ( 6- ) ( - ) + ( - ) + ( - ) + ( - ) steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

6 Zeitreihenbeispiel Euklidisch Manhattan Korrelation Vergleich: Alle Abstände sind normalisiert auf das Intervall [,1] und dann gerundet. steep up up down change steep up up down change Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Im Folgenden betrachten wir nur agglomerative Verfahren, da einfacher und in Programmpaketen die Regel Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

7 Clusteralgorithmen Hierarchische Clusterverfahren benötigen Ähnlichkeits-/ Distanzmaße nicht nur für Paare von Objekten, sondern auch zwischen Gruppen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

8 Clusteralgorithmen Bezeichnungen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

9 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

10 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Beschreibung des Dendrogramms Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

11 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

12 Clusteralgorithmen Hierarchisches Clustern: Zusammenfassung Visualisierung durch Dendrogramm: Vereinigte Cluster werden durch eine Linie verbunden. Breite (Höhe) der Verbindungslinie steht für Abstand der Cluster. Cluster mit kleinerer Varianz wird auf oberer (linker) Seite angeordnet. Diese Prozedur erzeugt eine Hierarchie von Partitionierungen, wobei die Anzahl der Cluster von 1 bis zur Anzahl der Objekte reicht. ABER: Parameter für Abstandsmatrix: n(n-1)/ Parameter für Dendrogramm: n-1 Hierarchisches Clustern bedeutet Informationsverlust! Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Euklidischer Abstand Ähnliche Werte werden zusammengruppiert Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

13 Zeitreihenbeispiel Manhattan Abstand Ähnliche Werte werden zusammengruppiert (robust) Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Korrelations-Abstand Ähnliche Trends werden zusammengruppiert Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:

Mehr

Clusteranalyse mit SPSS

Clusteranalyse mit SPSS Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.

Mehr

Statistik II: Klassifikation und Segmentierung

Statistik II: Klassifikation und Segmentierung Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel

Mehr

Einführung in die Ähnlichkeitsmessung

Einführung in die Ähnlichkeitsmessung Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

1.5 Berechnung von Rangzahlen

1.5 Berechnung von Rangzahlen 1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz

Mehr

Testplanung zur statistischen Prüfung psychologischer Hypothesen

Testplanung zur statistischen Prüfung psychologischer Hypothesen Testplanung zur statistischen Prüfung psychologischer Hypothesen Die Ableitung von Vorhersagen und die Kontrolle der Determinanten des statistischen Tests von Willi Hager Hogrefe Verlag für Psychologie

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr? 1. Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr? A. Wenn n = 3 ist, sind mindestens zwei der drei Euler-Winkel einer Drehung kleiner oder gleich π. B. Wenn n = 2

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Statistik II: Grundlagen und Definitionen der Statistik

Statistik II: Grundlagen und Definitionen der Statistik Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?

Mehr

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker 08.11.01 Modell Temperatur unter Last Anschluss in Grad Celsius in Grad Fahrenheit Corsair Force 10

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

angewandte Statistik

angewandte Statistik R Einführung Reinhold Hatzinger Kurt Hornik Herbert Nagel durch angewandte Statistik ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario Sydney Mexico City

Mehr

z Partitionierende Klassifikationsverfahren

z Partitionierende Klassifikationsverfahren 4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Roland Stigge stigge@informatik.hu-berlin.de Humboldt Universität zu Berlin 9. Januar 2003 Umweltmonitoring: Statistische

Mehr

Modellierung und Behandlung des Hintergrunds

Modellierung und Behandlung des Hintergrunds Modellierung und Behandlung des Hintergrunds Globaler Hintergrund Schätzer verwendet nur Region außerhalb des Bereichs mit Spots Lokaler Hintergrund Schätzung aus der Region, die den Spot direkt umgibt

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Lernmodul 2 Modelle des Raumes

Lernmodul 2 Modelle des Raumes Folie 1 von 21 Lernmodul 2 Modelle des Raumes Bildnachweis: www. tagesschau.de Folie 2 von 21 Modelle des Raumes Übersicht Motivation Was ist Raum? Formalismus und Invarianz Metrischer Raum/Euklidischer

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Deskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Deskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Deskriptive Statistik II Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Übersicht Wiederholung Maße der zentralen Tendenz Streuungsmaße Zusammenfassung einer Verteilung tabellarisch

Mehr

Mathematik I. Vorlesung 19. Metrische Räume

Mathematik I. Vorlesung 19. Metrische Räume Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors

Mehr

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei

Mehr

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010 Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans

Mehr

Statistik mit SPSS Fallbeispiele und Methoden

Statistik mit SPSS Fallbeispiele und Methoden Statistik mit SPSS Fallbeispiele und Methoden 2., aktualisierte Auflage Reinhold Hatzinger Herbert Nagel Higher Education München Harlow Amsterdam Madrid Boston San Francisco Don Mills Mexico City Sydney

Mehr

Keimreaktionen auf Antibiotikagruppen

Keimreaktionen auf Antibiotikagruppen Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Einführung in die Clusteranalyse

Einführung in die Clusteranalyse Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften Einführung in die Clusteranalyse Fabian Pfeffer 0. Mai 00 Inhaltsverzeichnis Einführung Proximitätsmaße. Ähnlichkeitsmaße bei binären

Mehr

Musterlösungen zur Linearen Algebra II Weihnachtszettel

Musterlösungen zur Linearen Algebra II Weihnachtszettel Musterlösungen zur Linearen Algebra II Weihnachtszettel Aufgabe. Welche der folgenden Matrizen 3 0 0 A = 0 4, B = 3, C = 0 0 0 6 0 0 0 sind über R und welche über C diagonalisierbar? Bestimmen Sie dazu

Mehr

Kapitel 27 Distanz- und Ähnlichkeitsmaße

Kapitel 27 Distanz- und Ähnlichkeitsmaße Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen,

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

2 Euklidische Vektorräume

2 Euklidische Vektorräume Sei V ein R Vektorraum. 2 Euklidische Vektorräume Definition: Ein Skalarprodukt auf V ist eine Abbildung σ : V V R, (v, w) σ(v, w) mit folgenden Eigenschaften ( Axiome des Skalarprodukts) (SP1) σ ist bilinear,

Mehr

Zusammenfassung Mathematik AHS Oberstufe. Lukas Prokop

Zusammenfassung Mathematik AHS Oberstufe. Lukas Prokop Zusammenfassung Mathematik AHS Oberstufe Lukas Prokop 2. Mai 2009 Inhaltsverzeichnis 1 Grundlagen 3 1.1 Geometrische Figuren............................. 3 1.2 Zahlensysteme.................................

Mehr

Tabellenverarbeitung. 1. Tabellenentwurf 2. Erfassung (Texte, Zahlen, Formeln) 3. Test der Tabelle 4. Tabellengestaltung 5. Verwendung der Tabelle

Tabellenverarbeitung. 1. Tabellenentwurf 2. Erfassung (Texte, Zahlen, Formeln) 3. Test der Tabelle 4. Tabellengestaltung 5. Verwendung der Tabelle Informatik - Tabelle 1 Tabellenverarbeitung 1. Tabellenentwurf 2. Erfassung (Texte, Zahlen, Formeln) 3. Test der Tabelle 4. Tabellengestaltung 5. Verwendung der Tabelle Leistungsmerkmale Tabellensysteme

Mehr

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern

Mehr

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse) Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Daten, Datentypen, Skalen

Daten, Datentypen, Skalen Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben

Mehr

Grafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen

Grafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen Box-and-Whiskers-Plot (Boxplot) der Boxplot vereinigt bekannte deskriptive Kenngrößen zu einer grafischen Darstellung Box x 0.5, Median, x 0.75 vertikale Linien x 0.5 -.5 IQR x 0.75 +.5 IQR Extremwerte

Mehr

1 Euklidische und unitäre Vektorräume

1 Euklidische und unitäre Vektorräume 1 Euklidische und unitäre Vektorräume In diesem Abschnitt betrachten wir reelle und komplexe Vektorräume mit Skalarprodukt. Dieses erlaubt uns die Länge eines Vektors zu definieren und (im Fall eines reellen

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.

Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS. Korrespondenzanalyse Theoretische Grundlagen und die Anwendung in SPSS. Ein Vortrag von Jana Bombik, Erdmute Jahn, Claudia Philipp und Helge Siems an der Hochschule Harz im Rahmen der Vertiefungsrichtung

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung

Mehr

Grundlagen clusteranalytischer Verfahren

Grundlagen clusteranalytischer Verfahren Grundlagen clusteranalytischer Verfahren Institut für Soziologie - Universität Duisburg-Essen Prof. Petra Stein - Sven Vollnhals 1. April 2011 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen der Clusteranalyse

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:

Mehr

Gundlagen empirischer Forschung & deskriptive Statistik. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Gundlagen empirischer Forschung & deskriptive Statistik. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Gundlagen empirischer Forschung & deskriptive Statistik Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der

Mehr

Das Semi-Variogramm. Friedrich-Schiller-Universität Jena Institut für Geographie Wintersemester 2004/2005

Das Semi-Variogramm. Friedrich-Schiller-Universität Jena Institut für Geographie Wintersemester 2004/2005 Friedrich-Schiller-Universität Jena Institut für Geographie Wintersemester 004/005 Hausarbeit zum Seminar Analyse und Modellierung räumlicher Daten Thema: Das Semi-Variogramm Vorgelegt von: Oliver Roick

Mehr

Clustern von numerischen Wettervorhersagen

Clustern von numerischen Wettervorhersagen Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Kartographische Visualisierung

Kartographische Visualisierung Kartographische Visualisierung Kartenmodellierung Modellierung von Karten Ziel der Kartenmodellierung: Geodaten angemessen abbilden (repräsentieren) Informationen mit der Karte vermitteln (präsentieren).

Mehr

Self Organizing Tree Algorithm

Self Organizing Tree Algorithm Hochschule Wismar Fakulta t fu r Wirtschaftswissenschaften Wissensextraktion Self Organizing Tree Algorithm Autoren: Tobias Aagard Enrico Bade Betreuer: Prof. Dr. rer. nat. Ju rgen Cleve Prof. Dr.-Ing.

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Zugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II

Zugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II Zugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II Matrixzugriff Wir wollen nun unsere Einführung in die Arbeit mit Vektoren und Matrizen in MATLAB

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

5 Teilmengen von R und von R n

5 Teilmengen von R und von R n 5 Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,...,x n ) : x i R} = R }... {{ R }. n mal Für x R ist x der Abstand zum Nullpunkt. Die entsprechende Verallgemeinerung

Mehr

Präsentation der Ergebnisse von Clusteranalysen

Präsentation der Ergebnisse von Clusteranalysen Autorin: Antje Seidel-Schulze, Deutsches Institut für Urbanistik, Berlin Präsentation der Ergebnisse von Clusteranalysen Der folgende Themenkomplex beantwortet die Frage, wie die von Statistikprogrammen

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Statistik II für Betriebswirte Vorlesung 12

Statistik II für Betriebswirte Vorlesung 12 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die

Mehr

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale Glossar Statistik 2 Bivariate Verfahren: zwei nummerische Merkmale Streudiagramm - Datenpaare (X, Y) als Punkte auf einem zweidimensionale Diagramm (Ordinate: Y, Abszisse: X) Lineare Regression - Optimierungsproblem

Mehr

Z Zusätze. Z.1 Konvergenz in metrischen Räumen

Z Zusätze. Z.1 Konvergenz in metrischen Räumen 251 Z Zusätze Z.1 Konvergenz in metrischen Räumen Z.1.1 Konvergenz von Zahlenfolgen. Wir hatten in 1.4.1 definiert: Eine Folge (a n ) n N reeller Zahlen heißt konvergent gegen den Grenzwert a, wenn es

Mehr

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE LINEARE REGRESSION TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen

Mehr