Ähnlichkeits- und Distanzmaße
|
|
- Lilli Weiß
- vor 6 Jahren
- Abrufe
Transkript
1 Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
2 Ähnlichkeits- und Distanzmaße Wichtige Maße für metrische Variablen Euklidische Distanz Manhattan (City-Block) Distanz Korrelation als Ähnlichkeitsmaß Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Der Fall q=1 führt auf die City-Block-Distanz (auch Manhattan- Distanz) und kann als robuste Version der Euklidischen Distanz interpretiert werden Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
3 Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Ähnlichkeits- und Distanzmaße Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
4 Zeitreihenbeispiel Biologie Messungen der Genexpression zum Beispiel an (aufeinander folgenden) Tagen Statistik Jedes Gen ist codiert durch einen Vektor der Länge. steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Euklidischer Abstand Der Abstand zwischen zwei Vektoren ist die Wurzel der Summe der quadrierten Differenzen über alle Koordinaten. d ( x 1, x ) = ( - / ) + ( - / ) + E ( 5-5/ + 6 6/ = ) ( - ) 3 3/.598 steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
5 Zeitreihenbeispiel Manhattan Abstand Der Abstand zwischen zwei Vektoren ist die Summe der absoluten (unquadrierten) Differenzen über alle Koordinaten dm( x1, x ) = -/ + - / + 5-5/ + 6-6/ = 51/ = steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Korrelations-Abstand Der Abstand zwischen zwei Vektoren ist 1-ρ (oder 1- ρ ), wobei ρ die Pearson-Korrelation der beiden Vektoren ist d ( - )( - 16) ( - )( - 16) ( - )( - 16) ( - )( - 16) ( x 1, x C ) = 1 - ( - ) + ( - ) + ( 5- ) + ( 6- ) ( - ) + ( - ) + ( - ) + ( - ) steep up: x 1 = (,, 5, 6) up: x = (/, /, 5/, 6/) down: x 3 = (6/, /, 3/, /) change: x = (.5, 3.5,.5, 1) Matrix der paarweisen Abstände Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
6 Zeitreihenbeispiel Euklidisch Manhattan Korrelation Vergleich: Alle Abstände sind normalisiert auf das Intervall [,1] und dann gerundet. steep up up down change steep up up down change Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Im Folgenden betrachten wir nur agglomerative Verfahren, da einfacher und in Programmpaketen die Regel Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
7 Clusteralgorithmen Hierarchische Clusterverfahren benötigen Ähnlichkeits-/ Distanzmaße nicht nur für Paare von Objekten, sondern auch zwischen Gruppen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
8 Clusteralgorithmen Bezeichnungen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
9 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
10 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Beschreibung des Dendrogramms Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
11 Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Clusteralgorithmen Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
12 Clusteralgorithmen Hierarchisches Clustern: Zusammenfassung Visualisierung durch Dendrogramm: Vereinigte Cluster werden durch eine Linie verbunden. Breite (Höhe) der Verbindungslinie steht für Abstand der Cluster. Cluster mit kleinerer Varianz wird auf oberer (linker) Seite angeordnet. Diese Prozedur erzeugt eine Hierarchie von Partitionierungen, wobei die Anzahl der Cluster von 1 bis zur Anzahl der Objekte reicht. ABER: Parameter für Abstandsmatrix: n(n-1)/ Parameter für Dendrogramm: n-1 Hierarchisches Clustern bedeutet Informationsverlust! Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Euklidischer Abstand Ähnliche Werte werden zusammengruppiert Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
13 Zeitreihenbeispiel Manhattan Abstand Ähnliche Werte werden zusammengruppiert (robust) Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund Zeitreihenbeispiel Korrelations-Abstand Ähnliche Trends werden zusammengruppiert Jörg Rahnenführer, Multivariate Verfahren, WS89, TU Dortmund
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat
MehrMultivariate Verfahren
Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften:
MehrClusteranalyse mit SPSS
Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt
MehrDie Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse
Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
Mehr6. Multivariate Verfahren Zufallszahlen
4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert
MehrHierarchische Clusteranalyse
Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die
MehrClusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS
Clusteranalyse Seminar Multivariate Verfahren SS 2010 Seminarleiter: Dr. Thomas Schäfer Theresia Montag, Claudia Wendschuh & Anne Brantl Gliederung 1. Einführung 2. Vorgehensweise 1. Bestimmung der 2.
MehrStatistik II: Klassifikation und Segmentierung
Medien Institut : Klassifikation und Segmentierung Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Faktorenanalyse 2. Clusteranalyse 3. Key Facts 2 I 14 Ziel
MehrEinführung in die Ähnlichkeitsmessung
Einführung in die Ähnlichkeitsmessung Reading Club SS 2008 Similarity Stefanie Sieber stefanie.sieber@uni-bamberg.de Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Agenda Worum geht
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrMultivariate Statistik
Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrEinführung in die Cluster-Analyse mit SPSS
Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische
MehrMultivariate Verfahren
Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung
MehrKorrespondenzanalyse
Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung
MehrEine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
MehrUnüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
MehrModulklausur Multivariate Verfahren
Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur
MehrDemokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik
Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen
MehrSeminar zum Thema Künstliche Intelligenz:
Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden
MehrWas ist eine Clusteranalyse, wann und wie wird sie angewendet?
Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser
Mehr1.5 Berechnung von Rangzahlen
1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz
MehrTestplanung zur statistischen Prüfung psychologischer Hypothesen
Testplanung zur statistischen Prüfung psychologischer Hypothesen Die Ableitung von Vorhersagen und die Kontrolle der Determinanten des statistischen Tests von Willi Hager Hogrefe Verlag für Psychologie
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
MehrSeminar zum Thema Künstliche Intelligenz: Clusteranalyse
Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 1 Inhaltsverzeichnis 1 Einleitung 4 1.1 Ein einführendes Beispiel........................ 4 1.2 Definition der Clusteranalyse......................
MehrAngewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
MehrClustering Seminar für Statistik
Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden
MehrPrüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?
1. Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr? A. Wenn n = 3 ist, sind mindestens zwei der drei Euler-Winkel einer Drehung kleiner oder gleich π. B. Wenn n = 2
MehrMultivariate Statistische Methoden
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg
MehrClusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel
Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation
MehrEinführung in die Cluster-Analyse mit SAS
Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse
MehrStatistik II: Grundlagen und Definitionen der Statistik
Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen
MehrMultivariate Statistische Methoden und ihre Anwendung
Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien
MehrVisualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten
Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht
MehrStatistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II
Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen
MehrHaben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken
Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert?
MehrÜbungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker
Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker 08.11.01 Modell Temperatur unter Last Anschluss in Grad Celsius in Grad Fahrenheit Corsair Force 10
MehrWiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8
Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik
Mehrangewandte Statistik
R Einführung Reinhold Hatzinger Kurt Hornik Herbert Nagel durch angewandte Statistik ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario Sydney Mexico City
Mehrz Partitionierende Klassifikationsverfahren
4.4 Partitionierende Klassifikationsverfahren Partitionierenden Verfahren: - gegeben: eine Zerlegung der Objektmenge in G Cluster, die jedoch nicht als "optimal" angesehen wird; - Verbesserung der Ausgangspartition
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 2: Explorative multivariate Analyse & Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Mehrfh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
MehrFragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)
Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene
MehrKapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
MehrClusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung
MehrUmweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse
Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Roland Stigge stigge@informatik.hu-berlin.de Humboldt Universität zu Berlin 9. Januar 2003 Umweltmonitoring: Statistische
MehrModellierung und Behandlung des Hintergrunds
Modellierung und Behandlung des Hintergrunds Globaler Hintergrund Schätzer verwendet nur Region außerhalb des Bereichs mit Spots Lokaler Hintergrund Schätzung aus der Region, die den Spot direkt umgibt
MehrDokumenten-Clustering. Norbert Fuhr
Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und
MehrLernmodul 2 Modelle des Raumes
Folie 1 von 21 Lernmodul 2 Modelle des Raumes Bildnachweis: www. tagesschau.de Folie 2 von 21 Modelle des Raumes Übersicht Motivation Was ist Raum? Formalismus und Invarianz Metrischer Raum/Euklidischer
MehrTEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
MehrDeskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09
Deskriptive Statistik II Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Übersicht Wiederholung Maße der zentralen Tendenz Streuungsmaße Zusammenfassung einer Verteilung tabellarisch
MehrMathematik I. Vorlesung 19. Metrische Räume
Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors
MehrVorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik
Vorlesung Text und Data Mining S9 Text Clustering Hans Hermann Weber Univ. Erlangen, Informatik Document Clustering Überblick 1 Es gibt (sehr viele) verschiedene Verfahren für das Bilden von Gruppen Bei
MehrClustering. Uwe Reichel IPS, LMU München 19. Mai 2010
Clustering Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 19. Mai 2010 Inhalt Grundidee Vektoralgebra Distanzmaße Clusterrepräsentation Flaches Clustern Single Pass Reallokation Kmeans
MehrStatistik mit SPSS Fallbeispiele und Methoden
Statistik mit SPSS Fallbeispiele und Methoden 2., aktualisierte Auflage Reinhold Hatzinger Herbert Nagel Higher Education München Harlow Amsterdam Madrid Boston San Francisco Don Mills Mexico City Sydney
MehrKeimreaktionen auf Antibiotikagruppen
Keimreaktionen auf Antibiotikagruppen Herwig Friedl Waltraud Richter Januar 2004 Zusammenfassung Ziel dieser vorliegenden Studie ist das Auffinden von Gruppen homogener Antibiotika. Dazu werden die Reaktionen
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
MehrEinführung in die Clusteranalyse
Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften Einführung in die Clusteranalyse Fabian Pfeffer 0. Mai 00 Inhaltsverzeichnis Einführung Proximitätsmaße. Ähnlichkeitsmaße bei binären
MehrMusterlösungen zur Linearen Algebra II Weihnachtszettel
Musterlösungen zur Linearen Algebra II Weihnachtszettel Aufgabe. Welche der folgenden Matrizen 3 0 0 A = 0 4, B = 3, C = 0 0 0 6 0 0 0 sind über R und welche über C diagonalisierbar? Bestimmen Sie dazu
MehrKapitel 27 Distanz- und Ähnlichkeitsmaße
Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen,
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrMultivariate Verfahren
Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf
Mehr2 Euklidische Vektorräume
Sei V ein R Vektorraum. 2 Euklidische Vektorräume Definition: Ein Skalarprodukt auf V ist eine Abbildung σ : V V R, (v, w) σ(v, w) mit folgenden Eigenschaften ( Axiome des Skalarprodukts) (SP1) σ ist bilinear,
MehrZusammenfassung Mathematik AHS Oberstufe. Lukas Prokop
Zusammenfassung Mathematik AHS Oberstufe Lukas Prokop 2. Mai 2009 Inhaltsverzeichnis 1 Grundlagen 3 1.1 Geometrische Figuren............................. 3 1.2 Zahlensysteme.................................
MehrTabellenverarbeitung. 1. Tabellenentwurf 2. Erfassung (Texte, Zahlen, Formeln) 3. Test der Tabelle 4. Tabellengestaltung 5. Verwendung der Tabelle
Informatik - Tabelle 1 Tabellenverarbeitung 1. Tabellenentwurf 2. Erfassung (Texte, Zahlen, Formeln) 3. Test der Tabelle 4. Tabellengestaltung 5. Verwendung der Tabelle Leistungsmerkmale Tabellensysteme
MehrClusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen
Clusteranalyse Ziel: Auffinden von Gruppen ( Cluster ) ähnlicher Obekte (bezogen auf die ausgewählten Variablen). Obekte i selben Cluster haben ähnliche Eigenschaften, Obekte in verschiedenen Clustern
MehrStatistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)
Statistische Verfahren zur Datenreduktion (, ) Datenreduktion Neben den Verfahren zur Datenbereinigung (Transformation, Ausreißertests) spielt die objektivierbare Reduktion der Datenmenge eine wesentliche
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrDaten, Datentypen, Skalen
Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben
MehrGrafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen
Box-and-Whiskers-Plot (Boxplot) der Boxplot vereinigt bekannte deskriptive Kenngrößen zu einer grafischen Darstellung Box x 0.5, Median, x 0.75 vertikale Linien x 0.5 -.5 IQR x 0.75 +.5 IQR Extremwerte
Mehr1 Euklidische und unitäre Vektorräume
1 Euklidische und unitäre Vektorräume In diesem Abschnitt betrachten wir reelle und komplexe Vektorräume mit Skalarprodukt. Dieses erlaubt uns die Länge eines Vektors zu definieren und (im Fall eines reellen
MehrStandardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.
Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall
MehrKorrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.
Korrespondenzanalyse Theoretische Grundlagen und die Anwendung in SPSS. Ein Vortrag von Jana Bombik, Erdmute Jahn, Claudia Philipp und Helge Siems an der Hochschule Harz im Rahmen der Vertiefungsrichtung
MehrMultivariate Verfahren
Multivariate Verfahren Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten und Räume Vorlesung
MehrGrundlagen clusteranalytischer Verfahren
Grundlagen clusteranalytischer Verfahren Institut für Soziologie - Universität Duisburg-Essen Prof. Petra Stein - Sven Vollnhals 1. April 2011 Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen der Clusteranalyse
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:
MehrGundlagen empirischer Forschung & deskriptive Statistik. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09
Gundlagen empirischer Forschung & deskriptive Statistik Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der
MehrDas Semi-Variogramm. Friedrich-Schiller-Universität Jena Institut für Geographie Wintersemester 2004/2005
Friedrich-Schiller-Universität Jena Institut für Geographie Wintersemester 004/005 Hausarbeit zum Seminar Analyse und Modellierung räumlicher Daten Thema: Das Semi-Variogramm Vorgelegt von: Oliver Roick
MehrClustern von numerischen Wettervorhersagen
Clustern von numerischen Wettervorhersagen Diplomarbeit in der Studienrichtung Technische Mathematik zur Erlangung des akademischen Grades Diplom-Ingenieurin eingereicht an der Fakultät für Mathematik,
MehrBrückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
MehrKartographische Visualisierung
Kartographische Visualisierung Kartenmodellierung Modellierung von Karten Ziel der Kartenmodellierung: Geodaten angemessen abbilden (repräsentieren) Informationen mit der Karte vermitteln (präsentieren).
MehrSelf Organizing Tree Algorithm
Hochschule Wismar Fakulta t fu r Wirtschaftswissenschaften Wissensextraktion Self Organizing Tree Algorithm Autoren: Tobias Aagard Enrico Bade Betreuer: Prof. Dr. rer. nat. Ju rgen Cleve Prof. Dr.-Ing.
MehrVoraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen
7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,
MehrZugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II
Zugriff auf Matrizen. Anhängen von Elementen. Punktweise Operatoren. Vektoren und Matrizen in MATLAB II Matrixzugriff Wir wollen nun unsere Einführung in die Arbeit mit Vektoren und Matrizen in MATLAB
MehrFachrechnen für Tierpfleger
Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:
Mehr5 Teilmengen von R und von R n
5 Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,...,x n ) : x i R} = R }... {{ R }. n mal Für x R ist x der Abstand zum Nullpunkt. Die entsprechende Verallgemeinerung
MehrPräsentation der Ergebnisse von Clusteranalysen
Autorin: Antje Seidel-Schulze, Deutsches Institut für Urbanistik, Berlin Präsentation der Ergebnisse von Clusteranalysen Der folgende Themenkomplex beantwortet die Frage, wie die von Statistikprogrammen
MehrData Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen
MehrStatistik II für Betriebswirte Vorlesung 12
Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 12 11. Januar 2013 7.3. Multiple parameterlineare Regression Im Folgenden soll die
MehrGlossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale
Glossar Statistik 2 Bivariate Verfahren: zwei nummerische Merkmale Streudiagramm - Datenpaare (X, Y) als Punkte auf einem zweidimensionale Diagramm (Ordinate: Y, Abszisse: X) Lineare Regression - Optimierungsproblem
MehrZ Zusätze. Z.1 Konvergenz in metrischen Räumen
251 Z Zusätze Z.1 Konvergenz in metrischen Räumen Z.1.1 Konvergenz von Zahlenfolgen. Wir hatten in 1.4.1 definiert: Eine Folge (a n ) n N reeller Zahlen heißt konvergent gegen den Grenzwert a, wenn es
MehrTEIL 13: DIE LINEARE REGRESSION
TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen
Mehr