Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003
|
|
- Wilfried Ritter
- vor 5 Jahren
- Abrufe
Transkript
1 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003
2 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten, gegeben DB mit Eigenschaften und früheren Einkäufen Biologie: Einordnen von Pflanzen und Tieren, gegeben ihre Merkmale Bibliotheken: Sortieren von Büchern Versicherungen: Finde Gruppen von Versicherungsnehmern, die hohe Durchschnittskosten verursachen Identifikation von Risikogruppen Aufdecken von Betrugsversuchen Erdbebenforschung: Identifizieren gefährlicher Regionen WWW: Dokumentklassifikation Typische Zugriffsmuster aus Log-Dateien ermitteln
3 Clustering Daten zerfallen in Klassen weil sie Attribute/Eigenschaften (aus einem Bereich) gemeinsam haben weil sich ähnlich sind werden Daten Klassen zugeordnet, kann man Prototypen zum Datum finden werden etwa Bilder zufällig transformiert (verschoben, rotiert etc.) kann im Cluster vielleicht das Ursprungsbild gefunden werden in Bildern müssen Segmente gefunden werden (Gruppierung ähnlicher Pixel)
4 Cluster können disjunkt sein können sich überdecken können hierarchisch organisiert sein die Instanzen können exakt nur zu einem Cluster gehören mit einer gewissen Wahrscheinlichkeit zu einem Cluster gehören in einem Cluster hängen in gewisser Weise zusammen 3 Grundalgorithmen: k-means algorithmus für numerische Attribute liefert disjunkte Cluster hierarchischer Algorithmus für nominale Attribute (Cobweb) und numerische Attribute (Classit) statistischer Algorithmus mit Mischung aus verschiedenen Wkeitsverteilungen
5 Iteratives abstandsbasiertes Clustering (k-means) alle Instanzen werden betrachtet Vorgehen 1. Vorgabe der Cluster-Zahl k 2. Auswahl von k zufälligen Punkten als Clusterzentren 3. Zuweisung der Instanzen zu den Clusterzentren (mit Abstandsfunktion) 4. Neuberechnung des Zentrums durch Mittelung über die Instanzen 5. zurück zu 3, bis die Zentren stabil sind einfach, effizient (wirklich?) doch: Berechnung der Abstände der Instanzen von k Zentren aufwendig Resultat hängt von Anfangsverteilung ab
6 Gegenbeispiel C1 C2 Reparatur: Durchlaufwiederholung mit verschiedenen Startpunkten Variante: Arbeit mit k = 2 und dann hierarchisch in den Clustern
7 Inkrementelles Clustering Instanz für Instanz wird betrachtet 1. Start mit einem leeren Baum (nur Wurzel) 2. Betrachten einer Instanz 3. Einbau in einen Baum 4. Geeignete Stelle wird durch Betrachtung der kategorialen Nützlichkeit gefunden (globales Mass) 5. Optionen Auswahl eines Knotens oder separater Einbau in den Baum dabei: Vermerk des besten und zweitbesten Knotens Erwägung der Zusammenlegung der besten zwei Kandidatenknoten und Einbau der aktuellen Instanz Erwägung des Aufteilens eines Subbaumes Erwägen der Identifikation der neuen Instanz und der im Baum plazierten Instanz (Abschneiden) kategoriale Nützlichkeit basiert auf Schätzung des Mittelwertes und der Standardabweichung
8 Beispiel: Wetterdaten
9 Beispiel: Iris
10 kategoriale Nützlichkeit (für nominale Attribute) l CU(C 1,..., C k ) = P r(c l) i j (P r(a i = v ij C l ) 2 P r(a i = v ij ) 2 ) k l: Cluster i: Attribute j: Werte P r(a i = v ij C l ): Schätzung der Wkeit eines Attributes für Instanz aus Cluster P r(a i = v ij ): Schätzung der Wkeit eines Attributes für Instanz (allgemein)
11 kategoriale Nützlichkeit (für numerische Attribute) CU(C 1, C 2,..., C k ) = 1 1 (P r(c l ) k 2 ( 1 1 ) π σ il σ i σ i : Standardabweichung fürs Attribut a i l i Probleme: Division 1/k (wieso ist das ein Problem?) künstlicher Minimalwert eps ad hoc Abschneidewert Einfluß der Beispielsreihenfolge kann lokales Minimum der Nützlichkeit erreicht werden? niemals globales Optimum bekannt in der Hierarchie sind die besten Cluster nur schwer erkennbar
12 Clustering auf Basis von Wahrscheinlichkeiten Grundlage für gute Zuordnung nie richtig gegeben deshalb Wkeitsansatz sinnvoll: Zugehörigkeit zu Cluster nur mehr oder weniger wahrscheinlich endliche Mischung: k Wkeitsverteilungen, eine zu jedem Cluster, beschreiben die Attributwerte der Clusterelemente (falls bekannt ist, daß es im Cluster - und nur in 1 Cluster) eine Wkeitsverteilung, die die relative Größe (Wkeit) der Cluster beschreibt einfacher Fall: nur 1 numerisches Attribut Gaussverteilung für jeden Cluster mit verschiedenem Mittel und Abweichung
13 Beispiel 2 Cluster A und B Gaussverteilungen mit µ A und σ A bzw. µ B und σ B damit Beispielsmengen erzeugt mit Wkeiten p A und p B (pa + pb = 1)
14 Problem Gegeben die Beispiele, bestimmen der Zahl der Cluster und der Paramater µ und σ sowie der Wkeit p hat man die Cluster, kann man die 5 Parameter berechnen: µ = x 1+x x n n σ = (x 1 µ) (x n µ) 2 ) n 1 (oder 1 n ) p A = n A n A +n B für Mittel und Abweichung braucht man natürlich die zum Cluster gehörenden Daten und da ist man unsicher Wenn man diese hätte, könnte man die Wkeit, dass Instanz x im Cluster A so berechnen: P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) NV (x; µ A, σ A ) ist die Normalverteilung für Cluster A mit Dichte: natürlich: pa + pb = 1 NV (x, µ, σ) = 1 e (x µ)2 2σ 2 2πσ
15 EM-Algorithmus (Erwartungsmaximierung) 1. Anfang: Schätze Parameter µ A, µ B, σ A, σ B, p A, p B 2. Erwarte: Berechne Cluster-Wkeiten für jedes Datum (Approximation an ein Wkeiten- System-Modell) w i = P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) 3. Maximiere: Schätze damit Parameter µ A = P P i w ix i i w i σa 2 P = i w i(x i µ) P 2 p A = P i w i k i w i 4. Prüfe, ob aufgehört werden kann, sonst zu 2) tatsächlich werden die 5 Parameter geschätzt mit (weil die richtigen Cluster nicht bekannt)
16 Wann mit dem Zyklus aufhören? Wenn globale Likelihood nicht mehr wächst. globale Likelihood: p A P r(x i A) + p B P r(x i B) +... i ein Summand für jeden Cluster
17 Anmerkungen wenn man statt des Produktes eine Summe will, muß man zu den Logarithmen übergehen d.h. der Logarithmus wird betrachtet der numerisch aus den Werten der Gaußverteilungen berechnet wird oft ist das Ergebnis ein einfacher analytischer Ausdruck auch EM geht nur zu einem lokalen Maximum Zahl der Cluster k kann anders als 2 sein dann sind eben mehr Grundgrößen zu schätzen Die Attribute können mehr als 1 sein; wichtig aber: sie müssen unabhängig sein! dann werden die entsprechenden Wkeiten eben multipliziert sind sie korreliert, dann wird es kompliziert, weil anstelle der Abweichungen die Korrelationsmatrix benutzt werden muß, mit der weitere Parameter eingeführt werden im schlimmsten Falle hat man dann zu viele Parameter Schwierigkeiten auch für nominale Attribute auch Vorkehrungen für fehlende Werte AutoClass: Bayes-Clustering Algoritmus mit endlichem Verteilungs-System-Modell, numerischen und nominalen Attributen
Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining
Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrClustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner
Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrVorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,
Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrHauptseminar KDD SS 2002
Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung
MehrDr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung
Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrÜbung zu Empirische Ökonomie für Fortgeschrittene SS 2009
Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte
MehrÜbungen mit dem Applet Rangwerte
Rangwerte 1 Übungen mit dem Applet Rangwerte 1 Statistischer Hintergrund... 2 1.1 Verteilung der Einzelwerte und der Rangwerte...2 1.2 Kurzbeschreibung des Applets...2 1.3 Ziel des Applets...4 2 Visualisierungen
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrStatistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg
Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Dr. Stan Lai und Prof. Markus Schumacher Physikalisches Institut Westbau 2 OG Raum 008 Telefonnummer
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrBestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler
6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
Mehr1 Wahrscheinlichkeitsdichtefunktion
1 Wahrscheinlichkeitsdichtefunktion Es wird zunächst der Begriff der Wahrscheinlichkeitsdichtefunktion vorgestellt, die zur statistischen Beschreibung von zufälligen Prozessen oder zufälligen Signalen
MehrBiomathematik für Mediziner
Institut für Medizinische Biometrie, Informatik und Epidemiologie der Universität Bonn (Direktor: Prof. Dr. Max P. Baur) Biomathematik für Mediziner Klausur SS 2002 Aufgabe 1: Franz Beckenbauer will, dass
MehrLösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrDie Varianz (Streuung) Definition
Die (Streuung) Definition Diskrete Stetige Ang., die betrachteten e existieren. var(x) = E(X EX) 2 heißt der Zufallsvariable X. σ = Var(X) heißt Standardabweichung der X. Bez.: var(x), Var(X), varx, σ
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
MehrÜbungen mit dem Applet Vergleich von zwei Mittelwerten
Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung
MehrStatistische Methoden
Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
Mehr10.5 Maximum-Likelihood Klassifikation (I)
Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrBiostatistik, Sommer 2017
1/52 Biostatistik, Sommer 2017 Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 02.06.2017 2/52 Inhalt 1 Wahrscheinlichkeit Bayes sche Formel 2 Diskrete Stetige 3/52 Wahrscheinlichkeit Bayes
Mehr7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.
7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe
MehrMusterlösung der Klausur vom 29. Juli 2003
Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.
MehrStatistik K urs SS 2004
Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
Mehri =1 i =2 i =3 x i y i 4 0 1
Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
Mehr4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)
Kapitel 4 Stichproben und Schätzungen 4.1 Stichproben, Verteilungen und Schätzwerte Eine physikalische Messung ist eine endliche Stichprobe aus einer Grundgesamtheit, die endlich oder unendlich sein kann.
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrDie n-dimensionale Normalverteilung
U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung
MehrAnpassungstests VORGEHENSWEISE
Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
MehrÜbungen mit dem Applet
Übungen mit dem Applet 1. Visualisierung der Verteilungsform... 1.1. Normalverteilung... 1.. t-verteilung... 1.3. χ -Verteilung... 1.4. F-Verteilung...3. Berechnung von Wahrscheinlichkeiten...3.1. Visualisierung
MehrWahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
MehrBiostatistik, Sommer 2017
1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation
MehrStatistische Physik - Theorie der Wärme (PD Dr. M. Falcke)
Freie Universität Berlin WS 6/7 Fachbereich Physik 5..6 Statistische Physik - Theorie der Wärme (PD Dr. M. Falcke Übungsblatt : Bayesche Formel, charakteristische Funktionen und statistische Unabhängigkeit
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
MehrMathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrEin sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.
2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert
MehrPlanung von Handlungen bei unsicherer Information
Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Mehrp = h n (K)= Juli vl smart vp qk notebook Praktische Lösung des Problems: mit den Werten
I. Eigenschaften von Schätzfunktionen Wir wollen den unbekannten Anteil p von Autos ermitteln, die mit Katalysator fahren. Mathematisch können wir das Problem wie folgt beschreiben: Sei X der Autotyp eines
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrStatistische Tests für unbekannte Parameter
Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrModellierung von Baumeffekten Modellierung von Baumeffekten mit Methoden der räumlichen Statistik
mit Methoden der räumlichen Statistik Motivation Einzelbaumeffekte wie Streu- und Feinwurzelausbreitung sind von großer Bedeutung für die Walddynamik, insbesondere wenn Wechselwirkungen/Interaktionen zwischen
MehrKlausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min
Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrNormalverteilung. Mathematik 8. Arbeitsblatt A 8-2: Normalverteilung
Schule Bundesgymnasiu um für Berufstätige Salzburg Modul Thema Mathematik 8 Arbeitsblatt A 8-2: Normalverteilung Normalverteilung Viele natürlich vorkommende, voneinander unabhängige Größen sind normalverteilt
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrVorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf
Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter Erwartsungswert und Varianz
MehrBiostatistik, WS 2017/18 Der Standardfehler
1/70 Biostatistik, WS 2017/18 Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1718/ 24.11.2017 3/70 Ein Versuch Hirse Bild: Panicum miliaceum 4/70 Ein Versuch Ein Versuch Versuchsaufbau:
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrWahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael Havbro Faber 8.04.009 Inhalt der heutigen Vorlesung Auswahl einer Verteilungsfunktion: Wahrscheinlichkeitspapier pp Schätzung und Modellentwicklung:
MehrBinomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.
Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit
MehrVerteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung
Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Typisierung der stetigen theoretischen Verteilungen Bibliografie:
Mehr5 Interpolation und Approximation
5 Interpolation und Approximation Problemstellung: Es soll eine Funktion f(x) approximiert werden, von der die Funktionswerte nur an diskreten Stellen bekannt sind. 5. Das Interpolationspolynom y y = P(x)
MehrStochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
Kapitel 2 Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten 2.1 Stochastische Unabhängigkeit von Ereignissen Gegeben sei ein W-Raum (Ω, C, P. Der Begriff der stochastischen Unabhängigkeit von
Mehr