Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Größe: px
Ab Seite anzeigen:

Download "Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003"

Transkript

1 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003

2 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten, gegeben DB mit Eigenschaften und früheren Einkäufen Biologie: Einordnen von Pflanzen und Tieren, gegeben ihre Merkmale Bibliotheken: Sortieren von Büchern Versicherungen: Finde Gruppen von Versicherungsnehmern, die hohe Durchschnittskosten verursachen Identifikation von Risikogruppen Aufdecken von Betrugsversuchen Erdbebenforschung: Identifizieren gefährlicher Regionen WWW: Dokumentklassifikation Typische Zugriffsmuster aus Log-Dateien ermitteln

3 Clustering Daten zerfallen in Klassen weil sie Attribute/Eigenschaften (aus einem Bereich) gemeinsam haben weil sich ähnlich sind werden Daten Klassen zugeordnet, kann man Prototypen zum Datum finden werden etwa Bilder zufällig transformiert (verschoben, rotiert etc.) kann im Cluster vielleicht das Ursprungsbild gefunden werden in Bildern müssen Segmente gefunden werden (Gruppierung ähnlicher Pixel)

4 Cluster können disjunkt sein können sich überdecken können hierarchisch organisiert sein die Instanzen können exakt nur zu einem Cluster gehören mit einer gewissen Wahrscheinlichkeit zu einem Cluster gehören in einem Cluster hängen in gewisser Weise zusammen 3 Grundalgorithmen: k-means algorithmus für numerische Attribute liefert disjunkte Cluster hierarchischer Algorithmus für nominale Attribute (Cobweb) und numerische Attribute (Classit) statistischer Algorithmus mit Mischung aus verschiedenen Wkeitsverteilungen

5 Iteratives abstandsbasiertes Clustering (k-means) alle Instanzen werden betrachtet Vorgehen 1. Vorgabe der Cluster-Zahl k 2. Auswahl von k zufälligen Punkten als Clusterzentren 3. Zuweisung der Instanzen zu den Clusterzentren (mit Abstandsfunktion) 4. Neuberechnung des Zentrums durch Mittelung über die Instanzen 5. zurück zu 3, bis die Zentren stabil sind einfach, effizient (wirklich?) doch: Berechnung der Abstände der Instanzen von k Zentren aufwendig Resultat hängt von Anfangsverteilung ab

6 Gegenbeispiel C1 C2 Reparatur: Durchlaufwiederholung mit verschiedenen Startpunkten Variante: Arbeit mit k = 2 und dann hierarchisch in den Clustern

7 Inkrementelles Clustering Instanz für Instanz wird betrachtet 1. Start mit einem leeren Baum (nur Wurzel) 2. Betrachten einer Instanz 3. Einbau in einen Baum 4. Geeignete Stelle wird durch Betrachtung der kategorialen Nützlichkeit gefunden (globales Mass) 5. Optionen Auswahl eines Knotens oder separater Einbau in den Baum dabei: Vermerk des besten und zweitbesten Knotens Erwägung der Zusammenlegung der besten zwei Kandidatenknoten und Einbau der aktuellen Instanz Erwägung des Aufteilens eines Subbaumes Erwägen der Identifikation der neuen Instanz und der im Baum plazierten Instanz (Abschneiden) kategoriale Nützlichkeit basiert auf Schätzung des Mittelwertes und der Standardabweichung

8 Beispiel: Wetterdaten

9 Beispiel: Iris

10 kategoriale Nützlichkeit (für nominale Attribute) l CU(C 1,..., C k ) = P r(c l) i j (P r(a i = v ij C l ) 2 P r(a i = v ij ) 2 ) k l: Cluster i: Attribute j: Werte P r(a i = v ij C l ): Schätzung der Wkeit eines Attributes für Instanz aus Cluster P r(a i = v ij ): Schätzung der Wkeit eines Attributes für Instanz (allgemein)

11 kategoriale Nützlichkeit (für numerische Attribute) CU(C 1, C 2,..., C k ) = 1 1 (P r(c l ) k 2 ( 1 1 ) π σ il σ i σ i : Standardabweichung fürs Attribut a i l i Probleme: Division 1/k (wieso ist das ein Problem?) künstlicher Minimalwert eps ad hoc Abschneidewert Einfluß der Beispielsreihenfolge kann lokales Minimum der Nützlichkeit erreicht werden? niemals globales Optimum bekannt in der Hierarchie sind die besten Cluster nur schwer erkennbar

12 Clustering auf Basis von Wahrscheinlichkeiten Grundlage für gute Zuordnung nie richtig gegeben deshalb Wkeitsansatz sinnvoll: Zugehörigkeit zu Cluster nur mehr oder weniger wahrscheinlich endliche Mischung: k Wkeitsverteilungen, eine zu jedem Cluster, beschreiben die Attributwerte der Clusterelemente (falls bekannt ist, daß es im Cluster - und nur in 1 Cluster) eine Wkeitsverteilung, die die relative Größe (Wkeit) der Cluster beschreibt einfacher Fall: nur 1 numerisches Attribut Gaussverteilung für jeden Cluster mit verschiedenem Mittel und Abweichung

13 Beispiel 2 Cluster A und B Gaussverteilungen mit µ A und σ A bzw. µ B und σ B damit Beispielsmengen erzeugt mit Wkeiten p A und p B (pa + pb = 1)

14 Problem Gegeben die Beispiele, bestimmen der Zahl der Cluster und der Paramater µ und σ sowie der Wkeit p hat man die Cluster, kann man die 5 Parameter berechnen: µ = x 1+x x n n σ = (x 1 µ) (x n µ) 2 ) n 1 (oder 1 n ) p A = n A n A +n B für Mittel und Abweichung braucht man natürlich die zum Cluster gehörenden Daten und da ist man unsicher Wenn man diese hätte, könnte man die Wkeit, dass Instanz x im Cluster A so berechnen: P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) NV (x; µ A, σ A ) ist die Normalverteilung für Cluster A mit Dichte: natürlich: pa + pb = 1 NV (x, µ, σ) = 1 e (x µ)2 2σ 2 2πσ

15 EM-Algorithmus (Erwartungsmaximierung) 1. Anfang: Schätze Parameter µ A, µ B, σ A, σ B, p A, p B 2. Erwarte: Berechne Cluster-Wkeiten für jedes Datum (Approximation an ein Wkeiten- System-Modell) w i = P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) 3. Maximiere: Schätze damit Parameter µ A = P P i w ix i i w i σa 2 P = i w i(x i µ) P 2 p A = P i w i k i w i 4. Prüfe, ob aufgehört werden kann, sonst zu 2) tatsächlich werden die 5 Parameter geschätzt mit (weil die richtigen Cluster nicht bekannt)

16 Wann mit dem Zyklus aufhören? Wenn globale Likelihood nicht mehr wächst. globale Likelihood: p A P r(x i A) + p B P r(x i B) +... i ein Summand für jeden Cluster

17 Anmerkungen wenn man statt des Produktes eine Summe will, muß man zu den Logarithmen übergehen d.h. der Logarithmus wird betrachtet der numerisch aus den Werten der Gaußverteilungen berechnet wird oft ist das Ergebnis ein einfacher analytischer Ausdruck auch EM geht nur zu einem lokalen Maximum Zahl der Cluster k kann anders als 2 sein dann sind eben mehr Grundgrößen zu schätzen Die Attribute können mehr als 1 sein; wichtig aber: sie müssen unabhängig sein! dann werden die entsprechenden Wkeiten eben multipliziert sind sie korreliert, dann wird es kompliziert, weil anstelle der Abweichungen die Korrelationsmatrix benutzt werden muß, mit der weitere Parameter eingeführt werden im schlimmsten Falle hat man dann zu viele Parameter Schwierigkeiten auch für nominale Attribute auch Vorkehrungen für fehlende Werte AutoClass: Bayes-Clustering Algoritmus mit endlichem Verteilungs-System-Modell, numerischen und nominalen Attributen

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner

Clustering. Hauptseminar Machine Learning WS 2003/2004. Referent: Can Önder Betreuer: Martin Wagner Clustering Hauptseminar Machine Learning WS 2003/2004 Referent: Can Önder Betreuer: Martin Wagner Gliederung Partitionierendes Clustering Hierarchisches Clustering Wahrscheinlichkeitsbasiertes Clustering

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II, Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Was sollen Sie heute lernen? 2 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Hauptseminar KDD SS 2002

Hauptseminar KDD SS 2002 Hauptseminar KDD SS 2002 Prof. Dr. Hans-Peter Kriegel Eshref Januzaj Karin Kailing Peer Kröger Matthias Schubert Session: Clustering HS KDD, Ludwig-Maximilians-Universität München, SS 2002 1 Inhalt Einleitung

Mehr

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009 Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte

Mehr

Übungen mit dem Applet Rangwerte

Übungen mit dem Applet Rangwerte Rangwerte 1 Übungen mit dem Applet Rangwerte 1 Statistischer Hintergrund... 2 1.1 Verteilung der Einzelwerte und der Rangwerte...2 1.2 Kurzbeschreibung des Applets...2 1.3 Ziel des Applets...4 2 Visualisierungen

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Dr. Stan Lai und Prof. Markus Schumacher Physikalisches Institut Westbau 2 OG Raum 008 Telefonnummer

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler 6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

1 Wahrscheinlichkeitsdichtefunktion

1 Wahrscheinlichkeitsdichtefunktion 1 Wahrscheinlichkeitsdichtefunktion Es wird zunächst der Begriff der Wahrscheinlichkeitsdichtefunktion vorgestellt, die zur statistischen Beschreibung von zufälligen Prozessen oder zufälligen Signalen

Mehr

Biomathematik für Mediziner

Biomathematik für Mediziner Institut für Medizinische Biometrie, Informatik und Epidemiologie der Universität Bonn (Direktor: Prof. Dr. Max P. Baur) Biomathematik für Mediziner Klausur SS 2002 Aufgabe 1: Franz Beckenbauer will, dass

Mehr

Lösung Übungsblatt 5

Lösung Übungsblatt 5 Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Varianzkomponentenschätzung

Varianzkomponentenschätzung Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler

Mehr

Die Varianz (Streuung) Definition

Die Varianz (Streuung) Definition Die (Streuung) Definition Diskrete Stetige Ang., die betrachteten e existieren. var(x) = E(X EX) 2 heißt der Zufallsvariable X. σ = Var(X) heißt Standardabweichung der X. Bez.: var(x), Var(X), varx, σ

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

Statistische Methoden

Statistische Methoden Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/52 Biostatistik, Sommer 2017 Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 02.06.2017 2/52 Inhalt 1 Wahrscheinlichkeit Bayes sche Formel 2 Diskrete Stetige 3/52 Wahrscheinlichkeit Bayes

Mehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9. 7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe

Mehr

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung der Klausur vom 29. Juli 2003 Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1) Kapitel 4 Stichproben und Schätzungen 4.1 Stichproben, Verteilungen und Schätzwerte Eine physikalische Messung ist eine endliche Stichprobe aus einer Grundgesamtheit, die endlich oder unendlich sein kann.

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Die n-dimensionale Normalverteilung

Die n-dimensionale Normalverteilung U. Mortensen Die n-dimensionale Normalverteilung Es wird zunächst die -dimensionale Normalverteilung betrachtet. Die zufälligen Veränderlichen X und Y seien normalverteilt. Gesucht ist die gemeinsame Verteilung

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Übungen mit dem Applet

Übungen mit dem Applet Übungen mit dem Applet 1. Visualisierung der Verteilungsform... 1.1. Normalverteilung... 1.. t-verteilung... 1.3. χ -Verteilung... 1.4. F-Verteilung...3. Berechnung von Wahrscheinlichkeiten...3.1. Visualisierung

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation

Mehr

Statistische Physik - Theorie der Wärme (PD Dr. M. Falcke)

Statistische Physik - Theorie der Wärme (PD Dr. M. Falcke) Freie Universität Berlin WS 6/7 Fachbereich Physik 5..6 Statistische Physik - Theorie der Wärme (PD Dr. M. Falcke Übungsblatt : Bayesche Formel, charakteristische Funktionen und statistische Unabhängigkeit

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an. 2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert

Mehr

Planung von Handlungen bei unsicherer Information

Planung von Handlungen bei unsicherer Information Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

p = h n (K)= Juli vl smart vp qk notebook Praktische Lösung des Problems: mit den Werten

p = h n (K)= Juli vl smart vp qk notebook Praktische Lösung des Problems: mit den Werten I. Eigenschaften von Schätzfunktionen Wir wollen den unbekannten Anteil p von Autos ermitteln, die mit Katalysator fahren. Mathematisch können wir das Problem wie folgt beschreiben: Sei X der Autotyp eines

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter Konfidenzintervall Intervall, das den unbekannten Parameter der Verteilung mit vorgegebener Sicherheit überdeckt ('Genauigkeitsaussage' bzw. Zuverlässigkeit einer Punktschätzung) Statistischer Test Ja-Nein-Entscheidung

Mehr

Clustering. Clustering:

Clustering. Clustering: Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen

Mehr

Modellierung von Baumeffekten Modellierung von Baumeffekten mit Methoden der räumlichen Statistik

Modellierung von Baumeffekten Modellierung von Baumeffekten mit Methoden der räumlichen Statistik mit Methoden der räumlichen Statistik Motivation Einzelbaumeffekte wie Streu- und Feinwurzelausbreitung sind von großer Bedeutung für die Walddynamik, insbesondere wenn Wechselwirkungen/Interaktionen zwischen

Mehr

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min Klausur, Analyse mehrdimensionaler Daten, WS 2010/2011, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 21.02.2011 Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte,

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Normalverteilung. Mathematik 8. Arbeitsblatt A 8-2: Normalverteilung

Normalverteilung. Mathematik 8. Arbeitsblatt A 8-2: Normalverteilung Schule Bundesgymnasiu um für Berufstätige Salzburg Modul Thema Mathematik 8 Arbeitsblatt A 8-2: Normalverteilung Normalverteilung Viele natürlich vorkommende, voneinander unabhängige Größen sind normalverteilt

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf 1 Agenda Wiederholung stetige Renditen deskriptive Statistik Verteilungsparameter Erwartsungswert und Varianz

Mehr

Biostatistik, WS 2017/18 Der Standardfehler

Biostatistik, WS 2017/18 Der Standardfehler 1/70 Biostatistik, WS 2017/18 Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1718/ 24.11.2017 3/70 Ein Versuch Hirse Bild: Panicum miliaceum 4/70 Ein Versuch Ein Versuch Versuchsaufbau:

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael Havbro Faber 8.04.009 Inhalt der heutigen Vorlesung Auswahl einer Verteilungsfunktion: Wahrscheinlichkeitspapier pp Schätzung und Modellentwicklung:

Mehr

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}. Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit

Mehr

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Typisierung der stetigen theoretischen Verteilungen Bibliografie:

Mehr

5 Interpolation und Approximation

5 Interpolation und Approximation 5 Interpolation und Approximation Problemstellung: Es soll eine Funktion f(x) approximiert werden, von der die Funktionswerte nur an diskreten Stellen bekannt sind. 5. Das Interpolationspolynom y y = P(x)

Mehr

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten Kapitel 2 Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten 2.1 Stochastische Unabhängigkeit von Ereignissen Gegeben sei ein W-Raum (Ω, C, P. Der Begriff der stochastischen Unabhängigkeit von

Mehr