Clusteranalyse: Gauß sche Mischmodelle

Größe: px
Ab Seite anzeigen:

Download "Clusteranalyse: Gauß sche Mischmodelle"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr

2 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 2

3 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 3

4 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 4

5 Clusteranalyse: Anwendungen Überblick über eine Dokumentenkollektion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Dokumenten Helmut Kohl (Politik) Kohl s (US Kaufhaus) Kohl (Gemüse) Idee: zeige dem utzer die Cluster, um genauere Auswahl des Themas zu ermöglichen 5

6 Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) s Eine Kampagne ist ein deutlicher Cluster ähnlicher s 6

7 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 7

8 Problemstellung Clustering (Deterministisch) Gegeben Daten mit Anzahl vermuteter Cluster Gesucht Zuweisung der Daten zu Clustern 1,,K Clusterzentren Oft problematisch (woher wissen wir K?) x 1 z.b. liegt im 3. Cluster 8

9 Problemstellung Clustering (Deterministisch) Ziel/Optimierungskriterium Punkte in einem Cluster sollen alle ähnlich sein, d.h. geringen Abstand im Merkmalsraum haben Minimiere quadratische Abstand zum Clusterzentrum: K J r x n1 k1 nk Abstand x zu Clusterzentrum n Minimieren in r,..., r und,..., n k 2 1 n 1 K 9

10 K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Expectation K Iteriere bis Konvergenz Maximization Konvergenz sicher, weil J immer sinkt aber im Allgemeinen nur lokales Optimum 10

11 K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punkt dem ihm nächsten Cluster(zentrum) zu 11

12 K-Means Algorithmus Maximization Schritt: Ableitung ull setzen:,..., argmin r x neu neu neu 1 K 1, nk n k..., k n k neu k n n r nk r x nk n Durchschnitt der Punkte, die in den Cluster fallen 2 12

13 K-Means: Beispiel K = 2 13

14 K-Means: Beispiel K = 2 14

15 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 15

16 K-Means: Beispiel K = 2 16

17 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 17

18 K-Means: Beispiel K = 2 18

19 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 19

20 K-Means: Beispiel K = 2 Kostenfunktion J fällt kontinuierlich Iterationen 20

21 Kommentare K-Means J Einfach zu implementieren J Relativ schnell: O(K) per Iteration L ur lokales Optimum garantiert: unterschiedliche Startwerte = unterschiedliche Lösungen L Keine Konfidenz für Clusterzugehörigkeit L Muss Anzahl Cluster vorgeben 21

22 Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunkte können wir keine sichere Entscheidung treffen! Probabilistisches Clustern Beobachtete Daten Clustern Probabilistische Cluster Ursprüngliche Klassen (nicht beobachtet) Sicher Cluster 3! Cluster 1 oder 2? 22

23 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 23

24 Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, das die Daten erzeugt haben könnte Modell hat Parametervektor (,, ) Modell (,, ) Generativer Prozess Daten Form der Daten hängt ab von Parametern (,, ) 24

25 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess: Wähle Clusterkomponente k Generiere einen Datenpunkt zu diesem Cluster Zufallsvariablen: Clusterzugehörigkeit z: Kodierung wie bei k-means z1 z2 z... zk z k 1: x in Cluster k 0 :sonst Komponente 2 Komponente 1 Komponente 3 0 z.b. z 0 1 Datenpunkt im 3. Cluster Datenpunkt x 25

26 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Clusterzugehörigkeit z: multinomial K 1,.. K i i1 Pa ramete r (., ), 1 ur einer der Faktoren ungleich Eins 26

27 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Datenpunkte gegeben Cluster: Multivariate ormalverteilungen p( x zk 1 ) ( x k, k ) Cluster-spezifische Parameter: K k1 Clusterzentrum, Kovarianzmatrix zk p( x z ) ( x, ) ur einer der Faktoren ungleich Eins k k Parameter: =(,..., ) (Clusterzentren); (,..., ) (Kovarianzmatrizen) 1 K 1 K 27

28 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung der Daten in einem Cluster k Clusterzentrum ormalverteilung p( x z 1) ( x, ) k k k 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung ormalisierer Z 2 D/2 1/2 28

29 Probabilistisches Clustern: Gaußsches Mischmodell Interpretation der Parameter, D Parameter ist der Mittelpunkt des Clusters k Kovarianzmatrix k M ( ) DxD beschreibt die Form des Clusters, d.h. wie Dichte um den Mittelwert streut k k 29

30 Beispiel Gaußsches Mischmodell Gesamtmodell: Gaußsches Mischmodell Erzeugt Daten bestehend aus mehreren Clustern Beispiel K = 3, 500 Datenpunkte gezogen Clusterzentren Clusterkovarianzen Geben an, wie die Punkte um das Clusterzentrum streuen 30

31 Probabilistisches Clustern: Gaußsches Mischmodell Wir ziehen Datenpunkte aus dem Gaußschen Mischmodell Graphisches Modell, Parameter explizit (Parameter keine ZV) z1 z2 z3 x1 x2 x 3 z x Plate-otation Parameter koppeln Beobachtungen 31

32 Clustern mit Gaußschem Mischmodell Gauß sches Mischmodell definiert Verteilungen über Datenpunkte (als Überlagerung einzelner Cluster) Form/Lage der Cluster abhängig von Modellparametern Problemstellung in der Praxis: Daten Cluster Anpassen des Modells an Daten = Parameterlernen Inferieren der Clusterzugehörigkeiten gegeben Modell 32

33 Clustern mit Gaußschem Mischmodell (Maximum Likelihood) Parameterlernproblem Gegeben: Daten X { x,..., 1 x } Gesucht: Parameter (,, ) Optimierungskriterium Likelihood: arg max p( X ) arg max p( x ) (i.i.d) n1 arg max p( x, z ) n1 arg max p( z ) p( x z,, ) n1 z n z n n n n n n n Produkt von Summen: schwierig zu optimieren 33

34 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten Definiere * Z { z,..., z } (Clus terzugehörigkeiten ) arg max p( X, Z ) arg max p( z ) p( x z,, ) n1 znk arg max ( x, ) n1 k1 K arg max z (log( ) log( ( x, )) 1 n1 k1 K n n n nk k n n n k n k k z nk Produkt von Produkten: leichter zu optimieren (Log!) 34

35 Maximum Likelihood: Vollständige Daten Likelihood Maximierung ist relativ einfach, wenn wir X und Z kennen (geschlossene Lösung) * k k * 1 k znkx k n1 n Anzahl Punkte in Clusterkomponente k 1 )( ) * * * k znk ( xn x k n k k n1 T z, z {0,1} Indikator: x in Cluste r k? k nk nk n n1 35

36 EM Algorithmus Problem: Z nicht beobachtet! Wir müssen schwieriges Problem lösen: * arg max px ( ) Lösung mit dem EM-Algorithmus ( Expectation- Maximization ) 36

37 EM Algorithmus Iteratives Verfahren: bestimme Berechnung von als Argmax der Q-Funktion Beginne mit zufälligem. Iteriere: Expectation: Maximization: Theorem (Konvergenz): t1 1 Allerdings nur lokales Maximum,,, Parameterwert im letzten Schritt 37

38 EM für Gaußsches Mischmodell Q-Funktion für Gaußsches Mischmodell Q(, ) log p( X, Z ) X, t n1 k1 p( Z X, )log p( X, Z ) p( Z X, ) z (log log ( x, )) Z Z Z K K n1 k1 Z t t nk k n k k n1 k 1 p( Z X, ) z (log log z nk K X, t t z X, (log log ( x, )) t nk k (Def. Erwartungswert) ( x nk t k n k k, )) n k k 38

39 EM für Gaußsches Mischmodell Q-Funktion = Likelihood der vollständigen Daten, wobei Indikatoren ersetzt sind durch ihre Erwartungswerte K log p( X, Z ) z (log( ) log( ( x, )) K n1 k1 nk k n k k Q(, ) [ z X, ] (log( ) log( ( x, )) t nk t k n k k n1 k1 "Responsibilities" ( z ) nk 39

40 EM für Gaußsches Mischmodell Expectation Schritt: Berechnung der Responsibilities Inferenz im aktuellen Modell, gegeben X ( z ) : [ z X, ] p( z 1 X, ) nk nk t nk t ( x, ) k n k k K j n j j1 ( x, ) ( ) : Wahrscheinlichkeit, mit der Beispiel n in Cluster k fällt z nk "Weiche" Clusterzugehörigkeit j 40

41 EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis: k k 1 k ( znk ) x k n1 n1 Q(, ) log p( X, Z ) X, 1 k ( znk )( xn )( x ) k n k k n t (,, ) Erwarteter Anteil von Punkten in Cluster k Gewichteter Mittelwert für Cluster k T t Gewichtete Kovarianz für Cluster k k ( znk ), n1 Erwartete Anzahl von Punkten in Cluster k 41

42 Zusammenfassung EM EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities ( z ) p( z 1 X, ) Maximization: nk nk t Wiederholen bis Konvergenz weiche Clusterzugehörigkeiten Berechnung der neuen Parameter gegeben weiche Clusterzugehörigkeiten Gaußsches Mischmodell + EM Weicher K-Means Weiche Clusterzugehörigkeit, weiche Berechnung Clusterzentren 42

43 Beispiel Gaußsches Mischmodell Clustering 43

44 Beispiel Gaußsches Mischmodell Clustering 44

45 Beispiel Gaußsches Mischmodell Clustering 45

46 Beispiel Gaußsches Mischmodell Clustering 46

47 Beispiel Gaußsches Mischmodell Clustering 47

48 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 48

49 Problem: Singularitäten EM maximiert Likelihood Problem des Overfittings Insbesondere: Singularität für Likelihood wird unendlich für! Heuristik: Während EM diesen Fall detektieren und entsprechende Clusterkomponente neu initialisieren Bessere Lösung: Regularisierung durch Prior 49

50 Prior Verteilungen für Gaußsches Mischmodell Gaußsches Mischmodell kann durch Prior Verteilungen erweitert werden ZV Prior-Verteilung Erwartung für Parameterwerte (degenerative Fälle unwahrscheinlich) Gesamtverteilung p(,, ) p( ) p(, ) p( ) p( ) p( ) 50

51 MAP Lösung Gaußsches Mischmodell Maximum a posteriori Parameterschätzung: Anpassung des EM Algorithmus: maximiere Entsprechende Änderung im M-Schritt notwendig (keine Details) 51

52 Vorteile von Prior Verteilung Löst das Problem der Singularitäten Prior verhindert den Fall Für geeignete Wahl der Priorverteilung kann die Anzahl der Clusterkomponenten automatisch bestimmt werden: in der MAP Lösung sind einige ull k 52

53 Zusammenfassung Clusterproblem Deterministischer Ansatz: K-Means Schnell, einfach, nicht probabilistisch Probabilistischer Ansatz mit Gaußschem Mischmodell Allgemeiner + eleganter als K-Means Training mit EM Algorithmus Prior-Verteilungen auf Parametern um Overfitting zu vermeiden 53

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

Textmining Clustering von Dokumenten

Textmining Clustering von Dokumenten Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Semester-Fahrplan 1 / 17

Semester-Fahrplan 1 / 17 Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Schätzung von Parametern

Schätzung von Parametern Schätzung von Parametern Schätzung von Parametern Quantitative Wissenschaft: Messung von Parametern Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters

Mehr

Das Bayes'sche Prinzip

Das Bayes'sche Prinzip Das Bayes'sche Prinzip Olivia Gradenwitz Patrik Kneubühler Seminar über Bayes Statistik FS8 26. Februar 28 1 Bayes'sches statistisches Modell 1.1 Statistische Probleme und statistische Modelle In diesem

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel

Mehr

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Frequentistische Statistik und Bayessche Statistik. Volker Tresp Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze

Mehr

Mathematische Grundlagen

Mathematische Grundlagen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Lineare Klassifikatoren. Volker Tresp

Lineare Klassifikatoren. Volker Tresp Lineare Klassifikatoren Volker Tresp 1 Klassifikatoren Klassifikation ist die zentrale Aufgabe in der Mustererkennung Sensoren liefern mir Informationen über ein Objekt Zu welcher Klasse gehört das Objekt:

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98 Inhaltsverzeichnis 1 Datenbehandlung und Programmierung 11 1.1 Information 11 1.2 Codierung 13 1.3 Informationsübertragung 17 1.4 Analogsignale - Abtasttheorem 18 1.5 Repräsentation numerischer Daten 20

Mehr

Erweiterung eines Verfahrens zur automatisierten Parameteridentifikation eines Fahrzeugmodells

Erweiterung eines Verfahrens zur automatisierten Parameteridentifikation eines Fahrzeugmodells Erweiterung eines Verfahrens zur automatisierten Parameteridentifikation eines Fahrzeugmodells Sebastian Wildfeuer Parameteridentifikation > 23. September 2008 > Folie 1 Themenübersicht Ausgangssituation,

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Multiplizitätskorrektur bei Variablenselektion

Multiplizitätskorrektur bei Variablenselektion Multiplizitätskorrektur bei Variablenselektion Seminar: Multiples Testen Dozent: Prof. Dr. T. Dickhaus Referent: Maximilian Mönch - 22.11.2010 - Überblick 1) Einleitung 2) Multiplizitätskorrektur 3) Median

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Computer Vision: Kalman Filter

Computer Vision: Kalman Filter Computer Vision: Kalman Filter D. Schlesinger TUD/INF/KI/IS D. Schlesinger () Computer Vision: Kalman Filter 1 / 8 Bayesscher Filter Ein Objekt kann sich in einem Zustand x X befinden. Zum Zeitpunkt i

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell Inhaltsbasierte Bildsuche J.P.E.G = Joint Photographic Expert Group Informatica Feminale Universität Bremen, Aug. 2005 Maja Temerinac Albert-Ludwigs-Universität Freiburg J.P.E.G. Standard Standard zur

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Nullstellen von algebraischen Gleichungen

Nullstellen von algebraischen Gleichungen Kapitel 2 Nullstellen von algebraischen Gleichungen 2.1 Vorbemerkungen Suche Lösung der Gleichung f(x) = 0 (2.1) Dies ist die Standardform für eine Dimension. - typisch nichtlineare Gleichung, sonst elementar

Mehr

1 Einleitung. 2 Clustering

1 Einleitung. 2 Clustering Lernende Vektorquantisierung (LVQ) und K-Means-Clustering David Bouchain Proseminar Neuronale Netze Kurs-Nr.: CS4400 ISI WS 2004/05 david@bouchain.de 1 Einleitung Im Folgenden soll zum einen ein Überblick

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität Volker Tresp 1 Einführung Bisher haben wir uns fast ausschließich mit überwachtem Lernen beschäftigt: Ziel war es, eine (oder mehr als eine)

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

WAHRSCHEINLICHKEITSRECHNUNG

WAHRSCHEINLICHKEITSRECHNUNG WAHRSCHEINLICHKEITSRECHNUNG Mathematischer Teil In der Wahrscheinlichkeitsrechnung haben wir es mit Zufallsexperimenten zu tun, d.h. Ausgang nicht vorhersagbar. Grundbegriffe Zufallsexperiment und Ergebnisse

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Stetige Zufalls-Variable Erweitert man den Begriff der diskreten Zufallsvariable

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler 6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung

Mehr

Lineare Kongruenzgeneratoren und Quicksort

Lineare Kongruenzgeneratoren und Quicksort Seminar Perlen der theoretischen Informatik Dozenten: Prof. Johannes Köbler und Olaf Beyersdorff Lineare Kongruenzgeneratoren und Quicksort Ausarbeitung zum Vortrag Mia Viktoria Meyer 12. November 2002

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind: Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen

Mehr

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Computergestützte Datenanalyse in der Kern- und Teilchenphysik Computergestützte Datenanalysein der Kern- und Teilchenphysik p. 1/?? Computergestützte Datenanalyse in der Kern- und Teilchenphysik Vorlesung 4 Jan Friedrich Computergestützte Datenanalysein der Kern-

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse Karlsruher Institut für Technologie Ulrich Husemann Institut für Experimentelle Kernphysik, Karlsruher Institut für Technologie

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Statistische Datenanalyse

Statistische Datenanalyse Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise

Mehr

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004 Logistische Regression Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

Statistik - Fehlerrechnung - Auswertung von Messungen

Statistik - Fehlerrechnung - Auswertung von Messungen Statistik - Fehlerrechnung - Auswertung von Messungen TEIL II Vorbereitungskurs F-Praktikum B (Physik), RWTH Aachen Thomas Hebbeker Eindimensionaler Fall: Parameterbestimmung - Beispiele [Übung] Mehrdimensionaler

Mehr

1. Was ist eine Wahrscheinlichkeit P(A)?

1. Was ist eine Wahrscheinlichkeit P(A)? 1. Was ist eine Wahrscheinlichkeit P(A)? Als Wahrscheinlichkeit verwenden wir ein Maß, welches die gleichen Eigenschaften wie die relative Häufigkeit h n () besitzt, aber nicht zufallsbehaftet ist. Jan

Mehr

Exponentialverteilung

Exponentialverteilung Exponentialverteilung Dauer von kontinuierlichen Vorgängen (Wartezeiten; Funktionszeiten technischer Geräte) Grenzübergang von der geometrischen Verteilung Pro Zeiteinheit sei die Eintrittswahrscheinlichkeit

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Standardnormalverteilung

Standardnormalverteilung Standardnormalverteilung 1720 erstmals von Abraham de Moivre beschrieben 1809 und 1816 grundlegende Arbeiten von Carl Friedrich Gauß 1870 von Adolphe Quetelet als "ideales" Histogramm verwendet alternative

Mehr

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2. Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Distanzmaße, Metriken, Pattern Matching Entscheidungstabellen,

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Entscheidungstheorie Bayes'sche Klassifikation

Mehr

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Statistik in Geodäsie, Geoinformation und Bauwesen

Statistik in Geodäsie, Geoinformation und Bauwesen Wilhelm Benning Statistik in Geodäsie, Geoinformation und Bauwesen 2., überarbeitete und erweiterte Auflage Herbert Wichmann Verlag Heidelberg Matrix-Theorie 1 1.1 Matrizen und Vektoren 1 1.2 Matrixverknüpfungen

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr