Statistische Sprachmodelle

Größe: px
Ab Seite anzeigen:

Download "Statistische Sprachmodelle"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick

2 Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache. Durch Grammatik einer Sprache beschrieben. Wie wahrscheinlich ist ein bestimmter Satz in einem Kontext: P( ich pflücke Beeren ) ist vielleicht 0.000, P( ich pflücke Bären ) ist vielleicht Statistische Sprachmodelle: N-Gramme, Probabilistische kontextfreie Grammatiken. 2

3 Statistische Sprachmodelle Wozu? Spracherkennung: Akustisches Modell + Sprachmodell. Phone Wörter ich Sprachmodell bleibe heute Abend hier du bist krank 3

4 Statistische Sprachmodelle Wozu? Handschrifterkennung: Schreibmodell + Sprachmodell. Schreibmodell Sprachmodell

5 Statistische Sprachmodelle Wozu? Rechtschreibkorrektur: Fehler- / Vertippmodell + Sprachmodell. Vertippmodell Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 5

6 Statistische Sprachmodelle Wozu? ext Übersetzung: Übersetzungsmodell + Sprachmodell der Zielsprache. Übersetzungsmodell delete file x ( delete Verb) ( file Noun) ( x ID) VP Verb delete S Noun file NP ID x ich Sprachmodell bleibe heute Abend hier du bist krank Unix rm i x 6

7 Statistische Sprachmodelle Wozu? Smartphone-astatureingabe : Normalverteilte Fingerposition + Sprachmodell. Normalverteilte Fingerposition Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 7

8 Statistische Sprachmodelle Die Formel Satz von Bayes ( DIE Formel ): X Likelihood Prior ich bleibe hier heute Aben d du bist krank 8

9 N-Gramm-Modelle Wahrscheinlichkeit für einen gegebenen Satz: P( ich pflücke Beeren im Wald ) = P( ich ) x P( pflücke ich ) x P( Beeren ich pflücke ) x P( im ich pflücke Beeren ) x P( Wald ich pflücke Beeren im ). Problem: Zu viele Wahrscheinlichkeiten. Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). 9

10 N-Gramm-Modelle Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). Modell speichert Wahrscheinlichkeiten für Wortfolgen der Länge maximal N. N=: Unigramm, N=2: Bigramm, N=3: rigramm. 0

11 N-Gramm Modelle Vorhersage Vorhersage des nächsten Wortes: Bestimme P(w t w,..., w t- ). Die meisten Wortfolgen w,..., w t tauchen in einem Korpus nur einmal auf, wie können wir dafür Wahrscheinlichkeiten ermitteln? Markov-Annahme (N-)-ter Ordnung: Nur die letzten N- Wörter sind entscheidend für das nächste (N-te) Wort. P(w t+n w t+n-,..., w ) = P(w t+n w t+n-,..., w t ) Ignoriere Wörter w t bis w

12 N-Gramm-Modelle Markov-Annahme Wahrscheinlichkeit für Wort t+n ergibt sich aus Wörtern t bis t+n-. ich pflücke heute Nachmittag wieder... [Beeren], N = 5 ich jage heute Nachmittag wieder... [Bären] N = 4 N = 4 N = 5 N4: Etwa gleiche Wahrscheinlichkeiten für nächstes Wort; N5: Unterschiedliche Wahrscheinlichkeiten. 2

13 N-Gramm-Modelle Wahl von N Großes N: Wenige Beispiele für jedes N-Gramm; Schätzen der Wahrscheinlichkeiten schwierig. Vorteil: Wenig Kontextinformation geht verloren. Nachteil: Viele Wahrscheinlichkeiten müssen geschätzt werden (viele 0). Kleines N: Viele Beispiele, aber Vorhersage ungenau da verschiedene Wortfolgen als gleich behandelt werden. Vorteile: Wenige Wortfolgen, die häufig vorkommen. Vorhersage stützt sich auf viele Beispiele. Nachteil: Kontextinformation geht verloren. 3

14 N-Gramm-Modelle Wahl von N Wie viele Wahrscheinlichkeiten müssen wir kennen? N= (nullte Ordnung): ca. 20,000 verschiedene Wortfolgen der Länge, N=2 (erste Ordnung): ca. 400,000,000, N=3 (zweite Ordnung): ca 8 x 0 2. N=4 (dritte Ordnung): ca.6 x 0 7. N-Gramme über Wortstämme, statt über Wörter. Etwas Information geht verloren, aber deutlich weniger Wahrscheinlichkeiten müssen geschätzt werden. Beispiel: Kategorie kategor Kategorien kategor 4

15 N-Gramm-Modelle Lernen, Multinomialverteilung Verteilung über m verschiedene Belegungen einer Zufallsvariable bestimmt durch Parametervektor q=(q,,q m ) mit der Eigenschaft q i 0, S i q i = Wahrscheinlichkeitsverteilung: P x,,x N x x,,x q n n q x n Multinomialkoeffizient m 5

16 Multinomialverteilung Beispiel Bei einem Roulette-Spiel gibt es 38 Verschiedene Möglichkeiten: 8 mal rot, 8 mal schwarz, 2 mal grün. Daraus ergeben sich folgende Parameter der Multinomialverteilung: θ = θ 2 = 8 38, θ 3 = Frage: Was ist die Wahrscheinlichkeit für 4 mal rot, 2 mal schwarz und 4 mal grün? Antwort: P 4,2, ! !2!4! x q P x,,x N x,,x n n q x n m 6

17 N-Gramm-Modelle Lernen, Dirichletverteilung Konjugierter Prior zur Multinomialverteilung. Verteilung über m-dimensionale Vektoren mit reellwertigen Einträgen in [0;] mit Summe der Einträge =. Parametrisiert durch m-dimensionalen Vektor a mit positiven Einträgen. Dichtefunktion: verallgemeinerte Beta-Funktion Spezialfall bei m=2: Beta-Verteilung 7

18 N-Gramm-Modelle Lernen Korpus D ist Folge von Zufallsvariablen w i ; Wertebereich ist das Vokabular v bis v K. Beobachtungen: x : Anzahl der Vorkommen der n-gramme v...,..., x v v K... v K v v bis v K v K in D. Parameter q v in θ ( q q v... v v K... v K ( wn vi wn... w vi... v n n i... v P, θ) i Wie viele Parameter gibt es? 8

19 N-Gramm-Modelle Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,..., w bei gegebenem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: 3-Gramm-Modell: 2 P(w )P(w w )...P(w w,..., w ) N i 2 ( N) N i i i ( N) P(w w,..., w ) P(w w,..., w ) i i in i i i ( N) q q q w i2 w...w in w...w P(w,...,w ) P(w )P(w 2 w )...P(w w,...,w ) P(w )P(w 2 w ) P(w i w i,w i2 ) q w q w2 w i 3 q i 3 wi w i w i2 Markov- Eigenschaft 9

20 N-Gramm-Modelle Empirische Inferenz der Modellparameter Parameter des Modells sind die echten Auftretenswahrscheinlichkeiten θ ( q q. Wahrscheinlichkeiten sind nicht bekannt. Echte Wahrscheinlichkeiten sind in einem Korpus von rainingsdokumenten reflektiert. Empirische Inferenz: Berechnung des Posteriors P( θ D) P( D θ) P( θ) v... v v K... v MAP-Hypothese: Wahrscheinlichste Parameter gegeben das Korpus D. K 20

21 N-Gramm-Modelle Inferenz: Maximum-Likelihood Posterior: P( θ D) P( D θ) P( θ) Likelihood: Produkt von Multinomialverteilungen. 0 t t tn P(D θ) P(w ) P(w w,..., w,θ) q 0 t t t tn q w t w w,...,w Laut Definition der Multinomialverteilung Sonderbehandlung t<n: n=t. Ansonsten n=n. 2

22 N-Gramm-Modelle Inferenz: Maximum-Likelihood Maximum-Likelihood- (ML-)Schätzer: ML θ arg max P(D θ) arg max P D... Es folgt: ML v...v qv...v q v K...vK Auftrittshäufigkeit von v... v in i q in i x x v v...v in i...v in i 22

23 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: Prior: Dirichlet, konjugiert zur Multinomialverteilung. P( θ D) P( D θ) P( θ) v...v P( K K q ) P ( Dirichlet q,..., v n w n...w q w...w v...v v K w n...w a ) v a v K Posterior: Wieder Dirichletverteilt. P(q D) P(D) v K...v K v K...v K q t wt w t,...,w tn P Dirichlet (q v w n...w,..., w n...w v...v q vk w n...w a v a vk ) P Dirichlet q v w n...w,...,q vk w n...w a v x v w n...w a vk x vk w n...w w n...w v...v Likelihood Prior 23

24 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: wieder Dirichletverteilt. MAP-Hypothese: P( θ D) arg max x w v w x K n n v... v i n q w... w v i n w n... w n K... w a K ( a j P( θ D) v i n v j... w v... v Dirichlet v wn... w vk wn... w v vwn... w vk vk wn... w n P q ),..., q a Sonderbehandlung n<n: Wahrscheinlichkeiten nur aus Satzanfängen schätzen. a x a=2: Laplace Smoothing x 24

25 N-Gramm-Modelle Inferenz der Hyperparameter Einstellen der Hyperparameter a. a: Wahrscheinlichkeit für ein N-Gramm, das im rainingskorpus nicht auftaucht: 0 av in qv w ; n... w in K x ( a ) w n... w j Bei einem Wert für alle a:. v j x wn...w a (a )K 25

26 N-Gramm-Modelle Inferenz der Hyperparameter Wie viel Wahrscheinlichkeitsmasse sollte auf ungesehene Kombinationen entfallen? eile Korpus in zwei eile. Zähle, wie viele Kombinationen w w... w n n im zweiten eil, aber nicht im ersten eil auftauchen. Stelle dann a so ein, dass x im Durchschnitt über alle Kontexte w...w wn...w (a )K n dem gewünschten Verhältnis entspricht. Kleine Schwäche des Verfahrens: Im ersten eil des Korpus kommen mehr N-Gramme nicht vor als im gesamten Korpus. (Wahrscheinlichkeit für ungesehene Kombinationen wird überschätzt) a 26

27 N-Gramm-Modelle Einstellen von N (Markov-Grad) N ist entscheidender Parameter des N-Gramm- Modells. Großes N : viele Wahrscheinlichkeiten müssen geschätzt werden. Kleines N : zu viel Kontextinformation geht verloren. Kompromiss: Interpolation. 27

28 N-Gramm-Modelle Interpolation Dem N-Gramm-Sprachmodell liegt ein generatives Prozessmodell zugrunde. Wörter werden iterativ ausgewürfelt. Jedes Wort w i wird nach der Wahrscheinlichkeit P w w,..., w ) ausgewürfelt. ( i i in Generatives Modell für interpoliertes N-Gramm: Für jedes Wort w i wird zunächst Markov-Grad n zwischen und N nach p(n) gezogen. Wort w i wird dann nach P( wi wi,..., wi n) gezogen. 28

29 Interpoliertes N-Gramm-Modell Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,, w mit interpoliertem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: N = 3. 2 P(w )(p()p(w ) p(2)p(w w ))... p(n)p(w w,..., w ) 2 2 n n N i N p(w ) p(n)p(w w,..., w ) p(n)p(w w,..., w ) P(w,..., w ) i n2 i i in n i i in 3 P(w )(p()p(w ) p(2)p(w w )) p(n)p(w w, w ) 2 2 i3 n i i i2 N 29

30 Interpoliertes N-Gramm-Modell Inferenz der Parameter Likelihood für interpoliertes N-Gramm: Posterior: P(θ D) t t N n t Problem beim Parameterschätzen: N P(D θ) p(n )P(w w,..., w,θ) N n t p(n ) q t t t tn t w w,...,w v...v t t tnt q q q a a K K p(n t ) w t w t,...,w p(n)p t n Dirichlet ( v t t N w n...w,..., v K w n...w v v ) K t n w...w v...v n v...v K K p(n)p q,..., q a x a w...w v...v N N n n K n n n t ist latente, unbeobachtete Variable. N Dirichlet v w...w v w...w v v w...w t x v v w...w K K n 30

31 Interpoliertes N-Gramm-Modell Parameterschätzung Beim Schätzen der Parameter der N-Gramm- Modelle müssten wir wissen, welches Wort mit welchem Abhängigkeitswert N erzeugt wurde. Nur die Wörter, die mit Wert N generiert wurden sollten in Schätzung des N-Gramm-Modells eingehen. Definition Zufallsvariable z tn : Wert z tn = zeigt an, dass Wort w t mit Abhängigkeit n gezogen wurde. Problem: Werte der z tn sind aber unbekannt. 3

32 Interpoliertes N-Gramm-Modell Parameterschätzung Problem: Schätzproblem (Schätzen der Paramater θ ( q q ) mit latenten Variablen z tn. v... v v K... v K Lösung: Expectation-Maximization-Algorithmus. Idee: Beginne mit zufälligen Parametern. Expectation-Schritt: Berechne Wahrscheinlichkeiten p(z tn ) gegeben die Daten und Parameter. Maximization-Schritt: Schätze θ ( qv... v q v K... v basierend auf den aktuellen Werten der p(z tn ). Wiederhole bis zur Konvergenz. K 32

33 Expectation Maximization -Algorithmus Motivation und Beispiel Münzwurfexperiment mit zwei Münzen: Münze A mit Parameter θ A Münze B mit Parameter θ B Ziel: Parameter θ = θ A, θ B schätzen. Experiment: Wiederhole für t =,, 5: Wähle zufällig eine Münze z t = {A, B} und wirf die Münze 0 mal (x t K, Z 0 ). Parameterschätzung (ML): θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Wahrscheinlichkeit für Zahl Analog für θ B Problem: Wie Parameter schätzen, wenn die Zufallsvariablen z t unbekannt sind? 33

34 Expectation Maximization Basisalgorithmus Idee: Wenn wir wissen, welche Münze wann geworfen wurde, ist Parameterinferenz einfach (siehe letzte Folie). θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Algorithmus (für Münzwurfexperiment):. Starte mit initialen Parametern θ A und θ B. 2. Expectation: Bestimme für alle t =,, 5 Münzwurfserien, mit welcher Wahrscheinlichkeit z t die Münzen die Serien produziert haben. 3. Maximization: Nutze z,, z 5, um die optimalen Parameter θ A und θ B zu bestimmen. 4. Wiederhole 2. und 3. bis zur Konvergenz. 34

35 Expectation Maximization Beispiel unbekannt z K Z Z Z K K Z K Z K z 2 K K K K Z K K K K K z 3 K Z K K K K K Z K K z 4 K Z K Z Z Z K K Z Z z 5 Z K K K Z K K K Z K θ A (0) = 0.6 θ B (0) = 0.5 Initialisierung (0.5 0 ) ( ) 0.45 x A 0.55 x B 0.8 x A 0.2 x B 0.73 x A 0.27 x B 0.35 x A 0.65 x B 0.65 x A 0.35 x B Expectation: Bestimme Wahrscheinlichkeiten der z t θ A () = θ B () = Münze A Münze B 2.2 K, 2.2 Z 2.8 K, 2.8 Z 7.2 K, 0.8 Z.8 K, 0.2 Z 5.9 K,.5 Z 2. K, 0.5 Z.4 K, 2. Z 2.6 K, 3.9 Z 4.5 K,.9 Z 2.5 K,. Z 2.3 K, 8.6 Z.7 k, 8.4 Z Maximization (0) θ A 0.8 (0) θ B

36 Interpoliertes N-Gramm-Modell Expectation-Schritt p(z tn ): Wahrscheinlichkeit dafür, dass w t von n- Gramm-Modell generiert wurde: p( z ) p( n w ) p( w w,..., w ) p( n) tn t t t tn 36

37 Interpoliertes N-Gramm-Modell Maximization-Schritt MAP-Schätzer: Zählvariablen: arg max P( q D) q vi v... v n in i x x a v v... v v in in i in K v... v i v in i in in in i n ( a ) K x p ( z )[[ w... w v v... v ]] v v... v t tn t tn i i n i Indikatorfunktion 37

38 N-Gramm-Modelle Anzahl der Parameter: Beispiel IBM angora: Korpus mit 365 Mio Wörtern, ( Verschiedene) 6.8x0 0 2-Gramme, 4 Mio davon tauchen auf, 8 Mio nur einmal; 2.2% aller neuen 2-Gramme sind unbekannt..8x0 6 3-Gramme, 75 Mio tauchen auf, 53 Mio einmal, 4.7% aller neuen 3-Gramme sind unbekannt. 38

39 N-Gramm-Modelle Evaluation N-Gramm auf rainingskorpus gelernt. Wie gut ist es? Bewertung auf estkorpus. Nicht auf rainingskorpus. Wie sehr überrascht jedes neue Wort des estkorpus? Gutes Modell Weniger Überraschung. Entropie H: Wie viele Bit brauche ich um nächstes Wort zu kodieren? Perplexität ( mittlerer Verzweigungsfaktor ): 2 H. Minimum der Entropie = Minimum der Perplexität wenn gelerntes Modell gleich echtem Modell ist. 39

40 N-Gramm-Modelle Evaluation N-Gramm-Modell und ein langer ext W. Kreuzentropie des extes gegeben das Modell: H W m = W log 2 P m W H W m = W log 2 P m w w n = W Perplexität des Modells (durchschnittlicher Verzweigungsfaktor): PP W m = 2 H(W m) Wahrscheinlichkeit für Wortfolge für ein Gegebenes Modell m i log 2 P m (w i w i,, w ) 40

41 N-Gramm-Klassenmodelle Manche Wörter haben denselben Kontext. Wir sehen uns [Montag Dienstag...] Nachmittag. Idee: Wortklassen. (w)=c. Ein N-Gramm-Modell ist ein Klassenmodell gdw. P( wn wn,..., w ) P( wn cn) P( cn cn,..., c Klassenmodell hat weniger Parameter (wenn C < V). N-Gramm-Klassenmodell = N-Gramm-Modell, wenn jedes Wort eine eigene Klasse hat. N-Gramm-Klassenmodell mit einem Wort pro Klasse wird normal aus rainingskorpus gelernt. Dann werden Klassen zusammen gelegt. ) 4

42 N-Gramm-Klassenmodelle Beispiel-Dendrogramme 42

43 Beispielaufteilung in 000 Klassen Beispielklassen 43

44 Anwendung von N-Grammen Rechtschreibkorrektur Gegeben: Signal s,, s ; gesucht: Wahrscheinlichste beabsichtigte Abfolge w,, w. Fehlermodell: p(s i w i ). Z.B.: Dekodierung: arg max arg max arg max p( si wi ) exp dedit ( si, wi ) 2d phonetisch( si, wi ) 3d w,..., w w,..., w w,..., w p( w,..., w p( s i,..., s p( s ( s, w ) keyboard i i i s,..., s ) w,..., w w ) p( w i i ) p( w,..., w w i,..., w in ) ) Satz von Bayes Unabhängigkeitsannahme + Markov Annahme 44

45 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i p( s Naive Implementierung:,..., s w ) p( w,..., w Suche über alle w,, w in O(V ). Mit dynamischer Programmierung: s Suche über alle w,, w in O(V n ). i Idee: abelle mit p(w n w,, w n- ) in O(V n ) vorberechnen. i Dann linear durch Signalabfolge gehen, für jedes n- Gramm nur die wahrscheinlichste Historie merken ) i w i in ) 45

46 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i Weitere Optimierung: Für jedes s i, nur die k besten w i in Erwägung ziehen. Suche in O(k n ). p( s,..., s w ) p( w,..., w Optimierung für Suchmaschinen: i s i Für häufig falsch geschriebene Suchanfragen (z.b. Hoeness ) wahrscheinlichste Bedeutung in Cache vorhalten. ) i w i in ) 46

47 Anwendung von N-Grammen Auto-Complete Dekodierung: arg max Suche mit dynamischer Programmierung: O(V n ). w k arg max w,..., w k p( w w,..., θ,..., w p( w i i w i ),..., w in ) 47

48 Zusammenfassung Sprachmodelle bestimmen Wahrscheinlichkeit für Elemente (z.b. Sätze) einer Sprache. N-Gramme: Markov Annahme (N-). Ordnung. Lernen der Parameter: Empirsche Inferenz der Modellparameter (Wahrscheinlichkeiten für N- Gramme). Erweiterung: Interpoliertes N-Gramm-Modell. Lernen der Parameter: EM-Algorithmus. Wahrscheinlichkeiten für N-Gramme + Wahrscheinlichkeiten für ein bestimmtes N. 48

49 Fragen? 49

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Maschinelle Sprachverarbeitung: N-Gramm-Modelle HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind

Mehr

Bayessche Lineare Regression

Bayessche Lineare Regression Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Uiersität Potsdam Istitut für Iformatik Lehrstuhl Maschielles Lere Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhas Statistische Sprachmodelle Welche Sätze sid Elemete eier Sprache.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:

Mehr

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de

Topicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Evaluation und Training von HMMs

Evaluation und Training von HMMs Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Die Probabilistische Methode

Die Probabilistische Methode Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Übersetzung. Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Übersetzung. Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Übersetzung Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Maschinelle Übersetzung 2 Maschinelle Übersetzung Gegeben Text

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe

Mehr

Mathematische Grundlagen

Mathematische Grundlagen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde

Mehr

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!! Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.

Zeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2. Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

SBWL Tourismusanalyse und Freizeitmarketing

SBWL Tourismusanalyse und Freizeitmarketing SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Stochastische Lernalgorithmen

Stochastische Lernalgorithmen Stochastische Lernalgorithmen Gerhard Jäger 14. Mai 2003 Das Maximum-Entropy-Prinzip Der Entropiebegriff Entropie: Chaos, Unordung, Nicht-Vorhersagbarkeit,... Begriff kommt ursprünglich aus der Physik:

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

Universitätsprofessor Dr. rer. nat. habil. Karl-Ernst Biebler und Dr. rer. nat. Bernd Jäger

Universitätsprofessor Dr. rer. nat. habil. Karl-Ernst Biebler und Dr. rer. nat. Bernd Jäger Die Reihe Biometrie und Medizinische Informatik Greifswalder Seminarberichte wird herausgegeben von: Universitätsprofessor Dr. rer. nat. habil. Karl-Ernst Biebler und Dr. rer. nat. Bernd Jäger Institut

Mehr

Dokumenten- und Topicmodelle. Institut für Informatik

Dokumenten- und Topicmodelle. Institut für Informatik Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/39 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Gesetz der großen Zahl, Zentraler Grenzwertsatz Schließende Statistik: Grundlagen Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 16.06.2017

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

5 Allgemeine Verfahren zum Testen von Hypothesen

5 Allgemeine Verfahren zum Testen von Hypothesen 5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Wahrscheinlichkeitstheorie und Naive Bayes

Wahrscheinlichkeitstheorie und Naive Bayes Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie

Mehr

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Frequentistische Statistik und Bayessche Statistik. Volker Tresp Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Maschinelles Lernen II! Vorlesung Computerlinguistische Techniken Alexander Koller! 30. Januar 2015 Heute Überwachtes Lernen: Maximum-Entropy-Modelle Unüberwachtes Lernen: Clustering Maximum Entropy: Motivation

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier Diskrete Strukturen und Logik WiSe 2007/08 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Diskrete Strukturen und Logik Gesamtübersicht Organisatorisches Einführung Logik & Mengenlehre

Mehr

Wahrscheinlichkeit und Statistik BSc D-INFK

Wahrscheinlichkeit und Statistik BSc D-INFK Prof. Dr. P. Embrechts ETH Zürich Sommer 2015 Wahrscheinlichkeit und Statistik BSc D-INFK Name: Vorname: Stud. Nr.: Das Folgende bitte nicht ausfüllen! Aufg. Summe Kontr. Pkte.-Max. 1 10 2 10 3 10 4 10

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler

Mehr

4 Probabilistische Analyse und randomisierte Algorithmen

4 Probabilistische Analyse und randomisierte Algorithmen Algorithmen und Datenstrukturen 96 4 Probabilistische Analyse und randomisierte Algorithmen Bei der Algorithmenanalyse ist es sehr hilfreich, Aspekte berücksichtigen zu können, die vom Zufall abhängen.

Mehr

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ). Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Wie wahrscheinlich ist ein bestimmter

Mehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X. Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im

Mehr