Statistische Sprachmodelle
|
|
- Jutta Dressler
- vor 5 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick
2 Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache. Durch Grammatik einer Sprache beschrieben. Wie wahrscheinlich ist ein bestimmter Satz in einem Kontext: P( ich pflücke Beeren ) ist vielleicht 0.000, P( ich pflücke Bären ) ist vielleicht Statistische Sprachmodelle: N-Gramme, Probabilistische kontextfreie Grammatiken. 2
3 Statistische Sprachmodelle Wozu? Spracherkennung: Akustisches Modell + Sprachmodell. Phone Wörter ich Sprachmodell bleibe heute Abend hier du bist krank 3
4 Statistische Sprachmodelle Wozu? Handschrifterkennung: Schreibmodell + Sprachmodell. Schreibmodell Sprachmodell
5 Statistische Sprachmodelle Wozu? Rechtschreibkorrektur: Fehler- / Vertippmodell + Sprachmodell. Vertippmodell Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 5
6 Statistische Sprachmodelle Wozu? ext Übersetzung: Übersetzungsmodell + Sprachmodell der Zielsprache. Übersetzungsmodell delete file x ( delete Verb) ( file Noun) ( x ID) VP Verb delete S Noun file NP ID x ich Sprachmodell bleibe heute Abend hier du bist krank Unix rm i x 6
7 Statistische Sprachmodelle Wozu? Smartphone-astatureingabe : Normalverteilte Fingerposition + Sprachmodell. Normalverteilte Fingerposition Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 7
8 Statistische Sprachmodelle Die Formel Satz von Bayes ( DIE Formel ): X Likelihood Prior ich bleibe hier heute Aben d du bist krank 8
9 N-Gramm-Modelle Wahrscheinlichkeit für einen gegebenen Satz: P( ich pflücke Beeren im Wald ) = P( ich ) x P( pflücke ich ) x P( Beeren ich pflücke ) x P( im ich pflücke Beeren ) x P( Wald ich pflücke Beeren im ). Problem: Zu viele Wahrscheinlichkeiten. Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). 9
10 N-Gramm-Modelle Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). Modell speichert Wahrscheinlichkeiten für Wortfolgen der Länge maximal N. N=: Unigramm, N=2: Bigramm, N=3: rigramm. 0
11 N-Gramm Modelle Vorhersage Vorhersage des nächsten Wortes: Bestimme P(w t w,..., w t- ). Die meisten Wortfolgen w,..., w t tauchen in einem Korpus nur einmal auf, wie können wir dafür Wahrscheinlichkeiten ermitteln? Markov-Annahme (N-)-ter Ordnung: Nur die letzten N- Wörter sind entscheidend für das nächste (N-te) Wort. P(w t+n w t+n-,..., w ) = P(w t+n w t+n-,..., w t ) Ignoriere Wörter w t bis w
12 N-Gramm-Modelle Markov-Annahme Wahrscheinlichkeit für Wort t+n ergibt sich aus Wörtern t bis t+n-. ich pflücke heute Nachmittag wieder... [Beeren], N = 5 ich jage heute Nachmittag wieder... [Bären] N = 4 N = 4 N = 5 N4: Etwa gleiche Wahrscheinlichkeiten für nächstes Wort; N5: Unterschiedliche Wahrscheinlichkeiten. 2
13 N-Gramm-Modelle Wahl von N Großes N: Wenige Beispiele für jedes N-Gramm; Schätzen der Wahrscheinlichkeiten schwierig. Vorteil: Wenig Kontextinformation geht verloren. Nachteil: Viele Wahrscheinlichkeiten müssen geschätzt werden (viele 0). Kleines N: Viele Beispiele, aber Vorhersage ungenau da verschiedene Wortfolgen als gleich behandelt werden. Vorteile: Wenige Wortfolgen, die häufig vorkommen. Vorhersage stützt sich auf viele Beispiele. Nachteil: Kontextinformation geht verloren. 3
14 N-Gramm-Modelle Wahl von N Wie viele Wahrscheinlichkeiten müssen wir kennen? N= (nullte Ordnung): ca. 20,000 verschiedene Wortfolgen der Länge, N=2 (erste Ordnung): ca. 400,000,000, N=3 (zweite Ordnung): ca 8 x 0 2. N=4 (dritte Ordnung): ca.6 x 0 7. N-Gramme über Wortstämme, statt über Wörter. Etwas Information geht verloren, aber deutlich weniger Wahrscheinlichkeiten müssen geschätzt werden. Beispiel: Kategorie kategor Kategorien kategor 4
15 N-Gramm-Modelle Lernen, Multinomialverteilung Verteilung über m verschiedene Belegungen einer Zufallsvariable bestimmt durch Parametervektor q=(q,,q m ) mit der Eigenschaft q i 0, S i q i = Wahrscheinlichkeitsverteilung: P x,,x N x x,,x q n n q x n Multinomialkoeffizient m 5
16 Multinomialverteilung Beispiel Bei einem Roulette-Spiel gibt es 38 Verschiedene Möglichkeiten: 8 mal rot, 8 mal schwarz, 2 mal grün. Daraus ergeben sich folgende Parameter der Multinomialverteilung: θ = θ 2 = 8 38, θ 3 = Frage: Was ist die Wahrscheinlichkeit für 4 mal rot, 2 mal schwarz und 4 mal grün? Antwort: P 4,2, ! !2!4! x q P x,,x N x,,x n n q x n m 6
17 N-Gramm-Modelle Lernen, Dirichletverteilung Konjugierter Prior zur Multinomialverteilung. Verteilung über m-dimensionale Vektoren mit reellwertigen Einträgen in [0;] mit Summe der Einträge =. Parametrisiert durch m-dimensionalen Vektor a mit positiven Einträgen. Dichtefunktion: verallgemeinerte Beta-Funktion Spezialfall bei m=2: Beta-Verteilung 7
18 N-Gramm-Modelle Lernen Korpus D ist Folge von Zufallsvariablen w i ; Wertebereich ist das Vokabular v bis v K. Beobachtungen: x : Anzahl der Vorkommen der n-gramme v...,..., x v v K... v K v v bis v K v K in D. Parameter q v in θ ( q q v... v v K... v K ( wn vi wn... w vi... v n n i... v P, θ) i Wie viele Parameter gibt es? 8
19 N-Gramm-Modelle Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,..., w bei gegebenem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: 3-Gramm-Modell: 2 P(w )P(w w )...P(w w,..., w ) N i 2 ( N) N i i i ( N) P(w w,..., w ) P(w w,..., w ) i i in i i i ( N) q q q w i2 w...w in w...w P(w,...,w ) P(w )P(w 2 w )...P(w w,...,w ) P(w )P(w 2 w ) P(w i w i,w i2 ) q w q w2 w i 3 q i 3 wi w i w i2 Markov- Eigenschaft 9
20 N-Gramm-Modelle Empirische Inferenz der Modellparameter Parameter des Modells sind die echten Auftretenswahrscheinlichkeiten θ ( q q. Wahrscheinlichkeiten sind nicht bekannt. Echte Wahrscheinlichkeiten sind in einem Korpus von rainingsdokumenten reflektiert. Empirische Inferenz: Berechnung des Posteriors P( θ D) P( D θ) P( θ) v... v v K... v MAP-Hypothese: Wahrscheinlichste Parameter gegeben das Korpus D. K 20
21 N-Gramm-Modelle Inferenz: Maximum-Likelihood Posterior: P( θ D) P( D θ) P( θ) Likelihood: Produkt von Multinomialverteilungen. 0 t t tn P(D θ) P(w ) P(w w,..., w,θ) q 0 t t t tn q w t w w,...,w Laut Definition der Multinomialverteilung Sonderbehandlung t<n: n=t. Ansonsten n=n. 2
22 N-Gramm-Modelle Inferenz: Maximum-Likelihood Maximum-Likelihood- (ML-)Schätzer: ML θ arg max P(D θ) arg max P D... Es folgt: ML v...v qv...v q v K...vK Auftrittshäufigkeit von v... v in i q in i x x v v...v in i...v in i 22
23 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: Prior: Dirichlet, konjugiert zur Multinomialverteilung. P( θ D) P( D θ) P( θ) v...v P( K K q ) P ( Dirichlet q,..., v n w n...w q w...w v...v v K w n...w a ) v a v K Posterior: Wieder Dirichletverteilt. P(q D) P(D) v K...v K v K...v K q t wt w t,...,w tn P Dirichlet (q v w n...w,..., w n...w v...v q vk w n...w a v a vk ) P Dirichlet q v w n...w,...,q vk w n...w a v x v w n...w a vk x vk w n...w w n...w v...v Likelihood Prior 23
24 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: wieder Dirichletverteilt. MAP-Hypothese: P( θ D) arg max x w v w x K n n v... v i n q w... w v i n w n... w n K... w a K ( a j P( θ D) v i n v j... w v... v Dirichlet v wn... w vk wn... w v vwn... w vk vk wn... w n P q ),..., q a Sonderbehandlung n<n: Wahrscheinlichkeiten nur aus Satzanfängen schätzen. a x a=2: Laplace Smoothing x 24
25 N-Gramm-Modelle Inferenz der Hyperparameter Einstellen der Hyperparameter a. a: Wahrscheinlichkeit für ein N-Gramm, das im rainingskorpus nicht auftaucht: 0 av in qv w ; n... w in K x ( a ) w n... w j Bei einem Wert für alle a:. v j x wn...w a (a )K 25
26 N-Gramm-Modelle Inferenz der Hyperparameter Wie viel Wahrscheinlichkeitsmasse sollte auf ungesehene Kombinationen entfallen? eile Korpus in zwei eile. Zähle, wie viele Kombinationen w w... w n n im zweiten eil, aber nicht im ersten eil auftauchen. Stelle dann a so ein, dass x im Durchschnitt über alle Kontexte w...w wn...w (a )K n dem gewünschten Verhältnis entspricht. Kleine Schwäche des Verfahrens: Im ersten eil des Korpus kommen mehr N-Gramme nicht vor als im gesamten Korpus. (Wahrscheinlichkeit für ungesehene Kombinationen wird überschätzt) a 26
27 N-Gramm-Modelle Einstellen von N (Markov-Grad) N ist entscheidender Parameter des N-Gramm- Modells. Großes N : viele Wahrscheinlichkeiten müssen geschätzt werden. Kleines N : zu viel Kontextinformation geht verloren. Kompromiss: Interpolation. 27
28 N-Gramm-Modelle Interpolation Dem N-Gramm-Sprachmodell liegt ein generatives Prozessmodell zugrunde. Wörter werden iterativ ausgewürfelt. Jedes Wort w i wird nach der Wahrscheinlichkeit P w w,..., w ) ausgewürfelt. ( i i in Generatives Modell für interpoliertes N-Gramm: Für jedes Wort w i wird zunächst Markov-Grad n zwischen und N nach p(n) gezogen. Wort w i wird dann nach P( wi wi,..., wi n) gezogen. 28
29 Interpoliertes N-Gramm-Modell Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,, w mit interpoliertem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: N = 3. 2 P(w )(p()p(w ) p(2)p(w w ))... p(n)p(w w,..., w ) 2 2 n n N i N p(w ) p(n)p(w w,..., w ) p(n)p(w w,..., w ) P(w,..., w ) i n2 i i in n i i in 3 P(w )(p()p(w ) p(2)p(w w )) p(n)p(w w, w ) 2 2 i3 n i i i2 N 29
30 Interpoliertes N-Gramm-Modell Inferenz der Parameter Likelihood für interpoliertes N-Gramm: Posterior: P(θ D) t t N n t Problem beim Parameterschätzen: N P(D θ) p(n )P(w w,..., w,θ) N n t p(n ) q t t t tn t w w,...,w v...v t t tnt q q q a a K K p(n t ) w t w t,...,w p(n)p t n Dirichlet ( v t t N w n...w,..., v K w n...w v v ) K t n w...w v...v n v...v K K p(n)p q,..., q a x a w...w v...v N N n n K n n n t ist latente, unbeobachtete Variable. N Dirichlet v w...w v w...w v v w...w t x v v w...w K K n 30
31 Interpoliertes N-Gramm-Modell Parameterschätzung Beim Schätzen der Parameter der N-Gramm- Modelle müssten wir wissen, welches Wort mit welchem Abhängigkeitswert N erzeugt wurde. Nur die Wörter, die mit Wert N generiert wurden sollten in Schätzung des N-Gramm-Modells eingehen. Definition Zufallsvariable z tn : Wert z tn = zeigt an, dass Wort w t mit Abhängigkeit n gezogen wurde. Problem: Werte der z tn sind aber unbekannt. 3
32 Interpoliertes N-Gramm-Modell Parameterschätzung Problem: Schätzproblem (Schätzen der Paramater θ ( q q ) mit latenten Variablen z tn. v... v v K... v K Lösung: Expectation-Maximization-Algorithmus. Idee: Beginne mit zufälligen Parametern. Expectation-Schritt: Berechne Wahrscheinlichkeiten p(z tn ) gegeben die Daten und Parameter. Maximization-Schritt: Schätze θ ( qv... v q v K... v basierend auf den aktuellen Werten der p(z tn ). Wiederhole bis zur Konvergenz. K 32
33 Expectation Maximization -Algorithmus Motivation und Beispiel Münzwurfexperiment mit zwei Münzen: Münze A mit Parameter θ A Münze B mit Parameter θ B Ziel: Parameter θ = θ A, θ B schätzen. Experiment: Wiederhole für t =,, 5: Wähle zufällig eine Münze z t = {A, B} und wirf die Münze 0 mal (x t K, Z 0 ). Parameterschätzung (ML): θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Wahrscheinlichkeit für Zahl Analog für θ B Problem: Wie Parameter schätzen, wenn die Zufallsvariablen z t unbekannt sind? 33
34 Expectation Maximization Basisalgorithmus Idee: Wenn wir wissen, welche Münze wann geworfen wurde, ist Parameterinferenz einfach (siehe letzte Folie). θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Algorithmus (für Münzwurfexperiment):. Starte mit initialen Parametern θ A und θ B. 2. Expectation: Bestimme für alle t =,, 5 Münzwurfserien, mit welcher Wahrscheinlichkeit z t die Münzen die Serien produziert haben. 3. Maximization: Nutze z,, z 5, um die optimalen Parameter θ A und θ B zu bestimmen. 4. Wiederhole 2. und 3. bis zur Konvergenz. 34
35 Expectation Maximization Beispiel unbekannt z K Z Z Z K K Z K Z K z 2 K K K K Z K K K K K z 3 K Z K K K K K Z K K z 4 K Z K Z Z Z K K Z Z z 5 Z K K K Z K K K Z K θ A (0) = 0.6 θ B (0) = 0.5 Initialisierung (0.5 0 ) ( ) 0.45 x A 0.55 x B 0.8 x A 0.2 x B 0.73 x A 0.27 x B 0.35 x A 0.65 x B 0.65 x A 0.35 x B Expectation: Bestimme Wahrscheinlichkeiten der z t θ A () = θ B () = Münze A Münze B 2.2 K, 2.2 Z 2.8 K, 2.8 Z 7.2 K, 0.8 Z.8 K, 0.2 Z 5.9 K,.5 Z 2. K, 0.5 Z.4 K, 2. Z 2.6 K, 3.9 Z 4.5 K,.9 Z 2.5 K,. Z 2.3 K, 8.6 Z.7 k, 8.4 Z Maximization (0) θ A 0.8 (0) θ B
36 Interpoliertes N-Gramm-Modell Expectation-Schritt p(z tn ): Wahrscheinlichkeit dafür, dass w t von n- Gramm-Modell generiert wurde: p( z ) p( n w ) p( w w,..., w ) p( n) tn t t t tn 36
37 Interpoliertes N-Gramm-Modell Maximization-Schritt MAP-Schätzer: Zählvariablen: arg max P( q D) q vi v... v n in i x x a v v... v v in in i in K v... v i v in i in in in i n ( a ) K x p ( z )[[ w... w v v... v ]] v v... v t tn t tn i i n i Indikatorfunktion 37
38 N-Gramm-Modelle Anzahl der Parameter: Beispiel IBM angora: Korpus mit 365 Mio Wörtern, ( Verschiedene) 6.8x0 0 2-Gramme, 4 Mio davon tauchen auf, 8 Mio nur einmal; 2.2% aller neuen 2-Gramme sind unbekannt..8x0 6 3-Gramme, 75 Mio tauchen auf, 53 Mio einmal, 4.7% aller neuen 3-Gramme sind unbekannt. 38
39 N-Gramm-Modelle Evaluation N-Gramm auf rainingskorpus gelernt. Wie gut ist es? Bewertung auf estkorpus. Nicht auf rainingskorpus. Wie sehr überrascht jedes neue Wort des estkorpus? Gutes Modell Weniger Überraschung. Entropie H: Wie viele Bit brauche ich um nächstes Wort zu kodieren? Perplexität ( mittlerer Verzweigungsfaktor ): 2 H. Minimum der Entropie = Minimum der Perplexität wenn gelerntes Modell gleich echtem Modell ist. 39
40 N-Gramm-Modelle Evaluation N-Gramm-Modell und ein langer ext W. Kreuzentropie des extes gegeben das Modell: H W m = W log 2 P m W H W m = W log 2 P m w w n = W Perplexität des Modells (durchschnittlicher Verzweigungsfaktor): PP W m = 2 H(W m) Wahrscheinlichkeit für Wortfolge für ein Gegebenes Modell m i log 2 P m (w i w i,, w ) 40
41 N-Gramm-Klassenmodelle Manche Wörter haben denselben Kontext. Wir sehen uns [Montag Dienstag...] Nachmittag. Idee: Wortklassen. (w)=c. Ein N-Gramm-Modell ist ein Klassenmodell gdw. P( wn wn,..., w ) P( wn cn) P( cn cn,..., c Klassenmodell hat weniger Parameter (wenn C < V). N-Gramm-Klassenmodell = N-Gramm-Modell, wenn jedes Wort eine eigene Klasse hat. N-Gramm-Klassenmodell mit einem Wort pro Klasse wird normal aus rainingskorpus gelernt. Dann werden Klassen zusammen gelegt. ) 4
42 N-Gramm-Klassenmodelle Beispiel-Dendrogramme 42
43 Beispielaufteilung in 000 Klassen Beispielklassen 43
44 Anwendung von N-Grammen Rechtschreibkorrektur Gegeben: Signal s,, s ; gesucht: Wahrscheinlichste beabsichtigte Abfolge w,, w. Fehlermodell: p(s i w i ). Z.B.: Dekodierung: arg max arg max arg max p( si wi ) exp dedit ( si, wi ) 2d phonetisch( si, wi ) 3d w,..., w w,..., w w,..., w p( w,..., w p( s i,..., s p( s ( s, w ) keyboard i i i s,..., s ) w,..., w w ) p( w i i ) p( w,..., w w i,..., w in ) ) Satz von Bayes Unabhängigkeitsannahme + Markov Annahme 44
45 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i p( s Naive Implementierung:,..., s w ) p( w,..., w Suche über alle w,, w in O(V ). Mit dynamischer Programmierung: s Suche über alle w,, w in O(V n ). i Idee: abelle mit p(w n w,, w n- ) in O(V n ) vorberechnen. i Dann linear durch Signalabfolge gehen, für jedes n- Gramm nur die wahrscheinlichste Historie merken ) i w i in ) 45
46 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i Weitere Optimierung: Für jedes s i, nur die k besten w i in Erwägung ziehen. Suche in O(k n ). p( s,..., s w ) p( w,..., w Optimierung für Suchmaschinen: i s i Für häufig falsch geschriebene Suchanfragen (z.b. Hoeness ) wahrscheinlichste Bedeutung in Cache vorhalten. ) i w i in ) 46
47 Anwendung von N-Grammen Auto-Complete Dekodierung: arg max Suche mit dynamischer Programmierung: O(V n ). w k arg max w,..., w k p( w w,..., θ,..., w p( w i i w i ),..., w in ) 47
48 Zusammenfassung Sprachmodelle bestimmen Wahrscheinlichkeit für Elemente (z.b. Sätze) einer Sprache. N-Gramme: Markov Annahme (N-). Ordnung. Lernen der Parameter: Empirsche Inferenz der Modellparameter (Wahrscheinlichkeiten für N- Gramme). Erweiterung: Interpoliertes N-Gramm-Modell. Lernen der Parameter: EM-Algorithmus. Wahrscheinlichkeiten für N-Gramme + Wahrscheinlichkeiten für ein bestimmtes N. 48
49 Fragen? 49
Maschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
MehrStatistische Sprachmodelle
Uiersität Potsdam Istitut für Iformatik Lehrstuhl Maschielles Lere Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhas Statistische Sprachmodelle Welche Sätze sid Elemete eier Sprache.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:
MehrTopicmodelle. Gerhard Heyer, Patrick Jähnichen Universität Leipzig. tik.uni-leipzig.de
Topicmodelle Universität Leipzig heyer@informa tik.uni-leipzig.de jaehnichen@informatik.uni-leipzig.de Institut für Informatik Topicmodelle Problem: je mehr Informationen verfügbar sind, desto schwieriger
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
Mehr12. Vorlesung. Statistische Sprachmodelle für Information Retrieval
12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von
MehrEvaluation und Training von HMMs
Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrWahrscheinlichkeitstheorie 2
Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):
MehrBayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrMaschinelle Sprachverarbeitung: Part-of-Speech-Tagging
HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von
MehrDie Probabilistische Methode
Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Übersetzung. Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Übersetzung Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Maschinelle Übersetzung 2 Maschinelle Übersetzung Gegeben Text
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrEinführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen
Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe
MehrMathematische Grundlagen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde
MehrNachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!
Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
MehrZeitreihenanalyse. Seminar Finanzmathematik. Andreas Dienst SS Einleitung - Begrüßung - Motivation - Inhaltsangabe. 2.
Seminar Finanzmathematik - Begrüßung - Motivation - Inhaltsangabe 3. Zusammen - fassung Zeitreihenanalyse Andreas Dienst SS 2006 Zeitreihen: Definition und Motivation - Begrüßung - Motivation - Inhaltsangabe
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrStochastische Lernalgorithmen
Stochastische Lernalgorithmen Gerhard Jäger 14. Mai 2003 Das Maximum-Entropy-Prinzip Der Entropiebegriff Entropie: Chaos, Unordung, Nicht-Vorhersagbarkeit,... Begriff kommt ursprünglich aus der Physik:
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrProbabilistische kontextfreie Grammatiken
Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören
MehrUniversitätsprofessor Dr. rer. nat. habil. Karl-Ernst Biebler und Dr. rer. nat. Bernd Jäger
Die Reihe Biometrie und Medizinische Informatik Greifswalder Seminarberichte wird herausgegeben von: Universitätsprofessor Dr. rer. nat. habil. Karl-Ernst Biebler und Dr. rer. nat. Bernd Jäger Institut
MehrDokumenten- und Topicmodelle. Institut für Informatik
Dokumenten- und Topicmodelle Institut für Informatik Aufbau von Textkorpora Korpus C enthält Menge von D Dokumenten jedes Dokument enthält Menge von N i Wörtern gesamter Korpus enthält Vokabular von V
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
MehrMathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1
Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:
MehrBiostatistik, Sommer 2017
1/39 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Gesetz der großen Zahl, Zentraler Grenzwertsatz Schließende Statistik: Grundlagen Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 16.06.2017
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
MehrBayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrInformation Retrieval,
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von
MehrWahrscheinlichkeitstheorie und Naive Bayes
Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie
MehrFrequentistische Statistik und Bayessche Statistik. Volker Tresp
Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrMaschinelles Lernen II
Maschinelles Lernen II! Vorlesung Computerlinguistische Techniken Alexander Koller! 30. Januar 2015 Heute Überwachtes Lernen: Maximum-Entropy-Modelle Unüberwachtes Lernen: Clustering Maximum Entropy: Motivation
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrDWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrDiskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier
Diskrete Strukturen und Logik WiSe 2007/08 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Diskrete Strukturen und Logik Gesamtübersicht Organisatorisches Einführung Logik & Mengenlehre
MehrWahrscheinlichkeit und Statistik BSc D-INFK
Prof. Dr. P. Embrechts ETH Zürich Sommer 2015 Wahrscheinlichkeit und Statistik BSc D-INFK Name: Vorname: Stud. Nr.: Das Folgende bitte nicht ausfüllen! Aufg. Summe Kontr. Pkte.-Max. 1 10 2 10 3 10 4 10
MehrWahrscheinlichkeitsrechnung und schließende Statistik
Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrReranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart
Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler
Mehr4 Probabilistische Analyse und randomisierte Algorithmen
Algorithmen und Datenstrukturen 96 4 Probabilistische Analyse und randomisierte Algorithmen Bei der Algorithmenanalyse ist es sehr hilfreich, Aspekte berücksichtigen zu können, die vom Zufall abhängen.
MehrAufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).
Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte
MehrMathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur
Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.
MehrSchriftlicher Test Teilklausur 2
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Wie wahrscheinlich ist ein bestimmter
MehrStatistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II
Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte
MehrAufgabe 1 Probabilistische Inferenz
Seite 1 von 9 Aufgabe 1 Probabilistische Inferenz (30 Punkte) In einer medizinischen Studie wurden die Auswirkungen von Metastasen bildenden Karzinomen untersucht. Dabei wurde folgendes festgestellt: Bei
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
MehrWS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.
Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im
Mehr