Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008
|
|
- Louisa Böhler
- vor 7 Jahren
- Abrufe
Transkript
1 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München 16. Juli 2008
2 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation Inhalt 1
3 Einleitung Klassifikation auf Grundlage von Wahrscheinlichkeiten Zielfunktion: wähle die im jeweiligen Kontext wahrscheinlichste Alternative Einleitung 2
4 Grundlagen der Wahrscheinlichkeitsrechnung Grundbegriffe Stichprobe S: Menge von Beobachtungen z.b. Text hallo Herr Kaiser, in der die Wörter hallo, Herr und Kaiser beobachtet werden; S = { hallo, Herr, Kaiser }. Grundgesamtheit G: Eine Stichprobe S ist Teilmenge einer Grundgesamtheit (Population). G bezeichnet die Menge aller potentiellen Untersuchungsobjekte für eine bestimmte Fragestellung; z.b. Sammlung aller Wortfolgen der Länge n in einer Sprache. Zufallsvariable: Variable X, die mit bestimmten Wahrscheinlichkeiten bestimmte Werte annimmt, z.b. X := Wort tritt auf mit den Werten hallo, Herr und Kaiser. Grundlagen 3
5 Ereignis: Belegung der Zufallsvariablen X mit einem bestimmten Wert w. E : X = w. Ereignisraum σ Menge aller möglichen Ereignisse σ = {X = hallo, X = Herr, X = Kaiser } Wahrscheinlichkeit P(w): Zahl zwischen 0 (Unmöglichkeit eines Ereignisses) und 1 (Sicherheit eines Ereignisses) Da i.d.r. nur S, nicht aber G gegeben ist, kann die P (w) 1 nicht unmittelbar ermittelt, sondern nur geschätzt (s.u.) werden. Wahrscheinlichkeitsverteilung P: Funktion, die eine Wahrscheinlichkeitsmasse 1 über den Ereignisraum σ verteilt: P (σ) = 1; Gleichverteilung im Hallo Herr Kaiser -Beispiel: alle Ereignisse sind gleich wahrscheinlich, nämlich gleich P (w) ist eine übliche Abkürzung von P (X = w). Grundlagen 4
6 Maximum-Likelihood-Schätzung P (w) wird im einfachsten Fall geschätzt mit der relativen Häufigkeit von w: P (w) = #(w) N. #(w) ist die beobachtete Häufigkeit von Ereignis (z.b. Wort) w, N ist die Größe der Stichprobe S (z.b. Textlänge). z.b.: P ( hallo ) = 1 3. In S ungesehenen (in G aber möglichen) Ereignissen wird damit keine Wahrscheinlichkeitsmasse zugewiesen. Abhilfe: Smoothing von P (Discounting: Reduzierung der Wahrscheinlichkeiten von in S enthaltener Ereignisse). Grundlagen 5
7 Bedingte Wahrscheinlichkeit, Kettenregel Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit, mit der Ereignis A eintritt, wenn Ereignis B beobachtet wurde P (A B) = P (A, B) P (B) = #(A,B) N #(B) N = #(A, B) #(B) (1) Kettenregel: Durch Umformulieren von Gleichung 1 erhalten wir: P (A, B) = P (B)P (A B) (2) Die Generalisierung auf mehr als zwei Ereignisse ergibt die für die Sprachmodellierung wichtige Kettenregel: P (w 1,..., w n ) = P (w 1 )P (w 2 w 1 )P (w 3 w 1, w 2 )... P (w n w 1,..., w n 1 ) (3) Diese Regel gibt uns die Wahrscheinlichkeit eines Textes, der aus der Wortfolge w 1, w 2,..., w n besteht. Grundlagen 6
8 Satz von Bayes Verfahren, mit dem eine angenommene A-priori-Wahrscheinlichkeit P (A) für ein Ereignis A in eine durch weitere empirische Daten gestützte A-posteriori-Wahrscheinlichkeit P (A B) überführt wird. P (B A)P (A) P (A B) = (4) P (B) in der Sprachtechnologie häufig genutzter Effekt: Abhängigkeiten von A und B werden umgedreht Grundlagen 7
9 Unabhängigkeit P (A B) = P (A) Dies führt zur (häufig notwendigen) Vereinfachung diverser Berechnungen: P (A, B) = P (A)P (B) (5) P (A 1,..., A n ) = P (A 1 )P (A 2 )... P (A n ) (6) P (A, B C) = P (A C)P (B C) (7) Gleichung 6: Vereinfachung der Kettenregel Gleichung 7: konditionelle Unabhängigkeit von A und B Naiver Bayes scher Klassifikator: Kombination von Bayes mit Unabhängigkeitsannahme Grundlagen 8
10 Noisy-Channel-Modell Formaler Rahmen für eine Vielzahl von sprachtechnologischen Problemen (maschinelle Übersetzung, POS-Tagging) W Encoder I Noisy Channel O Decoder Ŵ Abbildung 1: Noisy-Channel-Modell Nachricht W wird encodiert und als Code I durch einen Kanal gesendet wird Der Kanal ist verrauscht, daher kommt der Code auf der anderen Seite verfremdet als Code O heraus. Auf Grundlage von O muss die Nachricht W rekonstruiert werden (Nachrichtenrekonstruierung Ŵ ). Der Empfänger kennt nur Code O, nicht aber Code I. Zum Erhalt von I (und falls gewünscht, auch von W ), muß er dasjenige I suchen, womit P (I O) maximiert wird. Noisy-Channel-Modell 9
11 Berechnung Î = arg max I = arg max I [ P (I O) ] [ P (O I)P (I) ] (8) Ausnutzung des Bayes schen Satzes, sowie der Tatsache, dass P (O) konstant ist und damit nichts zur Maximierung beiträgt Noisy-Channel-Modell 10
12 Bayes sche Klassifikation Beispiel: Klassifikation von Wortsequenzen W in Dialogakte D beobachteter Code O: Wortfolge W zugrundeliegender Code I: D-Sequenz [ ] ˆD = arg max P (W D)P (D) D (9) Berechnung von P (D) Gemäß Kettenregel (für eine Sequenz von k Dialogakten): P (D) = P (d 1,..., d k ) k = P (d 1 )P (d 2 d 1 ) P (d i d i m,..., d i 1 ) (10) i=3 Bayes sche Klassifikation 11
13 nicht berechenbar, da für lange Dialogaktvorgeschichten keine verlässlichen Häufigkeitswerte ermittelt werden können Lösung: Markov-Annahme. Beschränkung der Vorgeschichte auf die vorangehenden m Dialogakte P (d 1,..., d k ) = P (d 1 )P (d 2 d 1 ) k P (d i d i m,..., d i 1 ) (11) Bigramme (m=1, Markovkette 1. Ordnung), Trigramme (m=2), etc. Berechnung von n-gramm-wahrscheinlichkeiten (Beispiel: Bigramm) i=3 P (d i d i 1 ) = #(d i 1 d i ) x #(d i 1d x ) = #(d i 1d i ) #(d i 1 ) (12) Bayes sche Klassifikation 12
14 Berechnung von P (W D) Zerlegung in Wortsequenz-Segmente ws i, beispielsweise an Satzzeichen W= hallo, wie geht s? ws 1 = hallo, ws 2 = wie geht s Vereinfachende Annahme: Wahrscheinlichkeit jedes ws i hängt nur von Dialogakt d i ab: P (W D) = i P (ws i d i ) P (ws d) := P d (ws), d.h. für jeden Dialogakt d eigene Berechnung eines Wahrscheinlichkeitsmodells P d für Wortsequenzen nach dem Muster von Gleichung 11 P d (ws) = P d (w 1,..., w k ) k = P d (w 1 )P d (w 2 w 1 ) P d (w i w i m,..., w i 1 ) (13) i=3 Bayes sche Klassifikation 13
15 Implementierung Hidden-Markov-Modell (HMM) HMM = < Q, K, A, B > bestehend aus: Menge von Zuständen Q = {q i } Ausgabealphabet K Übergangswahrscheinlichkeiten A = {a ij}: von Zustand i zu Zustand j Emissionswahrscheinlichkeiten (observation likelihoods) B = {b jot }: im Zustand j für Beobachtung o t Bezogen auf die Dialogaktklassifikation: P (D): Übergangswahrscheinlichkeiten zwischen Dialogakten P (W D): Emissionswahrscheinlichkeiten für Wortsequenzen gegeben zugrundeliegende Dialogakte Implementierung 14
16 Viterbi-Algorithmus Ziel: Finde denjenigen Pfad durch das HMM, der der beobachteten Wortsequenz W am wahrscheinlichsten zugrundeliegt Hintergrund Dynamische Programmierung: Suche des optimalen Pfades durch eine Tabelle durch sukzessive Ermittlung der Tabellenwerte Tabelle hier: Trellis (ein Zustand-Zeitpunkt-Gitter: ein Knoten entspricht einem Zustand des Modells zu einem bestimmten Zeitpunkt) In jedem Knoten k j (t) der Trellis für Dialogakt j und Zeitpunkt t wird folgendes notiert: die Wahrscheinlichkeit δ j (t) des bis hierhin wahrscheinlichsten Pfads, der Vorgängerknoten auf diesem Pfad. Implementierung 15
17 Ermittlung der δ j (t) s: Initialisierung: δ j (1) = b jo1 Induktion: 2 δ j (t) = max i [ δi (t 1)a ij b jot ] 2 Induktion (informell): Fortführung eines für n gültigen Sachverhalts mit n + 1. Implementierung 16
18 Konkretes Vorgehen Training ermittle anhand eines Trainingskorpus ein N-Gramm-Modell für Dialogaktsequenzen: P (d d history) ermittle für jeden Dialogakt d ein separates N-Gramm-Modell für Wortfolgen: P d (w w history) trainiere ein HMM auf Grundlage dieser Wahrscheinlichkeiten (Baum-Welch-Algorithmus, vgl. Skript Statistische Sprachmodelle) HMM mit Übergangswahrscheinlichkeiten ( P (d d history)) und Emissionswahrscheinlichkeiten ( P d (w w history)) Konkretes Vorgehen 17
19 Anwendung Segmentiere eine Wortfolge (beispielsweise an Satzzeichen oder Turngrenzen) Berechne mittels des Viterbi-Verfahrens, den wahrscheinlichsten Pfad durch das HMM zur Erzeugung dieser segmentierten Wortfolge. Klassifikationsergebnis: die auf diesem Pfad zurückgelegte Dialogaktsequenz. Ohne Vorsegmentierung: Berechne für diverse Segmentierungen den wahrscheinlichsten Pfad durch das HMM und wähle dann den global wahrscheinlichsten aus. Konkretes Vorgehen 18
Statistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen
MehrSEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.
SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit
MehrTagging mit Hidden Markov Models und Viterbi-Algorithmus
Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:
MehrProjektgruppe. Text Labeling mit Sequenzmodellen
Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:
MehrDialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy
Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus
MehrStatistische Sprachmodelle. Uwe Reichel
Statistische Sprachmodelle Uwe Reichel 12. Juli 2010 Inhaltsverzeichnis 1 Einleitung 3 2 Wahrscheinlichkeitstheorie 5 2.1 Grundbegriffe........................... 5 2.2 Bedingte Wahrscheinlichkeit, Kettenregel............
MehrWahrscheinlichkeitstheorie und Naive Bayes
Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie
MehrEinführung in die Wahrscheinlichkeitsrechnung
Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze
MehrKapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen
Kapitel ML:IV IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-1 Statistical Learning c STEIN 2005-2011 Definition 1 (Zufallsexperiment,
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrHMM-Synthese (Grundzüge)
(Grundzüge) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 6. Dezember 2010 Inhalt HMM-Grundlagen HMM und Phonemerkennung HMM-Grundlagen
MehrP (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.
2 Wahrscheinlichkeitstheorie Beispiel. Wie wahrscheinlich ist es, eine Zwei oder eine Drei gewürfelt zu haben, wenn wir schon wissen, dass wir eine ungerade Zahl gewürfelt haben? Dann ist Ereignis A das
MehrMaschinelle Sprachverarbeitung: N-Gramm-Modelle
HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
MehrNaive Bayes. Naive Bayes
Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das
MehrMathematische Grundlagen III
Mathematische Grundlagen III Informationstheorie Vera Demberg Universität des Saarlandes 26. Juni 202 Vera Demberg (UdS) Mathe III 26. Juni 202 / 43 Informationstheorie Entropie (H) Wie viel Information
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan Rosendahl, Jan-Thorsten Peter, Andreas Guta max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 6. Aufgabe 14. Juli 2017 Human Language Technology
MehrStatistische Verfahren in der Computerlinguistik
Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende
MehrStochastik für Ingenieure
Otto-von-Guericke-Universität Magdeburg Fakultät für Mathematik Institut für Mathematische Stochastik Stochastik für Ingenieure (Vorlesungsmanuskript) von apl.prof. Dr. Waltraud Kahle Empfehlenswerte Bücher:
MehrBeurteilende Statistik
Beurteilende Statistik Wahrscheinlichkeitsrechnung und Beurteilende Statistik was ist der Unterschied zwischen den beiden Bereichen? In der Wahrscheinlichkeitstheorie werden aus gegebenen Wahrscheinlichkeiten
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrMathematische Grundlagen (Bayes sches Lernen)
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen (Bayes sches Lernen) Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Anwendungsbeispiel 1: Diagnostik
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrMaschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008
Maschinelles Lernen I Einführung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 22. April 2008 Inhalt Einführung Lernen Maschinelle Lernverfahren im Überblick Phonetische Anwendungsbeispiele
MehrFriedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong
Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt
MehrEinführung in die Computerlinguistik
Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05 Spracherkennung Merkmalsextraktion
MehrZusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen
Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind
MehrVorkurs Mathematik. Christoph Hindermann. Wahrscheinlichkeitstheorie
Kapitel 4 Christoph Hindermann Vorkurs Mathematik 1 4.0 Motivation Wenn 100 Münzen geworfen werden, wie ist dann die Wahrscheinlichkeit, dass genau 50 davon Kopf zeigen? Angenommen, es befinden sich 300
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrBayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
Mehr1 Part-of-Speech Tagging
2. Übung zur Vorlesung NLP Analyse des Wissensrohstoes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 28. Mai 2008 1 Part-of-Speech
MehrGrundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt
Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
MehrElementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung
Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Review)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review) 1 Diskrete Zufallsvariablen (Random variables) Eine Zufallsvariable X(c) ist eine Variable (genauer eine Funktion), deren Wert vom Ergebnis c
MehrDer VITERBI-Algorithmus
Der VITERBI-Algorithmus Hauptseminar Parsing Sommersemester 2002 Lehrstuhl für Computerlinguistik Universität Heidelberg Thorsten Beinhorn http://janus.cl.uni-heidelberg.de/~beinhorn 2 Inhalt Ziel des
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrHidden Markov Modelle
Hidden Markov Modelle in der Sprachverarbeitung Paul Gabriel paul@pogo.franken.de Seminar Sprachdialogsysteme: Hidden Markov Modelle p.1/3 Überblick Merkmalsvektoren Stochastischer Prozess Markov-Ketten
MehrGrundlegende Eigenschaften von Punktschätzern
Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur
MehrWahrscheinlichkeitstheorie und Statistik
Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
Mehr6: Diskrete Wahrscheinlichkeit
Stefan Lucks Diskrete Strukturen (WS 2009/10) 219 6: Diskrete Wahrscheinlichkeit 6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 220 Wahrscheinlichkeitsrechnung Eines der wichtigsten
MehrDer Viterbi Algorithmus
M. 23.Juli.2007 Gliederung 1 2 3 Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes entwickelt Auf Basis von entwickelt Erfinder Andrew J. Viterbi 1967 zur Dekodierung von Faltungscodes
MehrMathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1
Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:
MehrHMMs und der Viterbi-Algorithmus
July 8, 2015 Das Problem Wir haben gesehen: wir können P( w q)p( q) ohne große Probleme ausrechnen ( w = b 1...b i, q = q 1...q i. P( w q)p( q) = π(q 1 )τ(b 1, q 1 )δ(q 1, q 2 )τ(b 2, q 2 )...δ(q i 1,
Mehr3. Grundbegriffe der Wahrscheinlichkeitstheorie
03. JULI 2006: BLATT 17 3. Grundbegriffe der Wahrscheinlichkeitstheorie (v.a. nach Manning/Schütze: 40ff und Fahrmeir /Künstler/Pigeot/Tutz: 171ff) Übersicht Um entscheiden zu können, ob eine statistische
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
MehrGrundbegriffe der Wahrscheinlichkeitsrechnung
Algorithmen und Datenstrukturen 349 A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich.
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrPopulation und Stichprobe Wahrscheinlichkeitstheorie II
Population und Stichprobe Wahrscheinlichkeitstheorie II 5. Sitzung 1 S. Peter Schmidt 2003 1 Stichprobenziehung als Zufallsexperiment Definition Stichprobe: Teilmenge der Elemente der Grundgesamtheit bzw.
MehrStatistische Methoden für Bauingenieure WS 2013/14. Literatur
Statistische Methoden für Bauingenieure WS 2013/14 Einheit 1: Einführung in die Wahrscheinlichkeitstheorie Univ.Prof. Dr. Christian Bucher Literatur C. Bucher: Computational analysis of randomness in structural
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrKapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen
Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population
Mehr10.5 Maximum-Likelihood Klassifikation (I)
Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem
MehrDer Viterbi-Algorithmus im Part-of-Speech Tagging
Der Viterbi-Algorithmus im Part-of-Speech Tagging Kursfolien Karin Haenelt 1 Themen Zweck des Viterbi-Algorithmus Hidden Markov Model Formale Spezifikation Beispiel Arc Emission Model State Emission Model
MehrBayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
MehrPopulation und Stichprobe: Wahrscheinlichkeitstheorie
Population und Stichprobe: Wahrscheinlichkeitstheorie SS 2001 4. Sitzung vom 15.05.2001 Wahrscheinlichkeitstheorie in den Sozialwissenschaften: Stichprobenziehung: Aussagen über Stichprobenzusammensetzung
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
Mehr1.4 Zufallsvariablen und ihre Verteilung
1.4.1 Diskrete Zufallsvariablen Ein Zufallsexperiment wird beschrieben durch einen Grundraum Ω und eine Wahrscheinlichkeit P auf Ω. Häufig interessieren nicht die Ergebnisse an sich, sondern bestimmte
MehrAutomatisches Verstehen gesprochener Sprache
Automatisches Verstehen gesprochener Sprache 3. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrDiskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier
Diskrete Strukturen und Logik WiSe 2007/08 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Diskrete Strukturen und Logik Gesamtübersicht Organisatorisches Einführung Logik & Mengenlehre
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrWahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung
Wahrscheinlichkeitsrechnung und Statistik 8. Vorlesung - 208 ) Monte Carlo Methode für numerische Integration Sei g : [0, ] R stetige Funktion; man möchte numerisch approximieren mit Hilfe von Zufallszahlen:
MehrA3.9: Viterbi Algorithmus: Grundlegendes
A3.9: Viterbi Algorithmus: Grundlegendes Die Grafik zeigt ein Trellisdiagramm und definiert gleichzeitig die Fehlergrößen Γ i (S 0 ) und Γ i (S 1 ) zu den Zeitpunkten i = 0 bis i = 5. Aus diesem Trellis
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
MehrStatistik mit MATHCAD und MATLAB
Hans Benker Statistik mit MATHCAD und MATLAB Einführung in die Wahrscheinlichkeitsrechnung und mathematische Statistik für Ingenieure und Naturwissenschaftler Mit 31 Abbildungen Springer Einleitung 1 1.1
Mehr1. Eigenschaften einer Zufallsstichprobe
1. Eigenschaften einer Zufallsstichprobe 1.1 Grundkonzepte Definition 1.1.1: Man nennt die Zufallsvariablen X 1,..., X n zufällige Stichprobe oder Zufallsstichprobe vom Umfang n aus der Population (Grundgesamtheit)
Mehr1 Wahrscheinlichkeitsrechnung und Zufallsvariablen
1 Wahrscheinlichkeitsrechnung und Zufallsvariablen Zoltán Zomotor Versionsstand: 18. Mai 2015, 09:29 Die nummerierten Felder bitte während der Vorlesung ausfüllen. This work is licensed under the Creative
MehrEinführung in das Maschinelle Lernen I
Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) 1 Zusammenfassung Bedingte Verteilung: P (y x) = P (x, y) P (x) mit P (x) > 0 Produktsatz P (x, y) = P (x y)p (y) = P (y x)p (x) Kettenregel
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
MehrSprachsynthese: Part-of-Speech-Tagging
Sprachsynthese: Part-of-Speech-Tagging (Änderungen von F. Schiel 2016) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu schiel@phonetik.uni-muenchen.de 2. November
MehrKapitel ML:IV (Fortsetzung)
Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)
Mehr73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments
73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind
MehrÜbungsblätter zu Methoden der Empirischen Sozialforschung III: Inferenzstatistik. Lösungsblatt zu Nr. 2
Martin-Luther-Universität Halle-Wittenberg Institut für Soziologie Dr. Wolfgang Langer 1 Übungsblätter zu Methoden der Empirischen Sozialforschung III: Inferenzstatistik Lösungsblatt zu Nr. 2 1. Für die
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrAllgemeine diskrete Wahrscheinlichkeitsräume II
6 Diskrete Wahrscheinlichkeitsräume Allgemeine diskrete Wahrscheinlichkeitsräume 6.3 Allgemeine diskrete Wahrscheinlichkeitsräume I Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete
MehrAllgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)
Allgemeine diskrete Wahrscheinlichkeitsräume I Allgemeine diskrete Wahrscheinlichkeitsräume II Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete Wahrscheinlichkeitsräume Ω endlich
MehrAllgemeine diskrete Wahrscheinlichkeitsräume I
6 Diskrete Wahrscheinlichkeitsräume Allgemeine diskrete Wahrscheinlichkeitsräume 6.3 Allgemeine diskrete Wahrscheinlichkeitsräume I Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete
MehrStochastische Unabhängigkeit. 01. Dezember 2014
Stochastische Unabhängigkeit 0. Dezember 204 Der Begriff der Unabhängigkeit Großbritannien, im November 999. Die Anwältin Sally Clark wird wegen Mordes an ihren Kindern angeklagt. Clark geriet unter Verdacht
MehrBiostatistik, Sommer 2017
1/39 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Gesetz der großen Zahl, Zentraler Grenzwertsatz Schließende Statistik: Grundlagen Prof. Dr. Achim Klenke http://www.aklenke.de 9. Vorlesung: 16.06.2017
MehrZufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen
Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Wichtige Tatsachen und Formeln zur Vorlesung Mathematische Grundlagen für das Physikstudium 3 Franz Embacher http://homepage.univie.ac.at/franz.embacher/
MehrPhonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München
Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger
MehrMaschinelle Sprachverarbeitung
Maschinelle Sprachverarbeitung Übung Aufgabe 5: Gen-Erkennung mit Maschinellen Lernen Mario Sänger Problemstellung Erkennung von Genen in Texten NEU: Beachtung von Multi-Token-Entitäten (B-/I-protein)
Mehr