Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Größe: px

Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse"

Stanislaus Maus
vor 6 Jahren
Abrufe

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse

2 Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags, 10-11:30, (ab ) Montags, 12-13:30 13:30, Heute S21 2

3 Orgnisation Diplom, Bachelor, Master. Ab 5. Semester empfohlen. Sprachtec hnologie 3

4 Organisation Webseite. Kalender. Vorlesungs- und Übungstermine. Blog: Ihre Fragen, Kommentare. Folien: Am Tag nach der Vorlesung im Netz. 4

5 Organisation Übungsaufgaben: Am Tag nach der Vorlesung im Netz. Werden in der darauffolgenden Übung besprochen. Sie können für einzelne Aufgaben votieren. Sie müssen für 2/3 der Aufgaben des Semesters votieren, um die Prüfung abzulegen. Sie rechnen votierte Aufgaben vor. Mündliche Prüfung am Ende des Semesters. 5

6 Literatur Folienkopien auf der Webseite Statistische Sprachverarbeitung: Manning & Schütze: Foundations of Statistical Natural language Processing. MIT Press Spracherkennung: The HTK Book, im Internet verfügbar. Huang, Acero und Hon: Spoken Language Processing. Prentice Hall. Information Retrieval: Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval. Cambridge University Press. 6

7 Inhalt Verarbeitung geschriebener und gesprochener natürlicher Sprache. Spracherkennung, Sprachportale, p Klassifikation, Informationsextraktion. Information Retrieval, Suche, Websuche. 7

8 Mathematische Grundlagen Zufallsvariablen Ein Experiment ist ein definierter Prozess, in dem eine Beobachtung erzeugt wird. Ereignisraum : Alle möglichen Ausgänge Zufallsvariable X: Abbildung des Ereignisraumes auf numerische Werte. P(X=x) = P(A X(A)=x) x). Wahrscheinlichkeitsfunktion P verteilt Wahrscheinlichkeitsmasse 1 auf Elemente in. Sicheres Ereignis: P(X X )=1. Unmögliches Ereignis: P(X )=0. Mathematische Grundlage durch Kolmogoroff Axiome. Log-Likelihood Scheffer/Brückne er, Maschinelles Lernen n Wie wahrscheinlich sind die Daten gegeben das Modell? log P( L fw ) log P( y1,..., y N fw, x1,..., x N ) Annahme: Datenpunkte sind unabhängig gezogen. log P( y1,..., y f, x1,..., x ) log i 1 ' log P( y f i i N P( y f l( f ( x ), y ) w i i i w w w i, x ) i i, x ) N Annahme: spezielle Exponential-verteilung Scheffer/Brückne er, Maschinelles Lernen Multivariate Normalverteilung Merkmalsvektoren x und Mittelwertvektor haben d Dimensionen. Korvarianzmatrix (Größe d x d). Bedeutung von Mittelwert und Kovarianz: Wie sieht die Kovarianzmatrix aus? Schef ffer/brückner, Maschinelles Lernen 31 Bayessche Regression (a) Prior P(w) ) (b) Regressionsgerade, w ; Korridor von zwei Standardabweichungen. (c) Likelihood P( y X, w) (d) Posterior P( w X, y) 39 Sc heffer/brückner, Masch hinelles Lernen

9 Statistische Sprachmodelle Elementares Werkzeug für Spracherkennung, Rechntschreibkorrektur, Auto-Complete, Übersetzung, Wahrscheinlichkeit einer Abfolge von Wörtern. Ich pflücke Beeren vs. Ich pflücke Bären. P ( w,...,, w ) Pw ( ) Pw ( w)... Pw ( w,...,, w) 1 T T T 1 1 Pw ( ) Pw ( w)... Pw ( w, w ) N 1 i T T 1 T N 1 Pw w w Pw w w T (,..., ) (,.. 9 ) i i 1 1 i i 1 i N 1 i N

10 Statistische Sprachmodelle Grammatik, Akzeptor, Parser: Menge der Sätze einer Sprache. Als Mechanismus für Verarbeitung natürlicher Sprache nicht geeignet. Sprache hat keine scharfen Ränder, fast alles ist möglich. Statistisches Sprachmodell, statistische Inferenz. Wahrscheinlichkeit eines Satzes. Wahrscheinlichste Interpretation. 10

11 Markov-Prozesse X 1,..., X n : Zufallsvariablen. Allgemein gilt: P( X n 1,..., X n) P( X1) P( X i X i 1,..., X1) i 2 Zufallsvariablen bilden eine Markovkette, gdw: n P( X,..., X ) P( X ) P( X X 1 n 1 i i 1) i 2 Jede Variable X i nur von Vörgänger X i-1 abhängig. Morkov-Modell: Modell: Probabilistischer endlicher Automat, Folge der Zustände ist Markov-Kette. (Andrei Markov, ) 11

12 Hidden-Markov-Modell Akustisches Modell für Spracherkennung. Zustände emittieren Beobachtungen O t (mit Wahrscheinlichkeit b i (O t )). b 3 ( Äähhh... ) = Neues Thema "(keine Fragen)" "(r/f Antwort)" "Äähhh..."" [.95 ] b = 0.05 [ ] [ 0 ] 10% 5% 1 2 Kapiert 90% 1% 15% 4% 1% 4 Richtige Antwort 90% 3 5 Nicht kapiert 4% Falsche Antwort 80% [ ] 1 b = 0.1 b = 1 0 [ ] [ ] [.9 ] 0 b 0 b =

13 Spracherkennung Spracherkennung: Akustisches + Sprachmodell. arg max ( w arg max 1,..., w ( w 1 T ),..., w P ( w T ) 1,..., w T Signal ) P( Signal w1,..., wt ) P( w1,..., wt ) Akustisches Modell Sprachmodell 13

14 Sprachtechnologie 14 Sprachportale

15 Part-of-Speech Tagging, g Named Entity Recognition, Parsing j ( ) j p, q) P( w1 ( p 1), N pq, w( q 1 m G) Sprachtechnologie j j ( p, q) P( w N, G) pq pq 15

16 Übersetzung Sprachtechnologie Das Fleisch ist willig, aber der Geist ist schwach. EN RUS EN Das Schwein ist fertig, aber der Wodka ist verrottet. 16

17 Vektorraummodell Repräsentation von Texten. Textklassifikation, Clusteranalyse, Textähnlichkeit, Suche. Im Vektorraummodell entspricht jeder Text genau einem Punkt im Raum. Die Wortreihenfolge bleibt dabei unberücksichtigt. Zytoplasmạ.. Aaron 90 Aar 90 Aal 17

18 Textklassifikation, Informationsextraktion t Sprachtechnologie 18

19 Indexstrukturen Schnelle Suche in großen Textsammlungen This is a text. A text has many words. Words are made from letters. Terme Letters Made Many Text words Vorkommen , 19 33, 40 19

20 Linkanalyse Relevanz-Ranking: Analyse der Linkstruktur. Sprachtec hnologie 20

21 Crawling Welche URL wann besuchen? Endlos-URLs, dynamische Seiteninhalte. Aktualisierungshäufigkeiten und Zeitpunkte. Identische Seiten. Link-Spam. 21

22 Sprachtechnologie 22 Websuche

23 Sprachtechnologie 23 Fragen?

Ähnliche Dokumente

Information Retrieval,

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von