Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Größe: px

Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans"

Minna Kramer
vor 5 Jahren
Abrufe

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans

2 Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte Übung: Mo 14:00-15:30 Vorlesung : Mo 12:00-13:30 Raum:

3 Organisation Zielgruppen: Diplom, Bachelor. Master. 3

4 Organisation Webseite: Institut für Informatik > Professuren > Informatik/Maschinelles Lernen > Folien: Vorlesung Sprachtechnologie Am Tag nach der Vorlesung auf der Webseite. Übungen: Eine Woche im voraus auf der Webseite. 4

5 Organisation Übungsaufgaben: Am Tag nach der Vorlesung im Netz. Werden in der darauffolgenden Übung besprochen. Sie können für einzelne Aufgaben votieren. Sie müssen für 2/3 der Aufgaben des Semesters votieren, um die Prüfung ablegen zu können. Sie rechnen votierte Aufgaben vor. Erste Übung: Mündliche Prüfung am Ende des Semesters. 5

6 Literatur Folienkopien auf der Webseite Statistische Sprachverarbeitung: Manning & Schütze: Foundations of Statistical Natural Language Processing. MIT Press Spracherkennung: The HTK Book, im Internet verfügbar. Speech Recognition Toolkit Huang, Acero und Hon: Spoken Language Processing. Prentice Hall. Information Retrieval: Manning, Raghavan, Schütze: Introduction to Information Retrieval. Cambridge University Press. 6

7 Inhalt Verarbeitung geschriebener und gesprochener natürlicher Sprache. Sprachmodelle Spracherkennung Spracherzeugung Klassifikation Übersetzung Themenmodelle Informationsextraktion Suche 7

8 Mathematische Grundlagen 8

9 Statistische Sprachmodelle Elementares Werkzeug für Spracherkennung, Rechtschreibkorrektur, Auto-Complete, Übersetzung, Wahrscheinlichkeit einer Abfolge von Wörtern. Ich pflücke Beeren vs. Ich pflücke Bären. P( w,..., w ) P( w ) P( w w )... P( w w,..., w ) 1 T T T 1 1 P( w ) P( w w )... P( w w, w ) N T T 1 T N 1 P w w w P w w w T (,..., ) (,.. 9 ) i i 1 1 i i 1 i N 1

10 Statistische Sprachmodelle Grammatik, Akzeptor, Parser: Menge der Sätze einer Sprache. Als Mechanismus für Verarbeitung natürlicher Sprache nicht geeignet. Sprache hat keine scharfen Ränder, fast alles ist möglich. Statistisches Sprachmodell, statistische Inferenz. Wahrscheinlichkeit eines Satzes. Wahrscheinlichste Interpretation. 10

11 Markov-Prozesse X 1,..., X n : Zufallsvariablen. Allgemein gilt: P( X Zufallsvariablen bilden eine Markovkette, gdw: n P( X,..., X ) P( X ) P( X X Jede Variable X i nur von Vorgänger X i-1 abhängig. Markov-Modell: Probabilistischer endlicher Automat, Folge der Zustände ist Markov-Kette. n 1,..., X n) P( X1) P( X i X i 1,..., X1) i 2 1 n 1 i i 1) i 2 (Andrei Markov, ) 11

12 Hidden-Markov-Modell Akustisches Modell für Spracherkennung. Zustände emittieren Beobachtungen O t (mit Wahrscheinlichkeit b i (O t )). b 3 ( Äähhh... ) = Neues Thema [ ] "(keine Fragen)" "(r/f Antwort)" "Äähhh..." [.95 ] b = % 90% 5% 1 2 Kapiert 3 Nicht kapiert 90% 1% 15% 80% [.9 ] 1 b = 0.1 4% 4% 1% 4 Richtige Antwort 5 Falsche Antwort [ 0 ] b = 1 0 [ 0 ] b =

13 Part-of-Speech Tagging, Parsing j ( ) j p, q) P( w1 ( p 1), N pq, w( q 1 m G) Outside NP Die N große braune j j ( p, q) P( w N, G) pq Inside pq N N Kiste 13

14 Named Entity Recognition 14

15 Übersetzung 15

16 Vektorraummodell Repräsentation von Texten. Textklassifikation, Clusteranalyse, Textähnlichkeit, Suche. Zytoplasma... Aaron 90 Aar 90 Aal Im Vek torraummodell entspricht jeder Text ge nau e inem Pu nkt im Rau m. Die Wort - r ei he nfol ge bl ei bt d a be i un b e rü c k - sichtigt. 16

17 Textklassifikation, Informationsextraktion 17

18 Themenmodelle Zuordnung Themen Wörter eines Dokuments Organisation von Dokumentensammlung anhand enthaltener Themen Probabilistisches Modell: LDA 18

19 Indexstrukturen Schnelle Suche in großen Textsammlungen This is a text. A text has many words. Words are made from letters. Terme Vorkommen Letters 60 Made 50 Many 28 Text 11, 19 words 33, 40 Letters: 60 Made: 50 l d a m n Many: 28 t Text: 11,19 w Words:33,40 19

20 Spracherkennung und -erzeugung Spracherkennung: Akustisches Modell + Sprachmodell arg max ( w,..., w 1 arg max ) ( w,..., w 1 T P( w,..., w T ) Textanalyse und Signalerzeugung 1 Signal ) P( Signal w1,..., wt ) P( w1,..., wt ) Akustisches Modell Sprachmodell Anwendung: Sprachportale T Zustand 1 P[ Zustand 1] 10% 90% Zustand 2 5% 1 Zustand % 1% 15% 80% 4% 4% 1% Zustand 4 Zustand 5 20

21 Websuche Crawling: Welche URL wann besuchen? Endlos-URLs, dynamische Seiteninhalte. Aktualisierungshäufigkeiten und Zeitpunkte. Identische Seiten. Link-Spam. Relevanz-Ranking: Analyse der Linkstruktur. 21

22 Fragen? (diese Woche noch keine Übungsaufgaben, nächste Woche noch keine Übung) Erster Übungstermin:

Ähnliche Dokumente

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,