Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Größe: px
Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse

2 Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags, 10-11:30, (ab ) Montags, 12-13:30 13:30, Heute S21 2

3 Orgnisation Diplom, Bachelor, Master. Ab 5. Semester empfohlen. Sprachtec hnologie 3

4 Organisation Webseite. Kalender. Vorlesungs- und Übungstermine. Blog: Ihre Fragen, Kommentare. Folien: Am Tag nach der Vorlesung im Netz. 4

5 Organisation Übungsaufgaben: Am Tag nach der Vorlesung im Netz. Werden in der darauffolgenden Übung besprochen. Sie können für einzelne Aufgaben votieren. Sie müssen für 2/3 der Aufgaben des Semesters votieren, um die Prüfung abzulegen. Sie rechnen votierte Aufgaben vor. Mündliche Prüfung am Ende des Semesters. 5

6 Literatur Folienkopien auf der Webseite Statistische Sprachverarbeitung: Manning & Schütze: Foundations of Statistical Natural language Processing. MIT Press Spracherkennung: The HTK Book, im Internet verfügbar. Huang, Acero und Hon: Spoken Language Processing. Prentice Hall. Information Retrieval: Christopher Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval. Cambridge University Press. 6

7 Inhalt Verarbeitung geschriebener und gesprochener natürlicher Sprache. Spracherkennung, Sprachportale, p Klassifikation, Informationsextraktion. Information Retrieval, Suche, Websuche. 7

8 Mathematische Grundlagen Zufallsvariablen Ein Experiment ist ein definierter Prozess, in dem eine Beobachtung erzeugt wird. Ereignisraum : Alle möglichen Ausgänge Zufallsvariable X: Abbildung des Ereignisraumes auf numerische Werte. P(X=x) = P(A X(A)=x) x). Wahrscheinlichkeitsfunktion P verteilt Wahrscheinlichkeitsmasse 1 auf Elemente in. Sicheres Ereignis: P(X X )=1. Unmögliches Ereignis: P(X )=0. Mathematische Grundlage durch Kolmogoroff Axiome. Log-Likelihood Scheffer/Brückne er, Maschinelles Lernen n Wie wahrscheinlich sind die Daten gegeben das Modell? log P( L fw ) log P( y1,..., y N fw, x1,..., x N ) Annahme: Datenpunkte sind unabhängig gezogen. log P( y1,..., y f, x1,..., x ) log i 1 ' log P( y f i i N P( y f l( f ( x ), y ) w i i i w w w i, x ) i i, x ) N Annahme: spezielle Exponential-verteilung Scheffer/Brückne er, Maschinelles Lernen Multivariate Normalverteilung Merkmalsvektoren x und Mittelwertvektor haben d Dimensionen. Korvarianzmatrix (Größe d x d). Bedeutung von Mittelwert und Kovarianz: Wie sieht die Kovarianzmatrix aus? Schef ffer/brückner, Maschinelles Lernen 31 Bayessche Regression (a) Prior P(w) ) (b) Regressionsgerade, w ; Korridor von zwei Standardabweichungen. (c) Likelihood P( y X, w) (d) Posterior P( w X, y) 39 Sc heffer/brückner, Masch hinelles Lernen

9 Statistische Sprachmodelle Elementares Werkzeug für Spracherkennung, Rechntschreibkorrektur, Auto-Complete, Übersetzung, Wahrscheinlichkeit einer Abfolge von Wörtern. Ich pflücke Beeren vs. Ich pflücke Bären. P ( w,...,, w ) Pw ( ) Pw ( w)... Pw ( w,...,, w) 1 T T T 1 1 Pw ( ) Pw ( w)... Pw ( w, w ) N 1 i T T 1 T N 1 Pw w w Pw w w T (,..., ) (,.. 9 ) i i 1 1 i i 1 i N 1 i N

10 Statistische Sprachmodelle Grammatik, Akzeptor, Parser: Menge der Sätze einer Sprache. Als Mechanismus für Verarbeitung natürlicher Sprache nicht geeignet. Sprache hat keine scharfen Ränder, fast alles ist möglich. Statistisches Sprachmodell, statistische Inferenz. Wahrscheinlichkeit eines Satzes. Wahrscheinlichste Interpretation. 10

11 Markov-Prozesse X 1,..., X n : Zufallsvariablen. Allgemein gilt: P( X n 1,..., X n) P( X1) P( X i X i 1,..., X1) i 2 Zufallsvariablen bilden eine Markovkette, gdw: n P( X,..., X ) P( X ) P( X X 1 n 1 i i 1) i 2 Jede Variable X i nur von Vörgänger X i-1 abhängig. Morkov-Modell: Modell: Probabilistischer endlicher Automat, Folge der Zustände ist Markov-Kette. (Andrei Markov, ) 11

12 Hidden-Markov-Modell Akustisches Modell für Spracherkennung. Zustände emittieren Beobachtungen O t (mit Wahrscheinlichkeit b i (O t )). b 3 ( Äähhh... ) = Neues Thema "(keine Fragen)" "(r/f Antwort)" "Äähhh..."" [.95 ] b = 0.05 [ ] [ 0 ] 10% 5% 1 2 Kapiert 90% 1% 15% 4% 1% 4 Richtige Antwort 90% 3 5 Nicht kapiert 4% Falsche Antwort 80% [ ] 1 b = 0.1 b = 1 0 [ ] [ ] [.9 ] 0 b 0 b =

13 Spracherkennung Spracherkennung: Akustisches + Sprachmodell. arg max ( w arg max 1,..., w ( w 1 T ),..., w P ( w T ) 1,..., w T Signal ) P( Signal w1,..., wt ) P( w1,..., wt ) Akustisches Modell Sprachmodell 13

14 Sprachtechnologie 14 Sprachportale

15 Part-of-Speech Tagging, g Named Entity Recognition, Parsing j ( ) j p, q) P( w1 ( p 1), N pq, w( q 1 m G) Sprachtechnologie j j ( p, q) P( w N, G) pq pq 15

16 Übersetzung Sprachtechnologie Das Fleisch ist willig, aber der Geist ist schwach. EN RUS EN Das Schwein ist fertig, aber der Wodka ist verrottet. 16

17 Vektorraummodell Repräsentation von Texten. Textklassifikation, Clusteranalyse, Textähnlichkeit, Suche. Im Vektorraummodell entspricht jeder Text genau einem Punkt im Raum. Die Wortreihenfolge bleibt dabei unberücksichtigt. Zytoplasmạ.. Aaron 90 Aar 90 Aal 17

18 Textklassifikation, Informationsextraktion t Sprachtechnologie 18

19 Indexstrukturen Schnelle Suche in großen Textsammlungen This is a text. A text has many words. Words are made from letters. Terme Letters Made Many Text words Vorkommen , 19 33, 40 19

20 Linkanalyse Relevanz-Ranking: Analyse der Linkstruktur. Sprachtec hnologie 20

21 Crawling Welche URL wann besuchen? Endlos-URLs, dynamische Seiteninhalte. Aktualisierungshäufigkeiten und Zeitpunkte. Identische Seiten. Link-Spam. 21

22 Sprachtechnologie 22 Websuche

23 Sprachtechnologie 23 Fragen?

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung Kursfolien Karin Haenelt 1 Übersicht Wahrscheinlichkeitsfunktion P Wahrscheinlichkeit und bedingte Wahrscheinlichkeit Bayes-Formeln

Mehr

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Part-Of-Speech-Tagging mit Viterbi Algorithmus Part-Of-Speech-Tagging mit Viterbi Algorithmus HS Endliche Automaten Inna Nickel, Julia Konstantinova 19.07.2010 1 / 21 Gliederung 1 Motivation 2 Theoretische Grundlagen Hidden Markov Model Viterbi Algorithmus

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Lehrinhalte Statistik (Sozialwissenschaften)

Lehrinhalte Statistik (Sozialwissenschaften) Lehrinhalte Technische Universität Dresden Institut für Mathematische Stochastik Dresden, 13. November 2007 Seit 2004 Vorlesungen durch Klaus Th. Hess und Hans Otfried Müller. Statistik I: Beschreibende

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung 2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung Die einfachste Verteilung ist die Gleichverteilung, bei der P(X = x i ) = 1/N gilt, wenn N die Anzahl möglicher Realisierungen von

Mehr

Vorlesung Modellierung nebenläufiger Systeme Sommersemester 2014 Universität Duisburg-Essen

Vorlesung Modellierung nebenläufiger Systeme Sommersemester 2014 Universität Duisburg-Essen Vorlesung Modellierung nebenläufiger Systeme Sommersemester 2014 Universität Duisburg-Essen Barbara König Übungsleitung: Sebastian Küpper Barbara König Vorlesung Modellierung nebenläufiger Systeme 1 Das

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

Wahrscheinlichkeitstheorie und Naive Bayes

Wahrscheinlichkeitstheorie und Naive Bayes Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie

Mehr

Marek Chudý. Institut für Statistik und Operations Research UE Statistik 1. Sommersemester, 4.

Marek Chudý. Institut für Statistik und Operations Research  UE Statistik 1. Sommersemester, 4. Marek Chudý Institut für Statistik und Operations Research http://homepage.univie.ac.at/marek.chudy/ UE Statistik 1 Sommersemester, 4. März 2015 Programm 1 Organisatorisches Literatur Anforderungen Notenschlüssel

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Indexieren und Suchen

Indexieren und Suchen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Indexieren und Suchen Tobias Scheffer Index-Datenstrukturen, Suchalgorithmen Invertierte Indizes Suffix-Bäume und -Arrays Signaturdateien

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive

Mehr

Grundlagen der Objektmodellierung

Grundlagen der Objektmodellierung Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 2009 UNIVERSITÄT KARLSRUHE Blatt 1 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Übungen zur Vorlesung Stochastische Prozesse Musterlösungen Aufgabe 1: (Verzweigungsprozess) Die

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten?

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten? 1 Überblick æ Beschreibende Statistik: Auswertung von Experimenten und Stichproben æ Wahrscheinlichkeitsrechnung: Schlüsse aus gegebenen Wahrscheinlichkeiten, Hilfsmittel: Kombinatorik æ Beurteilende Statistik:

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Unabhängigkeit von Ereignissen A, B unabhängig:

Mehr

Vorlesung Formale Aspekte der Software-Sicherheit und Kryptographie Sommersemester 2015 Universität Duisburg-Essen

Vorlesung Formale Aspekte der Software-Sicherheit und Kryptographie Sommersemester 2015 Universität Duisburg-Essen Vorlesung Formale Aspekte der Software-Sicherheit und Kryptographie Sommersemester 2015 Universität Duisburg-Essen Prof. Barbara König Übungsleitung: Sebastian Küpper Barbara König Form. Asp. der Software-Sicherheit

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Die Varianz (Streuung) Definition

Die Varianz (Streuung) Definition Die (Streuung) Definition Diskrete Stetige Ang., die betrachteten e existieren. var(x) = E(X EX) 2 heißt der Zufallsvariable X. σ = Var(X) heißt Standardabweichung der X. Bez.: var(x), Var(X), varx, σ

Mehr

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen Kapitel ML:IV IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-1 Statistical Learning c STEIN 2005-2011 Definition 1 (Zufallsexperiment,

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung Vorlesungscharts Vorlesung 1 Grundbegriffe der Wahrscheinlichkeitsrechnung Zufallsvorgänge und Zufallsereignisse Definitionen der Wahrscheinlichkeit Seite 1 von 11 Chart 1: Vorgänge deterministisch zufällig

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Statistik für Ingenieure Vorlesung 2

Statistik für Ingenieure Vorlesung 2 Statistik für Ingenieure Vorlesung 2 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 24. Oktober 2016 2.4 Bedingte Wahrscheinlichkeiten Häufig ist es nützlich, Bedingungen

Mehr

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Übung 1: Wiederholung Wahrscheinlichkeitstheorie Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable

Mehr

Elementare statistische Methoden

Elementare statistische Methoden Elementare statistische Methoden Vorlesung Computerlinguistische Techniken Alexander Koller 28. November 2014 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen? Ziel

Mehr

Was ist Statistik? Wozu dienen statistische Methoden?

Was ist Statistik? Wozu dienen statistische Methoden? 25. APRIL 2002: BLATT 1 Übersicht Was ist Statistik? Wozu dienen statistische Methoden? Was ist maschinelle Sprachverarbeitung? Welche Rolle spielen statistische Methoden in verschiedenen Teilbereichen

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc. Abiturvorbereitung Stochastik neue friedländer gesamtschule Klasse 12 GB 24.02.2014 Holger Wuschke B.Sc. Siedler von Catan, Rühlow 2014 Organisatorisches 0. Begriffe in der Stochastik (1) Ein Zufallsexperiment

Mehr

Lehr- und Übungsbuch der angewandten Statistik. Von Dr. Bärbel Elpelt und. O. Prof. Dr. Joachim Hartung Fachbereich Statistik der Universität Dortmund

Lehr- und Übungsbuch der angewandten Statistik. Von Dr. Bärbel Elpelt und. O. Prof. Dr. Joachim Hartung Fachbereich Statistik der Universität Dortmund Grundkurs Statistik Lehr- und Übungsbuch der angewandten Statistik Von Dr. Bärbel Elpelt und O. Prof. Dr. Joachim Hartung Fachbereich Statistik der Universität Dortmund Mit ausführlichen Übungs- und Klausurteilen

Mehr

Anhang III: Modulhandbuch

Anhang III: Modulhandbuch Anhang III: Modulhandbuch Das Modulhandbuch wird gemäß 1 Abs. (1) der Satzung der Technischen Universität Darmstadt zur Regelung der Bekanntmachung von Satzungen der Technischen Universität Darmstadt vom

Mehr

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Anlage 1: Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Computerlinguistik

Anlage 1: Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Computerlinguistik Anlage : Modularisierung des Bachelor-Studiengangs Theoretische und Angewandte Legende: PM = Pflichtmodul; WPM = Wahlpflichtmodul; WM = Wahlmodul VL = Vorlesung; PS = Proseminar; HS = Hauptseminar; Ü =

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz KI Wintersemester 2013/2014 Grundlagen der Künstlichen Intelligenz Marc Toussaint Machine Learning & Robotics Lab Universität Stuttgart marc.toussaint@informatik.uni-stuttgart.de http://ipvs.informatik.uni-stuttgart.de/mlr/marc/

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

Formale Systeme. Prof. P.H. Schmitt. Winter 2007/2008. Fakultät für Informatik Universität Karlsruhe (TH) Voraussetzungen

Formale Systeme. Prof. P.H. Schmitt. Winter 2007/2008. Fakultät für Informatik Universität Karlsruhe (TH) Voraussetzungen Formale Systeme Prof. P.H. Schmitt Fakultät für Informatik Universität Karlsruhe (TH) Winter 2007/2008 Prof. P.H. Schmitt Formale Systeme Winter 2007/2008 1 / 12 Übungen und Tutorien Es gibt wöchentliche

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken... I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10

Mehr

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung lausthal Begriffe Informatik II rundbegriffe der Wahrscheinlichkeitsrechnung. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Definition: Unter einem Zufallsexperiment versteht man einen,

Mehr

STOCHASTISCHE GRAMMATIKMODELLE. Meine Lehrveranstaltungen für... Informatiker & Bioinformatiker & Informatikerinnen & Bioinformatikerinnen

STOCHASTISCHE GRAMMATIKMODELLE. Meine Lehrveranstaltungen für... Informatiker & Bioinformatiker & Informatikerinnen & Bioinformatikerinnen STOCHASTISCHE GRAMMATIKMODELLE Vorlesung im Sommersemester 2015 Prof. E.G. Schukat-Talamazzini Stand: 20. Juli 2015 Lehrbereich Informatik Intelligente Systeme Vertiefung Künstliche Intelligenz und Mustererkennung

Mehr

Mathematische Grundlagen

Mathematische Grundlagen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde

Mehr

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung lausthal Informatik II rundbegriffe der Wahrscheinlichkeitsrechnung. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Begriffe Definition: Unter einem Zufallsexperiment versteht man einen,

Mehr

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller Sprachverstehen Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller Johannes Steinmüller 1/B309 Tel.: 531 35198 stj@informatik.tu-chemnitz.de Seite zur Vorlesung: http://www.tu-chemnitz.de/informatik/ki/edu/spraver/

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Stochastik für Informatiker

Stochastik für Informatiker Statistik und ihre Anwendungen Stochastik für Informatiker Bearbeitet von Lutz Dumbgen 1. Auflage 2003. Taschenbuch. XII, 267 S. Paperback ISBN 978 3 540 00061 7 Format (B x L): 15,5 x 23,5 cm Gewicht:

Mehr

Einführung in die Wahrscheinlichkeitsrechnung

Einführung in die Wahrscheinlichkeitsrechnung Marco Cattaneo Institut für Statistik Ludwig-Maximilians-Universität München Sommersemester 2011 1. Wahrscheinlichkeitsrechnung 2. Diskrete Zufallsvariable 3. Stetige Zufallsvariable 4. Grenzwertsätze

Mehr

Einführung in die Computerlinguistik Überblick

Einführung in die Computerlinguistik Überblick Einführung in die Computerlinguistik Überblick Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2015-10-12 1 / 19 Was ist Computerlinguistik? Definition

Mehr

Klassifikation von Daten Einleitung

Klassifikation von Daten Einleitung Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung

Mehr

Bildverarbeitung. Albert-Ludwigs-Universität Freiburg

Bildverarbeitung. Albert-Ludwigs-Universität Freiburg Grundlagen der Mustererkennung e e u (Kursvorlesung) Prof. Dr. H. Burkhardt Lh Lehrstuhl thlfür Mustererkennung und Bildverarbeitung Institut t für Informatik Albert-Ludwigs-Universität Freiburg H. Burkhardt,

Mehr

Statistische Methoden der Datenanalyse

Statistische Methoden der Datenanalyse Statistische Methoden der Datenanalyse Vorlesung im Sommersemester 2002 H. Kolanoski Humboldt-Universität zu Berlin Inhaltsverzeichnis Literaturverzeichnis iii 1 Grundlagen der Statistik 3 1.1 Wahrscheinlichkeit..................................

Mehr

Stochastik. 1. Wahrscheinlichkeitsräume

Stochastik. 1. Wahrscheinlichkeitsräume Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de lordsofthebortz.de/g+

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Exponentialverteilung

Exponentialverteilung Exponentialverteilung Dauer von kontinuierlichen Vorgängen (Wartezeiten; Funktionszeiten technischer Geräte) Grenzübergang von der geometrischen Verteilung Pro Zeiteinheit sei die Eintrittswahrscheinlichkeit

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Hidden Markov Models (HMM) Karin Haenelt

Hidden Markov Models (HMM) Karin Haenelt Hidden Markov Models (HMM) Karin Haenelt 16.5.2009 1 Inhalt Einführung Theoretische Basis Elementares Zufallsereignis Stochastischer Prozess (Folge von elementaren Zufallsereignissen) Markow-Kette (Stochastischer

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Begriffe aus der Informatik Nachrichten

Begriffe aus der Informatik Nachrichten Begriffe aus der Informatik Nachrichten Gerhard Goos definiert in Vorlesungen über Informatik, Band 1, 1995 Springer-Verlag Berlin Heidelberg: Die Darstellung einer Mitteilung durch die zeitliche Veränderung

Mehr

Einführung in die maschinelle Sprachverarbeitung

Einführung in die maschinelle Sprachverarbeitung Einführung in die maschinelle Sprachverarbeitung Michaela Geierhos CIS Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilians-Universität München 17. April 2007 17.04.2007 Statistische Methoden

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Spracherkennung. Gliederung:

Spracherkennung. Gliederung: Spracherkennung Gliederung: - Einführung - Geschichte - Spracherkennung - Einteilungen - Aufbau und Funktion - Hidden Markov Modelle (HMM) - HMM bei der Spracherkennung - Probleme - Einsatzgebiete und

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Kapitel 2 Wahrscheinlichkeitsrechnung

Kapitel 2 Wahrscheinlichkeitsrechnung Motivation bisher: Beschreibung von Datensätzen = beobachteten Merkmalsausprägungen Frage: Sind Schlußfolgerungen aus diesen Beobachtungen möglich? Antwort: Ja, aber diese gelten nur mit einer bestimmten

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 10. November 2010 1 Bedingte Wahrscheinlichkeit Satz von der totalen Wahrscheinlichkeit Bayessche Formel 2 Grundprinzipien

Mehr

Wahrscheinlichkeiten

Wahrscheinlichkeiten Wahrscheinlichkeiten August, 2013 1 von 21 Wahrscheinlichkeiten Outline 1 Wahrscheinlichkeiten 2 von 21 Wahrscheinlichkeiten Zufallsexperimente Die möglichen Ergebnisse (outcome) i eines Zufallsexperimentes

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Stochastische Unabhängigkeit. 01. Dezember 2014

Stochastische Unabhängigkeit. 01. Dezember 2014 Stochastische Unabhängigkeit 0. Dezember 204 Der Begriff der Unabhängigkeit Großbritannien, im November 999. Die Anwältin Sally Clark wird wegen Mordes an ihren Kindern angeklagt. Clark geriet unter Verdacht

Mehr

Technische Universität München

Technische Universität München Stand der Vorlesung Kapitel 2: Auffrischung einiger mathematischer Grundlagen Mengen, Potenzmenge, Kreuzprodukt (Paare, Tripel, n-tupel) Relation: Teilmenge MxN Eigenschaften: reflexiv, symmetrisch, transitiv,

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Zufallsvariable Erinnerung: Merkmal, Merkmalsausprägung Deskriptive Statistik:

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2009 / 2010 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Wie können Computer lernen?

Wie können Computer lernen? Wie können Computer lernen? Ringvorlesung Perspektiven der Informatik, 18.2.2008 Prof. Jun. Matthias Hein Department of Computer Science, Saarland University, Saarbrücken, Germany Inferenz I Wie lernen

Mehr

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind

Mehr

Prüfung aus Statistik 1 für SoziologInnen. Musterlösung

Prüfung aus Statistik 1 für SoziologInnen. Musterlösung Prüfung aus Statistik 1 für SoziologInnen Gesamtpunktezahl =80 1) Wissenstest (maximal 20 Punkte) Prüfungsdauer: 2 Stunden Musterlösung Kreuzen ( ) Sie die jeweils richtige Antwort an. Jede richtige Antwort

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Günther Bourier Wahrscheinlichkeitsrechnung und schließende Statistik Praxisorientierte Einführung Mit Aufgaben und Lösungen 3. F überarbeitete Auflage GABLER Inhaltsverzeichnis Vorwort Inhaltsverzeichnis

Mehr

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp Datenanalyse (PHY31) Herbstsemester 015 Olaf Steinkamp 36-J- olafs@physik.uzh.ch 044 63 55763 Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und

Mehr

Vertiefungsrichtung. Medieninformatik. Prof. Dr. Günther Görz (AG Digital Humanities) Prof. Dr. Klaus Meyer-Wegener (Inf. 6)

Vertiefungsrichtung. Medieninformatik. Prof. Dr. Günther Görz (AG Digital Humanities) Prof. Dr. Klaus Meyer-Wegener (Inf. 6) Vertiefungsrichtung. Medieninformatik Prof. Dr. Günther Görz (AG Digital Humanities) Prof. Dr. Klaus Meyer-Wegener (Inf. 6) Vertiefungsrichtung im Informatikstudium Gestaltung (Design) als Ergänzung zu

Mehr