Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Größe: px
Ab Seite anzeigen:

Download "Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy"

Transkript

1 Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy

2 Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus kann alle möglichen n-gramme einer Sprache enthalten - n-gramme, die nicht darin vorkommen, haben mit den bisher vorgestellten Methoden eine Auftrittswahrscheinlichkeit von 0 -> Lösung: verschied. Techniken, die solchen n- Grammen eine Wahrscheinlichkeit > 0 zuweisen (sog. Smoothing)

3 Type vs. Token - Token: einzelne sprachliche Äußerung - Type: abstrakte Einheit, die einer Äußerung zugrunde liegt (Vokabular) Bsp.: 'A rose is a rose is a rose' besteht aus 8 Tokens und 3 Types.

4 Add-one Smoothing - zur absoluten Häufigkeit der n-gramm- Typen wird der Wert 1 addiert - da die Häufigkeit für jeden Typ um 1 steigt, muss auch die Anzahl der Tokens entsprechend um die Anzahl der Typen (Vokabular V) erhöht werden - die Bigramm-Wahrscheinlichkeit beträgt dann: p*(w n w n-1 ) = C(w n-1 w n ) + 1 / ( C(w n-1 ) + V )

5 Add-one Smoothing - Beispiel - Bigramm Häufigkeiten für 7 Wörter (von 1616 Worttypen) aus dem Berkeley Restaurant Project Korpus:

6 Add-one Smoothing - Beispiel - Bigramm-Häufigkeiten bei Anwendung des Add-one Smoothing:

7 Add-one Smoothing - Beispiel -Bigramm-Wahrscheinlichkeiten nach MLE:

8 Add-one Smoothing (Beispiel) - 'geglättete' Bigramm-Wahrscheinlichkeiten: Bsp.: C('I')= 3437; C('I want') =1087+1;V=1616; p*('want' 'I') = C('I want')/ (C('I') + V) = = 1088/5053 = 0,215;

9 Add-one Smoothing - Probleme dieses Verfahrens: - ungesehenen n-grammen wird bei großem V zuviel Wahrscheinlichkeits masse zugewiesen, die Wahrscheinlichkeit für häufig vorkommende n-gramme wird unterschätzt - alle ungesehenen n-gramme erhalten die gleiche Wahrscheinlichkeit

10 Witten-Bell Discounting - Konzept: die W., ein n-gramm zum ersten Mal zu sehen, schätzt man aus der Anzahl der Fälle, in denen im Trainingskorpus ein n-gramm zum ersten Mal gesehen wurde (= Anzahl der n-gramm-typen bzw. T). - die totale Wahrscheinlichkeitsmasse für alle 0-n-Gramme ist: i:ci=0 p i * = T/(N+T)

11 Witten-Bell Discounting - diese W.-Masse wird unter allen Z 0-n- Grammen aufgeteilt und deshalb von den übrigen n-grammen abgezogen (discounting) - die Wahrscheinlichkeit für gesehene n- Gramme beträgt deshalb: p i * = c i / N + T (c i > 0) - für ungesehene: p i * = T / Z(N + T) (c i = 0)

12 Witten-Bell Discounting - das Verfahren liefert viel verlässlichere Werte als das Add-one Smoothing - wird in der Spracherkennung häufig verwendet

13 Backoff-Modelle (Katz) - Idee: Wenn die Häufigkeit eines Trigramms im Korpus 0 ist, schätzt man seine Wahrscheinlichkeit P(w n w n-2 w n-1 ) anhand der Bigramm-Wahrscheinlichkeit P(w n w n-1 ) ab.

14 Backoff-Modelle (Katz) - die Wahrscheinlichkeit lässt sich dann (allgemein) folgendermaßen berechnen: P bo (w i w i-n+1...w i-1 ) = (1-d wi-n+1...wi-1 )*C(w i-n+1...w i )/C(w i-n+1...w i-1 ), wenn C(w i-n+1...w i ) > 0 α wi-n+1...wi-1 * P bo (w i w i-n+2...w i-1 ), sonst - die discounting-funktion d nimmt von den gesehenen n-grammen W.-Masse weg - der normalisierende Faktor α sorgt dafür, dass unter den 0-n-Grammen nur W.-Masse aus dem Discount verteilt wird

15 Backoff-Modelle (Katz) - gutes Verfahren bei wenig verfügbaren Daten - unter anderen Umständen z.t. schlechte Ergebnisse: - geg.:häufiges Bigramm w i w j, häufiges Wort w k, Trigramm w i w j w k aber noch nicht gesehen -> signifikant (evtl. grammatische Null ) aber: beim Backoff wird p(w k w i w j ) über p(w k w j ) berechnet

16 Anwendungsbeispiel - Problem: für einen gesprochenen Input [ni], der auf 'I' folgt, ist das Wort gesucht, das am wahrscheinlichsten damit gemeint sein könnte - lt. Switchboard-Korpus (Sammlung von Telephongesprächen mit 1,4 Mio. Wörtern) können folgende Wörter wie [ni] ausgesprochen werden: the (Kontext: in the), neat (Kontext: neat little), need, new (Kontext: New York), knee

17 Anwendungsbeispiel - Ermittlung der Bigramm-Häufigkeiten C('I' w) aus dem Korpus, (einfache) Glättung und Berechnung der Wahrscheinlichkeit für jedes Wort, gegeben 'I': Word C('I' w) C('I' w) p(w 'I') need new knee the neat

18 Anwendungsbeispiel - Berechnung der Wahrscheinlichkeit p(y w), dass das Wort w [ni] ausgesprochen wird Word p(y w) p(w) p(y w)p(w) need new knee the neat das wahrscheinlichste Wort, das auf 'I' folgt, gegeben die Aussprache [ni], ist need -> entspricht den Erwartungen

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 Statistische Modelle Wir möchten W.theorie verwenden, um ein Modell eines generativen Prozesses aus Beobachtungen

Mehr

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014 Wahrscheinlichkeit und Sprache Ausgangsfrage: Nächstes Wort vorhersagen. Sprache als Zufallsprozess: Für jede

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 16. Juli 2008 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Automatisches Verstehen gesprochener Sprache

Automatisches Verstehen gesprochener Sprache Automatisches Verstehen gesprochener Sprache 3. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr

Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1

Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1 Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1 Basierend auf Kapitel 4 P.M. Nugues (2006) Gertrud Faaβ Universität StuVgart, InsXtut für maschinelle Sprachverarbeitung Azenbergstr. 12,

Mehr

1 Erkennung von Wortfolgen. 2 Bewertung von Wortfolgen. 3 Sprachmodelle in der Praxis. Erkennung von Wortfolgen

1 Erkennung von Wortfolgen. 2 Bewertung von Wortfolgen. 3 Sprachmodelle in der Praxis. Erkennung von Wortfolgen Automatisches Verstehen gesprochener Sprache. Sprachmodellierung Martin Hacker Bernd Ludwig Günther Görz Professur für Künstliche Intelligenz Department Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan Rosendahl, Jan-Thorsten Peter, Andreas Guta max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 6. Aufgabe 14. Juli 2017 Human Language Technology

Mehr

Statistische Verfahren in der Computerlinguistik

Statistische Verfahren in der Computerlinguistik Statistische Verfahren in der Computerlinguistik Zweiter Teil Einführung in die Computerlinguistik Sommersemester 2009 Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende

Mehr

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15. SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2014/15 STATISTISCHE GRUNDLAGEN Stefan Langer stefan.langer@cis.uni-muenchen.de Frequenz & Häufigkeit: Übersicht Absolute Häufigkeit Relative Häufigkeit

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles

Mehr

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Maschinelle Sprachverarbeitung: N-Gramm-Modelle HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur Crocker/Demberg/Staudte Sommersemester 2014 17.07.2014 1. Sie haben 90 Minuten Zeit zur Bearbeitung der Aufgaben.

Mehr

Praktikum Maschinelle Übersetzung Language Model

Praktikum Maschinelle Übersetzung Language Model Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle

Mehr

Statistische Sprachmodelle. Uwe Reichel

Statistische Sprachmodelle. Uwe Reichel Statistische Sprachmodelle Uwe Reichel 12. Juli 2010 Inhaltsverzeichnis 1 Einleitung 3 2 Wahrscheinlichkeitstheorie 5 2.1 Grundbegriffe........................... 5 2.2 Bedingte Wahrscheinlichkeit, Kettenregel............

Mehr

Abusive Language Detection in Online User Content

Abusive Language Detection in Online User Content Abusive Language Detection in Online User Content Basierend auf Chikashi Nobata, Joel R. Tetreault, Achint Thomas, Yashar Mehdad, and Yi Chang (2016) Proseminar: Natural Language Processing and the Web

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen, ob die in diesem Datensatz untersuchte

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen, ob die in diesem Datensatz untersuchte

Mehr

Erkennung fremdsprachiger Ausdrücke im Text

Erkennung fremdsprachiger Ausdrücke im Text Erkennung fremdsprachiger Ausdrücke im Text Jekaterina Siilivask Betreuer: Dr. Helmut Schmid Centrum für Informations- und Sprachbearbeiting Ludwig- Maximilians- Universität München 19.05.2014 Jekaterina

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

Ereignis E: ist ein oder sind mehrere Ergebnisse zusammen genommen. Bsp. E = {2; 4; 6}

Ereignis E: ist ein oder sind mehrere Ergebnisse zusammen genommen. Bsp. E = {2; 4; 6} Laplace-Experimente Begriffsklärung am Beispiel eines Laplace-Würfel mit Augenzahlen (AZ) 1-6: Ergebnis: ist jeder Ausgang eines Zufallsexperimentes heißt ein Ergebnis ω dieses Zufallsexperimentes. Die

Mehr

Evaluation und Training von HMMs

Evaluation und Training von HMMs Evaluation und Training von MMs Vorlesung omputerlinguistische Techniken Alexander Koller. Dezember 04 MMs: Beispiel initial p. a 0 0.8 0.7 0. Eisner 0. transition p. 0. 0.6 a 0.5 0. emission p. b () States

Mehr

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong Part-of-Speech Tagging Friedrich-Alexander-Universität Professur für Computerlinguistik Nguyen Ai Huong 15.12.2011 Part-of-speech tagging Bestimmung von Wortform (part of speech) für jedes Wort in einem

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig Stemming OS Einblicke in die Computerlinguistik Felix Hain 12.06.2014 HTWK Leipzig Gliederung Motivation Der Begriff Stemming Potentielle Probleme Stemming-Algorithmen Ansätze Porter-Stemmer-Algorithmus

Mehr

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.

Mehr

TreeTagger. Deborah Watty

TreeTagger. Deborah Watty TreeTagger Deborah Watty POS-Tagging store Das ist ein Haus. Artikel Verb Artikel Nomen Nom The 1977 PCs could only store two pages Modalverb Adverb of data. Wir wissen: store kann Nomen oder Verb sein.

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Part-of-Speech- Tagging

Part-of-Speech- Tagging Part-of-Speech- Tagging In: Einführung in die Computerlinguistik Institut für Computerlinguistik Heinrich-Heine-Universität Düsseldorf WS 2004/05 Dozentin: Wiebke Petersen Tagging Was ist das? Tag (engl.):

Mehr

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen

3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen 3. Übung zur Vorlesung NLP Analyse des Wissensrohstoffes Text im Sommersemester 2008 mit Musterlösungen Dr. Andreas Hotho, Dipl.-Inform. Dominik Benz, Wi.-Inf. Beate Krause 14. Mai 2008 1 Kollokationen

Mehr

1.5 Berechnung von Rangzahlen

1.5 Berechnung von Rangzahlen 1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz

Mehr

Aufgaben zu Kapitel 9

Aufgaben zu Kapitel 9 Aufgaben zu Kapitel 9 Aufgabe 1 Für diese Aufgabe benötigen Sie den Datensatz Nominaldaten.sav. a) Sie arbeiten für eine Marktforschungsfirma und sollen überprüfen ob die in diesem Datensatz untersuchte

Mehr

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio

Mehr

Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle Kategorisierung deduktiver Schluss, Schema: Alle A sind X p ist ein A p ist X logisch gültig abduktiver Schluss: p ist X Alle A sind X p ist ein A logisch nicht gültig (kann ein Fehlschluss sein) z.b.

Mehr

Mann-Whitney-U-Test für zwei unabhängige Stichproben

Mann-Whitney-U-Test für zwei unabhängige Stichproben Mann-Whitney-U-Test für zwei unabhängige Stichproben Wir haben bis jetzt einen einzigen Test für unabhängige Stichproben kennen gelernt, nämlich den T-Test. Wie wir bereits wissen, sind an die Berechnung

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind. Bsp 1) Die Wahrscheinlichkeit dafür, dass eine Glühbirne länger als 200 Stunden brennt, beträgt 0,2. Wie wahrscheinlich ist es, dass von 10 Glühbirnen mindestens eine länger als 200 Stunden brennt? (Berechnen

Mehr

Technische Universität München TOPSIS. Technique for Order Preference by Similarity to Ideal Solution. - Eine Technik der Effizienzanalyse -

Technische Universität München TOPSIS. Technique for Order Preference by Similarity to Ideal Solution. - Eine Technik der Effizienzanalyse - TOPSIS Technique for Order Preference by Similarity to Ideal Solution - Eine Technik der Effizienzanalyse - 1 Gliederung 1. Wiederholung Normalisierung (AHP) 2. Definition Effizienz 3. Ablauf von TOPSIS

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Welche Sätze sind Elemente

Mehr

5. Seminar Statistik

5. Seminar Statistik Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation

Mehr

Korpuslinguistik Grundlagen Korpusrecherchemethoden

Korpuslinguistik Grundlagen Korpusrecherchemethoden Methoden der Korpusanalyse Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von

Mehr

Künstliche Intelligenz Text Mining

Künstliche Intelligenz Text Mining Künstliche Intelligenz Text Mining Stephan Schwiebert Sommersemester 2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Data Mining Sammelbegriff für die Extraktion von

Mehr

Linguistische Informatik

Linguistische Informatik Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Statistische Methoden in der Sprachverarbeitung

Statistische Methoden in der Sprachverarbeitung Statistische Methoden in der Sprachverarbeitung Helmut Schmid Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Stand 26. März 2018 Helmut

Mehr

Elementare statistische Methoden

Elementare statistische Methoden Elementare statistische Methoden Vorlesung Computerlinguistische Techniken Alexander Koller 28. November 2014 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen? Ziel

Mehr

Aufgabe S 1 (4 Punkte)

Aufgabe S 1 (4 Punkte) Aufgabe S 1 (4 Punkte) Bei einer Folge a 1, a 2, a 3,... ist a 1 = 7 2 = 49. Für das nächste Glied der Folge nimmt man die Quersumme der Zahl, addiert 1 und quadriert diese Zahl, also a 2 = (4 + 9 + 1)

Mehr

Korrelation, Regression und Signifikanz

Korrelation, Regression und Signifikanz Professur Forschungsmethodik und Evaluation in der Psychologie Übung Methodenlehre I, und Daten einlesen in SPSS Datei Textdaten lesen... https://d3njjcbhbojbot.cloudfront.net/api/utilities/v1/imageproxy/https://d15cw65ipcts

Mehr

Dynamische Systeme und Zeitreihenanalyse // Saisonbereinigung und Glättung 10 p.2/??

Dynamische Systeme und Zeitreihenanalyse // Saisonbereinigung und Glättung 10 p.2/?? Dynamische Systeme und Zeitreihenanalyse Saisonbereinigung und Glättung Kapitel 10 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Saisonbereinigung und Glättung

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

Musterlösung zur Abschlussklausur

Musterlösung zur Abschlussklausur Einführung in die Computerlinguistik Sommersemester 2012 Department Linguistik Peter Kolb 9.9.2012 Musterlösung zur Abschlussklausur 1. Aufgabe Ein Programm zum maschinellen Übersetzen verfügt über ein

Mehr

Moderne IR / Language Models / Page Ranking

Moderne IR / Language Models / Page Ranking Moderne IR / Language Models / Page Ranking Paul Raab 10.11.2011 Paul Raab () Moderne IR / Language Models / Page Ranking 10.11.2011 1 / 14 Überblick Statistische Methoden auf Sprachmodelle angewandt sind

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle

Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle Matthias Birkner & Dirk Metzler http://www.zi.biologie.uni-muenchen.de/evol/statgen.html 9. Juni 2009 1 Wiederholung: Bedingte

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

Rechnergrundlagen SS Vorlesung

Rechnergrundlagen SS Vorlesung Rechnergrundlagen SS 27 5. Vorlesung Inhalt Interpretation hexadezimal dargestellter Integer-Zahlen Little Endian / Big Endian Umrechnung in eine binäre Darstellung Ausführung von Additionen Optimierte

Mehr

Klassifikation von Textabschnitten

Klassifikation von Textabschnitten Klassifikation von Textabschnitten Am Beispiel von Stellenanzeigen (JASC - Job Ads Section Classifier) Gliederung 1. Einführung: Zu welchem Zweck machen wir das? 2. Klassifikation ein kurzer Überblick

Mehr

Parametrische und nichtparametrische Tests

Parametrische und nichtparametrische Tests XIII. Nichtparametrische Tests Seite 1 Parametrische und nichtparametrische Tests Parametrische Tests: Hier wird eine bestimmte Verteilung vorausgesetzt, und getestet, ob die gewählten Parameter passen.

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Statistische Methoden in der Sprachverarbeitung

Statistische Methoden in der Sprachverarbeitung Statistische Methoden in der Sprachverarbeitung Helmut Schmid Centrum für Informations- und Sprachverarbeitung Ludwig-Maximilian-Universität München schmid@cis.uni-muenchen.de Stand 9. April 2019 Helmut

Mehr

Language Identification XXL

Language Identification XXL Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 08.05.2014 Gliederung 1 Vorverarbeitung

Mehr

Vorkurs Mathematik Übungen zu Komplexen Zahlen

Vorkurs Mathematik Übungen zu Komplexen Zahlen Vorkurs Mathematik Übungen zu Komplexen Zahlen Komplexe Zahlen Koordinatenwechsel Aufgabe. Zeichnen Sie die folgende Zahlen zunächst in ein (kartesisches) Koordinatensystem. Bestimmen Sie dann die Polarkoordinaten

Mehr

Alternative Darstellung des 2-Stcihprobentests für Anteile

Alternative Darstellung des 2-Stcihprobentests für Anteile Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Klassenbasierte Sprachmodellierung mit neuronalen Netzen

Klassenbasierte Sprachmodellierung mit neuronalen Netzen Klassenbasierte Sprachmodellierung mit neuronalen Netzen Bachelorarbeit von Thomas Zenkel am Institut für Anthropomatik der Fakultät für Informatik Erstgutachter: Zweitgutachter: Betreuender Mitarbeiter:

Mehr

Chi Quadrat-Unabhängigkeitstest

Chi Quadrat-Unabhängigkeitstest Fragestellung 1: Untersuchung mit Hilfe des Chi-Quadrat-Unabhängigkeitstestes, ob zwischen dem Herkunftsland der Befragten und der Bewertung des Kontaktes zu den Nachbarn aus einem Anderen Herkunftsland

Mehr

3 Lineare Gleichungen

3 Lineare Gleichungen Aufgabe 3. Man löse die lineare Gleichung a 2 x b 2 a a(b ax) b + b2 a = a, a b nach der Unbekannten x auf und diskutiere die möglichen Fälle. a 2 x b 2 a a(b ax) b + b2 a = a a b a 2 bx b 3 a 2 b + a

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013

Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013 Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013 Aufgabe 1: Divers (10 Punkte) Kreuzen Sie für die folgenden Aussagen an, ob sie wahr oder falsch sind. Hinweis: Für jede richtige

Mehr

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Gleichungssysteme I (Matrixgleichungen) Lineare Gleichungssysteme I (Matrixgleichungen Eine lineare Gleichung mit einer Variablen x hat bei Zahlen a, b, x die Form ax = b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0, kann eindeutig

Mehr

Standardisierte kompetenzorientierte schriftliche Reifeprüfung AHS. 16. Jänner Mathematik. Teil-2-Aufgaben. Korrekturheft. öffentliches Dokument

Standardisierte kompetenzorientierte schriftliche Reifeprüfung AHS. 16. Jänner Mathematik. Teil-2-Aufgaben. Korrekturheft. öffentliches Dokument Standardisierte kompetenzorientierte schriftliche Reifeprüfung AHS 16. Jänner 2015 Mathematik Teil-2-Aufgaben Korrekturheft Aufgabe 1 Krippenstein / five fingers a) Lösungserwartung: tan(α) = 750 2 160

Mehr

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557 1 Einleitung Es soll anhand des UCBAdmissions Datensatzes die Frage beantwortet werden, ob bei der Zulassung von Studenten Frauen benachteiligt werden. Die Stichprobe lautet zunächst # Daten (UCB

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Mathematik W27. Mag. Rainer Sickinger LMM. v 1 Mag. Rainer Sickinger Mathematik W27 1 / 51

Mathematik W27. Mag. Rainer Sickinger LMM. v 1 Mag. Rainer Sickinger Mathematik W27 1 / 51 Mathematik W27 Mag. Rainer Sickinger LMM v 1 Mag. Rainer Sickinger Mathematik W27 1 / 51 Einführung Wir befinden uns in einer kleinen Stadt. In dieser Stadt gibt es zwei Taxiunternehmen. Die Taxis des

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Stefan Thater & Michaela Regneri Universität des Saarlandes FR 4.7 Allgemeine Linguistik (Computerlinguistik) Übersicht Einführung zu maschinellem Lernen Sprachmodelle Textklassifizierung

Mehr

Einführung in die Stochastik 6. Übungsblatt

Einführung in die Stochastik 6. Übungsblatt Einführung in die Stochastik 6. Übungsblatt Fachbereich Mathematik SS M. Kohler 3. Mai A. Fromkorth D. Furer Gruppen und Hausübung Aufgabe (a) Die Wahrscheinlichkeit, dass eine S Bahn Verspätung hat, betrage.3.

Mehr

Karrierespezifische Floskeln typisch für Lebensläufe

Karrierespezifische Floskeln typisch für Lebensläufe Karrierespezifische Floskeln typisch für Lebensläufe BiographIE - Informationsextraktion aus biographischen Kontexten Hauptseminar im Wintersemester 2009/2010 Dozenten: Michaela Geierhos Prof. Dr. Franz

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Die BVG will besser auf Ausfälle im S-Bahn-Verkehr eingestellt sein. Sie geht dabei von folgenden Annahmen aus: An 20% der Tage ist es besonders

Mehr

Wahrscheinlichkeitstheorie und Naive Bayes

Wahrscheinlichkeitstheorie und Naive Bayes Wahrscheinlichkeitstheorie und Naive Bayes Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 12.05.2011 Caroline Sporleder Naive Bayes (1) Elementare Wahrscheinlichkeitstheorie

Mehr

5. Übungsblatt zur Einführung in die Stochastik

5. Übungsblatt zur Einführung in die Stochastik Fachbereich Mathematik Prof. Dr. Michael Kohler Dipl.-Math. Andreas Fromkorth Dipl.-Inf. Jens Mehnert SS 09 25.5.2009 5. Übungsblatt zur Einführung in die Stochastik Aufgabe 18 Drei Spieler bekommen jeweils

Mehr

Übungsaufgaben zu Kapitel 6: Finanzmärkte und Erwartungen

Übungsaufgaben zu Kapitel 6: Finanzmärkte und Erwartungen Kapitel 6 Übungsaufgaben zu Kapitel 6: Finanzmärkte und Erwartungen Übungsaufgabe 6-1a 6-1a) Welche Typen von Zinsstrukturkurven kennen Sie? Stellen Sie die Typen graphisch dar und erläutern Sie diese.

Mehr

Einführung in die Phonetik und Phonologie. Grundbegriffe

Einführung in die Phonetik und Phonologie. Grundbegriffe Einführung in die Phonetik und Phonologie Grundbegriffe Phonetik und Phonologie Lautlehre Phonologie Sprechakt- lautlehre Phonetik Sprachgebilde- lautlehre Phonologie Phonematik Phonemik Phonetik und Phonologie

Mehr

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie:

Mehr

3. Grundbegriffe der Wahrscheinlichkeitstheorie

3. Grundbegriffe der Wahrscheinlichkeitstheorie 03. JULI 2006: BLATT 17 3. Grundbegriffe der Wahrscheinlichkeitstheorie (v.a. nach Manning/Schütze: 40ff und Fahrmeir /Künstler/Pigeot/Tutz: 171ff) Übersicht Um entscheiden zu können, ob eine statistische

Mehr

Das Frühwarnsystem für die. Das Frühwarnsystem für die Ausliefer-Produkt-Audits (APA) (APA)

Das Frühwarnsystem für die. Das Frühwarnsystem für die Ausliefer-Produkt-Audits (APA) (APA) Das Frühwarnsystem für die Das Frühwarnsystem für die Ausliefer-Produkt-Audits (APA) (APA) Das Frühwarnsystem für die Ausliefer-Produkt-Audits (APA) Gliederung: Auswertung der APA-Daten Datengrundlage

Mehr

Statistik-Klausur vom 28. Januar 2008

Statistik-Klausur vom 28. Januar 2008 Statistik-Klausur vom 28. Januar 2008 Bearbeitungszeit: 90 Minuten Aufgabe 1 a) Ein Unternehmen erstellt folgende Statistik über die Aufträge der Wirtschaftsjahre 2006 und 2007: Umsatz in Geldeinheiten

Mehr

Kapitel D : Flächen- und Volumenberechnungen

Kapitel D : Flächen- und Volumenberechnungen Kapitel D : Flächen- und Volumenberechnungen Berechnung einfacher Flächen Bei Flächenberechnungen werden die Masse folgendermassen bezeichnet: = Fläche in m 2, dm 2, cm 2, mm 2, etc a, b, c, d = Bezeichnung

Mehr

Einführung in die Statistik I BA VM, 45 Minuten, Probeklausur

Einführung in die Statistik I BA VM, 45 Minuten, Probeklausur Gesamtpunktzahl der Statistik I-Klausur: 12 Einführung in die Statistik I BA VM, 45 Minuten, Probeklausur 03.07.2015 Name, Vorname: Matrikelnr.: Um die volle Punktzahl zu erhalten, müssen Sie bei den Berechnungen

Mehr

Rechnergrundlagen SS Vorlesung

Rechnergrundlagen SS Vorlesung Rechnergrundlagen SS 27 4. Vorlesung Inhalt Binäre Darstellung von Integer-Zahlen Vorzeichen-Betrag 2er-Komplement BCD Addition und Subtraktion binär dargestellter Zahlen Carry und Overflow Little Endian

Mehr

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth Relationen zwischen Nomen und ihren Assoziationen Michael Roth 2 Assoziationen sind psychologisch interessant. Wie erfolgt der Zugriff auf sie? Welche Bedeutung haben sie? erfüllen einen linguistischen

Mehr

Statistiktutorium (Kurs Frau Jacobsen)

Statistiktutorium (Kurs Frau Jacobsen) Statistiktutorium (Kurs Frau Jacobsen) von Timo Beddig 1 Grundbegriffe p = Punktschätzer, d.h. der Mittelwert aus der Stichprobe, auf Basis dessen ein angenäherter Wert für den unbekannten Parameter der

Mehr