Aussprachemodellierung

Größe: px
Ab Seite anzeigen:

Download "Aussprachemodellierung"

Transkript

1 Institut für Anthropomatik Aussprachemodellierung Interactive Systems Labs

2 Zwei Arten von Fehlern durch falsche Aussprachen im Wörterbuch: Fehler 1: Im Training werden die Modelle mit Trainingsdaten verschmutzt, die eigentlich nicht zu ihnen gehören Die Modelle werden unschärfer und verrauschter als sie sein könnten. Fehler 2: Beim Testen werden die falschen (u.u. richtig trainierten) Modelle angewandt Der Wahrscheinlichkeit des richtigen HMMs auf den Testdaten wird unterschätzt, die W keit einiger falscher HMMs wird u.u. überschätzt. 2

3 Manuelles Niederschreiben Manuelle Regeln Automatisches Lernen aus Trainingsmaterial: Inkrementelles vs. Batch Lernen Lernen von Regeln, vs. Lernen von statistischen Modellen Interaktives Lernen Spätere, manuelle Kontrolle 3

4 Englische Wörterbücher haben typischerweise zwischen Phonemen Unterschiedliche Quellen verwenden unterschiedliche Phonemsätze Phonemsätze müssen vereinheitlicht werden auf einen, evtl. den eigenen Phonemsatz Beispiel: CMU Dictionary: Amerikanisches Englisch 39 Phoneme > Wörter Beispiel BEEP Dictionary: British English Kompilation aus mehreren Quellen > Wörter 4

5 Benötigt: Alignment zwischen Graphemen und Phonemen: Beispiel für das Englische Wort checked : c h e c k e d tš - ε k - t Alignments können automatisch gefunden werden: (alle möglichen generieren, durch hinzufügen von ε in allen möglichen Positionen) Wahrscheinlichste Alignment nehmen U.U. ein Buchstabe auf mehrere Phoneme abgebildet 5

6 Mit dem Alignment kann man: Lernen der Aussprache eines Buchstaben in seinem Kontext: Z.B. mit Entscheidungsbäumen Lernen der Aussprachen mit Mitteln aus der maschinellen Übersetzung (extrahiere Phrasen, suche wahrscheinlichste Übersetzung von Graphemen zu Phonemen) Beispiel Ergebnisse für Entscheidungsbäume (10% des Wörterbuchs als Testmaterial): Lexikon Korrekt Sprache Phoneme Wörter OALD British English 95,80% 74,56% CMUDICT U.S. English 91,99% 57,80% BRULEX Französisch 99,0% 93,03% DE-CELEX Deutsch 98,79% 89,38% Thai Thai 95,60% 68,76% 6

7 1. Nimm die häufigsten Worte einer Sprache (Beobachtung: häufige Worte haben oft eine unregelmäßige Aussprache) 2. Lerne Graphem-zu-Phonem Regeln auf diesen Wörtern 3. Nimm die nächsten 100 Wörter mit hoher Frequenz, sage Aussprache gemäß Regeln voraus: Wenn korrekt, füge ins Wörterbuch ein Wenn falsch, korrigiere und füge ins Wörterbuch ein 4. Wenn gewünschte Vorhersagegenauigkeit erreicht, terminiere. 7

8 Problem: Das gleiche Wort kann unterschiedlich ausgesprochen werden, wegen: unterschiedlichen Kontexten (Koartikulationseffekte) Dialekte ("Beispiel" vs. "Beispui", "zwonzge" vs. "zwantsch",...) Verschiedene, korrekte Aussprachen ("zwanzig" und "zwanzich", "Schemie" und "Kemie",...) korrekt anders als häufige/übliche Aussprache ("Super" vs. "Zuper", "und" vs. "unt",...) Lösung: füge mehrere Einträge ins Aussprachelexikon ein bei Aufbau eines Wort-HMMs, erlaube verschiedene Zustandsfolgen 8

9 Beispiele: FÜNFUNDZWANZIG(1) F Ü N F U N D Z V A N Z I G FÜNFUNDZWANZIG(2) F Ü N F U N D Z V A N Z I H FÜNFUNDZWANZIG(3) F Ü M U N D Z V A N Z I G FÜNFUNDZWANZIG(4) F Ü M U N D Z V A N Z I H FÜNFUNDZWANZIG(5) F Ü N F U N Z V A N Z I G JA(1) J A JA(2) JO EIN(1) AIN EIN(2) N ES(1) E S ES(2) S 9

10 Wie findet man sinnvolle Aussprachevarianten? Experte (Linguist, Phonetiker) schreibt alles auf: Problem: Akustische Laute entsprechen nicht immer phonetischen/linguistischen Einheiten. Spracherkennungsexperte schreibt alles auf: Oft am erfoglreichsten, aber auch am teuersten. Sammeln von Regeln and Anwenden derselben auf vorhandene Aussprachen: Regeln sind sowas wie z.b....ig ->... I G,... I CH,... Automatisches Finden von Regeln: Führe Erkenung auf Trainingsdaten durch. Identifiziere die häufigsten phonemsequenzen für bestimmte Wörter. (Dictionary Learning) 10

11 Varianten: einen AI N E N einen AI N einen N haben wir H A B N W I ER haben wir H A M ER einmal AI N M A L einmal M A L Gemeint: Nimm mal einen Hammer Gesagt: Nimm mal n Hammer Erkannt ohne Varianten: Nimm mal Hammer Erkannt mit vielen Varianten: einen im einmal einen haben wir 11

12 zu viele (sehr kurze) Varianten können leicht Erkennungsfehler herbeiführen => ggf. sollten beim Erkennen nicht dieselben Varianten wie im Training verwendet werden Noch ein Problem: 2 Varianten für sieben (Z IE B E N und Z IE M), 3 Varianten für und (U N D, U N T und U N), 2 Varianten für zwan- (Z W A N und Z W O N), 3 Varianten für -zig (Z I G, Z I CH und Z G E) => viele Varianten für siebenundzwanzig. 12

13 HMM ohne Varianten: HMM mit Varianten: Wo kommen die Aussprachevarianten her? p/n? Oder muss man alle Aussprachevarianten gesehen haben in Training? Was am Wortende? wenn Wahrscheinlichkeitssumme der Übergänge 1,0 sein soll, werden Wörter mit vielen Varianten benachteiligt: Wort 1: 0,5 * 0,5 * 0,5, Wort 2: 0,5 * 0,1 * 0,5 13

14 ZWANZIG: Z V A N Z I G KÖNIG Z V A N Z I CH K Ö N I G K Ö N I CH FLUGZEUG F L U G Z EU G F L U CH Z EU CH HABEN OBEN H A B E N H A B N H A M O B E N O B N O M SIEBEN Z I B E N Z I B N Z I M BRAV B R A V B R A F POSITIV P O Z I T I V P O Z I T I F OKTAVE O K T A V E O K T A F E SUPER S U P ER Z U P ER DSCHUNGEL D ZH U NG L T SCH U NG L GARAGE G A R A ZH E G A R A SCH E JOB D ZH O B T SCH O P UND WIRD U N D U N T WALD GIB V I ER D V I ER T V A L D V A L T G I B G I P 14

15 Ausfall des Glotallverschlusses (GL AU T O => AU T O) Schwa-Elision (H A B E2 N => H A B N) Reduktion von R zu Schwa (P O R T => P O ER T) Änderung der Vokaldauer (D U => D U:) Änderung der Vokalqualität (B Ä K ER => B E K ER) Stimmhaft nach Stimmlos (B R A V => B R A F, S E K S => Z E K S, U N D => U N T) Gleichlautverschmelzung (U N N Ü Z => U N Ü Z) und andere seltenere 15

16 Nachteile von Experten Experten tendieren dazu, korrekte Aussprachen ins Lexikon aufzunehmen Experten übersehen leicht einige evtl. wichtige Varianten Experten sind teuer und langsam und nie da, wenn man sie braucht Nachteile von Regeln Regeln erkennen Ausnahmen nicht immer (haben => H A M, aber nicht Ben => M) Regeln sind meist zu undifferenziert Regeln produzieren oft zu viele mögliche Varianten (siebenundzwanzig) Datengetriebener Algorithmus: Verwende Erkenner, der nur einzelne Phoneme als Vokabular hat Erkenner liefert (Phonem-)Hypothesen für die gesamten Trainingsdaten Nimm die häufigsten Phonemsequenzen für jedes Wort als Variante auf Verwende ggf. Heuristiken basierend auf Phonemkonfusion zur Ablehung von Varianten 16

17 Experimentelles Ergebnis: EIN KÖNNEN 56% AI N 16% AI N E N 9% A N 73% K Ö N 8% K Ö N E M 4% K Ö N E Fehlerreduktion: 7%-9% relativ 17

18 Statt Phonemerkenner, nimm Silbenerkenner Für Deutsch: Einheit Wörter Phoneme Silben Anzahl ca. 50 ca # 2-silbige >10 10 ca Jetzt statt verwende Berechne Phonotaktik (Übergangswahrscheinlichkeiten von Phonemen in einer Silbe) auf zu modellierenden Wörtern (ggf. den seltenen Trainingswörtern für Neues-Wort-Problem) Ein großer Zustandsautomat, der komplette deutsche Phonotaktik enthält: ca Zustände Erkennung nicht im Lexikon vorhandener Wörter: ca. 10% - 30% davon werden erkannt 18

19 Normal: Regeln: "einen => N", "einen => N E N", "einen => EI N E N", "einen => EI N hast => H A S T", "hast => H A S", "hast => H A T "du => D U", "du => U", "du => T E Mit FTA: zusätzlich noch: nicht eingezeichnete SILENCE und MUMBLE Wörter 19

20 Idee: Stöpsle Radio-Kopfhörerausgang (oder mehrere) in Soundkarte von PC, lasse Erkennertraining laufen. Nach ein paar Jahren kommt ein Super-Erkenner heraus. Algorithmus: Erkenner erkennt etwas (vermutlich mit Fehlern), verwendet Hypothese als Transkription für Viterbi- oder Forward- Backward-Training Problem: Unbekannte Wörter können weder erkannt noch trainiert werden => ein Detektor für unbekannte Wörter + Algorithmus der Phonemsequenz liefert wäre schön Vorgehen: Verwende spezielles Modell für unbekannte Wörter=> der Erkenner erkennt hoffentlich [UNK] wenn unbekanntes Wort extrahiere [UNK]-erkannte Segmente, lasse Phonemerkenner darauf laufendetektiere wiederholte Beobachtungen gleicher Phonemfolgen => neues Wort 20

21 Feststellung: In verschiedenen emotionalen Zuständen sprechen Menschen Äußerungen verschieden aus. ja indifferent = J A, ja traurig = J OH Stimmung Indifferent Glücklich Ängstlich Verärgert Traurig WA 72% 52% 46% 64% 45% Experiment: sammle Daten (gleiche Äußerung) in verschiedenen Stimmungslagen der Spender bestimme für Emotionen typische Zustandsfolgen (Varianten) zur Ermotionserkennung: berechne für jede Variante v die Wahrscheinlichkeit der Beobachtung p(x v) erkenne Emotion deren Varianten am häufigsten maximale Wahrscheinlichkeit haben experimentelles Ergebnis: ca. 60%- 80% korrekte Emotionserkennung trainiere emotionsabhängige Erkenner und verwende passenden Erkenner Stimmung Indifferent Glücklich Ängstlich Verärgert Traurig WA 78% 67% 68% 64% 70% 21

22 22

23 Manche Aussprachevarianten werden besser impliziert modelliert: Beispiel Affectionate: AX F EH K SH AX N AX T AX F EH K SH AX N IX T Statt Aussprachevariante: Reichere GMM von AX mit Gaussglocken aus IX an Koppel die Parameter von AX und IX 23

24 Einfügen von Aussprachevarianten problematisch: Wenn Variante eingeführt, sicherstellen, dass bei allen passenden Wörtern eingeführt Fehler in den Varianten U.U. besser: Keine Aussprachevarianten, lasse Wörterbuch konsistent Idee: Implizite Modellierung über Parameterkopplung von Polyphonen Problem: Separate Cluster Bäume für Polyphone mit unterschiedlichen Zentrumsphonemen. 24

25 Lösung erweiterter Clusterbaum: Baue einen Baum für alle Polyphone 25

26 Ergebnisse auf Telephonkonversationen: Beobachtung: Fragen nach Begin,Middle,End State weit oben im Baum, also keine Parameterkopplung, 26

27 Auf der Welt gibt es Sprachen Erstellung des Aussprachewörterbuchs ist aufwendig: Linguistisches Wissen (um evtl. Regeln zu erstellen) Langwierige manuelle Arbeit (zum Niederschreiben von Regeln oder von Aussprachen) Viel Trainingsmaterial erforderlich (um automatisch Aussprachen zu erlernen) Alles das steht für viele der Sprachen mit wenigen Sprecher nicht zur Verfügung Oder es ist zu teuer Kann man das Aussprachewörterbuch los werden? 27

28 Mögliche Lösung: Statt Phoneme als Einheiten bei der Aussprachemodellierung, verwende Grapheme Graphem: atomare Einheiten in geschriebener Sprache: Z.B. Buchstaben des lateinischen Alphabets Zeichen der Chinesischen Hanzi Schrift. Silbenzeichen im Thailändischen Wichtige Eigenschaften der Modellierungseinheiten: Konsistente, einheitliche akustische Ausprägung Alle Wörter müssen aus ihnen aufgebaut werden können Ihre Anzahl muss klein genug sein, dass genügend Trainingsmaterial gesammelt werden kann für robustes Training 28

29 Erinnerung: Sechs Arten von Schriftsystemen: Logosyllabisch: Grapheme repräsentieren Wörter oder einzelne Silben Syllabisch: Grapheme repräsentieren Silben Abjads: Grapheme entsprechen Konsonanten Alphabete: Grapheme entsprechen Vokal oder Konsonant Abugidas: Grapheme entsprechen einer Kombination aus Konsonant und zugehörigem Vokal, ggf. Modifizierer der Zeichen, um andere Vokale darzustellen Featural: Die Form der Zeichen korrespondiert mit distinguierenden Eigenschaften des Sprachsegments, das sie repräsentieren 29

30 Logosyllabisch: Gute Korrespondenz zwischen Graphem und akustischer Ausprägung Hohe Anzahl an Wörtern pro Sprache => ungeeignet für Erkennung mit großem Vokabular Syllabisch: Gute Korrespondenz zwischen Graphem und akustischer Ausprägung Evtl. hohe Anzahl an Silben pro Sprache (muss aber nicht sein) Häufig so, dass syllabische Schriften nur für Sprachen mit wenig Silben verwendet wird. 30

31 Abjads: Schlechte Korrespondenz zwischen Akustik und Graphem: Jedes Zeichen entspricht de facto einem Konsonant und einer Vielzahl von Vokalen Geringe Anzahl von Modellierungsheiten Wenn Emissionsw keiten flexibel genug, und genügend Trainingsmaterial (alle Kombinationen aus Konsonant und Vokal im Training gesehen), möglich Abjad Grapheme zu verweden (z.b. für Arabisch) Abigudas: Zwischen Alphabeten und Abjads Wenn Modifizierer als Graphem betrachtet wird, dann so gut geeignet wie Alphabete Featural: Sehr heterogen, wenig verwendet: Beispiel Koreanisch: Wenn man die Grapheme (Quadratisch angeordnete Buchstaben) zerlegt, dann entspricht es einem Alphabet 31

32 3 Abjads: 27 Sprachen 18 Alphabete: 229 Sprachen 28 Abigudas: 28 Sprachen 19 Silbenschriften: 7 Sprachen 2 Logosyllabaries: 2 Sprachen Nur für wenige Sprachen bekannt, welche Schrift sie benutzen Viele Sprachen sind ungeschrieben Alphabete sehr weit verbreitet, gefolgt von Abigudas und Abjads Logographische Systeme nur für wenige, große Sprachen verwendet. Wenn eine neue Schrift entworfen wird, dann wird häufig ein Alphabet verwendet. 32

33 Geographische Verteilung der Schriftsysteme [Quelle:Wikipedia]

34 Alphabete: Hinreichend kleine Anzahl an Graphemen Von der Theorie her gute Korrespondenz zwischen Graphem und Aussprache Aber oft: Sprachen haben sich über die Zeit anders entwickelt als Schrift Ursprünglich gute Korrespondenz hat sich über die Zeit verschlechtert Es gibt Sprachen mit guter Korrespondenz und Sprachen mit schlechter Korrespondenz 34

35 Arabisch wird mit Abjad geschrieben Vokalisierung mittels Diakritiken möglich Meiste Texte nicht vokalisiert Deshalb traditionell graphembasierte Modellierung. Vokale werden impliziert mitmodelliert. 35

36 50 phonemes graphemes EN GE RU SP TH 36

37 Problem: Keine linguistische Fragen für Grapheme definiert, wie Baum clustern? Lösung 1: Verwende ein Verfahren zum automatischen Finden von Fragen Lösung 2: Frage nur nach der Identität der Grapheme im Polygraphem ( Singelton Fragen) Beobachtung: Gewinn durch Kontextabhängige Modellierung bei Graphemen größer als bei Phonemen: Relativer Gewinn für die Sprachen: EN GE RU SP TH 37

38 Kontextabhängige Modellierung für Grapheme wichtig weil Aussprache regel eines Graphems abhängig vom Kontext U.U. kann ein Graphem sehr unterschiedlich ausgesprochen werden Deshalb gleiche Parameterkopplung wie bei den Single Pronunciation Dictionaries: Trennung nach Vokalen und Konsonanten ist sinnvoll 50 traditional tree flexible tree EN GE RU SP TH 38

39 Aussprachemodellierung: Die Wahl der Einheiten, in die Wörter zerlegt werden Phoneme, Silben, Grapheme etc. Die Wahl der Einheiten für die HMM Zustände Subphonemzustände, etc. Die Abbildung von Wörtern auf ihre Einheiten Kanonische Aussprachen, Aussprachevarianten, ggf. alternative Aussprachen Implizite Aussprachemodellierung: Möglich z.b. durch das Koppeln von Parametern Lernen mehrere Aussprachen in einem Modell 39

HMM-Synthese (Grundzüge)

HMM-Synthese (Grundzüge) (Grundzüge) Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 6. Dezember 2010 Inhalt HMM-Grundlagen HMM und Phonemerkennung HMM-Grundlagen

Mehr

Übung: Phonetische Transkription

Übung: Phonetische Transkription Institut für Phonetik, Universität des Saarlandes Übung: Phonetische Transkription 10.12.2014 Vokale, Forts. Vokale Wiederholung: Kardinalvokale rot: primäre Kardinalvokale 1 9 16 8 blau: sekundäre Kardinalvokale

Mehr

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013 Klausurnummer Name: Vorname: Matr.Nummer: Bachelor: Master: Aufgabe 1 2 3 4 5 6 7 8 max. Punkte 10 5 6 7 5 10 9 8 tats. Punkte

Mehr

Schriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009

Schriftsysteme. Schriftsysteme. Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Seminar: Sprachenidentifizierung Dozent: Stefan Langer CIS, Universität München Wintersemester 2009 Typen von n Alphabete Lateinische Schrift Griechische Schrift Kyrillische Schrift Konsonantenschriften

Mehr

Spracherkennung und Sprachsynthese

Spracherkennung und Sprachsynthese Spracherkennung und Sprachsynthese Einführung in die Computerlinguistik Sommersemester 2012 Peter Kolb Spracherkennung / -synthese Spracherkennung (automatic speech recognition, ASR) Sprachsynthese (text-to-speech,

Mehr

Spickzettel zum Materialpaket: Anlautbilder für DaZ Seite 1 von 5

Spickzettel zum Materialpaket: Anlautbilder für DaZ Seite 1 von 5 Spickzettel zum Materialpaket: Anlautbilder für DaZ Seite 1 von 5 Spickzettel Anlautbilder für DaZ In diesem Spickzettel findet ihr zusätzliche Informationen zum Materialpaket Anlautbilder für DaZ. Insbesondere

Mehr

Hidden Markov Modelle

Hidden Markov Modelle Hidden Markov Modelle (Vorabversion begleitend zur Vorlesung Spracherkennung und integrierte Dialogsysteme am Lehrstuhl Medieninformatik am Inst. f. Informatik der LMU München, Sommer 2005) Prof. Marcus

Mehr

Übung: Phonetische Transkription

Übung: Phonetische Transkription Übung: Phonetische Transkription IPA-Tabelle, Transkription; Einführung in die Konsonanten Stephanie Köser (M.A.), Sprachwissenschaft & Sprachtechnologie, Universität des Saarlandes Hausaufgabe von letzter

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 4 Maschinelles Lernen und Spracherkennung Abgabe

Mehr

Übung: Phonetische Transkription

Übung: Phonetische Transkription Institut für Phonetik, Universität des Saarlandes Übung: Phonetische Transkription 21.01.2015 Phonemische vs. phonetische Transkription; Transkription des Deutschen Prüfungen Klausur: 02.02.2015, 12:00

Mehr

Maschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008

Maschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008 Maschinelles Lernen I Einführung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 22. April 2008 Inhalt Einführung Lernen Maschinelle Lernverfahren im Überblick Phonetische Anwendungsbeispiele

Mehr

Sprachsynthese: Graphem-Phonem-Konvertierung

Sprachsynthese: Graphem-Phonem-Konvertierung Sprachsynthese: Graphem-Phonem- Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München reichelu@phonetik.uni-muenchen.de 21. Dezember 2016 Table Lookup with Defaults (van den

Mehr

Artikulations-, Hör- und Transkriptionsübung I

Artikulations-, Hör- und Transkriptionsübung I Institut für Phonetik, Universität des Saarlandes Artikulations-, Hör- und Transkriptionsübung I Einführung, Teil 2 Konsonanten Einführung: IPA-Tabelle Struktur der IPA-Tabelle (1) Wie werden die pulmonalen

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Sprachsynthese und Spracherkennung

Sprachsynthese und Spracherkennung 90 Sprachsynthese und Spracherkennung von John N. Holmes Mit 51 Bildern und 69 Übungen mit Lösungshinweisen R. Oldenbourg Verlag München Wien 1991 INHALT Vorwort 11 1 Lautsprachliche Kommunikation 15 1.1

Mehr

Einführung in die Phonologie und Graphematik

Einführung in die Phonologie und Graphematik Einführung in die Phonologie und Graphematik Bearbeitet von Nanna Fuhrhop, Jörg Peters 1. Auflage 2013. Buch inkl. Online-Nutzung. XV, 301 S. Softcover ISBN 978 3 476 02373 5 Format (B x L): 15,5 x 23,5

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Übung: Phonetische Transkription

Übung: Phonetische Transkription Institut für Phonetik, Universität des Saarlandes Übung: Phonetische Transkription 29.10.2014 IPA-Tabelle, Transkription; Einführung in die Konsonanten Institut für Phonetik, Universität des Saarlandes

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 2 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

Diskriminatives Training, Neue Wort Problem. Sebastian Stüker

Diskriminatives Training, Neue Wort Problem. Sebastian Stüker Institut für Anthropomatik Diskriminatives Training, Neue Wort Problem Sebastian Stüker 03.02.2010 Interactive Systems Labs EM findet gute Modellparameter,indem es maximiert: X T P(X λ) T: Menge der Trainingsäußerungen

Mehr

Werde Sil - ben - kö - nig!

Werde Sil - ben - kö - nig! Heike Kuhn-Bamberger Werde Sil - ben - kö - nig! Lesen und Schreiben lernen trotz Lese-/Rechtschreibschwäche? Na klar! Werde Sil-ben-kö-nig! Lesen und Schreiben lernen trotz Lese-/Rechtschreibschwäche?

Mehr

Probabilistische kontextfreie Grammatiken

Probabilistische kontextfreie Grammatiken Mathematische Grundlagen III Probabilistische kontextfreie Grammatiken 14 Juni 2011 1/26 Ambiguität beim Parsing Wörter können verschiedene Bedeutungen haben und mehr als einer Wortkategorien angehören

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl

Mehr

Phänomene der deutschen Rechtschreibung

Phänomene der deutschen Rechtschreibung Phänomene der deutschen Rechtschreibung Systematische Auflistung aller betroffenen deutschen Wörter in Verbindung mit Fremdwörtern von Renate und Michael Andreas aa - ee - ii - oo - uu ie - i ä ei / ai

Mehr

Einführung in die automatische Spracherkennung

Einführung in die automatische Spracherkennung Einführung in die automatische Spracherkennung Klausur 30.07.2008 Name:... Vorname:... Matr.-Nr:... Studiengang:... Hinweise: 1. Schreiben Sie bitte auf jedes Zusatz-Blatt Ihren Namen und Ihre Matrikelnummer.

Mehr

Sütterlinschrift Deutsche Schreibschrift (aus dem Internet)

Sütterlinschrift Deutsche Schreibschrift (aus dem Internet) Sütterlinschrift Deutsche Schreibschrift (aus dem Internet) Das finden Sie auf diesen Seiten: Geschichtliches - Das Alphabet - Besonderheiten - Leseproben Diese Seite soll es Interessierten ermöglichen

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 216 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

Active Hidden Markov Models for Information Extraction

Active Hidden Markov Models for Information Extraction HMMs in der IE p.1/28 Active Hidden Markov Models for Information Extraction Seminar Informationsextraktion im WiSe 2002/2003 Madeleine Theile HMMs in der IE p.2/28 Inhaltsübersicht Ziel formalere Aufgabenbeschreibung

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

Arbeitsblatt. Sprachwissenschaften. Warum brauchst du deine Nase zum Sprechen?

Arbeitsblatt. Sprachwissenschaften. Warum brauchst du deine Nase zum Sprechen? Arbeitsblatt Warum brauchst du deine Nase zum Sprechen? Laute und Buchstaben Das lateinische Alphabet, das wir von den alten Römern übernommen haben, ist ungeheuer praktisch. Es hat für jeden Laut, den

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Prof Dr. Matthew Crocker Universität des Saarlandes 18. Juni 2015 Matthew Crocker (UdS) HMM Anwendungen 18. Juni 2015 1 / 26 Hidden Markov Modelle in der Computerlinguistik

Mehr

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment

Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Praktikum Maschinelle Übersetzung Lexikon and Word Alignment Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden zunächst

Mehr

Suche. Sebastian Stüker

Suche. Sebastian Stüker Institut für Anthropomatik Suche Sebastian Stüker 11.01.2010 Interactive Systems Labs X.Huang/Acero/Hon, Spoken Language Processing : Kapitel 12,13 Konferenzartikel: Hagen Soltau, Florian Metze, Christian

Mehr

Von Null Ahnung zu etwas Japanisch

Von Null Ahnung zu etwas Japanisch Von Null Ahnung zu etwas Japanisch 18 Von Null Ahnung zu etwas Japanisch KAPITEL 1: Einstieg und Schrift Das Japanische kann mit diversen Schrift-Systemen geschrieben werden. In WQS 1 bis 5 lernen Sie

Mehr

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr. Jürgen Lesti Analyse des Anbieterwechsels mit Hidden-Markov-Modellen Empirische Untersuchung im Retail Banking Verlag Dr. Kovac Hamburg 2015 XIII Inhaltsverzeichnis Geleitwort Vorwort Danksagung Abbildungsverzeichnis

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von

Mehr

Weierstraß-Institut für Angewandte Analysis und Stochastik Murphys Gesetz, tippende Affen und Unendlichkeit in der Wahrscheinlichkeitstheorie

Weierstraß-Institut für Angewandte Analysis und Stochastik Murphys Gesetz, tippende Affen und Unendlichkeit in der Wahrscheinlichkeitstheorie Weierstraß-Institut für Angewandte Analysis und Stochastik Murphys Gesetz, tippende Affen und Unendlichkeit in der Wahrscheinlichkeitstheorie Wolfgang König (WIAS und TU Berlin) Mohrenstraße 39 10117 Berlin

Mehr

Einführung in die Computerlinguistik: Gesprochene Sprache. Dr. Marc Schröder, DFKI

Einführung in die Computerlinguistik: Gesprochene Sprache. Dr. Marc Schröder, DFKI Einführung in die Computerlinguistik: Gesprochene Sprache Dr. Marc Schröder, DFKI schroed@dfki.de Kurs-Homepage: http://www.coli.uni-saarland.de/~hansu/courses/ec07/index.html Überblick Eigenschaften gesprochener

Mehr

Phonetische Transkription I

Phonetische Transkription I Phonetische Transkription I Vokale Stephanie Köser (M.A.), Sprachwissenschaft & Sprachtechnologie, Universität des Saarlandes Inhalt SAMPA: Kurze Wiederholung Kurze Zusammenfassung zu den Internetseiten,

Mehr

Hidden Markov Models in Anwendungen

Hidden Markov Models in Anwendungen Hidden Markov Models in Anwendungen Dr. Vera Demberg Universität des Saarlandes 31. Mai 2012 Vera Demberg (UdS) HMM Anwendungen 31. Mai 2012 1 / 26 Hidden Markov Modelle in der Computerlinguistik Table

Mehr

Syntax-basierte maschinelle Übersetzung mit Baumübersetzern

Syntax-basierte maschinelle Übersetzung mit Baumübersetzern yntax-basierte maschinelle Übersetzung mit Baumübersetzern Andreas Maletti Leipzig 28. April 2015 Maschinelle Übersetzung Original Übersetzung (GOOGLE TRANLATE) The addressees of this paper are students

Mehr

Englische Phonetik und Phonologie

Englische Phonetik und Phonologie Englische Phonetik und Phonologie Günther Scherer und Alfred Wollmann 3., überarbeitete und ergänzte Auflage E R I C H S C H M I D T V E R L A G Vorwort i 5 Vorwort zur 3. Auflage 7 Abkürzungen und Zeichen

Mehr

Das deutsche Alphabet

Das deutsche Alphabet Kleiner Alphabetisierungskurs Deutsch schreiben lernen: Alphabet und erste Wörter Dieser kleine Alphabetisierungskurs vermittelt Schülern und Erwachsenen Schritt für Schritt das deutsche Alphabet. Mit

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

SCHREIBHEFT: DRUCKSCHRIFT

SCHREIBHEFT: DRUCKSCHRIFT SCHREIBHEFT: DRUCKSCHRIFT Auf den folgenden Seiten finden Sie das Alphabet in der Druckschrift. Dieses Heft ist als Übungsheft für Erstklässler gedacht, aber auch für ältere Schüler, die, aus welchem Grund

Mehr

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart Institut für maschinelle Sprachverarbeitung Universität Stuttgart schmid@ims.uni-stuttgart.de Die Folien basieren teilweise auf Folien von Mark Johnson. Koordinationen Problem: PCFGs können nicht alle

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 8. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU (Fortsetzung LC-/Chart-Parsing) Statistische Verfahren in der KI Impliziert Maschinelles

Mehr

SKOPOS Webinar 22. Mai 2018

SKOPOS Webinar 22. Mai 2018 SKOPOS Webinar 22. Mai 2018 Marktforschung 2020: Künstliche Intelligenz und automatische Text Analysen? Christopher Harms, Consultant Research & Development 2 So? Terminator Exhibition: T-800 by Dick Thomas

Mehr

Phonetische Transkription I

Phonetische Transkription I Phonetische Transkription I Vokale Stephanie Köser (M.A.), Sprachwissenschaft & Sprachtechnologie, Universität des Saarlandes Inhalt SAMPA, Teil 2 Kurze Zusammenfassung zu den Internetseiten, die Sie kommentiert

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

6.5 Statistische Spracherkennung

6.5 Statistische Spracherkennung 6.5 Statistische Spracherkennung 6.5.1 Spracherkennung mit MAP Regel MAP Regel (Maximum-a-posteriori-Regel Wˆ = argmax W V * P( W X) optimale Wortfolge Wˆ = w w K w i V 1 2 w K Wortfolge Merkmalssequenz

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018 S. Constantin (stefan.constantin@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Lösungsblatt 4 Maschinelles Lernen und Spracherkennung Aufgabe

Mehr

n Marianne Wilhelm Konrad Kregcjk B E H T N H

n Marianne Wilhelm Konrad Kregcjk B E H T N H Konrad Kregcjk n Marianne Wilhelm H T S B B E U C A N H B UC 1 Das Buchstabenbuch Sie halten nun das Buchstabenbuch zu DEUTSCH MIT PFIFF 1 in den Händen. Das Buchstabenbuch fördert wichtige Basiskompetenzen

Mehr

Modell Komplexität und Generalisierung

Modell Komplexität und Generalisierung Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung

Mehr

Sprachwahrnehmung in der frühen Kindheit. 12. Sitzung am Anja van Kampen

Sprachwahrnehmung in der frühen Kindheit. 12. Sitzung am Anja van Kampen Sprachwahrnehmung in der frühen Kindheit 12. Sitzung am 29.06.2010 Anja van Kampen Anja van Kampen Sprachwahrnehmung in der frühen Kindheit SoSe 2010 1 Mustererkennung Zunächst kurze Wiederholung Aufgabe

Mehr

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Anwendungen von HMM Kapitel 1 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Fremdwörter verstehen und richtig schreiben - für die 3./4.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Fremdwörter verstehen und richtig schreiben - für die 3./4. Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Fremdwörter verstehen und richtig schreiben - für die 3./4. Jahrgangsstufe Das komplette Material finden Sie hier: School-Scout.de

Mehr

2017 Hans Gsottbauer

2017 Hans Gsottbauer Gruppe 1 Groß Klein Name Schreibschrift Α α Alfa Β β Vita Γ γ Gama Δ δ Delta Ε ε Epsilon Ζ ζ Zita Wir üben schriftlich sowohl Groß- als auch Kleinbuchstaben der Schreibschrift. Die Großbuchstaben zu schreiben,

Mehr

Sarati. Rúmil von Tirion Sarati Allgemein Sarati Rúmilo, Ausrichtung Konsonanten Vokale Zahlzeichen

Sarati. Rúmil von Tirion Sarati Allgemein Sarati Rúmilo, Ausrichtung Konsonanten Vokale Zahlzeichen Sarati Rúmil von Tirion Sarati Allgemein Sarati Rúmilo, Ausrichtung Konsonanten Vokale Zahlzeichen Rúmil von Tirion Name Rúmil wahrscheinlich vom Quenyanischen Wort für Rätsel (rum) Noldorgelehrter aus

Mehr

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING Andreas Nadolski Softwareentwickler andreas.nadolski@enpit.de Twitter: @enpit Blogs: enpit.de/blog medium.com/enpit-developer-blog 05.10.2018, DOAG Big Data

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

你好大学冬季. Schriftsysteme L M N O P

你好大学冬季. Schriftsysteme L M N O P Schriftsysteme 你好大学冬季 L M N O P Es gibt grundsätzlich zwei Alternativen, Schrift mit Sprache zu verbinden: Entweder man orientiert sich am Inhalt dessen, was durch Sprache ausgedrückt wird, also an der

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Statistische Grundlagen Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 21 Diskrete Wahrscheinlichkeitsräume (1) Carstensen et al. (2010), Abschnitt

Mehr

Ansätze zur Lokalisierung einer Openstreetmap basierten Weltkarte

Ansätze zur Lokalisierung einer Openstreetmap basierten Weltkarte Ansätze zur Lokalisierung einer Openstreetmap basierten Weltkarte Sven Geggus 1 Ausgangssituation In Gegenden, in denen nicht das lateinische Schriftsystem dominiert, sind auf Openstreetmap basierende

Mehr

Günther Thomé, Dorothea Thomé. Basiskonzept Rechtschreiben Was ist einfach, was ist schwierig zu schreiben? isb

Günther Thomé, Dorothea Thomé. Basiskonzept Rechtschreiben Was ist einfach, was ist schwierig zu schreiben? isb Günther Thomé, Dorothea Thomé Basiskonzept Rechtschreiben Was ist einfach, was ist schwierig zu schreiben? über 2.500 Haupteinträge 99 Bilder und mehr wichtige Tabellen und Übersichten orientiert an den

Mehr

Projektgruppe. Text Labeling mit Sequenzmodellen

Projektgruppe. Text Labeling mit Sequenzmodellen Projektgruppe Enes Yigitbas Text Labeling mit Sequenzmodellen 4. Juni 2010 Motivation Möglichkeit der effizienten Verarbeitung von riesigen Datenmengen In vielen Bereichen erwünschte automatisierte Aufgabe:

Mehr

Phonetik, Phonologie und Graphemik fürs Examen

Phonetik, Phonologie und Graphemik fürs Examen Hans Altmann Ute Ziegenhain Phonetik, Phonologie und Graphemik fürs Examen Westdeutscher Verlag Inhalt Inhalt 5 Vorwort 9 Abkürzungsverzeichnis 11 1. Grundlagen 15 1.1. Motivation 15 1.2. Vorgehen 17 1.3.

Mehr

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16 AGENDA Grundlegendes Sprache Anwendungsbeispiele Schwierigkeit Architektur Spracherkennungssystem Hidden Markov Modell Verbesserung durch Kombination mit

Mehr

NIHON - GO - Die japanische Sprache & Schrift -

NIHON - GO - Die japanische Sprache & Schrift - NIHON - GO - Die japanische Sprache & Schrift - nihon-go = Japanische Sprache Die Herkunft und Entstehung der japanischen Sprache ist bis heute unklar. Sie ist bisher keiner Sprachfamilie zuzuordnen. Natürlich

Mehr

Silbentrennung. Optimalitätstheorie. Sarah Bräunlich, Teresa Reiter

Silbentrennung. Optimalitätstheorie. Sarah Bräunlich, Teresa Reiter Silbentrennung Optimalitätstheorie Sarah Bräunlich, Teresa Reiter 02.05.2017 Silbentrennung durch langsames Vorlesen? z.b.: so zi a les Le gu a ne Wie viele Silben hat soziales tatsächlich? [zo.tsja:.ləs]

Mehr

Illustrierende Aufgaben zum LehrplanPLUS

Illustrierende Aufgaben zum LehrplanPLUS Wörter mit Doppelkonsonanz richtig schreiben Jahrgangsstufen 3/4 Fach Benötigtes Material Deutsch Passendes Wortmaterial (Minimalpaare, wie z. B. Riese Risse, siehe Arbeitsauftrag) Kompetenzerwartungen

Mehr

Tutorium zu den Linguistik-Einführungsseminaren. Markus Frank M.A. Phonologie

Tutorium zu den Linguistik-Einführungsseminaren. Markus Frank M.A. Phonologie A. Phonologie 05.05.2013 Grundbegriffe, Vokalphoneme 15.05.2013 Konsonantenphoneme Phonologie Die Phonetik und die Phonologie befassen sich mit den artikulatorischen und akustischen Merkmalen der menschlichen

Mehr

Ergänzende Informationen zum LehrplanPLUS

Ergänzende Informationen zum LehrplanPLUS Meine Ferien Mein Wetterbericht Meine Hobbys Meine Ferien Raus ins Grüne... Endlich Ferien! Stand der Sprachkenntnisse Fach Zeitrahmen Schülerinnen und Schüler mit geringen Sprachkenntnissen mit Grundkenntnissen

Mehr

Gleiche Daten, unterschiedliche Erkenntnisziele?

Gleiche Daten, unterschiedliche Erkenntnisziele? Gleiche Daten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zur Textanalyse Universität Hamburg Evelyn Gius Jan Christoph Meister Janina Jacke Marco Petris Universität

Mehr

Grundschule Hoheluft. Kinder auf dem Weg zur Schrift

Grundschule Hoheluft. Kinder auf dem Weg zur Schrift Grundschule Hoheluft Kinder auf dem Weg zur Schrift Erstlesen und -schreiben Lesen und Schreiben setzen sich aus einem Bündel von Teilfertigkeiten zusammen. Der Erwerb einiger dieser Teilfertigkeiten beginnt

Mehr

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami

Korrekturprogramme. Von Emine Senol & Gihan S. El Hosami Korrekturprogramme Von Emine Senol & Gihan S. El Hosami Einleitung Millionen von Texten werden mit dem Computern täglich erfasst Fehler schleichen sich ein Korrekturprogramme helfen diese zu finden zu

Mehr

Serie 8: Online-Test

Serie 8: Online-Test D-MAVT Lineare Algebra I HS 017 Prof Dr N Hungerbühler Serie 8: Online-Test Einsendeschluss: Freitag, der 4 November um 14:00 Uhr Diese Serie besteht nur aus Multiple-Choice-Aufgaben und wird nicht vorbesprochen

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Schriftsysteme. Schriftsysteme. Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010

Schriftsysteme. Schriftsysteme. Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010 Seminar: Suchmaschinen Dozent: Stefan Langer CIS, Universität München Wintersemester 2010 Übung (5 min) Welche kennen Sie? Finden Sie jeweils ein Beispiel für jeden der unten angegebenen Typen Alphabete

Mehr

Python für Linguisten

Python für Linguisten Python für Linguisten Dozentin: Wiebke Petersen & Co-Dozentin: Esther Seyarth 5. Foliensatz sequentielle Datentypen, Dictionaries Petersen & Seyarth Python 1 Sequentielle Datentypen Tupel, Listen und Strings

Mehr

Hidden Markov Models (HMM)

Hidden Markov Models (HMM) Hidden Markov Models (HMM) Kursfolien Karin Haenelt 1 Themen Definitionen Stochastischer Prozess Markow Kette (Visible) Markov Model Hidden Markov Model Aufgaben, die mit HMMs bearbeitet werden Algorithmen

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

Mikro und Makroprosodie. Jonathan Harrington Felicitas Kleber

Mikro und Makroprosodie. Jonathan Harrington Felicitas Kleber Mikro und Makroprosodie Jonathan Harrington Felicitas Kleber Eine akustische Analyse der Makroprosodie setzt ebenfalls eine Entfernung mikroprosodischer Eigenschaften voraus. Mikroprosodie Mikro- und Makroprosodie

Mehr

Praktikum Maschinelle Übersetzung Language Model

Praktikum Maschinelle Übersetzung Language Model Praktikum Maschinelle Übersetzung Language Model Um die Aufgaben auszuführen, können Sie ihre Daten in folgendem Verzeichnis speichern: /project/smtstud/ss10/systems/username/ Wir werden verschiedene Sprachmodelle

Mehr

Deutschkartei Übungen mit den Lernwörtern

Deutschkartei Übungen mit den Lernwörtern Deutschkartei Übungen mit den Lernwörtern Diese Kartei kann zum Üben der Lernwörter (Lernwortlisten, Karteikästen, Registerheften) eingesetzt werden. Die Kinder arbeiten dabei hauptsächlich in und schreiben

Mehr

Artikulation, Hör- und Transkriptionsübung

Artikulation, Hör- und Transkriptionsübung Artikulation, Hör- und Transkriptionsübung Stephanie Köser (M.A.) E-Mail: skoeser@coli.uni-saarland.de http://www.coli.uni-saarland.de/~skoeser/ Kursvoraussetzungen, Link-Tipps und Materialien Kurze Einführung

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Überblick. Gebärdenerkennung. Was ist Gebärdenerkennung? Warum ist es so schwierig? Modellierung der Sprache und Simultaneität

Überblick. Gebärdenerkennung. Was ist Gebärdenerkennung? Warum ist es so schwierig? Modellierung der Sprache und Simultaneität Gebärdenerkennung odellierung der Sprache und Simultaneität Christian Vogler, University of Pennsylvania In Zusammenarbeit mit Dimitris etaxas, Rutgers University Überblick Problemstellung odellierung

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Beabsichtigte und automatische Aspekte der Sprachproduktion und Sprachperzeption. am

Beabsichtigte und automatische Aspekte der Sprachproduktion und Sprachperzeption. am Beabsichtigte und automatische Aspekte der Sprachproduktion und Sprachperzeption am 13.11.2016 1 Vortragsgliederung 1.Grundlagen 2.Hauptfaktoren 2.1.Vokalnasalisierung 2.2.Voice Onset Time 2.3.Vokaldauer

Mehr

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1 EFME Aufsätze (150 200 Wörter) Der Aufbau von Entscheidungsbäumen...1 PCA in der Gesichtserkennung... 2 Bias, Varianz und Generalisierungsfähigkeit... 3 Parametrische und nicht-parametrische Lernverfahren:

Mehr

2 Perioden in 0.02 s 1 Periode in 0.01 s 100 Perioden in 1 s, Grundfrequenz = 100 Hz

2 Perioden in 0.02 s 1 Periode in 0.01 s 100 Perioden in 1 s, Grundfrequenz = 100 Hz 1. Die Abbildung in (a) zeigt einen synthetischen [i] Vokal. Was ist die Grundfrequenz davon? (Die Zeitachse ist in Sekunden). 2 Perioden in 0.02 s 1 Periode in 0.01 s 100 Perioden in 1 s, Grundfrequenz

Mehr

Parabel. Folie 3. Folie 4. x y. Skizziere selbst denkbare Kurven!

Parabel. Folie 3. Folie 4. x y. Skizziere selbst denkbare Kurven! A UFGABEN- B LÄTTER Folie 3 Überlege, von welchen Einflüssen (Parametern) der Kurvenverlauf der Wassersäule abhängt! Skizziere selbst denkbare Kurven! Folie 4 Kannst du dich für eine entscheiden? Begründe,

Mehr

Jede neue Sprache ist wie ein offenes Fenster, das einen neuen Ausblick auf die Welt eröffnet und die Lebensauffassung weitet.

Jede neue Sprache ist wie ein offenes Fenster, das einen neuen Ausblick auf die Welt eröffnet und die Lebensauffassung weitet. Der einzige Spickzettel, den du brauchst, um die koreanischen Buchstaben zu lernen und um anschließend in der Lage zu sein, Koreanisch lesen und schreiben zu können. Jede neue Sprache ist wie ein offenes

Mehr