Language Identification XXL

Ähnliche Dokumente
Implementierung eines Vektormodells

Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten.

Diskriminatives syntaktisches Reranking für SMT

Corpus based Identification of Text Segments. Thomas Ebert Betreuer: MSc. Martin Schmitt

Wissensrepräsentation

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Anwendung von Vektormodell und boolschem Modell in Kombination

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

Erkennung fremdsprachiger Ausdrücke im Text

Softwareprojektpraktikum Maschinelle Übersetzung

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Identifikation der Sprache eines elektronischen Dokumentes oder eines Dokumentausschnitts (z.b. eines Abschnitts).

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Information Retrieval, Vektorraummodell

Natural language processing

Learning to Rank Sven Münnich

Named Entity Recognition auf Basis von Wortlisten

Der VITERBI-Algorithmus

Vom Zeichen zur Schrift Mit Mustererkennung zur automatisierten Schreiberhanderkennung in mittelalterlichen und frühneuzeitlichen Handschriften

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Einführung in Support Vector Machines (SVMs)

Praktikum Maschinelle Übersetzung Language Model

Referat zum Thema: Exemplartheorien

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Einführung in die Computerlinguistik

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

Statistische Verfahren in der Computerlinguistik

Machine Translation with Inferred Stochastic Finite-State Transducers

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Vortrag SWP Gruppe 3

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassifikation von Textabschnitten

Maschinelle Sprachverarbeitung: Modelle zu Wortsequenzen Teil 1

Thema: Prototypische Implementierung des Vektormodells

Boolesche- und Vektorraum- Modelle

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Text Mining for Second Screen

Einführung in HTML. Hui Dai. WS05/ Hui Dai 1

Statistische Sprachmodelle

CANES SILVER HANDMADE STERLING

Mathematische Grundlagen III

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Modell und Implementierung einer temporalen Anfragesprache

Moderne IR / Language Models / Page Ranking

Machine Learning and Data Mining Summer 2015 Exercise Sheet 11

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Einführung in die Computerlinguistik

Ranking Functions im Web: PageRank & HITS

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

SPRACHENIDENTIFIZIERUNG

HS Information Retrieval

Informationsextraktion mit endlichen Automaten

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Topic Models als sinologisches Hilfsmittel: Möglichkeiten und Grenzen

Kapitel IR:III (Fortsetzung)

Vortrag im Rahmen der Vorlesung Data Warehouse Dozentin: Prof. Dr. Frey-Luxemburger WS 2011/2012. Referent: Florian Kalisch (GR09)

Sprachunabhängige Autorschafts-Verifikation

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Maschinelle Übersetzung

TreeTagger. Deborah Watty

MATLAB-Tutorium WS18 Nathalie Marion Frieß

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Bachelorarbeit im Fach Computerlinguistik Centrum für Informations- und Sprachverarbeitung LMU München Betreuerin: Dr.

Information Retrieval. Peter Kolb

SPRACHENIDENTIFIZIERUNG SEMINAR: KLASSIFIKATION DOZENT: STEFAN LANGER CIS, UNIVERSITÄT MÜNCHEN WINTERSEMESTER 2016

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Automatische Textzusammenfassung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Einführung in die Computerlinguistik Statistische Grundlagen

Inwiefern zeigen die Monophthong Vokalverschiebungen in Neuseeland Englisch Evidenzen von 'chain shifting'?

Stemming. OS Einblicke in die Computerlinguistik Felix Hain HTWK Leipzig

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Latent Vector Weighting. Word Meaning in Context

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Hidden Markov Models in Anwendungen

Abusive Language Detection in Online User Content

Computer Graphics Shader

Intelligente Klassifizierung von technischen Inhalten. Automatisierung und Anwendungspotenziale

Kategorisierungsverfahren. Rocchio k-nearest neighbour (knn) Naive Bayes Support Vector Machines n-gramm-sprachmodelle

(Bamberg)

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Gleiche Daten, unterschiedliche Erkenntnisziele?

Implementierung: Dokumentclustering

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Named Entity Recognition (NER)

Boole'sches Modell <is web>

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Correlational analysis

Möglichkeiten der automatischen Sprachverarbeitung mit Django

Transkript:

Ruprecht-Karls Universität Heidelberg Seminar für Computerlinguistik Software Projekt WS 2009/10 Language Identification XXL Referenten: Galina Sigwarth, Maria Semenchuk, George Kakish, Ulzhan Kadirbayeva Betreuer: Nils Reiter

Inhalt Motivation Ziel & Projekaufgabe Ablauf Stand der Forschung Ansätze Ressourcen Evaluation Planung Aufgabeverteilung Quellen Language Identification XXL 2

Motivation Sprachidentifizierung: Ermittlung der Sprache, in der ein elektronisches Textdokument verfasst ist. Wozu braucht man Sprachidentifizierungssysteme? Information Retrieval Pre-Processing für andere Techniken der Sprachverarbeitung Rechtschreibkorrektur Optical Character Recognition (OCR) Language Identification XXL 3

Language Identification XXL 4

Ziel und Projektaufgaben Ein System entwickeln, das die Sprache eines elektronischen Textdokuments identifizieren kann. Input (Dokument) Output (Sprache) Trainings-/ Testdaten basierend auf Wikipedia Tools zur Entfernung von Markups Wie groß muss das Trainings-/ Testdokument sein? Welche Ansätze (N-Gramm/Token basiert, kombiniert) sind für welche Sprachen am besten geeignet? Wie kann man eng verwandte Sprachen unterscheiden? Welche spezielle Klassifizierer bzw. Klassifier-Kombinationen passen für schwierige Sprachabgrenzungen? Implementierung der ausgewählten Ansätze Web-Interface erstellen Evaluierung / Dokumentation Language Identification XXL 5

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 6

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 7

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 8

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 9

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 10

Ablauf Korpus aus Wikipediadaten Sprachmodelle erzeugen Testdokument Dokumentmodell erzeugen Dokumentmodell mit Sprachmodellen mittels verschiedener Klassifikationsverfahren vergleichen Wahrscheinlichste Sprache ausgeben Quelle: Apoutsma 2001:2 Language Identification XXL 11

Stand der Forschung N-Gramme William B. Canvar und John M. Trenkle (1994) Short words J.M. Prager (1999), G. Grefnstette (1995) Frequent word C. Souter (1994) Geschlossene Wortklassen R. D. Lins & P. Gonçalves (2004) Unikale Buchstabenkombinationen ( sch im Deutschen) C. Souter (1994) Word Shape Tokens P.Sibun & L. A. Spitz (1994) und P. Sibun & J. C. Reynar(1996) Language Identification XXL 12

Ansätze I. Step By Step Ansatz : Language Identification With Confidence Limits (David Elworthy 1998) II. III. Character N-Gramm basierter Ansatz: (William B. Canvar und John M. Trenkle 1994) Kombinierter Ansatz: Linguini: Language Identification for Multilingual Documents (Prager, J. M. 1999) Language Identification XXL 13

Step By Step Ansatz Tokenisieren der Trainingsdaten Berechnung der relativen Wahrscheinlichkeit des Tokens zu jedem Sprachmodell Tokenisieren des Testdokuments Erstellung des Testdokumentmodells nicht erforderlich Die wahrscheinlichste Sprache des Testdokuments mit Hilfe Bayes schen Entscheidungsregeln ermitteln Language Identification XXL 14

Step By Step Ansatz Tokenisieren der Trainingsdaten Berechnung der relativen Wahrscheinlichkeit des Tokens zu jedem Sprachmodell Tokenisieren des Testdokuments Erstellung des Testdokumentmodells nicht erforderlich Die wahrscheinlichste Sprache des Testdokuments mit Hilfe Bayes schen Entscheidungsregeln ermitteln Language Identification XXL 15

Step By Step Ansatz Tokenisieren der Trainingsdaten Berechnung der relativen Wahrscheinlichkeit des Tokens zu jedem Sprachmodell Tokenisieren des Testdokuments Erstellung des Testdokumentmodells nicht erforderlich = Die wahrscheinlichste Sprache des Testdokuments mit Hilfe Bayes schen Entscheidungsregeln ermitteln Language Identification XXL 16

Step By Step Ansatz Klassifikation mittels Bayes schen Entscheidungsregel Quelle: D.Elworthy. 1998: 2 p(t l) = relative Wahrscheinlichkeit eines Tokens zu jedem Sprachmodell p(l) = Wahrscheinlichkeit der Sprache konstant p(l) = p(t) = Wahrscheinlichkeit des Tokens über alle Sprachmodelle Language Identification XXL 17

Step By Step Ansatz Klassifikation mittels Bayes schen Entscheidungsregel Quelle: D.Elworthy. 1998: 2 Die Identifikation der Sprache passiert ohne dass das komplette Dokument angeschaut werden muss. Wenn genug Daten gesammelt wurden, um die Entscheidung zu treffen, bricht der Algorithmus ab. Language Identification XXL 18

Step By Step Ansatz Beispiel Das Language Identification XXL 19

Step By Step Ansatz Beispiel Das ist Language Identification XXL 20

Step By Step Ansatz Beispiel Das ist ein Language Identification XXL 21

Step By Step Ansatz Beispiel Das ist ein deutscher brake Language Identification XXL 22

Character N-Gramm basierter Ansatz Tokenisieren, Zerlegen in N- Gramme, Berechnung der absoluten Häufigkeit der N-Gramme Sortierung der N-Gramme nach absoluten Häufigkeit absteigend Vergleich des Dokumentmodells mit dem Sprachmodell mittels Rangliste (Out-Of-Place measure) = Die Sprache mit dem kleinsten Distanzwert ausgeben Language Identification XXL

Character N-Gramm basierter Ansatz Tokenisieren, Zerlegen in N- Gramme, Berechnung der absoluten Häufigkeit der N-Gramme Sortierung der N-Gramme nach absoluten Häufigkeit absteigend Vergleich des Dokumentmodells mit dem Sprachmodell mittels Rangliste (Out-Of-Place measure) = Die Sprache mit dem kleinsten Distanzwert ausgeben Language Identification XXL

Character N-Gramm basierter Ansatz Ad hoc Ranking Out-Of-Place measure: Quelle: B. Cavnar and M. Trenkle 1994:6 Language Identification XXL 25

Character N-Gramm basierter Ansatz Beispiel Der Arbeiter arbeitet in der Fabrik The worker works in the factory most frequent least frequent er de ar rb be ei it te et... or th he wo rk ke er ks in... 1 2 3 4 5 6 7 8... 15 Sprachemodelle in Deutsch und English sortiert nach der Wahrscheinlichkeit absteigend Ranklist Language Identification XXL 26

Character N-Gramm basierter Ansatz Beispiel Sprachmodell (Deutsch): Der Arbeiter arbeitet in der Fabrik Testdokument: Er leitet die Worte weiter Rank Sprachmodell Dokumentmodell Out-Of-Place 1 er te 7 2 de ei 4 3 ar er 2 4 rb it 3 5 be di max = 15 6 ei et 3 7 it ie max 8 te le max 9... 10... 11... 12... 13... 14... 15... Summe =123 Language Identification XXL 27

Character N-Gramm basierter Ansatz Beispiel Sprachmodell (Englisch): The worker works in the factory Testdokument: Er leitet die Worte weiter Rank Sprachmodell Dokumentmodell Out-Of-Place 1 or te max = 15 2 th ei max 3 wo er 3 4 rk it max 5 ke di max 6 er et max 7 ks ie max 8 in le max 9... 10... 11... 12... 13... 14... 15... Summe =196 Language Identification XXL 28

Kombinierter Ansatz N-Gramm-Wort-kombinierter Ansatz Zerlegen: in N-Gramme (n= 2:5) : Bi-Gramme, Tri- Gramme, Quad-Gramme, Pento-Gramme in Tokens in kurze Wörter (w = 1:4) + Tri-Gramme in kurze Wörter (w = 1:4) + Quad- Gramme in Wörter der unbegrenzten Länge + Quad-Gramme Generierung der Dictionaries Language Identification XXL 29

Kombinierter Ansatz Vektorraummodell Darstellung des Dokumentmodells durch Vektor und des Sprachmodells durch Vektor Ermittlung der Ähnlichkeit zwischen dem Dokumentmodellvektor und den Sprachmodellvektoren mittels der Kosinusdistanz = Ausgabe der geordneten Liste von Sprachen (hit-list) mit Prozentangaben Language Identification XXL 30

Kombinierter Ansatz Berechnung des Ähnlichkeitsmaßes eines Vektors in einem mehrdimensionalen Raum d Dokumetmodellvektor f Sprachmodellvektor Quelle: Prager J. M. 199: 7 Language Identification XXL 31

Kombinierter Ansatz Beispiel dt: Das Vektorraummodell das vek ekt kto tor orr rra rau mod ode del ell ll_. en: Vector Space Model vec ect cto tor or_ spa pac ace ce_ mod ode del el_. Sprachmodelle (Dictionaries) Language Identification XXL 32

Kombinierter Ansatz Vektoren für das Dokumentmodell (das, tor, ect, mod, ode, del, ell): Merkmalsvektor: (1,1,1,1,1,1,1) Englisch: (0,1,1,1,1,1,0) cosθ i = = 0.84 Deutsch: (1,1,0,1,1,1,1) cosθ i = = 0.92 dt: Das Vektorraummodell das vek ekt kto tor orr rra rau mod ode del ell ll_. en:vector Space Model vec ect cto tor or_ spa pac ace ce_ mod ode del el_. Sprachmodelle (Dictionaries) Language Identification XXL 33

Ressourcen Es gibt in Wikipedia 10 Millionen Artikel in 250 Sprachen. Language Identification XXL 34

Evaluation Eigenschaften von Dokumenten und Sprachen herausfinden; Trainings-/Testdaten unterschiedlicher Länge verwenden; Eine zu starke Anpassung an die Trainingsdaten vermeiden; Die Kodierung für Dokumente in nicht lateinischen oder mit einem erweiterten lateinischen Zeichensätzen korrekt erkennen; N-Gramm Längen n=1:5/ kurze Wörter/ Wörter unterschiedlicher Längen verwenden; Den Ansatz für die Identifikation der eng verwandten Sprachen bestimmen; Bei schwierigen Sprachabgrenzungen versuchen Klassifizierer zu kombinieren. Language Identification XXL 35

Aufgabenverteilung und Zeitplan Language Identification XXL 36

Quellen W. Cavnar and J.M. Trenkle. 1994. N-gram-based text categorization. T. Dunning. 1994. Statistical identification of language. D. Elworthy. 1998. Language identification with confidence limits. G. Grefenstette. 1995. Comparing two language identificationschemes. J. Prager 1999. Linguini: Language Identification for Multilingual Documents P. Sibun and A.L. Spitz. 1994. Language determination: Natural language processing from scanned document images. Language Identification XXL 37

Danke für Eure Aufmerksamkeit Language Identification XXL 38