Softwareprojektpraktikum Maschinelle Übersetzung



Ähnliche Dokumente
Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Automatische Evaluation

Softwareprojektpraktikum Maschinelle Übersetzung

Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Grundlagen der Informatik

Kurzanleitung So geht s

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

ecaros2 - Accountmanager


YouTube: Video-Untertitel übersetzen

LAS PROGRAMM- ANPASSUNGEN

Die Magie des Gewinnwachstums

Simplex-Umformung für Dummies

Erstellen eines Formulars

Fragebogen zur Masterarbeit Betriebliche Beurteilungspraxis von Auszubildenden. 1. Welcher Gruppe von Kreditinstituten gehören Sie an?

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Elternumfrage Kita und Reception. Campus Hamburg

EMIS - Langzeitmessung

Anleitung: Passwort-Self-Service-Portal

2. Schönheitsoperationen. Beauty S Lifestyle Lifestyle

Theoretische Grundlagen der Informatik WS 09/10

Noten ausrechnen mit Excel/Tabellenkalkulation. 1) Individuellen Notenschlüssel/Punkteschlüssel erstellen

Kapitel 1: Einführung. Was ist Informatik? Begriff und Grundprobleme der Informatik. Abschnitt 1.1 in Küchlin/Weber: Einführung in die Informatik

Professionelle Seminare im Bereich MS-Office

Zahlensysteme. von Christian Bartl

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Anwendungsbeispiele Buchhaltung

Online Banking. Nutzung von Online Banking. Ergebnisse repräsentativer Meinungsumfragen im Auftrag des Bankenverbandes April 2011

Fallbeispiel. Auswahl und Evaluierung eines Software- Lokalisierungstools. Tekom Herbsttagung 2004 Angelika Zerfaß

Über dieses Buch. Nutzungsrichtlinien

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

- Zweimal Wöchentlich - Windows Update ausführen - Live Update im Norton Antivirusprogramm ausführen

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Option 1: Hinzufügen eines Schritts zur Bearbeitungsliste... 2

Gesetzesänderungen «Nominee», Entwurf

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Sparda mobiletan Nutzungsanleitung

ACDSee Pro 3-Tutorials: Fotos (+ Datenbank) auf einen anderen Computer bringen

Über dieses Buch. Nutzungsrichtlinien

Informatik-Sommercamp Mastermind mit dem Android SDK

Praktikum Ingenieurinformatik (PI)

Bedienungsanleitung 1

Aufgaben Brealey/Myers [2003], Kapitel 21

Praktikum Maschinelle Übersetzung Language Model

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

Datensicherung EBV für Mehrplatz Installationen

RIGGTEK. Dissolution Test Systems. DissoPrep Browser-Interface

Väter in Familienunternehmen Die Ursachenstiftung Oktober 2012

1. Wie hat Ihnen die Ökobilanz-Werkstatt gefallen? 20 55,0% 40,0% 5,0% 0,0% 0,0% 100,0% 1,5

Bedienungsanleitung für den Online-Shop

BITte ein BIT. Vom Bit zum Binärsystem. A Bit Of Magic. 1. Welche Werte kann ein Bit annehmen? 2. Wie viele Zustände können Sie mit 2 Bit darstellen?

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Die Komplexitätsklassen P und NP

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Informationen zur WCMS- Ablösung

Leitfaden zur Durchführung eines Jahreswechsels in BüroWARE 5.x

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Hinweise zum Ausfüllen der Zeiterfassung

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Web Interface für Anwender

GSM: Airgap Update. Inhalt. Einleitung

Tipps und Tricks zu Netop Vision und Vision Pro

Aufkleber, Visitenkarten und Karteikarten

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Kurzanweisung für Google Analytics

How to do? Projekte - Zeiterfassung

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Automatisches Beantworten von - Nachrichten mit einem Exchange Server-Konto

A.u.S. Spielgeräte GmbH A-1210 Wien Scheydgasse 48 Tel.+43-(0) Fax. +43-(0)

Der einfache Weg zum CFX-Demokonto

Dietmar Cremers Director Operations

Stud.IP. Inhalt. Rechenzentrum. Vorgehen zur Eintragung in Veranstaltungen / Gruppen. Stand: Januar 2015

Leitfaden zur Durchführung eines Jahreswechsels in BüroWARE 5.x

Urlaubsregel in David

Einführung in Subversion

ABSENDUNGEN der BICS-REISEANMELDUNG CHECKEN

Anleitung zum Computercheck So aktualisieren Sie Ihr Microsoft- Betriebssystem

SafeRun-Modus: Die Sichere Umgebung für die Ausführung von Programmen

Schule Sins - Anleitung LehrerOffice

Kurzanleitung. Toolbox. T_xls_Import

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

e LEARNING Kurz-Anleitung zum Erstellen eines Forums 1. Wie erstellt man ein Forum?

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Auswertung des Jahresabschlusses Bilanzanalyse 2

VoIP. Anleitung zur Nutzung des CCMUSER. VoIP Anleitung zur Nutzung des CCMUSER. 1) Einloggen

Ebenenmasken Grundlagen

Wärmebildkamera. Arbeitszeit: 15 Minuten

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Einrichtung eines VPN-Zugangs

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anleitung zum Computercheck So aktualisieren Sie Ihr Microsoft-Betriebssystem

Keine Disketteneinreichung ab 1. Februar 2014

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Wurzeln als Potenzen mit gebrochenen Exponenten. Vorkurs, Mathematik

C A R L V O N O S S I E T Z K Y. Boost C++ Libraries. Johannes Diemke. Department of Computer Science Learning and Cognitive Systems

Fotos in Tobii Communicator verwenden

Transkript:

Softwareprojektpraktikum Maschinelle Übersetzung Jan-Throsten Peter, Andreas Guta {peter,guta}@i6.informatik.rwth-aachen.de Vorbesprechung 3. Aufgabe 6. Mai 2014 Human Language Technology and Pattern Recognition Lehrstuhl für Informatik 6 Computer Science Department RWTH Aachen University, Germany J.-T. Peter, A. Guta Maschinelle Übersetzung 1 Vorbesprechung 6. Mai 2014

Wie lässt sich die Qualität von Übersetzungen beurteilen? Ziele: Vergleich der Performanz verschiedener maschineller Übersetzungssysteme Beurteilung des Effekts inkrementeller Änderungen während der Systementwicklung Optimierung freier Parameter Menschliche Bewertung: zeitaufwändig teuer Beurteilungen verschiedener Evaluatoren stimmen oft nicht überein Entscheidungen ein und desselben Evaluators sind oft nicht konsistent J.-T. Peter, A. Guta Maschinelle Übersetzung 2 Vorbesprechung 6. Mai 2014

Adequacy und Fluency Mögliche Kriterien zur Beurteilung von Übersetzungen: Adequacy: Gibt die Übersetzung die Bedeutung des Quellsatzes wieder? Sind keine Inhalte ausgelassen oder hinzugefügt worden? Fluency: Ist die Übersetzung in der Zielsprache ein korrekt formulierter und flüssig lesbarer Satz? Auf einer Skala von 1 bis 5: The dog is barking. Adequacy Fluency Bellen das Hund. 5 2 Das Wetter ist schön. 1 5 Der Hund bellt. 5 5 J.-T. Peter, A. Guta Maschinelle Übersetzung 3 Vorbesprechung 6. Mai 2014

Automatische Evaluationsmetriken Automatisierte Bewertung von Übersetzungen durch Vergleich mit einer oder mehreren von Menschen erstellten Referenzübersetzungen Gute automatische Metriken sollten eine hohe Korrelation mit menschlicher Bewertung aufweisen Verbreitete Metriken: F-Measure WER (Word Error Rate) PER (Position-independent Error Rate) BLEU (Bilingual Evaluation Understudy) METEOR (Metric for Evaluation of Translation with Explicit Ordering) NIST-Score... J.-T. Peter, A. Guta Maschinelle Übersetzung 4 Vorbesprechung 6. Mai 2014

Beispiel: F-Measure Precision = Übereinstimmungen Hypothesenlänge Recall = Übereinstimmungen Referenzlänge F-Measure = = Precision Recall (Precision + Recall)/2 Übereinstimmungen (Hypothesenlänge + Referenzlänge)/2 in diesem Fall heißt Übereinstimmung, wieviele Wörter in der Hypothese auch in der Referenz gefunden werden können J.-T. Peter, A. Guta Maschinelle Übersetzung 5 Vorbesprechung 6. Mai 2014

Aufgabe 3 Automatische Evaluierung der Ausgabe des maschinellen Übersetzungsprogramms aus Aufgabe 2 Einlesen einer Referenzübersetzung und einer zu bewertenden Übersetzung Levenshtein-Distanz mittels dynamischer Programmierung Berechnung von WER und PER Berechnung von BLEU J.-T. Peter, A. Guta Maschinelle Übersetzung 6 Vorbesprechung 6. Mai 2014

Levenshtein-Distanz Minimale Anzahl an Einfügungs-, Auslassungs- und Ersetzungsoperationen, die nötig sind, um die Hypothese so zu editieren, dass sie mit der Referenz übereinstimmt Hypothese: Referenz: B A N A N E A N A N A S Hypothese: B A N A N E Referenz: A N A N A S Operationen: d m m m m s i insertion (i), deletion (d), substitution (s), match (m) J.-T. Peter, A. Guta Maschinelle Übersetzung 7 Vorbesprechung 6. Mai 2014

Dynamische Programmierung Berechnung der Levenshtein-Distanz B A N A N E 0 1 2 3 4 5 6 A 1 1 1 2 3 4 5 N 2 2 2 1 2 3 4 A 3 3 2 2 1 2 3 N 4 4 3 2 2 1 2 A 5 5 4 3 2 2 2 S 6 6 5 4 3 3 3 Referenz vertikal, Hypothese horizontal Match: Nimm Kosten von diagonal links oben Substitution: Nimm Kosten von diagonal links oben, addiere 1 Insertion: Nimm Kosten von oben, addiere 1 Deletion: Nimm Kosten von links, addiere 1 Eintragung in Tabellenzelle ist Minimum aus Match/Substitution, Insertion und Deletion J.-T. Peter, A. Guta Maschinelle Übersetzung 8 Vorbesprechung 6. Mai 2014

WER und PER WER: Dividiere durch Referenzlänge Levenshtein-Distanz = Einfügungen + Auslassungen + Ersetzungen WER = Levenshtein-Distanz Referenzlänge PER: Zähle Anzahl der Übereinstimmungen unabhängig von der Wortreihenfolge PER = 1 Übereinstimmungen max(0, Hypothesenlänge Referenzlänge) Referenzlänge J.-T. Peter, A. Guta Maschinelle Übersetzung 9 Vorbesprechung 6. Mai 2014

BLEU modified n-gram Precision p n einer Hypothese C: p n = n-gram C Count match(n-gram) n-gram C Count(n-gram ) (1) Brevity Penalty BP (c Länge der Hypothese, r Länge der Referenz): BP = { 1 if c > r e (1 r/c) if c r (2) BLEU (meist mit N = 4) BLEU = BP exp ( N n=1 1 N log p n ) (3) J.-T. Peter, A. Guta Maschinelle Übersetzung 10 Vorbesprechung 6. Mai 2014

Modified n-gram Precision Beispiel: modified n-gram Precision p n einer Hypothese C Hypothese: the the the the the the the Reference: the cat is on the mat modified 1-gram Precision: the kommt in der Referenz nur zweimal vor p 1 = 2/7 modified 2-gram Precision: the the kommt in der Referenz niemals vor p 2 = 0/6 = 0 J.-T. Peter, A. Guta Maschinelle Übersetzung 11 Vorbesprechung 6. Mai 2014

Brevity Penalty Brevity Penalty: BP = { 1 if c > r e (1 r/c) if c r (4) Problem bei zu kurzen Hypothesen: modified n-gram Precision sehr hoch Bsp: Hypothese: the cat, Reference: the cat is on the mat modified n-gram Precision = 2/2 = 1 Lösung: Brevity Penalty bestraft zu kurze Hypothesen J.-T. Peter, A. Guta Maschinelle Übersetzung 12 Vorbesprechung 6. Mai 2014

Einzelaufgaben Jede Praktikumsgruppe ist für die Verwendung von einem Tool zuständig Vorbereitung von einem Vortrag für alle Teilnehmer (10-15 Minuten) über deren Nutzung (mit Beispielen an eurem Quellcode) Software-Dokumentation: z.b. doxygen Programmierung: Profiling mit z.b. gprof und Verwendung von unittests Planung: Repository, z.b. mit git oder svn, und einen Bug-Tracker, z.b. ditz J.-T. Peter, A. Guta Maschinelle Übersetzung 13 Vorbesprechung 6. Mai 2014

Fragen? Viel Erfolg! J.-T. Peter, A. Guta Maschinelle Übersetzung 14 Vorbesprechung 6. Mai 2014

The Blackslide GoBack