Parallele Korpora und Überblick Terminologie-Extraktion Was ist Terminologie? Was ist ein Term? Terminologie-Datenbank Terminologie der Terminologie



Ähnliche Dokumente
Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

teischl.com Software Design & Services e.u. office@teischl.com

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

Erläuterung des Begriffs Plagiat

Ziele und Herausforderungen

Terminologie zwischen normativer Referenz und deskriptiver Dokumentation. Dr. Birte Lönneker-Rodman, Across Systems GmbH

Translation Memory Leistungsstarke Technologie, die Zeit und Geld spart

Artikel Schnittstelle über CSV

Bauteilattribute als Sachdaten anzeigen

DFBnet Spielbericht online Spielberechtigungslisten erstellen

Microsoft Access 2013 Navigationsformular (Musterlösung)

EINE DOKUMENTATION VERFASSEN MIT HILFE DES COMPUTERS

Netzwerkeinstellungen unter Mac OS X

Vorgehensweise bei Lastschriftverfahren

Hilfe zur Urlaubsplanung und Zeiterfassung

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Programmiersprachen und Übersetzer

TermStar Gate für Word

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Es gibt situationsabhängig verschiedene Varianten zum Speichern der Dokumente. Word bietet im Menü DATEI unterschiedliche Optionen an.

Wie Sie mit Mastern arbeiten

Terminologieextraktion mit Acrolinx IQ. Verbesserung von Unternehmenssprache und Übersetzungsprozess Melanie Siegel

Lehrer: Einschreibemethoden

Anleitung Abwesenheitsmeldung und -Weiterleitung (Open-Xchange Server)

Datenbanken auf Sybase SQL-Anywhere

FIS: Projektdaten auf den Internetseiten ausgeben

Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung

Tutorial: Wie kann ich Dokumente verwalten?

Manual, Version 4.2c: Publikation von Medienmitteilungen auf bs.ch.

HTML5. Wie funktioniert HTML5? Tags: Attribute:

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

Projektmanagement mit Across. Präsentation von Fabian Bönisch, Julia Köhler, Alice Scherer

ACHTUNG: Es können gpx-dateien und mit dem GP7 aufgezeichnete trc-dateien umgewandelt werden.

GISA. Definition Spoolfiles

Kurstitel: SDL Trados Studio 2014 für Projektmanager, Teil 2: Optimieren von Projekten und Projektvorbereitung

Formale Sprachen und Grammatiken

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

BEO-SANKTIONSPRÜFUNG Eine Einführung zum Thema Sanktionsprüfung und eine Übersicht zur BEO-Lösung.

Arbeiten mit UMLed und Delphi

Outlook 2000 Thema - Archivierung

Erstellen eines Formulars

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Lexware professional und premium setzen bis einschließlich Version 2012 den Sybase SQL-Datenbankserver

ChemGes. Überblick & Kurzbeschreibung. Kontaktieren Sie uns für eine unverbindliche, kostenlose Vorführung in Ihrem Haus oder per WebEx

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Datenexport aus JS - Software

my.ohm Content Services Autorenansicht Rechte

Hilfe zur ekim. Inhalt:

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Zeichen bei Zahlen entschlüsseln

tentoinfinity Apps 1.0 EINFÜHRUNG

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Dokumentation von Ük Modul 302

Hilfe zur Dokumentenverwaltung

Benutzerverwaltung Business- & Company-Paket

DAUERHAFTE ÄNDERUNG VON SCHRIFTART, SCHRIFTGRÖßE

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Die USB-Modem-Stick Software (Windows) verwenden. Doppelklicken Sie das Symbol auf dem Desktop, um die Software zu starten. Die Hauptseite erscheint:

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Übersicht... 2 Dateiupload... 3 Administratorfunktionen... 4

Installation und Bedienung von vappx unter ios

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

OP-LOG

Microsoft PowerPoint 2013 Folien gemeinsam nutzen

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Web2Lead. Konfiguration

Ändern eines Kontotyps

Kurzeinführung Excel2App. Version 1.0.0

Übersichtlichkeit im Dokumentenmanagement

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Umstellung News-System auf cms.sn.schule.de

Excel Pivot-Tabellen 2010 effektiv

BSV Ludwigsburg Erstellung einer neuen Internetseite

Download unter:

Task: Nmap Skripte ausführen

Das Modul Hilfsmittel ermöglicht den Anwender die Verwaltung der internen Nachrichten, Notizen, Kontakte, Aufgaben und Termine.

Rechnung Angebot Zeiterfassung

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Updatehinweise für die Version forma 5.5.5

How-To-Do. Fernwartung einer VIPA Steuerung via Ethernet

2 Evaluierung von Retrievalsystemen

Leitfaden zu den Einstellungen in der Office Line anlässlich eines EU-Beitritts

Sage Start Version 2013

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

OSF Integrator für Btracking und Salesforce Anleitung für die Nutzer

Erstellen einer digitalen Signatur für Adobe-Formulare

Daten-Synchronisation zwischen Mozilla Thunderbird (Lightning) / Mozilla Sunbird und dem ZDV Webmailer

Dokumentenarchivierung mit SelectLine-Produkten

Dokumentenarchivierung

Word 2010 Schnellbausteine

FlowFact Alle Versionen

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Leitfaden trixikfz Online

Transkript:

Parallele Korpora und Terminologie-Extraktion Überblick 1. Terminologie-Datenbanken 2. Terminologie-Extraktion 3. Alignierung 4. Translation-Memory (Übersetzungsarchiv) Universität Zürich 2 Was ist Terminologie? Was ist ein Term? Terminologie ist die systematische Untersuchung technischer Terme. Dazu gehört: die Sammlung, Beschreibung, Verarbeitung und Präsentation von Termen, die eine besondere Verwendung erfahren, in einer oder mehreren Sprachen. Vorsicht: Mehrdeutigkeit! Terminologie = Wissenschaft Terminologie = Sammlung von Termen Annäherung: Alle Wörter, die nicht in einem allgemeinsprachlichen Wörterbuch verzeichnet sind (z.b. router, romvelope). Genauer: Alle Wörter (Bezeichnungen), die nicht in einem allgemeinsprachlichen Wörterbuch verzeichnet sind und/oder in einer fachspezifischen Bedeutung benutzt werden (z.b. Zucker in Haushalt/Chemie). 3 4 Terminologie-Datenbank Terminologie der Terminologie ist eine Datenbank für Fachbegriffe mit u.a. den Datenfeldern: Benennung (in verschiedenen Sprachen), Orthographische Variante Fachgebiet Definition, Kontextbeispiele, Querverweise Quellenangaben Synonyme, Antonyme, Hyponyme Thesaurus-Relationen Symbole, Graphiken, Bilder Grammatische Informationen (Genus, Verwaltungsinfo: Datum, Autor, Status,... für eine umfassende Liste siehe: www.ttt.org/clsframe (ISO 12620) Begriffe als Denkeinheiten werden sprachlich repräsentiert durch Bezeichnungen. Als Bezeichnungen gelten (nach F. Mayer S.65) Benennungen Einwortbenennung Mehrwortbenennung Symbole (z.b. / ) Nummern (z.b. 360 o / 37 o ) Notationen (z.b. H 2 O) 5 6

Terminologie-Datenbanken Beispiele für Terminologie-Datenbanken: Eurodicautom (die Terminologie-DB der EU; http://europa.eu.int/eurodicautom/login.jsp) Medical terms in 9 European Languages (http://allserv.rug.ac.be/~rvdstich/eugloss/welcome.html) Beispiele für Terminologie-Datenbanksysteme: MultiTerm (Trados) TermStar (STAR) TermOrganizer (in der XTS, Xerox) Terminologie-Datenbanken Vorteile: schneller Zugriff über Netzwerk für Teamarbeit nutzbar Konsistenzsicherung über Zeit und Mitarbeiter Nachteil: Datenpflege ist aufwendig! 7 8 Terminologie-Extraktion Terminologie-Extraktion = die automatische Gewinnung von Term-Kandidaten aus einem Text (kurz: Termextraktion). Erste Systeme auf dem Markt: Xerox TermFinder System Quirk Trados ExtraTerm Problem: Systeme sind noch ungenau. Studie der Uni Zürich vom Dez. 1999: Präzision: Nur 20% aller gelieferten Termkandidaten sind Terme. Vollständigkeit: Nur 80% aller Terme eines Textes werden gefunden. ist verwandt mit der automatischen Erstellung eines Indexes am Ende eines Buches (back of the book index) der automatischen Verschlagwortung von Büchern (keyword assignment) der automatischen Indexierung für Suchmaschinen (Information Retrieval) 9 10 Methoden der Termextraktion Methoden der Termextraktion linguistische Methoden 1. Bestimmung charakteristischer Morpheme und aller damit gebildeter Komposita. Beispiel aus der Elektrotechnik: Impuls Zählimpuls, Rechteckimpuls Hardwareimpuls Steuerimpuls Impulsbreite, Impulshöhe, Impulszeit Impulsdauer, Impulsverhalten 24-V-Impulsgeber linguistische Methoden 2. Bestimmung der Wortarten und der sog. Nominalphrasen (siehe TermFinder) statistische Methoden (meist kombiniert mit Wortartenbestimmung) Bestimmung der Häufigkeit aller Substantive und aller Adjektiv-Substantiv-Paare in einem Dokument und in allen (?) Dokumenten. Terme kommen im Dokument häufig und in der Gesamtmenge der Dokumente selten vor. 11 12

Schritte bei der Termextraktion Masszahlen 1. Bestimme die Term-Kandidaten 2. Filtere die Term-Kandidaten. Aussortieren von Funktionsverbgefügen (in Rechnung stellen) temporalen Ausdrücken (Ende des Monats) idiomatischen Wendungen (ein Wink mit dem Zaunpfahl) 3. Extrahiere Teile von komplexen Termen als potentielle Terme 4. Bestimme Beziehungen zwischen Termen (Oberbegriff - Unterbegriff; Teil - Ganzes) beschreiben die Qualität der Termextraktion Vollständigkeit (Recall) Ziel: möglichst alle Terme finden möglichst wenige Terme übersehen Genauigkeit (Precision) Ziel: möglichst nur wirkliche Fachterme finden möglichst wenige allgemeinsprachliche Wörter als Term klassifizieren 13 14 Arbeitsweise des Xerox TermFinders Arbeitsweise des Xerox TermFinders Bei monolingualer Term-Extraktion 1. Der Text wird in Worte und Satzzeichen (genauer: Zeichenketten) zerhackt (einschliesslich der Unterscheidung Satzendepunkte vs. Abkürzungspunkte und Ordinalzahlenpunkte). 2. Jedes Wort wird morphologisch analysiert. (Basis: ein grosses Lexikon mit Wortstämmen): Das Programm liefert alle möglichen Lesarten und die zugehörigen Grundformen zu jeder Wortform. Wörter, die nicht im Lexikon sind, werden geraten. 3. Die Lesarten werden mit Hilfe des Kontextes disambiguiert. (= Part-of- Speech Tagging; erreicht ca. 95% Genauigkeit) 4. Alle Nominalphrasen (NP = Nomen mit seinen Attributen) werden extrahiert. TermFinder findet folgende Arten von Nominalphrasen in englischen Texten noun: account adjective + noun: non-financial enterprise compound noun: interbank market adjective + compound noun: EMU-wide interbank market uniform money market interest rate noun + of - prepositional phrase: settlement of cross-border payments 15 16 Arbeitsweise des Xerox TermFinders Vorteile des Xerox TermFinders Bei bilingualer Term-Extraktion 1. Die Texte werden aligniert (d.h. es werden parallele Übersetzungseinheiten gebildet). 2. Bei beiden Texten werden die Term-Kandidaten extrahiert wie bei monolingualer Term-Extraktion. 3. Jeder Term-Kandidat aus der A-Text-Einheit bildet mit jedem Term-Kandidaten aus der parallelen Z- Text-Einheit ein Term-Kandidaten-Paar. Berechnet Grundform eines Wortes Viele Sprachen (DE, EN, FR, IT, ES, PT, NL) Kombination mit der DB TermOrganizer Term-Kandidaten in DB Grundform in DB Auftretenshäufigkeit in DB Kontext in DB Bei Mehrwortausdruck: Headword in DB 17 18

Probleme des Xerox TermFinders Datenbank Bestehende Term-Sammlungen werden bei der Extraktion nicht berücksichtigt. Die Häufigkeit eines Term-Kandidaten bzgl. eines allgemeinsprachlichen Korpus wird nicht berücksichtigt. Die interne Struktur eines Term-Kandidaten wird nicht berücksichtigt. Bei bilingualer Extraktion: Die Strukturäquivalenz wird nicht berücksichtigt. Die Länge eines Term-Kandidaten im Vergleich zu der Länge der Term-Entsprechung wird nicht berücksichtigt. In einer Datenbank (DB) werden (grosse Mengen) Daten strukturiert abgelegt. In einer Terminologie-Datenbank wird Fachterminologie abgelegt. Benennungen (in mehreren Sprachen) Definitionen Quellenangaben grammatische Angaben In einer Translation-Memory Datenbank werden Übersetzungseinheiten (typischerweise bilinguale Satzpaare) abgelegt. 19 20 Translation Memory - Systeme auch: Übersetzungsspeicher, -datenbank oder -archiv kurz: TM-System Beispiele: Trados Workbench, STAR Transit, Déjà Vu, SDLX, IBM Translation Manager Idee: Übersetzte Sätze werden paarweise abgelegt und bei weiteren Übersetzungen genutzt. Wichtig: Auch ähnliche Sätze werden im TM gefunden! TM-Systeme (Beispiel) The generated pulses are converted into on-off signals which are sent to the ECU to control fuel injection. Im Translation Memory Neu zu übersetzen The generated pulses are converted into on-off signals which are sent to the ECU to control fuel injection and ignition timing. Les impulsions produites sont converties en signaux de marche/arrêt qui sont a leur tour transmis à l ECU pour commander l injection du carburant.?? 21 22 Auffüllen eines TM-Systems Alignierungsprogramme Bei der manuellen Übersetzung: Satz für Satz in die DB ablegen. Automatisches Laden bestehender Übersetzungen (Ausgangstext - Zieltext) Problem: Wie findet man zusammengehörende Übersetzungseinheiten? Lösung: Alignierungsprogramme parallelisieren bestehende Übersetzungen und bilden bilinguale Übersetzungseinheiten. basieren auf: Vergleich von Textstruktur (Absätze, Überschriften etc.) und Satzlängen z.b. WinAlign (Fa. Trados), sonst häufig in Verbindung mit Translation-Memory Produkten oder auch bil. Term-Extraktion müssen viele Dateiformate verarbeiten können (Word, HTML, Framemaker, Quarkexpress, PageMaker) müssen schnelles, manuelles Nachbearbeiten unterstützen 23 24

Struktur eines TM-Systems Unterscheide: uni- bzw. bidirektionale TM-Systeme 1:1 vs. 1:n TM-Systeme Vergabe von Zugriffsrechten Automatische Zuweisung von Systeminformationen (Datum, Benutzer) Manuelle Strukturierung der DB durch Attribute (Sachgebiet, Quelle, Status etc.) Abfragen eines TM-Systems Manuelles Nachschlagen (sog. Konkordanz- Information) von Sätzen und von Einzelwörtern (in allen morphologischen Formen) Automatisches Nachschlagen von (ähnlichen) Sätzen (Fuzzy Match = unscharfer Vergleich) Anzeigen des Ähnlichkeitsgrades Anzeigen der Unterschiede zwischen gesuchtem und gefundenem Satz Vorsicht: Berechnung der Ähnlichkeit beruht auf statistischen Verfahren (nicht auf linguistischen) 25 26 Änderungsoperationen Hinzufügen Weglassen Umstellung (Änderung der Reihenfolge) Ersetzen (an gegebener Position) Mechanische Operationen Linguistische Operationen Einflüsse auf den Fuzzy-Match Anzahl der geänderten Wörter Umstellung (auch bei gleichbleibender Bedeutung) Aus dem Menü Datei wählen Sie den Befehl NEU. Wählen Sie aus dem Menü Datei den Befehl NEU. 74% Match Nötiges NLP-Modul: NP/PP-Chunker 27 28 Einflüsse auf den Fuzzy-Match Satzlänge (Anzahl der Wörter) Satzanfang wird besonders gewichtet. Formatierung (geringer Einfluss) Satzzeichen (geringer Einfluss) Keine Einflüsse auf den Fuzzy-Match Länge der geänderten Wörter Typ der geänderten Wörter (Adjektiv, Substantiv, etc.) TM: Wählen Sie aus dem Menü Datei den Befehl NEU. Klicken Sie im Menü Datei auf den Befehl NEU. 57% Starten Sie den Befehl NEU über das Menü Datei. 40% Nötiges NLP-Modul: PoS-Tagger 29 30

Keine Einflüsse auf den Fuzzy-Match Keine Einflüsse auf den Fuzzy-Match Flexionsvarianten TM: Das ausgewählte Segment oder Feld darf nur exakt diesen Text enthalten. Die ausgewählten Segmente oder Felder dürfen nur exakt diesen Text enthalten. 73% Nötiges NLP-Modul: Morphologie-Analyse (Lemmatisierung) Passivierung Satzstruktur TM: Beim Laden eines Stapels von Seiten im Hochformat müssen die bedruckten Seiten nach unten zeigen, und der Kopf der Seite muss zuerst in den Scanner eingeführt werden. Beim Laden eines Stapels von Seiten im Hochformat müssen die bedruckten Seiten nach unten zeigen. Nötiges NLP-Modul: Clause-Grenzen-Erkenner 31 32 Translation Memory-Systeme Vorteile: Vermeidung von Arbeitswiederholungen Zeitersparnis bei repetitiven Texten oder neuen Textversionen Konsistenzsicherung über Zeit und Mitarbeiter Probleme: Gefahr für Brüche in der Textkohärenz Datenpflege: Qualität der Einträge Einordnung Terminologie-DB: speichert und findet Einzelwörter und Ausdrücke Translation Memory-System: speichert und findet ganze Sätze z.zt. fehlend: DB für Satzteile (z.b. Relativsätze oder andere Nebensätze) Probleme: Auffüllen: automatisches Erkennen der Satzteile Anwenden: Erkennen der Satzteile im A-Text und Zusammensetzen im Z-Text 33 34