Terminologieaustausch für Jedermann? Niemand mag Terminologieaustausch, aber man kommt nicht immer drum herum BDÜ-Konferenz 2012, Berlin Übersetzen in die Zukunft Block 7.1 Terminologierecherche und -austausch Samstag, 29.09.2012 14:00 bis 15:30 Uhr Audimax
Ziele Terminologie verlustfrei zwischen verschiedenen Terminologieverwaltungssystemen (=TVS) austauschen Austausch meint: hin und auch wieder zurück!! Welche Wege des Austausches funktionieren, welche führen in eine Sackgasse?
Inhalt Versuchsanordnung Durchführung Der Weg: so läuft der Terminologieaustausch ab Versuchsanordnung: am Anfang sind die Daten und nicht ein System Die Testeinträge Abbildung der Testeinträge in verschiedenen TVS Analyse der Import-/Export-Schnittstellen Terminologieaustausch über kompatible Schnittstellen CSV, das Komma- (oder TAB-) separierte Exportformat Ergebnisse MultiTerm ein oder das (?) XML-Format TBX (TermBase exchange) Format und das, was es kann Funktioniert der Austausch verlustfrei? Zusammenfassung und Ausblick
Terminologieaustausch der Weg TVS 1 TVS 2 Beim Terminologieaustausch werden nicht die Datenbanken (Datenbank-Dateien) ausgetauscht, sondern nur die Einträge in den Datenbanken. Dazu werden Einträge exportiert. Sie liegen als Datei in einem Zwischenformat vor, das dann wieder importiert wird. Damit der Terminologieaustausch funktioniert, muss die exportierte Datei in einem Format vorliegen, das verlustfrei in ein anderes TVS importiert werden kann.
Terminologieaustausch der Weg TVS 1 TVS 2 Export Import Zwischenformat
Versuchsanordnung: am Anfang sind die Daten Testdaten entstehen außerhalb eines Terminologieverwaltungssystems (=TVS) und sollen anschl. in den TVS abgebildet werden Testdaten sind normgerecht aufgebaut und sollen typische Anforderungen enthalten
Versuchsanordnung: am Anfang sind die Daten Abb. der Eintragsstruktur (Bsp.: MultiTerm), Datenkategorien und Picklisten nach http://www.isocat.org Eintrags- (Entry level), Sprach- (Index level) und Benennungsebene (Term level) Mehrere Sprachen (inkl. Russisch, Chinesisch) Mehrere Benennungen pro Sprache
Abbildung der Testeinträge in verschiedenen TVS
Abbildung der Testeinträge in verschiedenen TVS
Abbildung der Testeinträge in verschiedenen TVS
Import-/Export-Schnittstellen MultiTerm Desktop 2011, SP1 CrossTerm 5.3, Paket-Version 14 memoq translator pro, version 6.0.15 Import MultiTerm 5 CSV (TAB-delimited) Excel TBX (OLIF, SDL Termbase) MultiTerm XML CSV (TAB-delimited) STAR Martif TBX CSV (Comma separated) Text / TSV (TABdelimited) TMX Export MultiTerm XML MultiTerm 5 CSV (TAB-delimited) TBX (Word, HTML, List) CSV TBX CSV (Comma separated) MultiTerm XML
Terminologieaustausch über CSV 3 Tools -> 3 unterschiedliche Ergebnisse MultiTerm: pro Eintrag eine Zeile, Werte einfach aneinander gereiht CrossTerm: Eintrag ggf. über mehrere Zeilen: pro Benennung in einer Sprache eine Zeile memoq: pro Eintrag eine Zeile; Spalten dabei korrekt ausgerichtet verlustfreier Austausch ist nicht möglich
Terminologieaustausch über MultiTerm (MTF) XML CrossTerm importiert MTF, aber exportiert nur CSV und TBX Der Import erlaubt ein Mapping der Feldnamen. Nicht bekannte Datenkategorien werden als Textfelder angeboten. Fast korrekt bei Verwendung der Datenbank-Definitionsdatei memoq exportiert MTF, das zudem eine Datenbank- Definitionsdatei (*.xdt) erzeugt. Ein Austausch mit dem MultiTerm-Ausgangsformat ist darüber nicht möglich. Import in Across funktioniert.
Terminologieaustausch über TBX (1) MultiTerm und CrossTerm folgen unterschiedlichen Definitionen von TBX (DTD vs. Schema) Exportierte Einträge sind gültig gegenüber der jeweils verwendeten Definition, weichen im Aufbau aber voneinander ab. Ergebnisse: TBX Export aus MultiTerm scheitert beim Import in CrossTerm ( ungültiges Datenformat ). TBX Export aus CrossTerm führt beim Import in MultiTerm zu Datenverlusten (Fachgebiet). verlustfreier Austausch mittels TBX ist ohne Eingriff nicht möglich
Terminologieaustausch über TBX (2) Export TBX Import TBX TBX Datei Programm Datentransformation Prozess mit zusätzlicher Datentransformation: Datenfelder angepasst soweit nötig Fachgebiet entweder explizit (MultiTerm) oder als Verweisung (Across) Ergebnis: verlustfreier Import / Export zwischen MultiTerm und Across Benennung von Datenfeldern und Inhalte von Picklisten lassen sich ebenfalls harmonisieren.
Ergebnismatrix Export aus MultiTerm Format Import in Ergebnis CSV --- nicht verfolgt MultiTerm CrossTerm unvollständig TBX CrossTerm Fehler/Abbruch TBX plus+ CrossTerm vollständig CrossTerm memoq CSV MultiTerm memoq Eintr.-bez. zerstört Eintr.bez. zerstört TBX MultiTerm unvollständig TBX plus+ MultiTerm vollständig CSV CrossTerm/MT vollständig* MultiTerm CrossTerm/MT vollständig* * In Bezug auf das memoq-eintragsformat
FAZIT Datenbanken, die mit Datenkategorien und Datenelementen aus der Norm (isocat) arbeiten, werden leichter austauschbar Terminologieaustausch über CSV ist einladend, aber gefährlich TBX bietet die sicherste Möglichkeit eines Terminologieaustausches. Verlustfreier Austausch ist mit Unterstützung von Skripten möglich blind interchange ist möglich, wenn bei Datenkategorien und Datenelementen normkonform gearbeitet wurde Hinsichtlich Kodierungsvarianten in TBX bleiben noch Hausaufgaben für die Normungsgremien
nach der Konferenz Präsentation zum Download Kostenloser Download der Programmskripte (non-profit) zum verlustfreien MultiTerm/CrossTerm- Austausch via TBX Dienstleistungen zum Terminologieaustausch via TBX
Kontakt Kontakt E-Mail: Internet: info@dbterm.de www.dbterm.de E-Mail: Internet: info@at-mind.de www. at-mind.de