PDF- Übersetzung PDF-Dateien mit Plustools zur Übersetzung vorbereiten Best Practice
Autor Klaus Kurre, kurre@loctimize.com Druck 5. August 2010 Copyright 2010 Loctimize GmbH Dieses Dokument ist Eigentum der Loctimize GmbH, Fuchstälchen Gebäude 30, 66123 Saarbrücken, Germany. Die erwähnten Produkte und Handelsmarken sind Eigentum der jeweiligen Hersteller und Markeninhaber. 2 2010 Loctimize GmbH
Inhaltsverzeichnis 1 Einleitung... 5 1.1 Vorbemerkung... 5 1.2 Das Praxisproblem... 5 1.3 Ein Lösungsansatz... 5 1.4 Was Plustools nicht kann... 5 2 Wordfast Plustools... 7 2.1 Plustools installieren... 7 2.1.1 Empfohlene Einstellungen in MS Windows-Explorer... 8 2.2 Texte aus PDF-Dateien extrahieren... 9 2.2.1 Voraussetzungen... 9 2.2.2 PDF-Dateitypen... 9 2.3 Texte mit Plustools extrahieren... 9 3 Datei für die Übersetzung vorbereiten... 14 4 Datei übersetzen... 14 Copyright 2010 Loctimize GmbH 3
1 Einleitung 1.1 Vorbemerkung Vorausgeschickt sei Eines: Das Format PDF (= Portable Document Format) ist nie für die Bearbeitung von Texten entwickelt worden, sondern als plattformunabhängiges Format ausschließlich zum Drucken. Sinn einer PDF-Datei war es also zu keiner Zeit und sollte es auch heute nicht sein, Texte innerhalb von PDF-Dateien zu bearbeiten oder Texte dort heraus zu holen, um sie zu bearbeiten, zum Beispiel übersetzen zu können. 1.2 Das Praxisproblem Da wir in unseren Seminaren jedoch immer wieder mit der Situation konfrontiert werden, dass ein Übersetzer oder eine Übersetzungsagentur nur PDF-Dateien zur Übersetzung erhält und die Originalformate seien es Dateien, die aus MS-Word oder aus professionellen DTP-Programmen wie Adobe InDesign oder QuarkXpress heraus generiert wurden nicht verfügbar sind, hier nun ein kleiner Leitfaden zum Umgang mit den zur Verfügung gestellten Dateien und den bestehenden Möglichkeiten der Übersetzungsvorbereitung. 1.3 Ein Lösungsansatz Den meisten Übersetzern sind zahllose kostenlose und kostenpflichtige Tools bekannt, mit denen man PDF-Dateien konvertieren und übersetzbar machen kann. Um jeglichen Ansatz einer Hoffnung auf eine echte Lösung des Problems jedoch gleich vorwegzunehmen: eine solche Lösung gibt es auch weiterhin nicht. Der hier vorgestellte Lösungsansatz stellt vielmehr einen aller möglichen Wege dar, bestimmte PDF-Dateien so schnell und mit so geringem Aufwand wie möglich in ein mit TM-Tools übersetzbares Format zu bringen. Es gibt viele andere Möglichkeiten, die alle Ihre Vor- und Nachteile haben und über die wir in unseren Seminaren immer wieder diskutieren. Für die Praxis halte ich den folgenden Weg jedoch am sinnvollsten, sodass ich mich auf dessen Beschreibung beschränken möchte: die Nutzung der Textextraktion aus PDF-Dateien mit Hilfe der kostenlosen Makrosammlung Plustools (auch +Tools) von Wordfast. 1.4 Was Plustools nicht kann Plustools kann zwar (fast immer) Texte aus PDF-Dateien extrahieren und entweder mit der original Textformatierung oder komplett ohne Formatierung extrahieren. Nicht jedoch übernommen wird die graphische Gestaltung (das Layout) der PDF- Dateien. Hier hilft tatsächlich nur ein OCR-Programm, wobei die daraus resultierenden Dateien in vielen TM-Tools zu neuen Problemen führen 2010 Loctimize GmbH 5
Des weiteren verfügt Plustools natürlich über zusätzliche Funktionen, deren Nutzung eine Installation von Wordfast voraussetzt, worauf in diesem Zusammenhang aber nicht eingegangen wird. 6 2010 Loctimize GmbH
2 Wordfast Plustools 2.1 Plustools installieren Wordfast Plustools ist eine Makrosammlung, die unter MS-Word in VBA programmiert wurde, also in Verbindung mit MS-Word zur Verfügung steht. Sie liegt als MS-Word Dokumentenvorlage (Document Template = *.dot-datei) vor und kann zusammen mit dem englischen Benutzerhandbuch von der offiziellen Wordfast- Website herunter geladen werden. Die zwei Dateien liegen in einer ZIP-Datei und werden zusammen herunter geladen: eine *.dot-datei, das eigentliche Programm, sowie eine *.doc-datei, das englische Handbuch. Die *.dot-datei muss in das Autostart-Verzeichnis der lokalen MS-Word- Installation kopiert werden. Dies kann je nach System an verschiedenen Stellen liegen. Der sicherste Weg ist die Suche über die Optionen in MS-Word bzw. die in den Optionen vermerkten Speicherorte (MS-Word 2003 und älter: siehe Extras/Optionen Register Speicherorte). Unter MS-Windows XP und Windows 7 ist dies meist folgender Pfad: C:\Dokumente und Einstellungen\IHRNAME\Anwendungsdaten\Microsoft\Word\STARTUP Wobei IHRNAME dem Namen des unter MS-Windows XP angemeldeten Benutzers entspricht. Wenn Sie die Datei in das Autostart-Verzeichnis von MS-Word kopiert und dann das Programm MS-Word neu gestartet haben erscheint die neue Symbolleiste: Bei Nutzung von MS-Word 2000-2003 kann es sein, dass diese zugehörige Symbolleiste Plustools nicht direkt in der Symbolleiste erscheint. Dann muss diese über das Menü Ansicht und den Untermenüpunkt Symbolleisten durch Anklicken des entsprechenden Eintrags aktiviert werden. Copyright 2010 Loctimize GmbH 7
2.1.1 Empfohlene Einstellungen in MS Windows-Explorer Wenn es das Verzeichnis Anwendungsdaten (deutscher Name!) bei Ihnen nicht gibt, Sie aber ein deutsches Betriebssystem MS-Windows XP installiert haben, müssen Sie die versteckten Verzeichnisse erst einblenden. Dies gelingt Ihnen im MS-Windows Explorer unter Extras im Untermenüpunkt Ordneroptionen. Dort dann im Register Ansicht: In MS-Windows XP und höher werden Dateinamenerweiterungen standardmäßig ausgeblendet. Da es bei der Installation (und bei der Nutzung von TM-Tools in der Übersetzung) aber wichtig ist, die richtigen Dateien zu bearbeiten, sollten Dateinamenerweiterungen immer eingeblendet werden. Dies lässt sich ebenfalls in den Ordneroptionen des MS-Windows Explorer einstellen. Wählen Sie wie gehabt im MS-Windows Explorer unter Extras im Untermenüpunkt Ordneroptionen das Register Ansicht: und deaktivieren Sie die Option Erweiterungen bei bekannten Dateitypen ausblenden wie folgt: 8 2010 Loctimize GmbH
2.2 Texte aus PDF-Dateien extrahieren 2.2.1 Voraussetzungen Auf dem PC muss zum einen MS-Word 2000 oder höher installiert sein und außerdem zumindest der Adobe Reader oder Adobe Acrobat. Ferner das Template Plustools.dot, wie in Abschnitt 2.1 beschrieben. Der Adobe Reader (bzw. Adobe Acrobat) muss auf fortlaufende Ansicht gestellt sein, damit nicht nur die aktuelle Seite, sondern alle Seiten extrahiert werden können. 2.2.2 PDF-Dateitypen PDF-Dateien können aus unterschiedlichsten Programmen und auf verschiedenen Plattformen erzeugt werden. Prinzipiell möchte ich an dieser Stelle vier verschiedene Dateitypen unterscheiden, die kurz erläutert werden: 1. Offene PDFs vom PC Der Idealtyp. Hier funktioniert normalerweise alles mit Ausnahme der Erstellung des Layouts, wie oben bemerkt. 2. Geschützte PDFs vom PC Hier ist meist nichts zu machen, außer der Aufhebung des Schreibschutzes oder der Nutzung einer OCR-Software. 3. PDFs vom Mac Hier gibt es eventuell Probleme mit Schriften. Dies gilt stellvertretend für Probleme mit PDF-Dateien von allen anderen Plattformen. Wenn am Mac eine Unicode-Schrift verwendet wird, oder eine Schrift, die auch am PC verfügbar ist, sollte das Problem umgehbar sein. 4. PDFs aus Scannern Faxe, Bilder, Zeichnungen etc. Kurzum: Hier hilft nur OCR. Und viel Zeit. In diesem Dokument soll nur der erste Fall ausführlich beschrieben werden, da er am häufigsten auftritt. 2.3 Texte mit Plustools extrahieren Um die Texte schließlich mit Plustools zu extrahieren gehen Sie wie folgt vor: Öffnen Sie die zu extrahierende PDF-Datei in Adobe Reader oder Adobe Acrobat und stellen Sie sicher, dass die Anzeige auf fortlaufend eingestellt ist: Copyright 2010 Loctimize GmbH 9
Öffnen Sie ein leeres Dokument in MS-Word und stellen Sie sicher, dass Plustools installiert ist: Klicken Sie das Plustools-Symbol an, um das zugehörige Dialogfenster zu öffnen. Öffnen Sie dann auf dem Register +Tools das untergeordnete Register Cnv (Convert = Konvertieren): 10 2010 Loctimize GmbH
Klicken Sie nun die Schaltfläche Import Current PDF to Word: Es erscheint eine Warnung, die Sie auffordert, Maus und Tastatur während des Importvorgangs nicht zu verwenden: Klicken Sie auf OK, lassen Sie Maus und Tastatur am besten los und warten Sie, bis die folgende Meldung erscheint, mit der die Textextraktion Copyright 2010 Loctimize GmbH 11
abgeschlossen wird: Sie haben hier die Möglichkeit durch einen Klick auf Ja alle Formatierungen zu löschen und Ihre MS-Word-Standardschrift zu wählen, mit Nein die Originalschriften und Formatierungen aus dem PDF-Dokument zu erhalten oder den Vorgang mit Abbrechen zu unterbrechen. Nach Anklicken von Nein erhalten Sie folgendes Ergebnis in MS-Word: 12 2010 Loctimize GmbH
Ein Vergleich mit dem aus Adobe Reader oder Adobe Acrobat herauskopierten Text (Strg+A, Strg+C, Strg+V) zeigt, dass die mit Plustools erzeugte Datei bereits viele Vorteile aufweist und kaum noch falsche Zeilenumbrüche enthält: Copyright 2010 Loctimize GmbH 13
3 Datei für die Übersetzung vorbereiten Plustools kann Fehler, die in der Original-Satzdatei (MS-Word, Adobe InDesign etc.) gemacht und in die PDF übernommen wurden natürlich nicht korrigieren: Bevor die automatisch extrahierten Texte zur Übersetzung gegeben werden, sollte also auf alle Fälle noch ein Blick auf das Dokument geworfen werden, ob es nicht noch Stellen gibt, an denen es bei der Übersetzung mit Hilfe eines TM-Tools zu unschönen Effekten (z.b. falsche Leerzeichen) oder gar technischen Problemen kommen kann (wie z.b. bei falschen Zeilenumbrüchen in der Originaldatei, aus der das PDF erzeugt wurde). 4 Datei übersetzen Die Übersetzung kann dann mit dem (oder ohne das) TM-Tool Ihrer Wahl erfolgen. Wie bereits angemerkt: Die Formatierungen lassen sich erhalten, das Layout nur bedingt. Wenn der Kunde ein vollständig formatiertes Dokument im Original-Layout wünscht, so muss dieses in den meisten Fällen separat nachgearbeitet werden. In gewissem Sinn sicherlich auch ein Vorteil, denn so können Sie den zeitlichen Aufwand getrennt messen und (hoffentlich) auch getrennt in Rechnung stellen oder diese Aufgabe einfach Ihrem Kunden selbst überlassen. 14 2010 Loctimize GmbH
Ihre Notizen: Copyright 2010 Loctimize GmbH 15
Dieses Dokument ist Eigentum der Loctimize GmbH, Fuchstälchen Gebäude 30, 66123 Saarbrücken, Germany. Die erwähnten Produkte und Handelsmarken sind Eigentum der jeweiligen Hersteller und Markeninhaber. Copyright 2010 by Loctimize GmbH Fuchstälchen Gebäude 30, 66123 Saarbrücken, Germany www.loctimize.com, info@loctimize.com