CA/T 6/14 Orig.: en München, den 14.04.2014 BETRIFFT: VORGELEGT VON: EMPFÄNGER: Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten Präsident des Europäischen Patentamts Ausschuss für technische und operative Unterstützung (zur Unterrichtung) ZUSAMMENFASSUNG Beim Sprachtechnologieprojekt zur maschinellen Übersetzung waren bereits im Dezember 2013, d. h. ein Jahr vor dem für Dezember 2014 geplanten Abschluss des Projekts, alle vorgesehenen Sprachenpaare umgesetzt. Im Jahr 2014 wird der Schwerpunkt daher auf einer weiteren Stärkung der Qualitätsaspekte liegen, und zwar aus sprachlicher und nutzungstechnischer Sicht. Dies umfasst auch die kontinuierliche Sammlung von Patentkorpora dank der fortlaufenden Unterstützung durch die nationalen Ämter. Dieses Dokument wurde nur in elektronischer Form verteilt. CA/T 6/14 d
- I - INHALTSVERZEICHNIS Gegenstand Seite I. STRATEGISCH/OPERATIV 1 II. EMPFEHLUNG 1 III. ERFORDERLICHE MEHRHEIT 1 IV. KONTEXT 1 V. BEGRÜNDUNG 1 A. NUTZUNGSZAHLEN UND VORTEILE DES DIENSTES 1 B. TÄTIGKEIT IM JAHR 2014 2 a) Sammlung weiterer Korpora 2 b) Funktionen für die Nutzer 3 c) EPN-Workshop zur maschinellen Übersetzung 3 d) Nutzung von Patent Translate durch die nationalen Ämter 3 C. AUSBLICK 3 a) Technische Wartung 3 b) Pflege der Korpora 4 VI. ALTERNATIVEN 4 VII. FINANZIELLE AUSWIRKUNGEN 4 VIII. RECHTSGRUNDLAGE 4 IX. REFERENZDOKUMENTE 4 X. VERÖFFENTLICHUNG EMPFOHLEN 4 CA/T 6/14 d
I. STRATEGISCH/OPERATIV 1. Operativ II. EMPFEHLUNG 2. Nicht zutreffend III. ERFORDERLICHE MEHRHEIT 3. Nicht zutreffend IV. KONTEXT 4. Beim Zusammenarbeitsprogramm zu patentspezifischen Sprachtechnologiediensten konnten bis Dezember 2013 alle in CA/29/10 rev. 1 vorgesehenen Sprachenpaare umgesetzt werden. Da der Projektabschluss erst für Dezember 2014 geplant ist, wurde das letzte Sprachenpaar somit ein Jahr vor Zeitplan implementiert. 5. Derzeit ist der maschinelle Übersetzungsdienst für alle 28 Sprachen der 38 EPO- Mitgliedstaaten aus den und in die Amtssprachen Deutsch, Englisch und Französisch verfügbar sowie zusätzlich für Chinesisch, Japanisch, Koreanisch und Russisch aus dem Englischen und ins Englische. Der Öffentlichkeit wird Patent Translate über Espacenet, den Publikationsserver und den Global Patent Index bereitgestellt und den Prüfern über EpoqueNet. V. BEGRÜNDUNG 6. Betrachtet man das angestrebte Ziel, die Sprachbarrieren zu überwinden und einen unmittelbaren Beitrag zur verstärkten Nutzung und Verbreitung von Patentinformation zu leisten, so hat die Umsetzung von Patent Translate bereits in diesem Stadium mehrere positive Ergebnisse gebracht. A. NUTZUNGSZAHLEN UND VORTEILE DES DIENSTES 7. Patent Translate wird immer mehr genutzt. Patentnutzer in der ganzen Welt schätzen offenbar den Dienst als effektives Tool zur Erschließung fremdsprachiger Patentdokumentation. Im März 2014 lag die Zahl der Übersetzungsaufträge von Mitgliedern der Öffentlichkeit bei durchschnittlich 17 000 pro Tag mit Spitzenwerten von bis zu 25 000. Die am häufigsten nachgefragte Sprachrichtung ist DE-EN. CA/T 6/14 d 1/4
8. Die im Zuge des Projekts erfassten Patentdokumente können als einzigartiger Korpus betrachtet werden, mit dem die Übersetzungsmaschine "trainiert" wird. Die Sammlung dient als Input für die Datenbeschaffung nach dem "Quality-at-Source"- Ansatz und wird - wie in der aktualisierten Roadmap zur Zusammenarbeit (CA/24/14) vorgesehen - zu gegebener Zeit über den künftigen Espacenet-Dienst (Zusammenführung von L1 und L2) der Öffentlichkeit zur Verfügung gestellt. 9. Im Bereich der asiatischen Dokumentation wurden rund 5,8 Mio. CN-Dokumente sowie 6,2 Mio. JP-, 1,6 Mio. KR- und 1,6 Mio. RU-Dokumente erfasst. Bei einem Pensum von 1 übersetzten Dokument pro Tag würde der entsprechende geschätzte Arbeitsaufwand für professionelle Übersetzer rund 40 000 VZÄ betragen. Patent Translate kann nun in 30 Sprachen übersetzen, was diesen Aufwand noch um ein Vielfaches erhöhen würde. B. TÄTIGKEIT IM JAHR 2014 10. Inzwischen stehen den Nutzern alle Sprachenpaare zur Verfügung. Das Projekt wird jedoch noch einige Monate in der bestehenden Form weitergeführt, wobei der Schwerpunkt nun auf einer Verbesserung von Patent Translate hinsichtlich sprachlicher und nutzungstechnischer Aspekte liegt. a) Sammlung weiterer Korpora 11. Die Qualität des Übersetzungstools wird laufend überprüft, und es wird im Rahmen des Projekts entsprechend Bericht erstattet. Generell ist die Übersetzungsqualität abhängig vom Volumen der Patentkorpora, die in die Übersetzungsmaschine eingespeist werden können. Künftige Projektressourcen werden daher vor allem für die Erfassung weiterer Dokumente aufgewendet. CA/T 6/14 d 2/4
12. Die Unterstützung der nationalen Ämter durch die Bereitstellung der nötigen Korpora war entscheidend für den Erfolg des Projekts. Diese enge Zusammenarbeit wird 2014 fortgesetzt. b) Funktionen für die Nutzer 13. Für die Zwecke der Qualitätsverbesserung wird das Feedback der Patent- Translate-Nutzer erfasst. Zusätzlich werden die Nutzer die Möglichkeit haben, Übersetzungsalternativen für einzelne Sätze anzufordern. c) EPN-Workshop zur maschinellen Übersetzung 14. Für die zweite Jahreshälfte 2014 ist ein Workshop zur maschinellen Übersetzung geplant, um die noch offenen Bedürfnisse der Patentdatennutzer zu untersuchen. d) Nutzung von Patent Translate durch die nationalen Ämter 15. Der EPA-Dienst Patent Translate kann unter bestimmten Bedingungen hinsichtlich Integration und Nutzung über die Weboberflächen der nationalen Ämter zugänglich gemacht werden. Die Verantwortung dafür wird bei den nationalen Ämtern liegen. Das EPA arbeitet derzeit an einer harmonisierten Lösung für ein standardisiertes Integrationspaket. 16. Der Zugang der nationalen Ämter zu Patent Translate wird über die IP-Adresse der EPO laufen und wird daher für den Anbieter der Übersetzungsmaschine anonym bleiben. C. AUSBLICK 17. Wie geplant beginnt 2015 die Wartungsphase des Sprachtechnologieprojekts. Dies gilt sowohl für die Funktionalität als auch für die Sprachqualität. Ein Ausblick für dieses Zusammenarbeitsprojekt ist auch in der aktualisierten Roadmap zur Zusammenarbeit (CA/24/14) enthalten. a) Technische Wartung 18. Die Funktionen des maschinellen Übersetzungsdienstes werden gewartet und gegebenenfalls im Hinblick auf Nutzerfreundlichkeit verbessert. CA/T 6/14 d 3/4
b) Pflege der Korpora 19. Um die Qualität der Übersetzungen zu erhalten und zu verbessern, wird die Übersetzungsmaschine fortlaufend mit neuen Korpora "trainiert". Die dafür erforderlichen Patentdaten werden standardmäßig Teil der Datenaustauschprojekte sein, insbesondere des Projekts zur Datenbeschaffung nach dem Quality-at-Source- Ansatz (siehe auch CA/24/14). VI. ALTERNATIVEN 20. Nicht zutreffend VII. FINANZIELLE AUSWIRKUNGEN 21. Keine VIII. RECHTSGRUNDLAGE 22. Art. 10 (2) EPÜ IX. REFERENZDOKUMENTE 23. CA/29/10 rev. 1, CA/24/14 X. VERÖFFENTLICHUNG EMPFOHLEN 24. Ja CA/T 6/14 d 4/4