Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln Prof. Dr. Klaus-Dirk Schmitz Fachhochschule Köln - Fakultät 03 - ITMK
Crowd / Cloud und Terminologiearbeit Gute Terminologiearbeit ist zeitaufwändig und damit teuer. Warum nicht die Allgemeinheit (crowd) involvieren? Warum nicht mit mehreren Personen zusammenarbeiten? Wir brauchen eine Technologie (Werkzeug), die kollaborative Terminologiearbeit unterstützt bzw. erst ermöglicht. Beispiele: Wikipedia (www.wikipedia.org) TermWiki (www.termwiki.com) 2 Unterschiedliche Philosophie bei Werkzeugen: Web-Clients bei TMS (z.b. MultiTerm-Web) web-basierte TMS (z.b. TermWeb)
Crowd / Cloud und Terminologiearbeit Hauptfragen: Wie kann man die Allgemeinheit animieren? Hidden business model? Free services? Sharing data? Will / darf man seine Daten in der Cloud haben? Kann man die Anwendung etablierter terminologischen Prinzipien sicherstellen? (meta model, datcats, concept orientation, term autonomy) 3 Wie kann man Korrektheit sicherstellen? Wie kann man Vollständigkeit sicherstellen? Wie kann man Konsistenz sicherstellen? Wie kann man Verlässlichkeit sicherstellen?
Die TaaS-Idee 4
Das TaaS-Projekt TaaS - Terminology as a Service: Cloud-basierte Plattform für die Akquirierung, Bereinigung, gemeinsame Benutzung und Wiederverwendung von mehrsprachigen terminologischen Daten The project has received funding from the European Union Seventh Framework Programme (FP7/2007-2013), grant agreement no 296312. 5
Das TaaS-Projekt Partner: Tilde Lettland (Koordinator) TAUS Niederlande Kilgray Ungarn Fachhochschule Köln Deutschland University of Sheffield UK Laufzeit: 1. Juni 2012 31. Mai 2014 www.taas-project.eu 6
Basis-Dienste von TaaS Automatische Extraktion von Termkandidaten aus monolingualen Texten mit (state-of-the art) Termextraktionstechniken aus von Nutzer bereitgestellten Dokumenten Automatisches Finden von Übersetzungsäquivalenten für die extrahierten Termini, aus öffentlichen oder eigenen Termbanken, in vielen Sprachen Ermittlung von Übersetzungsäquivalnten für nicht in Termbanken gefundene Termini, aus parallelen Web-Daten unter Nutzung von aktuellen Methoden zur Termextraktion und bilingualem Terminologie-Alignment 7
Exkurs: Terminologie-Extraktion bei der textorientierten und fachgebietsorientierten Terminologiearbeit können Verfahren und Werkzeuge für die Term-Extraktion die Arbeit unterstützen: finde alle (neuen) Benennungen in einem Text, als Vorbreitung einer Übersetzung oder um die korrekte und konsistente Verwendung von Benennungen (Unternehmenssprache) zu überprüfen finde alle Benennungen eines Fachgebiets oder einer Unternehmenssprache, um eine neue Termbank aufzubauen oder eine vorhandene zu ergänzen 8
Exkurs: Terminologie-Extraktion Für die Erarbeitung von Terminologie in vielen Anwendungsbereichen werden Verfahren und Werkzeuge zur Terminologie-Extraktion gefordert. Es lassen sich folgende Extraktionsverfahren unterscheiden: Einsprachige Term-Extraktion (Text in elektronischer Form) Zweisprachige Term-Extraktion (parallele alignierte Texte, TM) Manuelle (humane) Term-Extraktion (gut, aber teuer ) Computer-unterstützte Term-Extraktion (Vorschläge) Mit statistischen Verfahren (für alle Sprachen) Mit linguistischen Verfahren (besser, aber nur für wenige Sprachen) Mit hybriden Verfahren (Kombination aus Statistik und Linguistik) 9
Exkurs: Manuelle Terminologie-Extraktion Was ist ein Term-Kandidat? Was ist eine Benennung? (Was ist fachsprachlich?) Was soll in die Termbank aufgenommen werden? Werden diese Fragen von allen Spracharbeitern (Technischen Redakteuren, Übersetzern, Terminologen) gleich beantwortet? 10 Regina Janke: Anforderungen an die Terminologieextraktion für die Terminologiearbeit in Unternehmen eine vergleichende Untersuchung der Bedürfnisse von Terminologen, Technischen Fachübersetzern und Technischen Redakteuren. Master-Thesis. Donau-Universität Krems. 2012
Exkurs: Manuelle Terminologie-Extraktion Umfrage bei Studierenden (29 TR / 10 Term. / 11 Übers.) Neben allgemeinen Fragen zu Qualifikation und Erfahrung, 2 praktische Übungen zur manuellen Term-Extraktion Quelle: Janke 2012 2 Texte: Linguistik (Göpferich) 280 Z. Verpackungstechnik (Betriebsanleitung) 298 Z. 11
12 Quelle: Janke 2012
Quelle: Janke 2012 13
Quelle: Janke 2012 14
Basis-Dienste von TaaS Automatische Extraktion von Termkandidaten aus monolingualen Texten mit (state-of-the art) Termextraktionstechniken aus von Nutzer bereitgestellten Dokumenten Automatisches Finden von Übersetzungsäquivalenten für die extrahierten Termini, aus öffentlichen oder eigenen Termbanken, in vielen Sprachen Ermittlung von Übersetzungsäquivalnten für nicht in Termbanken gefundene Termini, aus parallelen Web-Daten unter Nutzung von aktuellen Methoden zur Termextraktion und bilingualem Terminologie-Alignment 15
Basis-Dienste von TaaS Funktionalitäten zur Bearbeitung terminologischer Daten, z.b. durch Anreicherung nach Extraktion Funktionalitäten zur Bereinigung durch Abgleich mit terminologischen Daten (anderer) Nutzer Funktionalitäten zum Data-Sharing und zur Integration in andere Anwendungen/Tools durch APIs und Export-Werkzeuge 16
TaaS-Architektur 17
Terminologiearbeit Wie kann man die Personen, die Terminologiearbeit betreiben, bei ihrer Arbeit unterstützen? Wer sind diese Personen (Spracharbeiter)? Wonach suchen sie (meistens)? Wie machen sie Terminologiearbeit? Welche Programme und Formate nutzen sie? 18 Wären sie bereit, Ergebnisse zu teilen?
Nutzer-Typologie: Language worker 19 Zielgruppen: Übersetzer Dolmetscher Technische Redakteure Terminologen (Software-)Lokalisierer Sprachlerner Fachgebietsexperten CAT-Werkzeuge MÜ-Systeme (andere Werkzeuge)
Nutzer-Umfrage 20 Online-Befragung typischer Nutzergruppen: Deutscher Fachverband für Technische Kommunikation und Informationsentwicklung (tekom) Bundesverband der Dolmetscher und Übersetzer (BDÜ) Deutscher Terminologie-Tag (DTT) International Federation of Translators FIT (Europe) Internationales Terminologie-Netzwerk (TermNet) ProZ via TAUS Weitere Mailing-Listen 1.782 Antworten / Anfang Juli 2012
Nutzer-Umfrage Fragen: Tätigkeit, berufliches Umfeld Fachgebiet (Industrie, Dienstleister) genutzte Programme verwendete Formate Anteil Terminologiearbeit an Arbeitszeit Wichtigkeit der Terminologiearbeit Art und Zweck der Terminologiearbeit Wonach, wo und wie wird gesucht Probleme bei der Terminologie-Recherche Optimierungspotential Bereitschaft Terminologie im Web bereitzustellen 21
Umfrage: Profil 22
Umfrage: Arbeitsumfeld 23
Umfrage: Programme 24
Umfrage: Formate 25
Umfrage: Wichtigkeit 26
Umfrage: Zweck Terminologiearbeit 27
Umfrage: Wonach wird gesucht? 28
Umfrage: Sharing terminology 29
Umfrage: Sharing terminology 30
Umfrage: Formate 31
Spezifikation von TaaS Die Ergebnisse der Nutzerbefragung, der Analyse der Werkzeuge und die eigenen Erfahrungen bilden die Basis für die Spezifikation von TaaS: der generellen Funktionalitäten und Komponenten der TaaS-Plattform (TaaS service portfolio) der technischen Architektur des Systems der Nutzer-Schnittstellen (user interfaces) der Nutzerverwaltung (user group management) des Daten-/Dokument-Workflows 32
TaaS-Pattform: Nutzersicht 33
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com 34
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche 35
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services 36
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen 37
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden 38
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden 39
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen 40
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen Extraktion starten 41
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen Extraktion starten Prüfe und ergänze Extraktionsergebnisse 42
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen Extraktion starten Prüfe und ergänze Extraktionsergebnisse 43
Beispiel: Termextraktion mit TaaS Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen Extraktion starten Prüfe und ergänze Extraktionsergebnisse Visualisierung 44
Beispiel: Termextraktion mit TaaS 45 Gehe zu https://term.tilde.com Entweder direkte Suche Oder anmelden / registrieren für weitere Services Projekt zur Termextraktion anlegen Text(e) zur Extraktion laden Extraktionseinstellungen festlegen Extraktion starten Prüfe und ergänze Extraktionsergebnisse Visualisierung Import, Export, Sharing
TaaS-Architektur 46
TaaS: CAT-Tool-Einbindung Auto-lookup Adding and editing terms Manual lookup Transferring term extraction lists 47 47
TaaS und Maschinelle Übersetzung 48 Online Terminology Services Translation Input Text for Translation Bilingual Term Extraction Bilingual term collections Online Translation Service Monolingual Term Extraction Translated Text Training 48 Parallel corpus Monolingual corpus SMT System Training and adaptation Trained SMT Model Data acquisition from SMT systems Export of multilingual terminology for reuse in MT systems
Conclusion TaaS offers free of charge services for terminology extraction, retrieval, management, and sharing The term extraction results are excellent, if the linguistic algorithms are available for that language Companies react very carefully concerning TaaS But the free services offered by TaaS may attract language workers to use TaaS for terminology management, to share (validated) terminology, and to collaborate with others. 49
Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Klaus-Dirk Schmitz klaus.schmitz@fh-koeln.de http://www.taas-project.eu https://term.tilde.com