Computerlinguistische Verfahren und Theorien für die Textproduktion in der Technischen Redaktion. Melanie Siegel



Ähnliche Dokumente
Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Proofreading Was solltest Du beim Korrekturlesen beachten?

Vorgehensweise bei Lastschriftverfahren

Erstellung von Reports mit Anwender-Dokumentation und System-Dokumentation in der ArtemiS SUITE (ab Version 5.0)

Migration von statischen HTML Seiten

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Übung - Konfigurieren einer Windows 7-Firewall

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

15 Social-Media-Richtlinien für Unternehmen!

Erstspracherwerb. Sprachentwicklung: Wortschatz

Part-of-Speech- Tagging

Teamentwicklung. Psychologische Unternehmensberatung Volker Rudat

Anleitung zur Verwendung der VVW-Word-Vorlagen

AutoCAD Dienstprogramm zur Lizenzübertragung

Arbeitshilfe "Tipps für Gespräche mit Vorgesetzten und KollegInnen" Was gilt für mich?

Schuljahreswechsel im Schul-Webportal

Grammatiken in Prolog

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

Autoformat während der Eingabe

Der iredakt 4.0 Editor für 100% barrierefreien Content. und überhaupt die Gesamt-Problematik der Barrierefreiheit bei CMS-Editoren

Stift-Karussell in M-Plot einrichten

Wissensmanagement mit SharePoint. Ein Vortrag von Helmut Reinke MindBusiness GmbH

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Netzwerkversion PVG.view

Notation und Gestaltung

Projektmanagement. Thema. Name der bzw. des Vortragenden. Vorname Nachname Sommersemester 2004

Instruktionsheft für neue Webshop Hamifleurs

Wir machen neue Politik für Baden-Württemberg

Formale Sprachen und Grammatiken

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Screening for Illustrator. Benutzerhandbuch

OutLook 2003 Konfiguration

4.1 Wie bediene ich das Webportal?

Was meinen die Leute eigentlich mit: Grexit?

Umgang mit Veröffentlichungsfehlern

Whitepaper. Produkt: combit factura manager. Mehrwertsteuererhöhung durchführen. combit GmbH Untere Laube Konstanz

Arbeiten mit UMLed und Delphi

ecaros2 - Accountmanager

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

AMAN. Vergleich der verschiendenen RedSYS- Instanzeninstallationsmöglichkeiten

Dokumentenverwaltung im Internet

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Lösungen zum Aufgabenblatt 9 Symbolisches Programmieren

25 Jahre Erfahrung. Sie kommunizieren multilingual? Wir haben die Prozesse.

MultiIndexer Installation c-cron GmbH, Sangerhausen

Erfolg beginnt im Kopf

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

Organisation des Qualitätsmanagements

Dokumentation zum Inco- FORM

Einrichten von Benutzergruppen und Benutzern

Die SPD und die Grünen machen im Niedersächsischen Landtag. Alle Menschen sollen in der Politik mitmachen können.

Gästeverwaltung. Gästestammdaten. Gäste verwalten. Hotelsoftware für Klein- und Mittelbetriebe

Viele Bilder auf der FA-Homepage

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

magento Inhalt: 1) Zusammenfassung der Daten 2) Grundeinstellungen ändern Schnelleinstieg

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

Anleitung über den Umgang mit Schildern

Auftrag zum Fondswechsel

Maschinelle Übersetzung

Informations- und Kommunikationsinstitut der Landeshauptstadt Saarbrücken. Upload- / Download-Arbeitsbereich

Ein Vorwort, das Sie lesen müssen!

1 Part-of-Speech Tagging

Flyer, Sharepics usw. mit LibreOffice oder OpenOffice erstellen

)XQNWLRQVWDVWH8PEXFKHQ

Der Congree Authoring Server im Überblick 7. März 2012

Consulting. Dokumentenmanagement. Stand: jwconsulting GmbH Caspar-David-Friedrichstr Walldorf

Manuel Schmalz. Abteilungsleiter Vertragsmanagement. Düsseldorf,

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

SMS/ MMS Multimedia Center

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

VDW Statistik Portal Häufig gestellte Fragen. Version 1.2 ( Katharina Düngfelder & Markus A. Litters) Vorwort

4 Aufzählungen und Listen erstellen

Lehrer: Einschreibemethoden

Benutzerkonto unter Windows 2000

A. Ersetzung einer veralteten Govello-ID ( Absenderadresse )

Warenwirtschaft Verkauf Einkauf Projektverwaltung Artikelverwaltung Kundenspezifische Artikel Verwaltung der Serien- u. Chargennummern Lagerverwaltung

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Ressourceneinsatzplanung in der Fertigung

Gezielt über Folien hinweg springen

Pfötchenhoffung e.v. Tier Manager

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Erstellen der Zuwendungsbestätigungen OPTIGEM Win-Finanz ab Version 5.1

Einrichtung einer eduroam Verbindung unter dem Betriebssystem Android

Handbuch für Redakteure

Facebook I-Frame Tabs mit Papoo Plugin erstellen und verwalten

Themenübersicht der Informationsveranstaltung Internet

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Begabt?! Deine Begabungen und Gabenvielfalt. Römer 12,4-8

Installation OMNIKEY 3121 USB

NODELOCKED LIZENZ generieren (ab ST4)

Transkript:

Computerlinguistische Verfahren und Theorien für die Textproduktion in der Technischen Redaktion Melanie Siegel

Produktion technischer Dokumente Verständlichkeit Lesbarkeit Übersetzbarkeit Konsistenz Rechtschreibung Grammatik Stil Terminologie 27. Nov. 2007 Melanie Siegel www.acrolinx.com 2

Textproduktion Rechtschreibung Neue Deutsche Rechtschreibung Varianten, wie z.b. Österreichisch, Schweizerdeutsch Terminologie Terminologieaufbau und -verwaltung Terminologieprüfung Grammatik Grammatikprüfung Stil Prüfung von Stilrichtlinien Übersetzungsgerechtes Schreiben Struktur Funktionsstruktur Multilingualität Wörter + Phrasen Sätze Text 27. Nov. 2007 Melanie Siegel www.acrolinx.com 3

Textproduktion: Rechtschreibprüfung Sprachanalyse Wörter sind definiert. Was nicht definiert ist, ist ein Fehler. Z.B. Duden-Korrektor Hoher Recall, geringe Präzision, abhängig von der Textdomäne Fehleranalyse Fehler sind definiert. Was nicht als Fehler definiert ist, ist ein Termkandidat. Wortbasiert (z.b. gegebenfalls ) und regelbasiert (z.b. Groß- Kleinschreibung) Hohe Präzision, Recall ist abhängig von Korpusarbeit. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 4

Textproduktion: Rechtschreibprüfung Vorgehensweise des Benutzers bei der Sprachanalyse: Erstellung eines benutzerspezifischen Wörterbuchs. Effekt: Falschalarme in der Rechtschreibung werden reduziert. Wörterbücher werden meist dezentral verwaltet. Vorgehensweise des Benutzers bei der Fehleranalyse: Erstellung einer Terminologie und wenn vorhanden Anbindung einer existierenden Terminologie. Effekt: Falschalarme in der Rechtschreibung werden vermieden und illegale Termvarianten werden gefunden. Terminologie wird zentral verwaltet. In der Praxis haben wir eine Kombination der Verfahren. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 5

Computerlinguistische Verfahren für Wörter und Phrasen Tokenisierung POS-Tagging Morphologie, Lexikon, Fehlerlexikon 27. Nov. 2007 Melanie Siegel www.acrolinx.com 6

Tokenisierung, z.b. Z.B. ist die Sparrenburg das Wahrzeichen von Bielefeld. Abkürzung großgeschriebenes_wort Leerzeichen Punkt_Satzende 花 子 が 本 を 読 んだ 花 子 が 本 を 読 ん だ Regelbasierte Verfahren, Abkürzungslisten Kanji Hiragana Punkt_Satzende 27. Nov. 2007 Melanie Siegel www.acrolinx.com 7

Part-of-Speech Tagging, z.b. Z.B. ist die Sparrenburg das Wahrzeichen von Bielefeld. ADV V DET N DET N P NE XML und Attribut- Wert-Strukturen Statistische Verfahren Große Lexika 27. Nov. 2007 Melanie Siegel www.acrolinx.com 8

Morphologieanalyse, z.b. Z.B. ist die Sparrenburg das Wahrzeichen von Bielefeld. Lemma: sein Tense: present Person: third Number: singular Lemma: Wahrzeichen Number: singular Case: nominative_accusative Auf Lexika basierte Verfahren, Flexionsregeln, Derivationsregeln 27. Nov. 2007 Melanie Siegel www.acrolinx.com 9

27. Nov. 2007 Melanie Siegel www.acrolinx.com 10

Textproduktion: Terminologie Aufbau von Terminologie Termextraktion: was ist ein potentieller Term? Aufnahme von Termen in eine Termdatenbank Terminologieprüfung Verknüpfung von Terminologie und Rechtschreibung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 11

Terminology Lifecycle Management Terminology Documentation SAP System Localization Term Discovery Document repository is analysed for terms Term Validation Term candidates are validated Term Deployment Term checking in Editor or Repository TermHarvesting New terms are identified as content is checked 27. Nov. 2007 Melanie Siegel www.acrolinx.com 12

Computerlinguistische Verfahren für Terminologie Linguistische Verfahren für Termextraktion Korpusanalyse (Morphologie, Syntaktische Kategorie, Namenserkennung, Phrasenerkennung) Informationsextraktion (z.b. für potentielle Produktnamen) Ontologie (z.b. für semantische Gruppen) Linguistische Verfahren für den Aufbau einer Termdatenbank Lemmatisierung Syntaktische Kategorie Termmuster Linguistische Verfahren für das Prüfen von Terminologie Variantenbildung, Wortähnlichkeiten Flexion 27. Nov. 2007 Melanie Siegel www.acrolinx.com 13

Termextraktion 27. Nov. 2007 Melanie Siegel www.acrolinx.com 14

Termdatenbank 27. Nov. 2007 Melanie Siegel www.acrolinx.com 15

Termdatenbank 27. Nov. 2007 Melanie Siegel www.acrolinx.com 16

Termdatenbank 27. Nov. 2007 Melanie Siegel www.acrolinx.com 17

Termprüfung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 18

Terminologie und Rechtschreibung In der Terminologie: SpeicherKarte 27. Nov. 2007 Melanie Siegel www.acrolinx.com 19

Terminologie und Rechtschreibung Term: MMC-Speicherkarten (gesperrt), Vorschlag: PC-Speicherkarten 27. Nov. 2007 Melanie Siegel www.acrolinx.com 20

Textproduktion: Sätze Grammatikprüfung Stilprüfung Vorschläge Übersetzung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 21

Textproduktion: Grammatik-Prüfung Definition der korrekten Grammatik Z.B. HPSG, LFG, Chunk- Grammar, statistische Grammatiken Falsch ist alles, was nicht analysierbar ist. Voraussetzungen: Grammatik mit großer Abdeckung Große Lexika Robuste, aber nicht zu robuste Verarbeitung Effiziente Verarbeitung Recall Fehlergrammatik Falsch ist alles, was als Fehler modelliert ist. Voraussetzungen: Korpusarbeit mit Fehler-Korpora Fehlergrammatik mit hoher Anzahl an Fehlertypen. Verschieden tiefe Analysen (tiefer z.b. für die Subjekt- Identifikation im Deutschen). Präzision 27. Nov. 2007 Melanie Siegel www.acrolinx.com 22

Grammatikregeln, z.b. Gebrauch von das und dass Kommasetzung Kongruenz (Art N, Adj N, Subjekt Verb) Präpositionen mit Kasus 27. Nov. 2007 Melanie Siegel www.acrolinx.com 23

Beispiel für Grammatikregel /* Beispiel: "das guter..." */ TRIGGER(70) == @s_det_das^1 [@mods]* @adj_not_suffix_e^2 -> $det^1, $adj^2; // "Traumhaft muss das jüngeren Menschen erscheinen." NEG_EV(40) == @modalverb_3sg {?=$det}'das' $adj @noun @verbinf; 27. Nov. 2007 Melanie Siegel www.acrolinx.com 24

Textproduktion: Sprachstil-Prüfung Standards z.b. in tekom-checkliste oder TüV- Süd-DocCert Prüfliste Umsetzung in linguistisch formulierte Regeln Modellierung in einem Regelformalismus 27. Nov. 2007 Melanie Siegel www.acrolinx.com 25

Sprachstil-Prüfung: Ansätze Kontrollierte Sprache Definiert ist, was erlaubt ist. Vorteil: Sehr beschränkte Sprache als Ergebnis, gut für Übersetzung mit Hilfsmitteln (MT, TM) Nachteil: enges Korsett für den Redakteur Fehlergrammatik Modellierung von Fehlern Vorteil + Nachteil: Mehr Freiheit für den Redakteur 27. Nov. 2007 Melanie Siegel www.acrolinx.com 26

Sprachstil-Prüfung: Vorschläge Vorschläge für Neuformulierungen bei Fehlern Ersetzung einzelner Wörter oder ganzer Phrasen. Ersetzung mit der richtigen Groß-Kleinschreibung. Ersetzung von Begriffen mit der richtigen Flexion (Wortgenerierung). Generierung von ganzen Sätzen (z.b. Passiv in Aktiv umformulieren) erfordert semantische Analyse und Generierung und ist (noch) nicht möglich. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 27

Von der Stilrichtlinie zur automatisch prüfbaren Stilregel: z.b. TÜV DocCert 1.07.2.28: Die Sätze sollen kurz und präzise sein. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 28

Von der Stilrichtlinie zur automatisch prüfbaren Stilregel: z.b. TÜV DocCert 1.07.2.26: Anweisungen müssen knapp und handlungsbezogen formuliert sein. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 29

Beispiel für Stilregeln: bzw_vermeiden #OBJS @abbr_beziehungsweise::=[ TOK "^([B b]eziehungsweise bzw(\.)?)$" ]; #RULES TRIGGER(90) == @abbr_beziehungsweise^1 -> ($abbr_beziehungsweise) -> { mark : $abbr_beziehungsweise; suggest : $abbr_beziehungsweise -> 'oder'; suggest : $abbr_beziehungsweise -> 'und'; } 27. Nov. 2007 Melanie Siegel www.acrolinx.com 30

Warum gibt es keinen allgemein gültigen Regelsatz? Unterschiedliche Erfordernisse für Stil (direkte Ansprache, Imperativ, Infinitivform) Anpassung an spezifische Richtlinien (Ikea z.b. spricht seine Kunden mit Du an) Zielgruppeneigenschaften und Erwartungen Branchenübliche Muster aber Konsistenz! Funktionale Struktur Integrierte Terminologie Standard-Formulierungen 27. Nov. 2007 Melanie Siegel www.acrolinx.com 31

Stilregelset Standard 27. Nov. 2007 Melanie Siegel www.acrolinx.com 32

Stilregelset Demo 27. Nov. 2007 Melanie Siegel www.acrolinx.com 33

Stilregelset TÜV SÜD 27. Nov. 2007 Melanie Siegel www.acrolinx.com 34

Textproduktion: Texte Korpusanalyse Funktionsdesign Übersetzung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 35

Korpusanalysen: Grundlage für die Formulierung von Stilregeln Satzähnlichkeiten, basierend auf: Morphologie (Wortähnlichkeiten) Ontologie (semantische Ähnlichkeit von Wörtern) Namenserkennung (Abstraktion) Grammatik (semantische Ähnlichkeit von Sätzen) Suche nach ähnlichen Sätzen in den Dokumenten Satzanalyse und Ideen für Stilregeln Auswahl aus Formulierungsmustern Implementierung von Standard-Sätzen 27. Nov. 2007 Melanie Siegel www.acrolinx.com 36

Korpusanalyse: Beispiel Gefundene Satz-Cluster in Benutzer-Dokumenten: Gehen Sie dazu wie folgt vor Gehen Sie dazu folgendermaßen vor So gehen Sie vor Gehen Sie dabei folgendermaßen vor.. gehen Sie wie folgt vor Nach Abschluss der Installation starten Sie den Server neu Nach Abschluss der Installation müssen Sie den Server neu starten Starten Sie den PC neu nach Abschluss der Installation 27. Nov. 2007 Melanie Siegel www.acrolinx.com 37

27. Nov. 2007 Melanie Siegel www.acrolinx.com 38

Intelligent Reuse Analyse von Textdokumenten (mit sprachtechnologischen Verfahren) Sprachtechnologische Verfahren: Ontologieinformation, Morphologieanalyse) Satzcluster Auswahl von Standard-Formulierungen Automatische Auswahl unter Einbindung von Grammatik, Stil, Terminologie Verifizierung durch den Redakteur / verantwortliche Personen Vorschläge für ähnliche Sätze in neuen Texten 27. Nov. 2007 Melanie Siegel www.acrolinx.com 39

Intelligent Reuse: Cluster 27. Nov. 2007 Melanie Siegel www.acrolinx.com 40

Intelligent Reuse: Prüfung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 41

Text-Struktur Methodische Textproduktion, Funktionsdesign (Schäflein-Armbruster, Muthig) Stilregeln für funktionale Kontexte: Reflektieren die Idee, dass dem Inhalt technischer Dokumente eine funktionale Struktur zugeordnet ist, die sich in sogenannten Tags (XML oder FrameMaker) ausdrückt. Kooperieren mit der funktionalen Struktur. Werden an die funktionale Struktur angepasst. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 42

Stilregeln für funktionale Kontexte: Beispiele Maximale Satzlänge für Grundtext Handlungsanweisungen Prozedurbeschreibungen Überschriften Formulierungsmuster, wie z.b.: In Handlungsanweisungen Imperativ gebrauchen Gegensätzliche Regeln für funktionale Strukturen, wie z.b.: Im Grundtext Nomen mit Artikeln gebrauchen In Überschriften keine Artikel verwenden Regeln für Listen oder Tabelleneinträge 27. Nov. 2007 Melanie Siegel www.acrolinx.com 43

Stilregeln für funktionale Kontexte 27. Nov. 2007 Melanie Siegel www.acrolinx.com 44

Stilregeln für funktionale Kontexte 27. Nov. 2007 Melanie Siegel www.acrolinx.com 45

Korpusanalyse Rechtschreibregeln Grammatikregeln Stilregeln Strukturierungsregeln Technisches Dokument verständlich, strukturiert, übersetzungsgerecht Computerlinguistische Methoden Automatische Prüfung Generierung von Vorschlägen Übersetzung 27. Nov. 2007 Melanie Siegel www.acrolinx.com 46

Voraussetzung für Effektivität und Nutzen Präzision: Anwender darf nicht mit Falschalarmen belästigt werden Flexibilität und Anpassbarkeit an Stilrichtlinien an Strukturinformation an Terminologie 27. Nov. 2007 Melanie Siegel www.acrolinx.com 47

Effekt und Nutzen für die Anwender Der Prozess des Korrekturlesens wird nachhaltig unterstützt. Die Qualität der Dokumente steigt und damit sinken die Kosten für die Übersetzung und steigt der Nutzen für die Anwender. Die Konsistenz der Dokumente steigt und damit auch die Wiedererkennbarkeit und Verständlichkeit. Funktionsdesign liefert präzise Regeln und die Basis für eine Modellierung der Struktur in XML, die eine kontextsensitive Prüfung ermöglicht. 27. Nov. 2007 Melanie Siegel www.acrolinx.com 48

DEMO 27. Nov. 2007 Melanie Siegel www.acrolinx.com 49

Wie es weiter gehen könnte Informationsextraktion für Clustering und Termextraktion Verfahren für die Generierung von komplexen Vorschlägen Ontologie und Terminologie: Zusammenhänge weiter ausnutzen für Clustering und Termextraktion 27. Nov. 2007 Melanie Siegel www.acrolinx.com 50

Zusammenfassung und Fazit Die ganze Bandbreite computerlinguistischer Verfahren ist für die Textproduktion relevant. Ein Kontinuum von robusten und effizienten zu präzisen Verfahren erfordert eine Abwägung der relevanten Information. Computerlinguistische Verfahren, damit eine effiziente, praktische Unterstützung der Autoren möglich ist. Korpusanalysen Automatische Prüfungen Unterstützung des Übersetzungsprozesses 27. Nov. 2007 Melanie Siegel www.acrolinx.com 51

Vielen Dank für die Aufmerksamkeit! 27. Nov. 2007 Melanie Siegel www.acrolinx.com 52