Möglichkeiten zur Integration. der sicheren sinnentsprechenden Silbentrennung in T E X



Ähnliche Dokumente
Enigmail Konfiguration

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Inhalt. meliarts. 1. Allgemeine Informationen Administration Aufruf Das Kontextmenü Vorlagen...

Lehrer: Einschreibemethoden

Formale Sprachen und Grammatiken

Zwischenablage (Bilder, Texte,...)

Geben Sie in dem offenen Suchfeld den Namen Ihrer Einrichtung ein und klicken Sie auf Suchen.

Einrichtung der Bankverbindung in der VR-NetWorld Software mit dem PIN/TAN-Verfahren (VR-Kennung)

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Arbeitsgruppen innerhalb der Website FINSOZ e.v.

Solution Manager Kurzanleitung

Import, Export und Löschung von Zertifikaten mit dem Microsoft Internet Explorer

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

How to do? Projekte - Zeiterfassung

Kurzanleitung fu r Clubbeauftragte zur Pflege der Mitgliederdaten im Mitgliederbereich

Um die Rücklagen ordnungsgemäß zu verbuchen, ist es wichtig, Schritt-für-Schritt vorzugehen:

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Antolin-Titel jetzt automatisch in WinBIAP kennzeichnen

proles-login. Inhalt [Dokument: L / v1.0 vom ]

Grundsätzliche Informationen zu SpAz

Leitfaden zur Nutzung des Systems CryptShare /Sicheres Postfach

teamsync Kurzanleitung

Informationen zum neuen Studmail häufige Fragen

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Erstellung von Arbeitsgruppen und Integration

DELFI. Benutzeranleitung Dateiversand für unsere Kunden. Grontmij GmbH. Postfach Bremen. Friedrich-Mißler-Straße Bremen

GDI-Business-Line 3.x Ticketverwaltung

SEPA-Anleitung zum Release 3.09

Ihr Ideen- & Projektmanagement-Tool

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Vorlagen benutzen und ändern

Die ersten Schritte in BITE

Spielbericht Online. Nachbearbeitung durch die Vereine ist erforderlich bei: a) Nichtantritt des angesetzten Schiedsrichters

SF-RB. Modul Provisionsabrechnung & Planung Reiseagentenprovisionsabrechnung & Planung. SF-Software Touristiksoftware

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Bedienungsanleitung für den Online-Shop

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

INFOnline SZM Administration Guide Event, (Non-)PI, Code, KAT2.0

Anleitung für die Hausverwaltung

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Ein Sozialprojekt der Rotary Clubs Paderbon Kaiserpfalz

Grundbegriffe der Informatik

Um eine fehlerfreie Installation zu gewährleisten sollte vor der Installation der Virenscanner deaktiviert werden.

Bedienungsanleitung Rückabwicklungsrechner

Kapiteltests zum Leitprogramm Binäre Suchbäume

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

esms - sms senden & empfangen mit Outlook

Leitfaden zur Nutzung des System CryptShare

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Installation OMNIKEY 3121 USB

SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21

Microsoft Office 365 Kalenderfreigabe

Word 2010 Schnellbausteine

Einrichten eines Postfachs mit Outlook Express / Outlook bis Version 2000

ECO-Manager - Funktionsbeschreibung

AutoTexte und AutoKorrektur unter Outlook verwenden

Bitte beachten Sie die Installations-/Systemvoraussetzungen und freigegebenen Betriebssysteme.

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

1. Allgemeines. Mit der Vertragsverwaltung können u.a.

Einrichtung HBCI mit PIN/TAN in VR-NetWorld-Software

Leichte-Sprache-Bilder

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

Schulungsunterlagen zur Version 3.3

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

Einrichtung Ihres 3 Konto unter MAC OS

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

FORUM HANDREICHUNG (STAND: AUGUST 2013)

GEORG.NET Anbindung an Ihr ACTIVE-DIRECTORY

PKV- Projektanlage Assistent

Fassade. Objektbasiertes Strukturmuster. C. Restorff & M. Rohlfing

2. Konfiguration der Adobe Software für die Überprüfung von digitalen Unterschriften

Windows 7 - Whoami. Whoami liefert Informationen wie z.b. die SID, Anmelde-ID eines Users, sowie Gruppenzuordnungen, Berechtigungen und Attribute.

nessbase Projekte Über Projekte I

Änderung des Portals zur MesseCard-Abrechnung

Die guten ins Töpfchen, die schlechten ins Kröpfchen

Facebook I-Frame Tabs mit Papoo Plugin erstellen und verwalten

Bauteilattribute als Sachdaten anzeigen

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

NEUERUNGEN IN ALEPH VERSION 20 MIGRATION ALEPH VON V18 AUF V20 BEARBEITER: PETER KLIEN ANDREA KRONEISL BARBARA KRUMPAS

Synchronisations- Assistent

Anmeldeverfahren. Inhalt. 1. Einleitung und Hinweise

TECHNISCHE INFORMATION LESSOR LOHN/GEHALT BEITRAGSNACHWEIS-AUSGLEICH BUCH.-BLATT MICROSOFT DYNAMICS NAV

Hilfe zur ekim. Inhalt:

Kurzer Leitfaden für den Einstieg in PayComm

Um sich zu registrieren, öffnen Sie die Internetseite und wählen Sie dort rechts oben

Inhaltsverzeichnis. RNS_ _2_06_IAL_Schnittstelle Word 2013_ docx

Datenübernahme easyjob 3.0 zu easyjob 4.0

ecall sms & fax-portal

Datenexport aus JS - Software

my.ohm Content Services Autorenansicht Rechte

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Einrichten eines POP-Mailkontos unter Thunderbird Mail DE:

1) Farbsteuergerät in der Nikobus-Software unter Modul zufügen hinzufügen.

YouTube: Video-Untertitel übersetzen

Erstellen von x-y-diagrammen in OpenOffice.calc

Hilfe zur Urlaubsplanung und Zeiterfassung

Datenbank LAP - Chefexperten Detailhandel

Urlaubsregel in David

Dokumentation PuSCH App. windows-phone

Transkript:

Möglichkeiten zur Integration der sicheren sinnentsprechenden Silbentrennung in T E X Mag. Gabriele Kodydek Technische Universität Wien Institut für Computergraphik und Algorithmen e-mail: kodydek@ads.tuwien.ac.at http://www.ads.tuwien.ac.at/research/sisisi.html 1. März 2001 G. Kodydek 0

Übersicht 1. Einleitung 2. Sichere sinnentsprechende Silbentrennung (SiSiSi) 3. Silbentrennung in T E X 4. SiSiSi und T E X 5. Zusammenfassung G. Kodydek 1

Motivation Schriftbild: qualitativ hochwertige Dokumente erfordern Silbentrennung ohne Silbentrennung: große Wortzwischenräume (wegen langer Wortzusammensetzungen) mit Silbentrennung: ruhigeres Schriftbild häufige Trennfehler: Grund: Wortzusammensetzungen werden nicht erkannt falsche Trennung: z.b. Grammati-kregeln, Wor-tende G. Kodydek 2

Silbentrennung durch Wortzerlegung 1. Schritt: Zerlegung des Wortes Vormerken von Haupttrennstellen (=) an Wortfugen und von Nebentrennstellen (-) nach Vorsilben z.b. Wort=zerlegungs=ver-fahren 2. Schritt: Auffinden weiterer Trennstellen Silbentrennung auf Basis der Vokal-Konsonanten-Folgen Vormerken von Nebentrennstellen innerhalb von Stamm mit Endung(en) sowie in mehrsilbigen Vorsilben z.b. Wort=zer-le-gungs=ver-fah-ren G. Kodydek 3

Sichere Sinnentsprechende Silbentrennung sinnentsprechend: sicher: Vergabe unterschiedlicher Prioritäten ermöglicht: Bevorzugung von Haupttrenstellen (die den Lesefluss fördern) Zurückdrängung von Nebentrennstellen (die eher stören) alle legalen Zerlegungen und ihre Trennstellen werden ermittelt nicht in allen Zerlegungen vorkommende Trennstellen: unsichere Trennstellen z.b. Wach=stu-be, Wachs=tu-be G. Kodydek 4

Bestandteile Atomtabelle: enthält ca. 6000 atomare Bestandteile deutscher Wörter zusammen mit ihren Attributen Grammatikregeln: legen fest, wie die Atome sinnvoll kombiniert werden dürfen Rekursiver Zerlegungsalgorithmus: zerlegt die Wörter in ihre atomaren Bestandteile gemäß der Atomtabelle und den Grammatikregeln, merkt Trennstellen an Wortfugen vor Dudentrennung: findet Trennstellen in Einzelwörtern auf Basis der Vokal-Konsonaten-Folgen G. Kodydek 5

Prinzipien der Wortanalyse Einfache Klassifizierung: Stämme (S): text, arbeit Vorsilben (V): ver Endungen (E): en, ung Einfache Regeln zur Wortbildung: Anfangszustand 1 Vorsilbe Stamm Endung 2 Zielzustand G. Kodydek 6

Beispiel Wortzerlegungsverfahren Wort zerlegungs verfahren Wort zer leg ung s ver fahr en S = V - S E E = V - S E Folgt auf Stamm oder Endung wieder Vorsilbe oder Stamm Haupttrennstelle Folgt auf Vorsilbe wieder Vorsilbe oder Stamm Nebentrennstelle G. Kodydek 7

Zerlegungsalgorithmus im Pseudocode PROCEDURE zerlegen(zustand, wortrest) BEGIN IF (wort ist Leerstring) AND (zustand ist Endzustand) THEN Trennvektor an Dudentrennung übergeben ELSE FOR i 1 TO Länge von wortrest DO IF wortrest[1..i] ist Atom THEN FOR atomklasse IN Atomklassenmenge dieses Atoms DO IF Übergang(zustand, atomklasse, neuzustand) THEN eventuell Trennstelle in Trennvektor eintragen zerlegen(neuzustand, wortrest[i+1..länge]) END G. Kodydek 8

Dudentrennung Trennregeln für Stämme mit Endungen bzw. mehrsilbige Vorsilben Wesentliche Trennregeln: Trennung vor letztem Mitlaut (Bü-cher) Trennung zwischen selbständigen Selbstlauten (Befrei-ung) Vermerk von Ausnahmen in der Atomtabelle (vorwiegend Fremdwörter) z.b. helikopter as 6 He-li-ko-pter G. Kodydek 9

Ergebnis der Silbentrennung Trennvektor Haupttrennstellen (=): zwischen Wortgrenzen, bevorzugt Nebentrennstellen 1. Ord. (-): innerhalb der Einzelwörter Nebentrennstellen 2. Ord. ( ): unerwünschte Nebentrennstellen z.b.: Wortzerlegungsverfahren...=.._.-...=.._..-... G. Kodydek 10

Mehrdeutige und unbekannte Wörter eindeutig eindeutiger Trennvektor mehrdeutig: unsichere Trennungen werden unterdrückt: Spiel=en-de, Spie-len-de Spielen-de nur vom Autor zu beseitigen: Wachs=tube/Wach=stube ungewöhnliche Zerlegungen: Messer=attentat/Messe=ratten=tat unbekannt: Atomtabelle unvollständig Rechtschreibfehler Eigenname/Fremdwort/Abkürzung G. Kodydek 11

Einfache Wortgrammatik Einfache Wortgrammatik erlaubt zuviele unsinnige Wörter z.b.: Generalintendant 1. Zerlegung: General + intendant S S 2. Zerlegung: General + in + t + end + ant S E E E E Berücksichtigung der deutschen Wortbildungsgrammatik zur Verhinderung von unsinnigen Zerlegungen G. Kodydek 12

Verbesserte Wortgrammatik Atomtabelle: Klassifizierung nach Wortarten (ca. 200 Klassen), z.b. teil... Substantiv, Verb alt... Adjektiv s... Fugenzeichen, Substantivendung, Adverbableitung Wortgrammatik: ca. 3500 Regeln für Wortbildung Menge von Atomklassen und Zuständen Menge von Zustandsübergängen Syntax: Anfangszustand Atomklasse Zielzustand z.b.: Wortanfang Verb Verbzustand G. Kodydek 13

Rechtschreibreform Neue Rechtschreibung seit 1998 (alte bis 2005 gültig) Neuschreibung mancher Stämme: z.b. daß dass Neue Trennregeln: ck bleibt ungetrennt: st wird getrennt: z.b. Bä-cker (statt Bäk-ker) z.b. kos-ten (statt ko-sten) zwei Trennvarianten für manche Wörter: 1. nach der Herkunft: z.b. He-li-ko-pter 2. nach Sprechsilben: z.b. He-li-kop-ter SiSiSi anwendbar auf alte und neue Rechtschreibung G. Kodydek 14

Silbentrennung in T E X Automatisch: pattern-methode von Liang Manuelle Eingabe von Trennstellen Penalty-Werte für Trennstellen Trennung von Zusammensetzungen G. Kodydek 15

Pattern-Methode von Liang ursprünglich für Englisch entwickelt, für Deutsch adaptiert Trennung eines Wortes wird aus patterns abgeleitet z.b.: algorithm l1g4 lgo3 1go 2ith 4hm al1g4o3r2it4hm al-go-rithm automatische Erzeugung der pattern-tabelle (aus Liste aller Wortformen mit allen möglichen Trennstellen) Eigene pattern-tabellen für alte und neue Rechtschreibung (neue Trennregeln selektiv umgesetzt) G. Kodydek 16

Manuelle Eingabe von Trennstellen Im Deutschen häufig Fehler bei neuen Wortzusammensetzungen z.b. Grammati-kregeln Der Benutzer kann selbst geeignete Trennstellen vorgeben direkt im Text: mit \- oder \discretionary, z.b. Grammatik\-regel, Bä\discretionary{k-}{k}{ck}er Nachteil: alle Vorkommnisse einzeln eintragen als Liste im Vorspann: mit \hyphenation{...} Nachteile: alle Wortformen eintragen, begrenzter Speicher G. Kodydek 17

Penalty-Werte für Trennstellen Optimale Absatzgestaltung: für jede Trennstelle ein penalty-wert (hyphenpenalty) vergeben negativ: fördert Trennung positiv: hindert Trennung pro Absatz nur ein penalty-wert für Trennstellen definierbar keine Bevorzugung von Haupttrennstellen möglich G. Kodydek 18

Trennung von Zusammensetzungen Problematik der Trennung von Zusammensetzungen Forderung nach sprachspezifischem Modul Inzwischen Ansatz von Petr Sojka: Umfangreichere pattern-tabelle auf Basis einer Wortliste, in der Wortfugen in Zusammensetzungen markiert sind kommt mit kleinen Eingriffen in TeX aus Einführung einer \compoundwordhyphenpenalty G. Kodydek 19

Anwendung von SiSiSi für T E X Frühere SiSiSi-Versionen SiT E X: Erweiterung von T E Xund LAT E X isit E X: interaktive Version (erlaubt Editieren bei unbekannten/mehrdeutigen Wörtern) Trennalgorithmus von Liang wurde komplett durch SiSiSi ersetzt Einführung eines zweiten Strafwertes für Trennstellen (\nebenhyphenpenalty) G. Kodydek 20

Vortrennung für neue SiSiSi-Versionen Mit verbesserter Wortgrammatik und neuer Rechtschreibung Möglichkeiten zur Anwendung von SiSiSi in T E X: direkte Implementierung (noch nicht realisiert) vorläufig: Vortrennung mittels Preprocessors Kennzeichnung der Trennstellen im Text Alternative: Trennliste im Vorspann G. Kodydek 21

Vorgangsweise EDITOR doku.tex doku.log doku.mem Si3Test Vortrennung latex doku.hyph.tex doku.hyph.dvi Vortrennung von TeX-Dokumenten mit SiSiSi mittels Preprocessors dvips doku.hyph.ps PRINT Postscript-Laserdrucker G. Kodydek 22

Interaktive Vortrennung Wort mit mehreren Trennvarianten: überwiegende Gewünschte Trennvariante auswählen oder eigene Trennvariante eingeben: ü_ber-wiegen_de ü_ber-wieg=en_de ü_ber-wie-gen-de ü_ber-wiegen_de Ursprünglicher Text: Übernehmen Im ganzen Dokument (3) Der Hauptwohnsitz einer Person ist dort begründet, wo niedergelassen hat, hier den Mittelpunkt ihrer Lebensbezie beruflichen, wirtschaftlichen und gesellschaftlichen Leben bezeichnen, zu dem sie das überwiegende Naheverhältnis hat deklarative Landesbürgerschaft G. Kodydek 23

Optionen für die Vortrennung Version Trennvariante (bei ReSi) Mitprotokollieren ReSi nach Silben mehrdeutige Wörter HelSi nach Herkunft UrSi alle unbekannte Wörter Trennvariante (bei ReSi) wie im Trennvektor wie in LaTeX spezielle Zeichenfolge Trennprofil optimale Trennstellen nur Haupttrennstellen Haupt- und Nebentrennstellen 1. Ord. alle Trennstellen G. Kodydek 24

Zusammenfassung Pattern-Methode ist für Zusammensetzungen nicht gut geeignet SiSiSi: sichere, sinnentsprechende Silbentrennung für die deutsche Sprache mittels eines Preprocessors kann SiSiSi auf T E X-Dokumente angewendet werden Unterscheidungsmöglichkeit für Haupt- und Nebentrennstellen in T E X wünschenswert Ziel: direkter Einbau von SiSiSi in T E X G. Kodydek 25