Qualitätssicherung in kollaborativer Umgebung Frank Wiegand, Deutsches Textarchiv http://www.deutschestextarchiv.de/dtaq
Warum Qualitätssicherung? Transkriptionsfehler, z. B. Unterbaltung Unterhaltung Annotationsfehler, z. B. <stage> fehlt bei Bühnenanweisung im Drama Druckfehler, z. B. Ich uud meine Hund Präsentationsfehler (XSLT, HTML, Javascript) Fehler im Workflow, z. B. falsch beschnittene Bilder Fehler in den Metadaten Fehler in den Tools: Maſchiene Maschiene Ma/GN#Schiene[_NN] Fluss in Vietnam/Laos
DTAQ Features Webbasiertes Framework/Annotationstool Textdigitalisate in seitenweiser Darstellung, verschiedene Ansichten Annotation fehlerhafter Passagen Korrekturlesen (verschiedene Arten) Ticketsystem (Datenbank, Accounts, Rollen) Statistiken, Analysen
Parallele Ansicht: Bild HTML (mit Tickets)
Parallele Ansicht: Bild XML
Ticket-Details (Transkriptionsfehler)
Fehler in Tools Normalisierte Orthographie Beispiel: Leyden falsch erkannt als die Stadt in Holland einfache Transliteration (e.g. ſ s) unbekannte Form Canitz, Friedrich Rudolph Ludwig von: Neben-Stunden Unterschiedener Gedichte. Berlin, 1700, S. 18. www.deutschestextarchiv.de/canitz_gedichte_1700/18 Ausnahmelexikon magische Konversion
DTAQ Noch mehr Features Integrierte Suchmaschinen (DDC, egrep) Unicode-Tools Bildbearbeitung Integrierter Formeleditor (TeX-Syntax) Ausführliche Dokumentation
DTAQ Stand Oktober 2013 Im Einsatz seit Juni 2011 1 631 Werke, 466 393 Seiten, 761 Mio. Zeichen ca. 59 900 Tickets angelegt (ca. 50 900 gelöst) ca. 30 000 Seiten Korrektur gelesen ca. 300 aktive Nutzer (Expertisen: Griechisch, Hebräisch, mathematische/chemische Formeln, Sprachgeschichte etc.) DTAQ ist nach Anmeldung frei zugänglich: http://www.deutschestextarchiv.de/dtaq
Features in Arbeit Integrierter Text- bzw. XML-Editor NE-Erkenner (für Eigennamen) Mehr Suchmöglichkeiten: fremdsprachliches Material, unleserliche Stellen, niedrigfrequente Buchstaben-N-Gramme etc. Dokumentenimport: via Upload aus externen Quellen (Wikisource, Gutenberg*, )
DTAQ nutzt Open Source
Arbeiten mit DTAQ http://commons.wikimedia.org/wiki/file:question_book.svg
Voraussetzungen Technisch: Mind. Chrome 15, Firefox 7 oder Opera 11.50 Schriftarten (GNU Freefonts, Junicode ) Mind. 1400 px Bildschirmbreite sind optimal Inhaltlich Kenntnisse über: Richtlinien zur Texterfassung DTA-Basisformat Korrekturfibel Neuigkeiten
Terminologie Ticket: Fehler, Anmerkung CAB-Ansicht: normalisierte Orthographie TEI: Text Encoding Initiative (XML-Dialekt) DDC/OpenSearch: linguistische Suchmaschine Indexbau aller 7 Tage mächtig (Flexionen, Transliterierung etc.) keine Probleme mit Silbentrennung eigene Syntax
Terminologie (2) grep: herkömmliche Suchmaschine immer aktuell mächtig (Zeilenanfang etc.), aber langsam Silbentrennung nicht aufgehoben reguläre Ausdrücke
Fehlerarten Kritische Fehler: Transkriptionsfehler Auszeichnungsfehler (XML) Fehler in Metadaten/Workflow/Tools Dokumentation schafft Mehrwert im DTAKorpus: Druck-/Schreibfehler (alle Arten) Speziell: Darstellungsfehler (HTML)
Transkriptionsfehler Zeichen sind falsch oder fälschlich nicht aus der Vorlage übernommen gilt auch für graphische Objekte (Linien, Abbildungen, Formeln, Tabellen) Referenzdokumentation: Richtlinien zur Texterfassung (www.deutschestextarchiv.de/doku/richtlinien)
Häufige Transkriptionsfehler langes ſ f I l 1 (i. e. L i eins) in Fraktur: c e, k t, p v, r x B V, C E, M W, R K/N in Antiqua: e o, 0 O (i. e. null Oh) Haaf, Wiegand, Geyken (jtei 4, 2013)
Auszeichnungsarten (1) Zwei Arten von Tagging: 1. Semantik; 2. Typographie Semantik (Bedeutung): Wörter/Phrasen: date, q, quote, role, speaker etc. Textpassagen: argument, cit, closer, l, lb, lg, sp, p etc. Dokumentstruktur: back, body, div, front, pb, titlepage etc.
Auszeichnungsarten (2) Typographie (Aussehen): Zeichen-/Wortebene: fett, kursiv, gesperrt, Fraktur-/Antiquawechsel, unterstrichen etc. Blockebene: zentriert, eingerückt, rechtsbündig etc. wird nur dann ausgezeichnet, wenn vom Kontext abgehoben
Beispiel Auszeichnungsfehler <stage> innerhalb von <sp> <sp who="#rued"> <p> [ ] hier und acht<lb/> und vierzig Stunden! </p><lb/> <stage>(pauſe.)</stage><lb/> </sp> <sp who="#rued"> <p> [ ] hier und acht<lb/> und vierzig Stunden! </p><lb/> </sp> <stage>(pauſe.)</stage><lb/>
Fehler im Workflow kaputte Bilddigitalisate (falsche Beschneidung etc.) Zeichenersetzung (e über Vokal, ſ/ß-handling etc.) Achtung: Immer die evtl. schon vorhandenen Tickets ganzes Buch beachten!
Druck-/Schreibfehler müssen nicht zwingend gemeldet werden, sind aber nützlich eindeutige Fehler: Abteilnng Abteilung zweifelhafte Fehler: Hofnung Hoffnung Suchmaschinen nutzen! historische Schreibweisen berücksichtigen: Abtheilung Abteilung kein Fehler!
Darstellungsfehler automagische Darstellung: Absätze, zentrierte Überschriften, Abbildungen, Formeln (bedingt) Fuß-/Endnotenzeichen, Linien durch Hervorhebungen gekennzeichnet: Sprecher, Zitate, Frakturwechsel etc. nähere Beschreibung in der Korrekturfibel (www.deutschestextarchiv.de/doku/korrekturfibel) Achtung: kein Tagging keine Darstellung
DTAQ Oberfläche
DTAQ Oberfläche offene Tickets: 35 (2 ganzes Buch) Stand: Thu Feb 28 10:33:09 2013 offene Tickets: 35 (2 ganzes Buch) Stand: Thu Feb 28 10:33:09 2013 Transkriptionsquellen: - CN (China) - MTS (Muttersprachler) - OCR = OCR + MTS CN/MTS/OCR = DTA-Kernkorpus - DTAE, Wikisource, AEDit etc.
DTAQ Oberfläche offene Tickets: 35 (2 ganzes Buch) Stand: Thu Feb 28 10:33:09 2013
DTAQ Oberfläche HTML XML Text CAB POS ( Editor)
Transkriptionsfehler melden Wort mit Maus markieren, mind. 4 Zeichen Markierung möglichst nicht über Zeilengrenzen hinaus Im Feld Zusammenfassung : vollständige korrekte Form eintragen Dccorationsmalerei Decorationsmalerei ganze Gedanken - Reyhe knupft ſich feinem Ton bilden! Da, wo dieſer Ich nnd mein Hund. viele Herzeus- brecher wollen das Gedanken-Reyhe bilden! Da und mein Herzens-
Neues Ticket anlegen Transkriptionsfehler: im Feld Zusammenfassung die komplett richtige Form Fundstelle nicht vergessen
Korrekturstatūs Textkontrolle Text-/Bild-Kontrolle Textkontrolle: Text lesen, Ungereimtheiten mit Vorlage abgleichen, Druckfehler finden Text-/Bild-Kontrolle: Abgleich mit Vorlage Wort für Wort auf der Suche nach Abweichungen
Richtiges Korrekturlesen Vorbereitung: Korrekturfibel lesen Textgröße und Textfeldgröße optimal einstellen Welche Fehler gibt es schon? (besonders: Fehler ganzes Buch) Wer hat schon Korrektur gelesen? Passagen in fremden Skripten (Griechisch etc.) Seite gleich überspringen, außer: Experte; alternativ Ticket mit Typ Anderes anlegen Rechtzeitig pausieren nicht vergessen!
CAB-Ansicht (Normalisierung) CAB-Ansicht immer nutzen Alles, was bunt ist Änderungen gegenüber der Transkription Vorsicht v. a. bei orange, lila und rot Hilft nicht immer: gereiſt gereist oder gereift Ausfegung Auslegung CAB macht auch Fehler
Tipps & Tricks Einmal falsch öfter falsch Korpus-Suchfunktionen (DDC, grep) nutzen und ähnliche Fehler gleich melden Tastaturkürzel nutzen Bei Fragen: andere Nutzer oder das DTA kontaktieren Ziel: Aufbau einer FAQ Feedback geben (Featurewünsche etc.)
http://www.deutschestextarchiv.de/dtaq wiegand@bbaw.de