Dortmunder Chat-Korpus



Ähnliche Dokumente
Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

SIMP 1.01 Protokollspezifikation (Mindestanforderung)

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

4 Aufzählungen und Listen erstellen

Aufklappelemente anlegen

Das Seminar ist eine Prüfungsleistung für Bachelor und Masterstudierende der Informatik!

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Erstellen der Barcode-Etiketten:

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

White Paper - Umsatzsteuervoranmeldung Österreich ab 01/2012

Webalizer HOWTO. Stand:

Wie kann ich in der Backstage-Ansicht eigene Dokumentationen einbinden?

Wir machen neue Politik für Baden-Württemberg

Antolin-Titel jetzt automatisch in WinBIAP kennzeichnen

Microsoft Access 2010 Navigationsformular (Musterlösung)

ZAHLUNGSAVIS. Im Zahlungsprogrammteil automatisch erstellen

GDI-Business-Line 3.x Ticketverwaltung

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Kontakte Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

An-/Abwesenheitsplaner Überstunden verwalten

Vorgehensweise bei Lastschriftverfahren

Datenbank LAP - Chefexperten Detailhandel

Import und Export von Übergängern

5. Übung: PHP-Grundlagen

BERECHNUNG DER FRIST ZUR STELLUNGNAHME DES BETRIEBSRATES BEI KÜNDIGUNG

Vorgestellt vom mexikanischen Rat für Fremdenverkehr

Nutzerhandbuch Zentrale Klassenverwaltung

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Stammdatenanlage über den Einrichtungsassistenten

P&P Software - Adressexport an Outlook 05/29/16 14:44:26

4. BEZIEHUNGEN ZWISCHEN TABELLEN

FuxMedia Programm im Netzwerk einrichten am Beispiel von Windows 7

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Bereich METIS (Texte im Internet) Zählmarkenrecherche

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Elektronischer Kontoauszug

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

WINLINK 2000 SPAM-KONTROLLE UND NACHRICHTEN PRIORITÄTEN Aktualisiert 27. März 2012

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Fallbeispiel: Eintragen einer Behandlung

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

ecaros2 - Accountmanager

Speicher in der Cloud

Archivierung von Mails des Exchange-Systems

PowerPoint 2010 Mit Folienmastern arbeiten

Anzeige von eingescannten Rechnungen

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

104 WebUntis -Dokumentation

Gemeinsamer Bibliotheksverbund: Übertragung von Datenexporten für den Verbundkatalog Öffentlicher Bibliotheken

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

ASDI Benchmarking Projekt. Anleitung zum Datenexport

Schnell, sicher, umweltfreundlich und sparsam

1 Mathematische Grundlagen

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

1 Belastung. 1.1 Standortbestimmung 1.2 Belastungsvorhersage 1.3 Favoriten

W&W Einwohnerkontrolle. EKI Version mit Objektregister (Datenimport)

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

teamsync Kurzanleitung

Bedienung des Web-Portales der Sportbergbetriebe

Advance Steel Nachverfolgung von Änderungen während der Revisionsphasen im Projekt

Internet online Update (Mozilla Firefox)

Erstellung von Reports mit Anwender-Dokumentation und System-Dokumentation in der ArtemiS SUITE (ab Version 5.0)

Barrierefreie Webseiten erstellen mit TYPO3

Das Modul ARTIKEL-BARCODE ermöglicht den Druck von Barcode-Etiketten der EAN-Codes 8 und 13.

Installation OMNIKEY 3121 USB

Erweiterungen Webportal

PKV- Projektanlage Assistent

Formica 2.0: Montageauftrag erfassen: Auftragsgruppe

Kurzanleitung zur Übermittlung der mündlichen Prüfungsergebnisse mit DSD-Online. Stand: Dezember Schulmanagement weltweit

Elektronischer Kontoauszug

Eine eigene Seite auf Facebook-Fanseiten einbinden und mit einem Tab verbinden.

Vektoren mit GeoGebra

Anwendungshinweise zur Anwendung der Soziometrie

Libri.de Tutorial zum Partnernetzwerk Affili.net. Bücher Musik Filme Downloads

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Inventur. Bemerkung. / Inventur

Whitepaper. Produkt: combit factura manager. Mehrwertsteuererhöhung durchführen. combit GmbH Untere Laube Konstanz

Präventionsforum+ Erfahrungsaustausch. HANDOUT GRUPPEN-ADMINISTRATOREN Anlage zum Endnutzer-Handbuch. Stand: Änderungen vorbehalten

Word 2010 Schnellbausteine

1. Aktionen-Palette durch "Fenster /Aktionen ALT+F9" öffnen. 2. Anlegen eines neuen Set über "Neues Set..." (über das kleine Dreieck zu erreichen)

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Kurzanleitung bezüglich erforderlicher Rechnungsdaten

SEPA Lastschriften. Ergänzung zur Dokumentation vom Workshop Software GmbH Siemensstr Kleve / /

Datenexport aus JS - Software

Schnellanleitung: Verbuchung von Studien- und Prüfungsleistungen

BEDIENUNGSANLEITUNG: EINREICH-TOOL

50,2 Hz Portal - Kurzanleitung für die Rolle Sachbearbeiter

Transkript:

Dortmunder Chat-Korpus Aufbereitung der Daten und Überführung in ein XML-Format 1) Teilautomatische Aufbereitung und Grundstruktur Vorverarbeitungsschritte Die Basis für das Dortmunder Chat-Korpus bilden die Mitschnitte diverser Chats, so wie sie von den jeweiligen Chat-Anwendungen bezogen werden konnten. Die Ausgangsdaten sind im Falle serverseitig erzeugter Logfiles häufig im TXT-Format, im Falle clientseitig erzeugter Logfiles entweder HTML (bei Speicherung des Bildschirmsprotokolls über einen Browser) oder (bei der Copy & Paste-Sicherung des Bildschirmprotokolls) DOC bzw. RTF. Diese Rohdaten wurden zunächst in ein HTML-Format überführt, sofern das Ausgangsformat nicht bereits HTML war. Manuell wurden anschließend irrelevante HTML-Annotationen entfernt. Durch eine Suchen & Ersetzen-Routine wurden des weiteren die einzelnen Chat-Beiträge automatisch als messages ausgezeichnet und die entsprechend modifizierten Dokumente als XML-Dateien gespeichert. Basale Modellierungseinheit: Der Chat-Beitrag In Anbetracht der signifikanten Unterschiede zwischen der Organisation mündlicher Gespräche und der Handlungskoordination im Chat haben wir uns dafür entschieden, in den Korpusdokumenten nicht Gesprächsbeiträge ( Turns ), sondern Chat-Beiträge ( messages ) als Grundeinheiten unserer Modellierung anzunehmen. Unter einem Chat-Beitrag verstehen wir solche Teilnehmeräußerungen, die im Display aufgrund jeweils eines vorangehenden und eines nachfolgenden Absatzreturns als Einheiten isolierbar sind, die vom betreffenden Produzenten durch Ausführung eines Sendeakts als Einheit an den Chat-Server übermittelt und von diesem in das Display der Adressatenrechner 1

übermittelt wurden. Der Chat-Beitrag stellt somit eine lediglich formale Einheit dar; über seine Funktion oder den ihm von Seiten des Produzenten beigemessenen Handlungswert ist damit noch nichts ausgesagt. Teilautomatische Annotation Mit dem selbst entwickelten Java-Werkzeug Logfile2XML 1 wurden die Dokumente nach Einfügung der message -Tags automatisch vorannotiert: Bestimmte Attribute und Attributwerte zum Element message wurden eingefügt sowie Emoticons und Asterisk-Ausdrücke unterhalb der message -Ebene ausgezeichnet. Das somit erzeugte rudimentäre XML-Format wurde in einem weiteren Schritt von Hand weiterbearbeitet, um automatisch nicht zweifelsfrei identifizierbare Elemente wie Adressierungen ( address ) oder im Text einer message erwähnte (nicht selten abgekürzte) Nicknames ( nickname ) auszuzeichnen und kleinere Unzulänglichkeiten der maschinellen Vorannotation nachzukorrigieren. Teilautomatische Generierung statistischer Daten Die fertig annotierte Datei wurde zuletzt in das ebenfalls selbst entwickelte Java- Werkzeug ExtendedHead eingelesen. ExtendedHead generiert automatisch statistische Metadaten zum Inhalt eines Dokuments und vermerkt diese ebenfalls in Form von XML-Annotationen direkt im Dokument. Weitere Metadaten, die sich nicht maschinell auslesen lassen, für die Dokumentation der Korpusdaten jedoch wünschenswert waren, wurden anschließend von Hand ergänzt (z. B. das estimatedgender oder die creatorlist ; s.u.). 1 Alle für die Korpusaufbereitung verwendeten Programme wurden von Bianca Selzam entwickelt, 2

2) Das XML-Format im Überblick Den XML-annotierten Korpusdokumenten liegt folgende Struktur zugrunde: Wurzelelement <logfile> Das Wurzelelement logfile hat als Kinder head und body. Der head enthält Metadaten zum Mitschnitt, eine "Revision History" des Korpusdokuments sowie statistische Daten zum im Logfile dokumentierten Kommunikationsaufkommen. Im body hingegen steht mit den Chat-Daten der eigentliche Content des Mitschnitts. Element <head> Die direkten Kindelemente von head sind record, revisionhistory und creatorlist. Ihre Funktionen und Attribute werden im Folgenden erläutert. Element <head> :: Kindelement <record> record enthält Informationen zum Chat-Angebot und dessen Aufzeichnung sowie statistische Daten. Attribut: plattformname - Wertebereich: Name des Chat-Angebots - obligatorisch Attribut: plattformurl - Wertebereich: URL des Chat-Angebots, z.b. http://www.unicum.de/chat - obligatorisch Attribut: recdate - Wertebereich: Aufzeichnungsdatum in der Form YYYY- MM-DD, z.b.: "2003-09-21" für "21. September 2003" (sofern bekannt, ansonsten unknown ) - obligatorisch Attribut: recstart - Wertebereich: Starzeitpunkt der Aufzeichnung in der Form HH-MM, z.b. "19-25" für "19 Uhr 25 Minuten" (sofern bekannt, ansonsten unknown ) - obligatorisch 3

Attribut: recend - Wertebereich: Starzeitpunkt der Aufzeichnung in der Form HH-MM, z.b. "21-17" für "21 Uhr 17 Minuten" (sofern bekannt, ansonsten unknown ) - obligatorisch Attribut: recby - Wertebereich: Name des/der Aufzeichnenden (sofern bekannt, ansonsten "unknown") - obligatorisch Attribut: TNOM ("total number of messages") Wertebereich: Anzahl der messages im Dokument-Body - obligatorisch Attribut: TNOT ("total number of tokens") Wertebereich: Anzahl der laufenden Wortformen im Logfile - obligatorisch Attribut: view - Wertebereich: Nickname des Chatters, dessen Sicht auf das Kommunikationsgeschehen im Logfile dokumentiert ist (nur, sofern relevant) - fakultativ Element <head> :: Kindelement <revisionhistory> Die revisionhistory dokumentiert die verschiedenen Aufbereitungs- und Bearbeitungsschritte eines Dokuments. Sie wird bei jedem Bearbeitungsvorgang bzw. bei jeder Änderung des Dokuments aktualisiert. Das Element revisionhistory enthält beliebig viele Kindelemente des Typs revision. Element <head> :: Kindelement <revisionhistory> :: Kindelement <revision> revision dokumentiert einen Bearbeitungsvorgang am Dokument. Die Elemente revision sind laufend durchnummeriert. Inhalt jedes revision -Elements ist eine Kurzbeschreibung der jeweils vorgenommenen Änderungen bzw. Überarbeitungsschritte. Attribut: no - Wertebereich: Laufende Nummer des Vorkommens des Elements revision - obligatorisch Attribut: by - Wertebereich: Name des Bearbeiters/der Bearbeiterin - obligatorisch ANNOTATIONSBEISPIEL <revision>: Element <head> :: Kindelement <creatorlist> Die creatorlist enthält eine Liste sämtlicher im Mitschnitt aktiver Chatter, die in beliebig vielen Kindelementen vom Typ creator kodiert sind. 4

Element <head> :: Kindelement <creatorlist> :: Kindelement <creator> Ein Element creator repräsentiert einen Chatter in einem Logfile, der mindestens einen Beitrag aktiv verfasst hat. Attribut: name - Wertebereich: Nickname des Chatters bzw. "system" für das System (im Falle, dass das Logfile systemgenerierte Beiträge enthält) obligatorisch Attribut: estimatedgender - Wertebereich: geschätztes Geschlecht: "male" / "female" / "unknown" / "system" - obligatorisch Attribut: NOM ("number of messages") Wertebereich: Anzahl der vom betreffenden Chatter produzierten Messages (also derjenigen messages im Body, für welche er als creator fungiert) - obligatorisch Attribut: NOT ("number of tokens") Wertebereich: Anzahl der laufenden Wortformen sämtlicher messages des betreffenden Chatters - obligatorisch Attribut: role - Wertebereich: Angabe einer Kommunikantenrolle (falls relevant), z.b. "moderator", "celebrity" - fakultativ ANNOTATIONSBEISPIEL <creatorlist>: Element <body> Der body der XML-Datei enthält den eigentlichen Mitschnitt. Er enthält beliebig viele Elemente vom Typ message. Element <body> :: Kindelement <message> Die Kategorie message beschreibt solche Einheiten, die von einzelnen Chattern durch Ausführung einer Verschickungshandlung (z.b. durch Betätigen der Eingabetaste oder Mausklick auf einen Sendebutton) an den Chat-Server aufgegeben wurden und die in den Logfiles jeweils einzeln als Produkte eines 5

bestimmten Urhebers ausgewiesen werden (in aller Regel durch automatische Voranstellung des Teilnehmer-Nicknames sowie durch vorangehenden und nachfolgenden Absatzreturn). messages sind in den Mitschnitten durch vorangehende und nachfolgende Absatzreturns von einander abgegrenzt. Sie repräsentieren Chat-Beiträge. Attribut: id - Wertebereich: Laufende Nummer der message - obligatorisch Attribut: type - Wertebereich: Zuweisung eines der Subtypen utterance * ("Äußerungsbeiträge"), *action ("Beiträge mit Zuschreibungscharakter") oder system * ("Systemmeldungen"). In den IRC-Chats tritt zusätzlich der Typ *bot auf ("automatisch generierte Beiträge eines Chat-Robots") - obligatorisch Attribut: creator - Wertebereich: Name des Produzenten der message. Bei Systemmeldungen ist "system" angegeben - obligatorisch Attribut: color - Wertebereich: Farbwertangabe zur Anzeigefarbe der message - fakultativ Element <body> :: Kindelement <message> :: Kindelement <timestamp> Dieses (fakultative) Element gibt den Zeitpunkt der Entgegennahme eines Beitrags durch den Chat-Server an. Der timestamp kann entweder message-initial oder message-final stehen: Element <body> :: Kindelement <message> :: Kindelement <messagehead> Der messagehead umfasst diejenigen Teile einer message, die (a) vom System automatisch generiert wurden und (b) die Funktion haben, den Produzenten des Beitrags anzuzeigen sowie ggf. den Äußerungsmodus zu benennen, der vom Produzenten für den Beitrag gewählt wurde (z.b. "Flüster"-Modus). 6

Kindelemente sind nickname und mode. Element <body> :: Kindelement <message> :: Kindelement <messagebody> Eine message beinhaltet immer einen messagebody. Dieser umfasst denjenigen Teil der message, der die vom betreffenden Teilnehmer eingegebene Zeichenfolge (und somit den "Beitrag" im engeren Sinne) wiedergibt. Adressierungen innerhalb des Elements messagebody werden durch das Kindelement address gekennzeichnet. Das zugehörige Attribut addressee zeigt, welcher andere Chat-Teilnehmer als Adressat gewählt wurde. Da Nicknames in Adressierungen häufig abgekürzt werden (z.b. anton anstatt anton23 ) und bisweilen aus Flüchtigkeit auch Tippfehler enthalten ( atnon statt anton ), ist die Belegung des Attributs addressee obligatorisch. Während das Element address diejenige Zeichenfolge markiert, die im Beitrag als Adressierung fungiert, wird als Wert zu addressee die originäre Form des Nicknames angegeben. 7

ANNOTATIONSBEISPIEL <address> im <messagebody>: Wenn andere Chatter nicht direkt adressiert, sondern im Rahmen eines Teilnehmerbeitrags erwähnt werden, so werden diese Erwähnungen im messagebody mit dem Kindelement nickname ausgezeichnet, und zwar zunächst unabhängig davon, ob der betreffende Teilnehmer tatsächlich mit seinem Nickname, mit seinem realweltlichen Namen oder einem anderen sprachlichen Ausdruck genannt wird (z.b. Torsten anstelle von Rocky19 oder Grenzwall anstelle von Limes ). Falls der verwendete Ausdruck vom Nickname abweicht, ist zum Attribut baseform der im Chat verwendete Nickname des betreffenden Teilnehmers als Wert angegeben. ANNOTATIONSBEISPIEL <nickname> im <messagebody>: 8

Netspeak -Elemente wie Emoticons und Handlungsbeschreibungen in Asterisken werden durch die Tags emoticon und asteriskexpression markiert. Diese können auch ineinander verschachtelt sein. ANNOTATIONSBEISPIEL <emoticon> / <asteriskexpression> im <messagebody>: Michael Beißwenger / Bianca Selzam (2005) 9