How to: EXMARaLDA Basiswissen

Ähnliche Dokumente
Microsoft Access Arbeiten mit Tabellen. Anja Aue

Verwaltung von UFI-Codes

Meine Portfolios im CommSy

MEHRJÄHRIGER KALENDER

Seiten und Navigationspunkte

Artikelgruppen und Artikelkennzeichen

Dateizuordnungen. Mike McBride Deutsche Übersetzung: Stefan Winter

Programmierung einer Steuerelektronik mit Zustandsautomaten. Version Gerd Bartelt

INHALTSVERZEICHNIS. Einleitung Allgemeines

Thomas Schmidt. EXMARaLDA ZECKE. Prototyp eines Suchwerkzeugs für EXMARaLDA-Daten. Version 0.2

Relevanz einer Aufgabe einfach bestimmen

Version: 1.0 Datum: PATIENTENRECHTEGESETZ IN DER MASC SE

InfoBrief Juni Vektordiagramme

Wie arbeite ich mit den Kalendern in Asta Powerproject?

Schritt-für-Schritt - Anleitung zur Erstellung von Expositionsszenarien:

EXMARaLDA Corpus Manager

Daten transformieren

How to: Importieren einer Texttranskription

Beispiele zu den Verknüpfungs-Technologien-5.3.0

Standoff-EXMARaLDA-Transcription Annotation Tool (Sextant)

Termine in CommSy anlegen, gestalten und koordinieren

Das konzeptionelle Datenmodell

Datenbank konfigurieren

Kurzanleitung creator 2.0

Tutorial zum Erstellen eines Fragenkatalogs

Kurzanleitung creator 2.0

Anwendertreffen März 2010

Inhalt. 1 Allgemeine Information

Handbuch zum Excel Formular Editor

Dateien von CSV-Datei Importieren

Grundlagen: Algorithmen und Datenstrukturen

Technik und Arbeitsablauf für FALKO

Kapitel 1: Informationsverarbeitung durch Programme

Übungen Softwaretechnik I

TEQA LAB Configuration Manual TEQA LAB. Configuration Manual. Version 4.0

Modell Bahn Verwaltung. Tutorial. Links. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 11

1 Grundlagen der Objektorientierung

Erläuterungen zum Online-Zähltool b4p. Mehr Informationen über mds:

Da ist zunächst der Begriff der Menge.

Ingenieurinformatik II Numerik für Ingenieure Teil 2

Schulungsunterlagen CMS-Version 4.0

Technische Informatik für Ingenieure Winter 2005/2006 Übungsblatt Nr. 3

Konto-Nr. bei Personenkonten ändern Stellen Sie die Verbindung zwischen der Einheiten-Nr. wieder her oder ändern Sie diese wie immer Sie möchten.

Onlinehilfe Maildatenbank

Corporate Design Packager

Dokumentation der Arbeit mit dem Taschenrechner

Erstellen eines neuen Dokumentes

Berichte Benutzer Systemzuordnung. Assets und Systeme eines Benutzers ausgeben

Benutzerhandbuch WSCAD Datenpunktliste Konvertierung nach Datenpunktliste VDI 3814

ANAMNESE. Version: (Original) Pionier der Zahnarzt-Software. Seit 1986.

Thematische Karten in Revit Architecture (Anzeigethemen)

Handbuch zum VivaWeb-Serienbrief-Programm

In Inventor werden Stile bzw. Stilbibliotheken zur Formatierung von Objekten benutzt:

Dieses Handbuch baut auf den Kenntnissen des Handbuches Querprofile auf. Es werden daher nur für den Straßenbau wichtige Einstellungen behandelt.

Inhaltsverzeichnisse. 1. Überschriften zuweisen. 2. Seitenzahlen einfügen. 3. Einen Seitenwechsel einfügen

[Arbeiten mit dem Nvu Composer]

So geht s Schritt-für-Schritt-Anleitung

Benutzerdefinierte Housekeepinglisten in SAP BW //

WEB B/L EINGABE KURZBESCHREIBUNG B/L EINGABE ÜBER DAS INTERNET MSC GERMANY MSC AUSTRIA MSC CZECH REPUBLIC MSC SLOVAKIA

- Nachrichten organisieren

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration

Duplizieren von Report-Vorlagen für die Erstellung umfangreicher Reports (ab ArtemiS SUITE 7.2)

3 Bibliotheken. Objekte sammeln und verwalten. Sie werden lernen, wie Sie vielbenutzte Objekte organisieren und verwalten.

Inhaltsverzeichnisse

Foren erstellen in ILIAS

Leitfaden für Redakteure Abo Administration

flowbooks - Bedienungsanleitung Formularwerke

Deckenbuch. Fachbereich Architektur und Bauingenieurwesen Studiengang Bauingenieurwesen

Bedienung von BlueJ. Klassenanzeige

Benutzung der Manpage, Shell Teil 3

Tiscover CMS 7. Neuerungen im Vergleich zu Tiscover CMS 6

Benutzerhandbuch. termxact 2017

AutoCAD 2010 Layout- und Plot-Management

EINFÜHRUNG. DBD-KostenKalkül IFC JULI 2018 DR. SCHILLER & PARTNER Liebigstraße 3, Dresden

Inhalte strukturieren

Lineare Algebra I (WS 13/14)

Kontakte. Inhaltsverzeichnis

Richtlinien für das Design der KML Webseite. KML TP2, Informationsdienste

Microsoft 2010 Express/Beispiel für Grafische Oberflächen

Bedienhinweis Aufgabenliste in der

:44 1/8 Fachwahl

Das Grundschema einer Dienstleistungs-Seite im Bereich Dienste und Leistungen:

Kernfunktion: Definition und Konfiguration von individuellen Filter, Skripten und Auswertungen für die Info-Zentrale des combit Relationship Managers.

Betriebswirtschaftliche Standardsoftware - Made for the WEB. ESS Enterprise Solution Server. Dokumentenablage. Release 6.0 Dokumentenablage 1

Einführung. Ablesen von einander zugeordneten Werten

Feedback. Didaktischer Kommentar

Liveticker - Manuelle Spiele

Transkript:

How to: EXMARaLDA Basiswissen Dieses Dokument erklärt die Grundkonzepte von EXMARaLDA und die Terminologie der Menüs, Dialoge und der restlichen Dokumentation. Inhalte A.Transkriptionen... 2 1. Ereignisse, Zeitachse, Spuren und Sprecher... 2 2. Spurtypen und Kategorien... 3 3. Segmentketten... 4 B. Struktur der Coma-Metadaten... 4 1. Korpora... 4 2. Kommunikationen... 4 3. Sprecher... 5 4. Aufnahmen... 5 5. Transkriptionen... 5 6. Weitere Dateitypen... 6 1

A.Transkriptionen Eine EXMARaLDA-Transkription ist eine klar definierte Struktur, die aus einigen Grundeinheiten besteht, die miteinander in Relation gesetzt werden. Um diese Grundeinheiten der EXMARaLDA-Transkription und ihre Relationen zu erläutern, wird folgende kurze Transkription als Beispiel aufgeführt. 1. Ereignisse, Zeitachse, Spuren und Sprecher Die elementare Einheit in einer EXMARaLDA-Transkription ist das Ereignis. Es besteht aus einem Textstück, das einen Vorfall in der transkribierten Aufnahme beschreibt. Das obige Beispiel umfasst insgesamt acht Ereignisse - die weißen Kästchen der Partitur - Oberfläche. Fünf davon beschreiben Wörter (oder Wortteile), die von zwei Sprechern geäußert werden ('Please do not inter', 'rupt me.', 'I take', 'no orders from' und 'you.'). Ein Ereignis ('slams his fist on the table hard and repeatedly') beschreibt nonverbales Verhalten. Die übrigen zwei Ereignisse enthalten eine deutsche Übersetzung der Äußerung von Sprecher X ('Bitte unterbrich mich nicht') und suprasegmentale Merkmale ('loud') für die Äußerung 'you', vom Sprecher Y. Durch den Bezug zur Zeitachse und einer Spur wird jedem Ereignis ein Platz in der Transkription zugewiesen. Bei der Zeitachse handelt es sich um eine geordnete Abfolge von Zeitpunkten. Jedem Zeitpunkt kann ein absoluter Zeitwert, der als Zeiger in die korrespondierende Audio- oder Videoaufnahme interpretiert wird, zugeordnet werden. Die Zeitachse im obigen Beispiel enthält insgesamt sechs Zeitpunkte - die grauen, nummerierten Zellen in der obersten Zeile der Partitur-Ansicht. Drei von diesen Zeitpunkten (0, 2 und 5) sind absolute Zeitpunkte zugeordnet ('01:44.7', '01:45.8' und '01:47.1'). Der Zeitachse ein Ereignis zuweisen bedeutet, den Start- und Endzeitpunkt auf der Achse für dieses Ereignis anzugeben. So beginnt das Ereignis, das als no orders from markiert ist, bei Zeitpunkt 2 und endet bei Zeitpunkt 3. Das durch slams his fist markierte Ereignis beginnt zur gleichen Zeit, endet aber erst bei Zeitpunkt 5 und erstreckt sich somit über eine längere Zeitspanne. Da Zeitpunkt 2 einem absoluten Zeitwert zugeordnet ist, erhalten wir zusätzlich die Information, dass no orders from und slams his fist on the table hard and repeatedly bei '01:45:8' der transkribierten 2

Aufnahme beginnen. Der Editor nutzt diese Information um den korrespondierenden Abschnitt in der wellenförmigen Ansicht der Aufnahme auszuwählen. Eine Spur bündelt alle Ereignisse mit ähnlichen Eigenschaften. Das sind i.d.r. alle Ereignisse, die das gleiche Verhalten (z.b. verbal oder nonverbal) eines Sprechers beschreiben. Das obige Beispiel enthält insgesamt fünf Spuren die Zeilen nach der obersten Zeile der Partitur einschließlich Spurlabels in den grauen Zellen ganz links (gekennzeichnet 'X [v]', 'X [de] usw.). Jede Spur kann wiederum einem Sprecher zugeordnet werden. Diese werden in einer Sprechertabelle zusammengefasst. Die Sprechertabelle des obigen Beispiels enthält zwei Sprecher, die durch 'X' und 'Y' gekennzeichnet sind. 2. Spurtypen und Kategorien Neben der (optionalen) Sprecherzuordnung, wird jede Spur einem Typ und einer Kategorie zugordnet. Wenn sie Ihre Daten zuverlässig durchsuchen und umwandeln möchten, ist diese Zuordnung sehr wichtig, weil sie für viele weitere automatische Verarbeitungsschritte von Bedeutung ist. Kategorien bestimmen die Informationsart, die in den Ereignissen der jeweiligen Spur beschrieben wird. Im obigen Beispiel gibt es zwei Spuren der Kategorie 'v' mit Ereignissen, die verbales Verhalten beschreiben. Die anderen drei Spuren sind den Kategorien 'de', 'sup' und 'nv' für 'German (deutsche) translation', 'suprasegemtals' und 'non-verbal' zugeordnet. Kategorien können frei gewählt werden (d.h., man könnte genauso gut die verbale Spur mit der Kategorie 'verbal' kennzeichnen), es sollte jedoch sichergestellt werden, dass die Kategorienzuordnung für das gesamte Korpus konsistent ist. Verwenden Sie also nicht die Kategorie v in einer Transkription, V in der nächsten und verbal in einer anderen. Typen sind vordefinierte Klassifikationen für Spuren. Es gibt drei unterschiedliche Typen: - Typ 't' steht für 'transcription'. Dies ist gewöhnlich der Typ für Spuren, in denen verbales Verhalten beschrieben wird. Sie sollten nur eine einzige Spur dieses Typs für jeden Sprecher und keine ohne Sprecherzuordnung haben. Im obigen Beispiel sind die erste und die vierte Spur solchen Typs. - Typ 'd' steht für 'description' (Beschreibung). Dies ist gewöhnlich der Typ für Spuren, die nonverbales Verhalten beschreiben. Sie können so viele Spuren wie nötig für jeden Sprecher anlegen, z.b. drei, wenn zwischen Mimik, Hand- und Körperbewegungen unterschieden werden soll, oder auch gar keine, wenn das nonverbale Verhalten nicht berücksichtigt wird. Es sind auch Spuren dieser Art ohne Sprecherzuordnung (z.b. für Hintergrundgeräusche, Applaus etc.) möglich. Im obigen Beispiel, ist die letzte Spur von diesem Typ. - Typ 'a' steht für 'annotation'. Dies ist der Typ für Spuren, die zusätzliche analytische Information über Ereignisse in den Spuren des Typs 't' enthalten. Es kann so viele Spuren dieses Typs wie nötig für jeden Sprecher geben, z.b. eine für die deutsche Übersetzung und eine für die morphologische Transliteration. Da Annotationen von dem zu Annotierenden abhängen, sollten die Ereignisse in diesen Spuren immer über ein korrespondierendes Ereignis (oder eine Ereignisabfolge) in der Spur des Typs 't' bei dem gleichen Sprecher verfügen. In dem obigen Beispiel sind die zweite und die dritte Spur Spuren dieses Typs. Für Ereignisse in diesen Spuren gibt es korrespondierende Ereignisse in Spuren des Typs 't', die dem gleichen Sprecher zugeordnet sind: 'Bitte unterbrich mich nicht' korrespondiert mit den zwei Ereignissen 'Please do not inter' und 'rupt me', wobei 3

'loud' mit dem einfachen Ereignis 'you.' korrespondiert. Im Gegensatz dazu, hat das Ereignis 'very loud' kein korrespondierendes Ereignis in der zweiten Spur. Solche Strukturen sind in denen des Typs 'a' nicht erlaubt. 3. Segmentketten Hat man die Definitionen von Spuren, Ereignissen und Spurtypen verstanden, ist die Erklärung von Segmentketten unkompliziert: eine Segmentkette ist als eine ununterbrochene Abfolge von Ereignissen in der Spur des Typs 't' definiert. Somit enthält das obige Beispiel zwei Segmentketten - die erste ('Please do not interrupt me.') besteht aus zwei Ereignissen, die zweite ('I take no orders from you.') hingegen aus drei. Segmentketten können für Ausgabeformate, die nicht als Partitur dargestellt werden, verwendet werden. Wenn alle Segmentketten anhand ihrer Startpunkte geordnet sind, kann eine Drehbuch-ähnliche Darstellung wie die folgende erzeugt werden: X: Please do not interrupt me. Y: I take no orders from you. Segmentketten spielen auch im Segmentierungsprozess eine entscheidende Rolle. Siehe auch "How to use segmentation"). B. Struktur der Coma-Metadaten Die Coma-Metadaten bestehen aus 5 vorgegebenen Daten- Containern : Korpora, Kommunikationen, Sprecher, Transkriptionen und Aufnahmen. Zudem gibt es mehrere Dateitypen, die innerhalb dieser Container existieren können. Es ist wichtig die Verbindung zwischen diesen Containern und Dateitypen zu verstehen. 1. Korpora Korpora sind die Toplevel-Container für alle weiteren Container und Dateitypen. Sie können entweder Sprecher und Kommunikationen oder weitere Korpora beinhalten. Das gegebene Beispiel besteht aus einem Korpus ( Reference ) mit zwei Subkorpora. Das Referenzkorpus kann keine tatsächlichen Korpusdaten (=Sprecher und Kommunikationen) enthalten, da es bereits andere Korpora enthält. 2. Kommunikationen Kommunikationen dienen der Organisation von Ereignissen, in denen transkribierte Konversationen stattfinden. Im Coma-Datenmodell sind Sprecher, Aufnahmen und Transkriptionen den Kommunikationen zugeordnet und mit ihnen verknüpft. In der 4

Kommunikation werden außerdem alle wichtigen Faktoren der Kommunikation wie Zeit, Ort, Umstände und gesprochene Sprache(n) gespeichert. 3. Sprecher Sprecher sind wie der Name bereits vermuten lässt- Personen, die an einer Kommunikation teilnehmen. Sprecher müssen keine realen Personen sein (automatisierte Dialogsysteme zählen ebenso) und nicht zwingend sprechen. Solange sie für die Kommunikationshandlung interessant sind, sollten sie eingetragen werden. Der Dateityp des Sprechers sollte alle wichtigen Informationen, wie z.b. Geburtstag, Geburtsjahr und Sprachbiographie, über ihn enthalten. Da Sprecher mehreren Kommunikationen zugeordnet werden können, sollten die relevanten Daten einer Kommunikation nicht mit dem Sprecher, sondern mit der Kommunikation gespeichert werden. 4. Aufnahmen Aufnahmen beziehen sich auf bestehende Aufnahmen (Audio oder Video) der Kommunikation und sind immer mit dieser verknüpft, da sie nicht eigenständig existieren können. 5. Transkriptionen Transkriptionen stellen die Verknüpfung zu bestehenden EXMARaLDA-Transkriptionsdaten her. Coma organisiert sowohl Basis-, als auch segmentierte Transkriptionen. In den Voreinstellungen lässt sich festlegen, ob die Basistranskription angezeigt werden soll oder nicht, da bestimmte Werkzeuge wie das Suchprogramm EXACT von EXMARaLDA nur mit segmentierten Transkriptionen arbeiten können. Ebenso wie die Aufnahmen, müssen auch die Transkriptionen immer mit einer Kommunikation verknüpft sein und können nicht alleine verwaltet werden. Sie sind durch die Kommunikationen mit ihren Aufnahmen verknüpft. 5

6. Weitere Dateitypen Es existieren weitere Dateitypen für die Erfassung bestehender Metadaten. Zwei von ihnen sind besonders wichtig: a. Location Eine Location repräsentiert einen Ort/ eine Lebensstation zu einer bestimmten Zeit. Eine Location muss nicht zwingend Ort- und Zeitangaben enthalten, aber die Möglichkeit besteht: in unserem Beispiel gibt die Location Auskunft über das Geburtsdatum und den Geburtsort eines Sprechers, die zweite Location hingegen definiert seinen Wohnsitz. Damit Zeitpunkte eines bestimmten Ereignisses angezeigt werden können, ist das Zufügen von Locations maßgebend. b. Description Da es sehr schwierig ist ein vereinheitlichtes Metadatenset für alle Forschungsgebiete zu kreieren, ist die Mehrheit der Metadaten in Coma durch drei frei wählbare Attribut-Wert- Paare kodiert. Diese Attribut-Wert-Paare befinden sich im Description-Feld. Sie existieren in allen Coma-Dateitypen: U.A können Korpora, Kommunikationen, und Aufnahmen Descriptions erhalten. Das Beispiel zeigt die Description eines Sprechers. Die Schlüssel innerhalb der Description sind beliebig benennbar, dennoch sollten Sie auf ein vereinheitlichtes Vokabular in den Metadaten achten. Die von Coma bereitgestellten Vorlagen helfen Ihnen bei der Vereinheitlichung und Vereinfachung Ihrer Eingaben. 6