Software für den Kurs das Korpus wird auf der Kurshomepage zur Verfügung gestellt Emu Speech Database System erhältlich unter http://emu.sourceforge.net/index.shtml Ausgangsmaterial: Sprachdatenbank, die über eine Datenbank-Templatedatei definiert ist. Die Templatedatei ist eine Textdatei, in der alle Eigenschaften der Datenbank festgehalten sind. EMU VERSION 1.9/ 1.10 http://sourceforge.net/project/showfiles.php?group_id=16757&package_id=24972&release_id=285071 Erläuterung zur Handhabung mit EMU auf http://emu.sourceforge.net/manual/index.html R (zur Datenextrahierung, statistischen Analyse und graphischen Darstellung) http://cran.r-project.org/ Zusätzlich wird ein emu_r.zip package benötigt, das einmalig installiert werden muss: http://prdownloads.sourceforge.net/emu (emu-splus>emu_2.3.zip aktuellste Version) Templatedateien können mit dem EMU Tool Gted (benutzerfreundlich) erstellt werden oder in einem einfachen Texteditor selbst geschrieben werden. 3 EMU ist eine Software für die Erstellung, Manipulation und Analyse von Sprachdatenbanken, letzteres über eine sehr effiziente Suchmaschine, die nach sequentiell und hierarchisch organisierten Labels und Labelkombinationen sucht. http://www.ipds.uni-kiel.de Signalverarbeitung erfolgt über ein Programm in EMU (oder wahlweise mit tkassp IPDS Uni Kiel) Pitch and Formant Tool in EMU: erzeugt aus einem Sprachsignal (.wav) die abgeleiteten Signale (z.b. F0-Verläufe (.sf0) oder Formanten (.sfb)) INPUT: Ordner mit den Sprachsignalen (.wav) OUTPUT: Ordner, in dem die neu erstellten Dateien gespeichert werden (diesen am besten gleich mit dem Input lassen!) 2 4 1
Erstellen eines Templates Gtemplate Editor. Graphical User Interface zum Erstellen und Bearbeiten File ->Edit Template Graphical Angabe der Ebenen in Bezug auf die zeitliche Komponente: Segment (Dauer ist vorhanden) Event (ein Zeitpunkt) Pfadangabe (sollte identisch mit der.hlb-datei sein) Angabe der Extension Zeitfaktor 1000 (Angabe in ms) Gted 5 7 Gted Gted Bestimmen der Ebenen mit dem Template Editor und deren Assoziation mit anderen Ebenen Angabe des Pfades für die.hlb-dateien hier werden die Information für die gesetzten Label gespeichert Angabe der Trackdateien (welche Dateien sollen verwendet werden): Oszillogramm (.wav) Formantwerte im Spektrogramm F0-Verläufe 6 8 2
Alternative zu Gted: Erstellen eines Templates mit dem Text-Editor Ebenen abgeleitete Signale, die verwendet werden sollen Pfadangabe für die einzelnen Ebenen und die benötigten Dateien Ebeneninformation linker Mausklick: Label wird gesetzt Stern anklicken: Zeichen für das gesetzte Label Ebenen, die Segmenttypen (siehe Praat Intervaltier) sind, haben einen Anfangsund Endzeitpunkt Ebenen, die Eventtypen (siehe Praat Point tier) sind, besitzen einen Zeitpunkt Setzen der Label 9 11 Etikettierung Etikettierung: erfolgt im EMU- Labeller über die Auswahl der Sprachdatenbank + die Auswahl einer Äußerung Speichern der Label nachdem die Äußerungen etikettiert wurden, werden die Label gespeichert in der.hlb-datei (die im Template definiert wurde) werden alle Informationen zu den Labeln gespeichert für die anderen Ebenen werden Dateien angelegt, die die Label und deren Zeitpunkte beinhalten z.b.: in der Word-Ebene (.Word) in der Tone-Ebene (.Tone) in der CV-Ebene (.CV) zu einer etikettierten Äußerung gehören z.b.: das Sprachsignal (.wav) die abgeleiteten Signale (.sf0;.sfb) die hlb.datei und die Etikettierungsdateien 10 12 3
Vorbereitung: Gruppenarbeit Hierarchy Aufbau der Template- Datei: 3 Ebenen (Word, CV, Tone) Label in der Word-und CV- Ebene haben Anfang- und Endzeitpunkt (SEGMENT) Label in Tone-Ebene sind Zeitpunkte derselbe Ordner für das Speichern der Label und das Zugreifen des Templates auf Signaldateien Angabe der Signal- Formate Welche Ebenen sollen angezeigt werden http://prdownloads.sourceforge.net/emu Damit die Label aus dem Zielwort extrahiert werden können, müssen im Fenster Hierarchy die einzelnen Label per Drag&Drop mit dem Wort verbunden werden. 13 15 nach dem Öffnen einer Äußerung erscheint die Oberfläche zur Bearbeitung der Sprachdatenbank hier sind die Ebenen zu sehen, in denen etikettiert wurde von Interesse ist für diesen Kurs die Extrahierung der Label, die in der Word-, Tone- und CV-Ebene gesetzt wurden mithilfe des Query-Tools können Label extrahiert werden Annotation des Korpus mit EMU in dem Query Tool werden durch > Add to list alle vorhandenen Äußerungen angezeigt > beinhaltet alle Äußerungen, hier können natürlich auch einzelne Äußerungen gewählt werden um die verschiedenen Äußerungen nach Labeln zu durchsuchen, werden die einzelnen Label abgefragt: Beispiele: Wortebene: Word= Mahm Tonebene: Tone=L Tone=H Segmentebene: CV = C1 Sollen aus einer Ebene zwei Label gleichzeitig abgefragt werden, so lautet der Befehl: Beispiel: Tone=L H oder CV =C1 V1 C2 bedeutet UND 14 16 4
Extraktion eines Labels mit dem Query-Tool aus einem bestimmten Zielwort nachdem der Zeitwert (x-wert) der Label extrahiert wurde, ist es möglich, den dazugehörenden y- Wert auszulesen in der Tone-Ebene handelt es sich hierbei um die Frequenzwerte [ Name der Extraktionsebene = Name des Labels ^ Word = Zielwort ] Beispiel: [CV=C0^Word=Nanni] diese Werte sind in der Track-Datei gespeichert und werden als neue Trackliste ausgegeben 17 19 das Programm gibt eine Segmentliste aus, die folgendes darstellt: > das gesuchte Label in diesem Fall L > der Zeitpunkt, an dem das Label gesetzt wurde > die Äußerung, aus der das Label exportiert wurde für die Label in der Tone-Ebene sind nun Zeit- und Frequenzwerte extrahiert worden die Extrahierung der Zeitwerte von den anderen Label läuft genau gleich ab - hierbei zu beachten, dass z.b. in der F0-Ebene die y-werte benötigt werden 18 20 5
Speichern und Bearbeiten der Listen um die Segmentliste z.b hier von dem Label L zu speichern, muss diese angewählt und gespeichert werden (FILE> SAVE); das gleiche gilt für die Trackliste; beim Speichern die EXTENSION beachten, also: ListL.txt bevor in Excel mit der Tabelle gearbeitet werden kann, muss in der Liste der Punkt durch ein Komma ersetzt werden; dies wird mit einem Editor durchgeführt. BEARBEITEN>ERSETZEN>SUCHEN NACH. >ERSETZEN MIT, >ALLE ERSETZEN 21 Übertragen in Excel nachdem diese neu bearbeiteten Listen abgespeichert sind, können diese in Excel geöffnet werden (falls die Datei nicht zu sehen ist, dann im Fenster DATEITYP alle Dateien auswählen) die Datei öffnen und hierfür noch eine Textkonvertierung durchführen: Schritt 1: Fenster unverändert lassen Schritt 2: das Leerzeichenfeld aktivieren (die Spalten werden voneinander getrennt) Schritt3: unverändert Fertig stellen die Segmentliste wird tabellarisch (Label, Zeit Äußerung) dargestellt und kann zur weiteren Bearbeitung verwendet werden. > die Spalte die mit Null gefüllt wurde, spielt nur eine Rolle, wenn man Dauern untersucht (also Start und Endzeit zur Verfügung steht!) kann i.d. Fall gelöscht werden 22 6