ORTHOGRAPHISCHE NORMALISIERUNG GESPROCHENER SPRACHE

Größe: px

Ab Seite anzeigen:

Download "ORTHOGRAPHISCHE NORMALISIERUNG GESPROCHENER SPRACHE"

Marie Hase
vor 7 Jahren
Abrufe

1 ORTHOGRAPHISCHE NORMALISIERUNG UND POS-TAGGING VON TRANSKRIPTIONEN GESPROCHENER SPRACHE Thomas Schmidt, IDS Mannheim

2 FOLK Forschungs- und Lehrkorpus gesprochenes Deutsch Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche Seit 2008 am IDS Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD2) Ca. 70h Audio-Aufnahmen, ca transkribierte Wort- Tokens Weiter im Aufbau

3 Gliederung (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK Literarische Umschrift Orthographische Normalisierung Automatisierung / Evaluation Verbesserungsmöglichkeiten (semi-)automatisiertes POS-Tagging von Transkriptionen

4 Literarische Umschrift = Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich Sei glöcklich, du gutes Kend [Sesemi Weichbrodt, Buddenbrooks] Zwirner/Bethge (1958): Deutsche Mundarten Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem Modified Orthography, Eye dialect, Orthographe adaptée I wuz de on y one dat had much. So I stuck out for mo dan fo dollars, en I said [ ] [Jim, Adventures of Huckleberry Finn] b'jour, chais pas [Convention ICOR, CLAPI Lyon]

5 Literarische Umschrift

6 Literarische Umschrift Ellisionen Verschleifungen Assimilationen dialektale Färbungen generelle Kleinschreibung

7 Literarische Umschrift Warum nicht Standardorthographie? relevante Charakteristika der Mündlichkeit (hist.) visuelle Abgrenzung von geschriebenem Text Warum nicht phonetische Umschrift? Arbeitsökonomie Zugänglichkeit / Lesbarkeit Verlust morphologischer/lexikalischer Systematik

8 Literarische Umschrift Bewusstes Abweichen von schriftsprachlichen Standards Regelgeleitet? Von der Orthographie soll [ ] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben [ ] besser wiedergegeben wird [Zwirner/Bethge 1958] standardsprachliche Realisierungen Standardorthographie, nicht-standardsprachliche Realisierungen literarische Umschrift [ ] abweichende Ausdrücke werden [ ] nachgebildet, wenn sie vereinzelt auftreten [ ], allgemein verbreitete Phänomene [ ] werden nicht notiert [Rehbein et al. 1993] Beispiellisten bei HIAT, GAT, Verbmobil (süddeutsch) [lustik] lustig? lustick? lustik? (norddeutsch) [stain]???

9 Warum normalisieren? Vorhersagbarkeit bei Suchen nein, nee, na, ne, neeh, nehee, nö, näh, nää bleibsch, bleibscht, gebliewe, gebliwwe Anwendung von NLP-Methoden Lemmatisierung POS-Tagging syntaktische Annotation etc.

10 FOLK-Annotationsebenen Transkription da gehst de jetz einfach über dem bild Normalisierung da gehst du jetzt einfach über dem Bild Lemmatisierung da gehen du jetzt einfach über d Bild POS ADV VFIN PPER ADV ADJD APPR ART NN Maskierung 2h-10h Transkription / Kontrolle 30h-80h Korrekturen Effektivierung des Workflows: Beschleunigung Vereinfachung Normalisierung 1h-5h POS-Tagging 3h-5h

11 Normalisierungsregeln Interpretationsarme Annäherung an Standardorthographie Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten Explizite Regelungen für Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter Umgangssprachliche Verkürzungen Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz

12 Zweifelsfälle Normalisierungsregeln Rekonstruktion von Abbrüchen Kontraktionen hammers haben wir es kannst kannst Du? durchs durch das zum zu dem? [ugs.]? / Frequenz?

13 Evaluation 22 manuell normalisierte Transkriptionen aus FOLK Wort-Tokens, Wort-Types Quote: Ø29.89% / max % / min % Häufige Typen: Klein- Großschreibung: 12.99% Ergänzung / Klassifizierung unvollständiger Formen: 6.49% Häsitation (ähm äh): 1.46% 18 Trainings- / 4 Evaluationsdaten

14 Lexikonbasiert Automatisierung Transkribierte Form W mehr als n-mal zu Form W normalisiert Zuweisung von Form W Nur großgeschriebene Variante in DeReWo Großschreibung

15 Automatisierung Schwellenwert Precision Recall Error % 84.14% 17.80% % 77.50% 16.67% % 74.30% 16.41% % 61.70% 11.89% % 53.88% 12.71% höhere Präzision inakzeptabler Recall deutliche Erleichterung der manuellen Korrektur mehr Lexikondaten Erhöhung von Precision und Recall? keine Annäherung an 100%

16 Phänomenologie: Lexikon Eindeutige Fälle Mehrdeutige Fälle heut heute 67 hallgewersignal Hallgebersignal 3 mein mein 115 frag frage 19 sache Sache 19 ma mal 280 a a 109 meine 39 frag 2 sagen 16 man 221 ah 17 meinen 2 Frage 1 Sachen 1 wir 123 auch 8 meiner 1 % 3 aber 7 # 2 an 5 ma 2 ach 2 mir 2 acht 2 Mama 1 also 2 mach 1 abgestanden 1 machen 1 akut 1 meinst 1 alles 1 als 1

17 Phänomenologie: Lexikon Regelmäßigkeiten abbaue abbauen 2 abgezoge abgezogen 2 abklopfe abklopfen 2 absetze absetzen 1 abstelle abstellen 1 abwende abwenden 1 abziehe abziehen 1 achte achten 1 alte alten 1 andere anderen 3 anfange anfangen 1 angebe angeben 1 angesproche angesprochen 1 anrufe anrufen 1 abzieh abziehe 2 akzeptier akzeptiere 1 all alle 1 anfang anfange 1 anhab anhabe 1 aufmach aufmache 1 bau baue 1 bedank bedanke 1 behandel behandele 1 beinah beinahe 1 bekomm bekomme 1 bereu bereue 1 bestell bestelle 3 besuch besuche 1 bleib bleibe 2 brauch brauche 33

18 Phänomenologie: Lexikon Ähnlichkeiten abber aber ankucken angucken gsagt gesagt hintn hinten isch ich odder oder sauwer sauber schaun schauen spieln spielen verdrehn verdrehen warn waren widder wieder würdst würdest zusammenarbeiden zusammenarbeiten zusammengearbeidet zusammengearbeitet (Levenshtein-Distanz) ansonschten ansonsten aufgawestellung Aufgabenstellung besserwischerisch besserwisserisch blätterteigstücksche Blätterteigstückchen eklichem ekligem gescheüber gegenüber geschtern gestern hihänge hinhängen karteikarde Karteikarten linsensup Linsensuppe näkschten nächsten runnergugge runtergucken spätdiensch Spätdienst wollis Wallace (Phonetische Distanz)

19 Phänomenologie: Fehler kann s losgehn also ihr sollt au jetzt ganz normal reden es losgehen auch es sollte auch un dann gehste bis zur höhe des toasters bei dem bildrand des toasters n stückchen und gehst du zu der Höhe Toasters Bildrand Toasters ein Stückchen und gehst du zu der Höhe das Bildrand das ein Stückchen da so n mann mit n stück fleisch ein Mann einem Stück Fleisch ein Mann ein Stück Fleisch watte ma watte ma wo soll ich lang warte mal warte mal Watte mal Watte mal

20 Verbesserung der automatischen Normalisierung Ermittlung von Kandidaten (Recall) Abgleich mit bereits normalisierten Formen Abgleich mit Wortliste (DeReWo) Ermittlung von möglichen Normalisierungen aus bereits normalisierten Formen ähnliche Formen aus Wortliste (Regeln: n-ellision, e-ellision)? Entscheidung zwischen Alternativen (Precision) einfache Häufigkeiten aus FOLK einfache Häufigkeiten aus anderen Korpora? (kombinatorische Häufigkeiten)?

21 FOLK-Lexikon DeReWo etc. Transkribierte Form Bereits normalisiert? nein In Wortliste? ja keine Normalisierung ja nein Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in DeReKo Kandidatenliste n-gram-häufigkeiten? Auswahl Manuelle Korrektur (OrthoNormal) Normalisierte Form

22 Effektivierung der manuellen Korrektur

23 Effektivierung der manuellen Korrektur

24 Effektivierung der manuellen Korrektur

25 Test: POS-Tagging TreeTagger / STTS / Default -Parameterdatei 3 manuell korrigierte Transkripte aus Tesdatensatz Fehlerquoten: Transkript1 Transkript2 Transkript3 Gesamt literarische Umschrift 33.22% 29.96% 31.33% 31.39% normalisiert 18.79% 18.62% 19.5% 18.84% (optimiert) 13.38% 11.52% 16.13% (vereinfacht) 8.7% 7.5% 11.9%

26 Zusammenfassung Brauchbare Automatisierung durch lexikonbasierte Verfahren Annäherung an 100% vorerst nicht realistisch Weitere Verbesserungen möglich durch größere/andere Lexika Ermitteln ähnlicher Formen als Kandidaten verfeinerte Methoden zur Auswahl des besten Kandidaten Effektivierung manueller Korrektur

Ähnliche Dokumente

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus