Phonetische Lexika Graphem-Phonem-Konvertierung. Uwe Reichel IPS, LMU München 23. Oktober 2007

Transkript

1 Phonetische Lexika Graphem-Phonem-Konvertierung Uwe Reichel IPS, LMU München 23. Oktober 2007

2 Inhalt Abbildungsproblem Einflußfaktoren: Graphemumgebung, Silbenstruktur, Morphologie regelbasierte vs. statistische Modelle regelbasiert: P-TRA (Stock, 1992) statistische Modelle Vorarbeit: Graphem-Phonem-Alignment Statistische Klassifikatoren C4.5-Entscheidungsbäume Table Lookup with Defaults (van den Bosch et al., 1993) Evaluierungsmaße 1

3 Abbildungsproblem Ist die Abbildung g2p: Graphem /Phonem/ eine Funktion, also eindeutig? Nein. Beispiel s: 1 s /s/ (was) s /z/ (Vase) s /S/ (stehen) s / / (Wasser) Lösungsversuch: Graphemkontext s /z/ V V ; aber: losen vs. Loserwerb s /S/ t; aber: Stabilität vs. Rost... reicht nicht aus Einbezug von Silbenstruktur und Morphologie nötig (s.u.) 1 Notation: Strings in Slashes - Phoneme nach German Sampa; Kleinbuchstaben - Grapheme; Großbuchstaben - Graphemvariablen (V - Vokal) 2

4 Einflußfaktoren Graphemumgebung s / s S /: sonstige vs. schön u / u v /: Bund Qualle Silbenstruktur Auslautverhärtung, keine Beeinflussung durch Graphemumgebung über Silbengrenzen hinweg g / g k /: Wege, Weg s / z s S /: Vase, Häuschen Morphologie G2P-Konvertierung kann durch Integration morphologischer Information verbessert werden (Wothke, 1993) morphologischer Einfluß direkt und über die Silbenstruktur manifestiert 3

5 direkt: Phonem-Identität abhängig von Morphemklasse Beispiele: er in Erlöser, morph. segmentiert: er prefix + lös verb + er suffix. er wird im Präfix zu /QE6/, im Suffix dagegen zu /6/: /QE6l2:z6/. e in geben, morph. segmentiert: geb verb + en infl. /@/ ist in einsilbigem Verbstamm nicht möglich, aber obligatorisch in der Flektionsendung en: /ge:b@n/. indirekt: morphologische Struktur bestimmt Silbenstruktur und damit Phonem-Identität Beispiele: ng in Angel vs. Angelegenheit: angelnoun vs. an prefix +ge prefix +leg verb +en suffix +heit suffix. In Angel verschmilzt ng zu ambisyllabischem /N/; die Präfixsequenz verlangt hier eine trennende Silbengrenze, daher Realisierung als /ng/ (/QaN@l/ vs. /Qang@le:g@nhaIt/). losen vs. Losentscheid: los verb +en infl vs. losnoun+ent prefix +scheid verb. Präfix verlangt vorangehende Silbengrenze, was zu Auslautverhärtung und Einsetzen eines Glottal stop führt (/lo:z@n/ vs. /lo:sqentsait/). 4

6 Regelbasierte vs. statistische Modelle regelbasiert (rule based) vs. statistisch (data driven) Vorteile des regelbasierten Ansatzes gezielter Einsatz linguistischen Wissens Implementierung und Überprüfung von Theorien für viele linguistische Bereiche (z.b. morphologische Analysen) erfolgreicher als statistische Methoden Vorteile des statistischen Ansatzes Verwendung größerer Datenmengen möglich weit weniger zeitaufwendig Standardverfahren für unterschiedlichste Problemstellungen sehr viel robuster gegenüber neuen Daten adaptierbar auf andere Domänen/Sprachen automatische Aquisition von Weltwissen 5

7 Regelbasierter Ansatz: P-TRA Stock (1992), Libossek (2000) Regeln der generativen Phonologie um aussagenlogische Operatoren ( und &, oder,, nicht ) erweitert. bei Stock: insgesamt 1304 Regeln, bei Libossek: zusätzlich Einbezug morphologischer Information Regelformat: C l Graphem(e) & C r = Phonem Kontexte C l (links), C r (rechts): Grapheme, Phoneme (nur für C l ), Graphem-Klassen Regeln sortiert: je spezieller (je größer der Kontext) desto früher zu Beginn: speziellste Regeln zur Aussprache eines gesamten Worts (v.a. für Fremdwörter); am Ende: Defaultregeln (D=d, usw.) Konvertierung von links nach rechts 6

8 Beispiele: (P,p)robl em & at = /e:m/ un & #g = /n/ 2 un & g = /N/ 2 #: Morphemgrenze 7

9 Statistische Modelle Vorarbeit: Graphem-Phonem-Alignment Viterbi-Alignment (vgl. spätere Sitzung) in der Regel für one-to-one-mapping hierfür zusätzlich nötige Phonem-Kategorien: leeres Phonem, Phonem-Cluster < Schule > leeres Phonem : / S u: / Phonemcluster + : < Exen > / Q+E n / 8

10 Maschinelles Lernen Ziel: Erlernen des Zusammenhangs zwischen Zielwerten (Kategorien oder kontinuierliche Werte) für Objekte und deren Eigenschaften. Beispiel: Graphem-Phonem-Konvertierung Objekte: Grapheme Eigenschaften: Graphem-Identität, umgebende Grapheme, Position des Graphems innnerhalb der Silbe Training: Erlernen des Zusammenhangs zwischen einer oder mehreren unabhängigen Variablen und einer abhängigen Variablen abhängige Variable: Phonemklasse unabhängige Variablen: Eigenschaften (s.o.) Anwendung: Vorhersage des (unbekannten) Werts der abhängigen Variablen anhand der gegebenen unabhängigen Variablen. 9

11 Objekte als Merkmalsvektoren (Featurevektoren) repräsentiert unabhängige Variablen (Attribute) für Graphem g i : < g i 1, g i, g i+1, Morphemtyp, # σ > Attributwerte: <[a z],[a z],[a z], frei gebunden, 0 1> Merkmalsvektor für erstes e in geben: <g, e, b, frei, 1> Kategorie (abhängige Variable): Phonem /e:/ Variablenwerte: kategorial oder kontinuierlich kategorial: Graphem-Identität, Position in Silbe, Phonemklasse, Wort +/ akzentuiert kontinuierlich: relative Position des Graphems im Wort, Lautdauer, F0-Wert 10

12 Überwachtes Lernen: Werte der abhängigen Variable in Trainingsdaten bekannt; C4.5, CART, neuronale Netze (ANN) Unüberwachtes Lernen: Werte nicht bekannt; Clustering, ANN Variablentypen: C4.5: kategorial/kontinuierlich kategorial; z.b. Akzent CART: kategorial/kontinuierlich kategorial/kontinuierlich; z.b. Lautdauer ANN: kontinuierlich kategorial/kontinuierlich 11

13 C4.5-Entscheidungsbäume Quinlan (1993); quinlan Repräsentation von Objekten, Attributen (Eigenschaften), Attributwerten: Attribute: (nonterminale) Knoten Attributwerte: Kanten Objekt: Pfad durch den Baum An jedem der Blätter wird im Training gezählt, wieviele Objekt-Pfade von jeder Kategorie dort enden. Jedes Blatt bekommt dann die am häufigsten beobachtete Kategorie zugewiesen. Vorteil: Transparenz Wissensakquirierung möglich 12

14 Aufbau des Baums Rekursives Vorgehen: Gehören alle Objekte, die noch nicht durch einen vollständigen Pfad im Baum repräsentiert sind, der gleichen Klasse an, so erzeuge ein Blatt und ordne die Objekte diesem Blatt zu. Verfahre genauso, wenn die Objekte verschiedenen Klassen angehören, sich aber anhand der gegebenen Attribute nicht mehr weiter unterscheiden lassen. Gehören die Objekte verschiedenen Klassen an und unterscheiden sie sich in einer oder mehreren Eigenschaften, so wähle das zur Partitionierung der Objektmenge am besten geeignete Attribut und erzeuge einen Knoten, an dem sich der Baum in mehrere durch Werte des betrachteten Attributs vorgegebene Kanten aufspaltet (lokale Optimierung). Verteile die Trainingsdaten entsprechend ihrer Attributwerte auf die so entstandenen Unterbäume. Wiederhole dies für jeden Pfad so lange, bis eine der beiden zuvor genannten Bedingungen greift und ein Blatt erzeugt wird. 13

15 Bestimmung des besten Attributs: Das beste Attribut liefert den höchsten Informationsgewinn (bzw. das höchste Gewinnverhältnis). Entropie: durchschnittlicher Informationsgehalt einer Variablen H(C) = c C p(c)ldp(c) [Bit] wo C die Menge aller Objektklassen, p(c) gleich der Wahrscheinlichkeit der Klasse c C. (C=Variable, c=variablenbelegung) Angabe, wieviel Information im Durchschnitt benötigt wird, um die Klasse eines Objekts vorhersagen zu können 14

16 Bedingte Entropie H(C A) = a A p(a)h(c A = a) = a A p(a) [ c C p(c a)ldp(c a) ] Angabe, wieviel Information im Durchschnitt zusätzlich zu dem Wissen darüber, daß das Attribut A den Wert a hat, nötig ist, um die Klasse c C eines Objekts vorhersagen zu können Informationsgewinn (umso größer, je mehr Information über C in A steckt) Gewinnverhältnis (bei C4.5-Bäumen) G(A) = H(C) H(C A) GR(A) = G(A) SI(A) 15

17 split information: SI(A) = s i=1 T i T ld T i T, s: Anzahl der möglichen Attributwerte T : Anzahl der Objekte, die durch Attribut A aufgeteilt werden sollen T i : Anzahl der Objekte im i-ten Unterbaum, also dem Unterbaum, der durch den i-ten Attributwert aufgespannt wird hoher Wert für SI(A) bei vielen Unterbäumen mit wenig Objekten (Überadaptionsgefahr) gewählt wird also Attribut Â = argmax A[GR(A)] Attributtypen: diskret: Gruppierung von Werten, falls dadurch GR erhöht; Anlegen eines Unterbaums für jeden Wert, bzw. Wert-Gruppe kontinuierlich: binäre Verzweigung des Baums bezogen auf Trennwert, der GR maximiert 16

18 Pruning Beschneidung des Baums vs. Überadaption an Trainingsdaten möglich: Evaluierung anhand eines Entwicklungskorpus bei C4.5: Ermittlung pessimistischer Fehlerraten δ (d.i. der bei gewähltem Vertrauensniveau β maximal zu erwartende Anteil falsch klassifizierter Objekte) Teilbaum t wird durch Blatt ersetzt, wenn: ( δ aller Teilbäume von t) > (δ im Falle der Ersetzung durch ein Blatt) Zusammenfassung von Teilbäumen zu Teilbaum analog 17

19 Anwendung von C4.5-Bäumen (Reichel et al., 2005) Training von C4.5-Entscheidungsbäumen Features: aus symmetrischem Fenster der Länge n über jeweiligem Graphem Graphemkontext Silben-Features: Aufbau der Silbe (nacht/bedeckt, offen/geschlossen), Position in Silbe (Onset, Nukleus, Coda, Gelenk) morphologische Features: Morphemklasse, +/- folgende Morphemgrenze Phonem-Vorgeschichte 18

20 Table Lookup with Defaults (van den Bosch et al., 1993) Im Trainingskorpus wird für jedes Graphem-Phonem-Mapping der kleinstmögliche Graphemkontext bestimmt, der dieses Mapping eindeutig macht. Die so erhaltenen Graphemstrings werden mit dem zugehörigen Phonem in einer Tabelle abgelegt; Graphemstringmuster: (Länge des linken Graphemkontexts) (Zielgraphem) (Länge des rechten Graphemkontexts); 0 1 0, 0 1 1, 1 1 1, 1 1 2, Zusätzlich werden 2 Default-Tabellen angelegt, die eine mit Mustern, die andere mit Mustern, jeweils zusammen mit dem am häufigsten kookurrierenden Phonemen. Bei der Anwendung wird für jedes zu mappende Graphem in der Tabelle in der oben dargestellten Reihenfolge nach einem passenden Graphemstringmuster gesucht. Findet sich ein passendes, so ist ein eindeutiges Mapping auf das dem Muster zugehörige Phonem möglich. Matcht kein Muster, so wird auf die Default-Tabellen zurückgegriffen. rein datenbasierter Ansatz sprachunabhängig 19

21 Evaluierung anhand eines Testcorpus Word error rate: Anteil der Wörter, in denen (mindestens) ein Tranksriptionsfehler auftritt Phone error rate: ermittelt über die Levenshtein-Distanz zwischen gewünschter und tatsächlicher Transkription 20

22 Levenshtein-Distanz minimale Anzahl der Editieroperationen (Einfügung, Löschung, Substitution), um einen String in einen anderen zu transformieren Berechnung nach Wagner und Fischer (1974): 3 Berechnung der Levenshtein-Distanz für Strings V und W (V hat die Länge m, W die Länge n). V wird hierzu nach W umeditiert. c( ) ist eine Kostenfunktion: Einfügung von W j : c(ɛ, W j ) := 1 Löschung von V i : c(v i, ɛ) := 1 Substitution von V i durch W j : c(v i, W j ) := 0, wenn V i gleich W j, sonst 1 In der Tabelle C mit den Dimensionen mxn wird die Distanz zwischen den Strings mittels dynamischer Programmierung berechnet. 3 Weitestgehend von Schulz (2001) übernommen. 21

23 Initialisierung der Tabelle: C[0,0] := 0 for i:=1 to m: C[i,0] := C[i-1,0]+c(V i, ɛ) for j:=1 to n: C[0,j] := C[0,j-1]+c(ɛ, W j ) Induktive Berechnung der restlichen Tabellenwerte for i:=1 to m for j:=1 to n C[i,j]=min {C[i-1,j-1]+c(V i, W j ), C[i,j-1]+c(ɛ, W j ), C[i-1,j]+c(V i, ɛ)} 3 Möglichkeiten, wie W 1,j aus V 1,i hervorgeht: 4 1. editiere V 1,i 1 nach W 1,j 1 um und substituiere V i durch W j : C[i-1,j-1]+c(V i, W j ) 2. editiere V 1,i nach W 1,j 1 um und füge W j ein: C[i,j-1]+c(ɛ, W j ) 3. editiere V 1,i 1 nach W 1,j um und lösche V i : C[i-1,j]+c(V i, ɛ) Beispiel s. Tafel 4 S1,j bedeutet String-Präfix von S bis zur Stelle j. 22