Sprachsynthese: Graphem-Phonem-Konvertierung

Größe: px

Ab Seite anzeigen:

Download "Sprachsynthese: Graphem-Phonem-Konvertierung"

Kevin Walter
vor 5 Jahren
Abrufe

1 Sprachsynthese: Graphem-Phonem- Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München 21. Dezember 2016

2 Table Lookup with Defaults (van den Bosch et al., 1993) Maschinelles Lernen Entscheidungsbäume Silbifizierung in Graphemfolge in Phonemfolge Wortbetonung

3 Notation: Grapheme: in spitzen Klammern; Phoneme in Schrägstriche nach SAM-PA; Graphem/Phonem/Wortvariablen: kursive Kleinbuchstaben; Graphemklassen (Vokal): kursive Großbuchstaben (V); # σ ] = vor Silbengrenze Ist die Abbildung <Graphem> /Phonem/ eindeutig? Nein. Beispiel <s>: <s> /s/ (was) <s> /z/ (Vase) <s> /S/ (stehen) <s> / / (Wasser) weiteres Beispiel: <u> in <Bund> und <Qualle>

4 Graphemkontext <s> /z/ V V ; aber: losen vs. Loserwerb <s> /S/ <t>; aber: Stabilität vs. Rost... reicht nicht aus Silbenstruktur Auslautverhärtung, keine Beeinflussung durch Graphemumgebung über Silbengrenzen hinweg <g> /g k/: Wege, Weg <s> /z s S/: Vase, Häuschen

5 Morphologie morphologischer Einfluß direkt und über die Silbenstruktur manifestiert direkt: Phonem-Identität abhängig von Morphemklasse Beispiele: <er> in Erlöser (/?E6l2:z6/); morph. er prefix + lös verb + er suffix. <er> /?E6/ im Präfix <er> /6/ im Suffix <e> in geben (/ge:b@n/); morph. geb verb + en infl. <e> /e:/ im einsilbigen Verbstamm <e> /@/ in Flektionsendung

6 indirekt: morphologische Struktur bestimmt Silbenstruktur und damit Phonem-Identität Beispiele: <ng> in Angel vs. Angelegenheit morph. angel noun vs. an prefix +ge prefix +leg verb +en suffix +heit suffix. <ng> /N/ keine Silbengrenze <ng> /n.g/ (hier: morphologisch bedingte) Silbengrenze <se> in losen vs. Losentscheid (/lo:s?entsait/): morph. los verb +en infl vs. los noun +ent prefix +scheid verb. <se> keine Silbengrenze <se> /s.?e/ (hier: morphologisch bedingte) Silbengrenze

7 : Grundlagen Zur Gewinnung des -Trainingsmaterials Zuordnung zusammengehöriger Abschnitte in Graphem- und Phonemsequenzen O b e r s c h u l z e u g n i s?+o: b 6 S u: l t+s OY k n I s sproblem formuliert als Minimierung der Distanz zwischen Graphem- und Phonemsequenz

8 : Levenshtein-Distanz Levenshtein-Distanz Minimal nötige Editierkosten um Sequenz v (Grapheme) in Sequenz w (Phoneme) umzuwandeln Standard-Editieroperationen: Substitution von v i durch w j : <u> /u:/ Löschung von v i : <r> Einfügung von w j : /?/

9 : Kostenfunktion Naiv Substitution c(v i, w j ) = Löschung, Einfügung { 0 : vi == w j 1 : else. (1) c(v i, ) = 1 (2) c(, w j ) = 1 (3) brauchbar für Wortvergleiche (z.b. automatische Rechtschreibkorrektur) unbrauchbar für Graphem-Phonem-Alignment: <x> /x/

10 : Table Lookup with Defaults Table Lookup with Defaults (van den Bosch et al., 1993) Training: Speicherung des jeweils kürzesten Graphemkontexts für ein eindeutiges Graphem-Phonem-Mapping in Tabelle G k a m m u ß /a/ /u:/ Sortierung nach Länge der Graphemsequenz 2 Default-Tabellen: Graphem-Fenster + am häufigsten damit ko-okkurierendes Phonem <v i 1 ><v i ><v i+1 > /w j / <v i > /w j /

11 : Table Lookup with Defaults : Suche nach passendem Graphem-Muster (von lang nach kurz) in Tabelle G Falls nicht vorhanden, Rückgriff auf Default-Tabellen Beispiel: zu konvertieren: <u> in Fuß in Tabelle G gefundenes Muster: uß Ausgabe: /u:/ Vorzüge rein datenbasierter Ansatz kein Expertenwissen nötig, sprachunabhängig

12 Maschinelles Lernen Ziel: Erlernen des Zusammenhangs zwischen Zielwerten (Kategorien oder kontinuierliche Werte) für Objekte und deren Eigenschaften. bezogen auf Graphem-Phonem- Objekte: Grapheme Eigenschaften: Graphem-Identität, umgebende Grapheme, Position des Graphems innnerhalb der Silbe,... Zielwerte: Phoneme

13 Maschinelles Lernen Objekte als kategorisierte Merkmalsvektoren (Featurevektoren) repräsentiert. Beispiel: unabhängige Variablen (Attribute) für Graphem v i : [<v i 1 >,<v i >,<v i+1 >, Morphemtyp, # σ ] Attributwerte: [a z, a z, a z, frei gebunden, 0 1] Merkmalsvektor für erstes <e> in geben: [g, e, b, frei, 1] Kategorie (abhängige Variable): /e:/

14 Maschinelles Lernen Variablenwerte: kategorial oder kontinuierlich kategorial: Graphem-Identität, Position in Silbe, Phonemklasse, Wortbetonung kontinuierlich: relative Position des Graphems im Wort, Lautdauer, F0-Wert

15 Maschinelles Lernen Überwachtes Lernen: Werte der abhängigen Variable in Trainingsdaten bekannt; C4.5, CART, neuronale Netze (ANN) Unüberwachtes Lernen: Werte nicht bekannt; Clustering, ANN Variablentypen: C4.5: kategorial/kontinuierlich kategorial; z.b. Akzent CART: kategorial/kontinuierlich kategorial/kontinuierlich; z.b. Lautdauer ANN: kontinuierlich kategorial/kontinuierlich

16 Entscheidungsbäume Quinlan (1993); quinlan Modellierung: Objekt: Pfad durch den Baum Eigenschaften: nonterminale Knoten (Attribute) + Kanten (Werte) Zielwerte: terminale Knoten Vorteil: Transparenz Wissensakquirierung möglich

17 Entscheidungsbäume Beispielausschnitt: s v i f # σ /s/ v i+1 c e h v i+2 a /z/ /S/ /s/

18 Entscheidungsbäume Rekursiver Aufbau des Baums Fall 1: Gehören alle Objekte, die noch nicht durch einen vollständigen Pfad im Baum repräsentiert sind, der gleichen Klasse an, so erzeuge ein Blatt und ordne die Objekte diesem Blatt zu. Fall 2: Verfahre genauso, wenn die Objekte verschiedenen Klassen angehören, sich aber anhand der gegebenen Attribute nicht mehr weiter unterscheiden lassen. Fall 3: Gehören die Objekte verschiedenen Klassen an und unterscheiden sie sich in einer oder mehreren Eigenschaften, so wähle das zur Partitionierung der Objektmenge am besten geeignete Attribut und erzeuge einen Knoten, an dem sich der Baum in mehrere durch Werte des betrachteten Attributs vorgegebene Kanten aufspaltet.

19 Entscheidungsbäume -Anwendung von Entscheidungsbäumen Features: Graphemkontext (n grapheme vorher/nachher) morphologische Features: Morphemklasse, +/ folgende Morphemgrenze Silben-Features: Aufbau der Silbe Onset/kein Onset (bedeckt/nackt), Coda/kein Coda (geschlossen/offen), Position in Silbe (Onset, Nukleus, Coda, Gelenk alle) Phonem-Vorgeschichte (n phoneme vorher) Vorhersage: Phonem, incl. leeres Phonem (/ /), Phonem-Cluster (/?+a:/)

20 Morphologische Zerlegung Voraussetzung: Morphem-Lexikon mit Morphemklassifizierung 1 Teile jedes Wort w rekursiv von links nach rechts in String-Präfixe und -Suffixe bis eine erlaubte Segmentierung möglich ist oder das Wortende erreicht wird. 2 Eine Grenze, die den aktuellen String in Präfix und Suffix unterteilt dann akzeptiert wenn (i) das Präfix im Lexikon zu finden ist, und (ii) eine erlaubte Segmentierung des Suffixes möglich ist, und (iii) die Kombination Präfix-Klasse + Klasse des ersten Suffix-Teils nicht der Morphotaktik widerspricht, und (iv) die Klasse des letzten Suffix-Teils kompatibel ist mit dem POS von w.

21 Morphologische Zerlegung Beispiel: Fassade nkletterer (i) String-Präfix Fassade ist im Lexikon (ii) Rekursion: erlaubte Segmentierung des String-Suffixes nkletterer möglich (n-kletter-er) (iii) Morphemklassen Fassade/NN n/fugenmorphem kompatibel (iv) Morphemklasse des letzten String-Suffixes er/nn-suffix kompatibel mit POS NN des Worts Segmentierung Fassade nkletterer möglich

22 Silbifizierung In Graphemfolge 3 vorherzusagende Klassen: Silbengrenze folgt, folgt nicht, Ambisyllabizität Feature-Auswahl: für jedes Graphem <v i > innerhalb eines auf <v i > zentrierten symmetrischen Graphem-Fensters Graphem, Konsonant/ Vokal ggf. Morphemgrenze (+/ relevant für Silbengrenze)

23 Silbifizierung für Silbifizierung relevante morphologische Grenzen: vor allen Morphemen außer Flexionsendungen, Suffixen, Komparationsmorphemen und Fugen vor Flexionsendungen, Suffixen mit initialem Konsonanten und eigenem Silbenkern (schaffte) vor Flexionsendungen, Suffixen mit initialem Vokal, wenn das vorangehende Morphem auf Vokal endet (bauen)

24 Evaluierung anhand eines Testcorpus mit manueller Transkription (gold standard) Word error rate: Anteil der Wörter, in denen (mindestens) eine Abweichung vom gold standard auftritt Phone error rate: ermittelt über die Levenshtein-Distanz zwischen gewünschter (gold standard) und berechneter Transkription sehr stark abhängig von Sprache / Testkorpus!

Ähnliche Dokumente

Phonetische Lexika Graphem-Phonem-Konvertierung. Uwe Reichel IPS, LMU München 23. Oktober 2007

Phonetische Lexika Graphem-Phonem-Konvertierung Uwe Reichel IPS, LMU München reichelu@phonetik.uni-muenchen.de 23. Oktober 2007 Inhalt Abbildungsproblem Einflußfaktoren: Graphemumgebung, Silbenstruktur,