Einführung in die Signalverarbeitung



Ähnliche Dokumente
Einführung in die Signalverarbeitung Übung I

Einführung in die Signalverarbeitung

Einführung in die Signalverarbeitung Übung II

Einführung in die Signalverarbeitung

Einführung in die Signalverarbeitung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Einführung in die Signalverarbeitung

Grundlagen der Videotechnik. Redundanz

P4.1 Einführung in die Signalverarbeitung

Das Quelle-Filter-Modell der Vokalproduktion

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Vorkurs Mathematik Übungen zu Polynomgleichungen

Professionelle Seminare im Bereich MS-Office

Was meinen die Leute eigentlich mit: Grexit?

Projektdokumentation

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Gleichungssysteme

Zeichen bei Zahlen entschlüsseln

Theoretische Informatik SS 04 Übung 1

Umgekehrte Kurvendiskussion

Lineare Gleichungssysteme

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Das Leitbild vom Verein WIR

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

DFT / FFT der Titel der Präsentation wiederholt (Ansicht >Folienmaster) Dipl.-Ing. Armin Rohnen, Fakultät 03, rohnen@hm.edu

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Bildverarbeitung Herbstsemester Fourier-Transformation

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Informationsblatt Induktionsbeweis

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Lichtbrechung an Linsen

Technik der Fourier-Transformation

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Signalübertragung und -verarbeitung

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

3. LINEARE GLEICHUNGSSYSTEME

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Lösungsvorschlag für die Probeklausuren und Klausuren zu Algebra für Informations- und Kommunikationstechniker bei Prof. Dr.

Rechnung wählen Lernstandserfassung

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Die Post hat eine Umfrage gemacht

Erstellen einer digitalen Signatur für Adobe-Formulare

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Aufgaben Wechselstromwiderstände

Primzahlen und RSA-Verschlüsselung

iphone-kontakte zu Exchange übertragen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Der Zwei-Quadrate-Satz von Fermat

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Aufgabe 12 Nach dem Eintippen der Kantenlänge soll die folgende Tabelle den Rauminhalt und die Oberfläche eines Würfels automatisch berechnen.

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Simulink: Einführende Beispiele

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Codierungsverfahren SS Reed-Solomon-Codes zur Mehrblock-Bündelfehler-Korrektur

Funktionen (linear, quadratisch)

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

P = U eff I eff. I eff = = 1 kw 120 V = 1000 W

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Binäre abhängige Variablen

MATLAB Kurs 2010 Teil 2 Eine Einführung in die Frequenzanalyse via MATLAB

Klassenarbeit zu linearen Gleichungssystemen

Physik & Musik. Stimmgabeln. 1 Auftrag

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Senkung des technischen Zinssatzes und des Umwandlungssatzes

Die Invaliden-Versicherung ändert sich

Erstellen von x-y-diagrammen in OpenOffice.calc

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Kapitalerhöhung - Verbuchung

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

3.1. Die komplexen Zahlen

1. Weniger Steuern zahlen

11. Das RSA Verfahren und andere Verfahren

Windows 10 > Fragen über Fragen

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Repetitionsaufgaben Wurzelgleichungen

Der Kalender im ipad

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse



Erfahrungen mit Hartz IV- Empfängern

Was ist Sozial-Raum-Orientierung?

Anleitung zum erfassen von Last Minute Angeboten und Stellenangebote

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Gleichungen und Ungleichungen

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

2. Negative Dualzahlen darstellen

Was ist clevere Altersvorsorge?

Transkript:

Einführung in die Signalverarbeitung Phonetik und Sprachverarbeitung, 2. Fachsemester, Block Sprachtechnologie I Florian Schiel Institut für Phonetik und Sprachverarbeitung, LMU München Signalverarbeitung - Teil 7

Allgemeines Unterrichtssprache ist Deutsch (englische Fachbegriffe in Klammern) Fragen am besten sofort; besser einmal zuviel gefragt Literatur: Jurafsky D, Martin J H (2000): Speech and Language Processing. Prentice Hall, Kap I.7. Schrüfer E (1980): Signalverarbeitung Pfister B, Kaufmann T (2008): Sprachverarbeitung - Grundlagen und Methoden der Sprachsynthese und Spracherkennung. Springer-Verlag Berlin Heidelberg. Rabiner, Lawrence R., Schafer R W (1978): Digital Processing of Speech Signals. Prentice-Hall, New Jersey, USA. Hess W (1993): Digitale Filter. Teubner Studienbücher, B.G.Teubner, Stuttgart. Harrington J, Cassidi St (1999): Techniques in Speech Acoustics. Kluwer Academic Publishers, Dordrecht/Boston/London.

Anwendung der Methoden auf die Verarbeitung von Sprache.

(LP, linear prediction) Quelle-Filter-Modell (Fant 1960) Sprachsignal entsteht durch Signal der Quelle (z.b. Glottis) gefiltert von einem linearen Filter (z.b. Ansatzrohr).

(LP, linear prediction) Ziel der linearen Prädiktion (linear prediction): Trennung von Quellsignal q(t) und Filterfunktion F(f ) Für allgemeine Quellensignale nicht möglich! Annahme: Quellensignal ist ein Impulssignal Trennung ist möglich durch lineare Prädiktion Idee der linearen Prädiktion: Für ein Signalstück (Fenster) suche das Filter P(f ), welches das Signal in ein minimales Signal (Impulse) wandelt. Das inverse Filter von diesem Filter ist das gesuchte Vokaltraktfilter. F(f ) = P 1 (f )

(LP, linear prediction) 1. Signal fenstern; für jedes Fenster tue: 2. Prädiktorformel versucht, den nächsten Abtastwert aus den K vorangegangenen Abtastwerten vorherzusagen: s (t n ) = a 1 s(t n 1 ) a 2 s(t n 2 ) a K s(t n K ) s (t n ) = K a k s(t n k ) k=1 3. Voraussage kann nicht optimal sein. Der Fehler ist: e(t n ) = s(t n ) s (t n ) = s(t n ) + K a k s(t n k ) = k=1 K a k s(t n k ) k=0 4. Wiederholung für alle Abtastwerte im Fenster der Länge N (N K ) Gleichungen e(t n ) mit K Unbekannten a 0, a 1, a 2,..., a K university-logo

(LP, linear prediction) 5. Überspezifiziertes Gleichungssystem (N K ) keine analytische Lösung, aber Optimierungsverfahren (root mean square minimization) liefern die LP Koeffizienten (LP coefficients, LPC), welche ein minimales Fehlersignal e(t n ) im ganzen Fenster ergeben K LP-Koeffizienten a k für jedes Fenster in Signal sog. inverses Filter pro Fenster: e(t n ) = K a k s(t n k ) k=0 (FIR-Filter) 6. Die Z-Transformierte dieses inversen Filters ist ein einfaches Polynom nach z: P(z) = k a k z k E(z) = P(z)S(z) university-logo

(LP, linear prediction) 7. Invertierung dieses Filters = geschätzte Filterfunktion des Ansatzrohres zum Zeitpunkt des Fensters im Signal. Invertieren im Frequenzbereich: Kehrwert bilden F(z) = P 1 1 (z) = k a kz k 8. Das Fehlersignal e(t n ), also die Filterung von s(t n ) im Fenster mit P(z) ist das gesuchte Anregungssignal q(t) LPC-Analyse Die LPC-Analyse liefert für ein Sprachsignal pro Fensterung eine Schätzung für das Fant sche Filter F(f ) und eine Schätzung für das Quellensignal q(t) in diesem Fenster.

(LP, linear prediction) Beispiel: LPC mit K = 16 in einem /u:/ Signal s(t) Pole in der z- Ebene Anregung q(t) Filter F (f )

(LP, linear prediction) Diskussion des LP-Modells: Nach LP hat das Vokaltraktfilter nur Polstellen, keine Nullstellen; die Pole müssen in der z-ebene innerhalb des Einheitskreises liegen, sonst Filter instabil diese Modellannahme ist eher unwahrscheinlich; z.b. entstehen durch die Ankoppelung des Nasenraums Antiformanten, welche nur durch Nullstellen in der Filterfunktion modelliert werden können. Nach LP ist das Anregungssignal minimal in der Realität besteht das Glottissignal nicht nur aus idealen Impulsen (durch ein Pre-emphase-Filter kann dies jedoch kompensiert werden; s. Pfister & Kaufmann, 2008, S. 87) LP-Modell funktioniert nicht bei impulsartigen oder stochastischen Anregungssignalen. university-logo

(LP, linear prediction) Warum macht man (trotzdem) LPC-Analyse? Grundfrequenzbestimmung: leichter aus dem Anregungssignal (weil Impulssignal) Bestimmung der Formanten: leichter aus der Filterfunktion, weil Obertöne nicht mehr vorhanden Kompression: leichter das Anregungssignal und das Filter zu einem Handy zu übertragen als das Sprachsignal Manipulation: durch Veränderung der Anregung und anschließender Re-synthese lässt sich z.b. die Intonation ändern (z.b. für Sprachsynthese) Spracherkennung: leichter Sprache aus der Filterfunktion zu erkennen als aus dem Spektrum, weil Obertöne nicht mehr stören

(LP, linear prediction) Demo: Praat - Signal-Manipulation Signal laden To Manipulation : LPC, Grundfrequenz wird bestimmt Edit Manipulation : Abstände der Impulse im Anregungssignal werden manipuliert Play (LPC) : LPC-Resynthese mit manipuliertem Anregungssignal Manipulation : Extract Pulses : erzeugt Pulsfolge aus Anregung (Point process) Point Process : To Sound (hum) : Resynthese mit neutralem Vokaltrakt

Das eines Signals beschreibt die Energie von periodische Formen ( Welligkeiten ) im Amplitudenspektrum. = Spectrum mit invertiertem spec Spektrum : N Spektralwerte (DFT) : N cepstrale Werte C(q 0 ), C(q 1 ), C(q 2 ),... C(q N 1 ) wobei die q n, n = 0... N 1 hier keine diskreten Frequenzen bezeichnen sondern quefrencies (gemessen in 1 Hz )

Jede quefrency steht für eine bestimmte trigonometrische Form im Spektrum: Die quefrency q 0 bezeichnet einen unendlich langen Cosinus, also den Gleichanteil im Spektrum (= Gesamtenergie). q 1 steht für eine Welligkeit, die einer halben Cosinus-Schwingung über das ganze Spektrum entspricht (= abfallendes Spektrum). q 2 steht für eine Welligkeit, die einer ganzen Cosinus-Schwingung über das ganze Spektrum entspricht, also ein Spektrum in Form einer Senke u.s.w. = spektrale Grobstruktur (Filter) bei niedrigen quefrencies + spektrale Feinstruktur (Quelle) bei hohen quefrencies university-logo

entspricht qualitativ einer Discrete Cosine Transform (DCT) des logarithmierten Amplitudenspektrums. Häufige Interpretationen der niedrigen Cepstralkoeffizienten: q 0 : Gesamtenergie des Signals : immer 0 q 1 : Neigung des Spektrums : > 0 fallend, < 0 steigend q 2 : Krümmung des Spektrums : > 0 Senke/Tal, < 0 Berg q 3 : Assymmetrie des Spektrums : > 0 mehr Energie bei hohen Frequenzen, < 0 mehr Energie bei tiefen Frequenzen

Berechnung des s 1. Berechne das Amplitudenspektrum S(f n ) = F{s(t n )} 2. Logarithmiere das Spektrum (jeder einzelne Spektralwert wird logarithmiert) log[ S(f n ) ] 3. Inverse Fouriertransformation C(n) = F 1 {log[ S(f n ) ]}

Beispiel Zeitsignal /u/ Amplitudenspektrum /u/ s(t) 0.4 0.2 0.0 0.2 0.4 0.6 S(f) 0 50 100 150 200 250 300 0.00 0.02 0.04 0.06 0.08 0.10 Zeit 0 1000 2000 3000 4000 Frequenz

q = 0... 0.02 1 Hz q = 0... 0.001 1 Hz /u/ /u/ C(q) 0 500 1000 1500 2000 2500 3000 3500 C(q) 0 500 1000 1500 2000 2500 3000 3500 0.000 0.005 0.010 0.015 0.020 Quefrency 0e+00 2e 04 4e 04 6e 04 8e 04 1e 03 Quefrency Das Maximum bei q f = 0.008 1 Hz stammt von der Grundfrequenz (f 0 = 1 q f Der Wert bei q = 0 1 ist die logarithmierte Gesamtenergie. Hz Der hohe Wert bei q 1 entsteht durch das stark abfallende Spektrum. 120Hz). university-logo

Motivation für das Quelle-Filter-Modell (Fant 1960) Sprachsignal entsteht durch Signal der Quelle (z.b. Glottis) gefiltert von einem linearen Filter (z.b. Ansatzrohr). Sprachspektrum ist Produkt aus Quelle und Filter S(f ) = Q(f ) F(f ) Logarithmus: Multiplikation wird zu Addition log[s(f )] = log[q(f )] + log[f(f )]

Inverse Fouriertransformation: Addition bleibt erhalten (weil lineares System): F 1 {log[s(f )]} = F 1 {log[q(f )]} + F 1 {log[f(f )]} im sind Quelle und Filter additiv verbunden und nicht mehr gefaltet. ungewünschte Teile können einfach subtrahiert werden liftering (abgeleitet on filtering) D.h. man kann z.b. im die Werte bei hohen quefrencies (= Quelle) einfach löschen, das zurück in ein Spektrum transformieren und erhält die Übertragungsfunktion des Ansatzrohres (= Filter).

Wofür verwendet man das? Bestimmung der Grundfrequenz (= Position des Maximums) Cepstrale Glättung (cepstral smoothing): Im werden die Werte bei hohen quefrencies entfernt (= liftering) und wieder zurücktransformiert Spektrum ohne Obertöne Automatische Spracherkennung: Cepstral-Werte bei niedrigen quefrencies eignen sich sehr gut als Muster (weil sie die Grobstruktur des Spektrums beschreiben); noch besser: Mel Frequency Cepstral Coefficients (MFCC): berechnet aus einer Mel-Filterbank.

Beispiel: Sprachsignal /u:/ Normales Spektrum und cepstral geglättetes Spektrum (liftering der ersten 16 cepstralen Koeffizienten)

Fragen Was versucht die sog. Prädiktorformel der Linearen Prädiktion? Warum verwendet die LP ein Optimierungsverfahren, um die LP-Coeffizienten zu bestimmen? Sie haben ein Sprachsignal mit 1sec Länge und eine Fensterfunktion mit 50msec Länge (nicht-überlappend). Sie machen eine cepstrale Analyse und liftern auf die ersten 16 Cepstral-Koeffizienten. Welche/wieviele Daten erhalten Sie aus Ihrer Analyse? Was unterscheidet das vom Sprachsignal? Warum funktioniert cepstrale Glättung besser als eine einfache Glättung des Spektrums?