VAD - Voice Activity Detection -



Ähnliche Dokumente
Bildverarbeitung Herbstsemester Fourier-Transformation

MATLAB Kurs 2010 Teil 2 Eine Einführung in die Frequenzanalyse via MATLAB

Grundlagen der Videotechnik. Redundanz

Konzepte der Informatik

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Klausur zur Vorlesung Signale und Systeme

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Fourier-Zerlegung, Fourier-Synthese

Technik der Fourier-Transformation

Elektrische Messtechnik Protokoll - Bestimmung des Frequenzgangs durch eine Messung im Zeitbereich

Die aktuelle Entwicklung des GeoService-Portals. Analyse- und Auswertefunktionen

Seminar Digitale Signalverarbeitung

Lineare Gleichungssysteme

Qualität und Verlässlichkeit Das verstehen die Deutschen unter Geschäftsmoral!

QM: Prüfen -1- KN


Agentur für Technologie und Netzwerke. Gründung innovativ

Print2CAD 2017, 8th Generation. Netzwerkversionen

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

GS-Buchhalter/GS-Office 2015 Saldovorträge in folgenden Wirtschaftsjahren erfassen

Fragebogen zur Diplomarbeit von Thomas Friedrich

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1. Wie viel Zinsen bekommt man, wenn man 7000,00 1 Jahr lang mit 6 % anlegt?

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)

Presse-Information

Netzwerkversion PVG.view

Simulation LIF5000. Abbildung 1

teamsync Kurzanleitung

Teambildung. 1 Einleitung. 2 Messen der Produktivität

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial

Ein Vorwort, das Sie lesen müssen!

Gezielt über Folien hinweg springen

Signalübertragung und -verarbeitung

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Erfahrungen mit Hartz IV- Empfängern

C++ Tutorial: Timer 1

Vermessung und Verständnis von FFT Bildern

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Information zum Projekt. Mitwirkung von Menschen mit Demenz in ihrem Stadtteil oder Quartier

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Zusatz-Tarifvertrag. für die in der. DB Zeitarbeit GmbH. beschäftigten Arbeitnehmer. (DB Zeitarbeit-ZusatzTV)

70 Prozent gegen Bahnprivatisierung

Begrüßung mit Schwung und Begeisterung. Die Teilnehmer müssen spüren, dass die Aufgabe Spaß macht.

Das PC-Topp.NET Abfall-Terminal

Übungsaufgaben Tilgungsrechnung

multisign Signatur-Prüfwerkzeug Handbuch Security Networks AG Stand:

c f 10. Grundlagen der Funktechnik 10.1 Elektromagnetische Wellen

Internet Explorer Version 6

Simulink: Einführende Beispiele

Installationsanleitung. Ab Version

Machen wir s kurz: Stop & Go Professional bringt Ihnen weniger Verluste bei gleicher Renditechance

Energieaudit. Energieaudit.

Projektgruppe Algorithmen für die Cloud-unterstützte 3-D-Darstellung auf mobilen Endgeräten

Weil Ihre Sicherheit für uns an erster Stelle steht.

Energieeffiziente Empfänger in Sensornetzwerken

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Primzahlen und RSA-Verschlüsselung

Wärmebildkamera. Arbeitszeit: 15 Minuten

Part-Of-Speech-Tagging mit Viterbi Algorithmus

ECO-Manager - Funktionsbeschreibung

3. Solarteurforum der Sparkasse Heidelberg Neuerungen / Hinweise 2013 für Einspeiseanlagen 4. Juli 2013

SmartDispatch DMR-Dispatcher. Bestellablauf. SmartDispatch-Bestellablauf V1.0

Lineare Gleichungssysteme I (Matrixgleichungen)

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

Hardware - Software - Net zwerke

Manuel Schmalz. Abteilungsleiter Vertragsmanagement. Düsseldorf,

NODELOCKED LIZENZ generieren (ab ST4)

Lineare Optimierung Ergänzungskurs

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Rententafelgarantie. Langlebigkeit: Fluch oder Segen?

Internet online Update (Mozilla Firefox)

Schwingungsanalyse an elektrischen Maschinen

Quadratische Gleichungen

Skalierung des Ausgangssignals

So funktioniert das online-bestellsystem GIMA-direkt

Repräsentative Umfrage zur Beratungsqualität im deutschen Einzelhandel (Auszug)

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

CKL Bewertung PLUS. für Microsoft Dynamics NAV. AugenbliCKLlich Durchblick: Die Bewertung zum Bilanzstichtag. Software, die sich rechnet.

Lernaufgabe Industriekauffrau/Industriekaufmann Angebot und Auftrag: Arbeitsblatt I Auftragsbeschreibung

Ich möchte meine Beitragsnachweise nach dem vereinfachten Schätzverfahren erstellen.

E-Finance Java de PF

TISIS - Industrie 4.0. Ereignis, Ort, Datum

Der HIV-Antikörper-Schnelltest aus Sicht des Labormediziners. Dr. Thomas Berg, Berlin

Elektrische Messtechnik, Labor

Willkommen zu unserer Präsentation. Meilensteine. Frescher Eugen Mayankin Yuriy

GEMA Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte Berlin

Informatik-Sommercamp Mastermind mit dem Android SDK

Anleitung über den Umgang mit Schildern

Energienetz Elbmarsch - Förderverein für eine Energiewende in der Elbmarsch

KI im Weltall: Der Remote Agent

Xesar. Die vielfältige Sicherheitslösung

Media Teil III. Begriffe, Definitionen, Übungen

Fernleihe: Buchbestellung

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Transkript:

VAD - - erstellt: Robert Schaar s63012 erstellt: Robert Schaar s63012 Mensch-Maschine-Robotik

1. Einleitung 2. Aufbau des Algorithmus 2.1. allgemeiner Aufbau 2.2. Fourier-Transformation 2.3. Short-Time Energy 2.4. Most Dominant Frequency Component 2.5. Spectral Flatness Measure 3. Implementierung im Workshop 4. Quellen

1. Einleitung Verfahren, zur Erkennung von Sprache in Audiodaten unabhängig von der menschlichen Stimme/Sprache weibliche/männliche Stimme Erkennung von Sprachpausen auch bei Audio-Signalen (Musikdaten) wichtige Anforderungen an VAD: Einfachheit/Robustheit Zuverlässigkeit/Genauheit Anpassung/Echtzeit-Verhalten

1. Einleitung VAD ist in ITU-Empfehlung G.722 beschrieben International Telecommunication Union unnötige Datenübertragung von inhaltsleeren Datenpaketen Rechenleistung einsparen Übertragungskapazität verringern Energiemanagement von Endgeräten(Smartphones) optimieren Roboter kann mit VAD Sprache von Personen erkennen z.b. Kunde im Baumarkt weitere Anwendungsfälle: IP-Telefonie (VoIP / Skype) Spracherkennungssoftware

2. Aufbau/Implementierung des Algorithmus Vorstellung Algorithmus EUSIPCO (European Signal Processing Conference 2009) einfach implementierbar Effizient in Laufzeit Echtzeit-Verarbeitung Entwicklung University of Technology, Teheran, Iran M. H. Moattar / M. M. Homayounpour 3 wichtige Features zur Erkennung von Sprache: Short-Time Energy Most Dominant Frequency Component Spectral Flatness Measure

2.1. allgemeiner Aufbau Größe jedes Frames = 10ms Framing der Sprachdaten aus WAVE-Sounddatei RIFF-Header/DATA Ermittlung der Anzahl der Frames z.b. bei 7,8 sec ca. 670 KByte

2.1. allgemeiner Aufbau ersten 30 Frames zur Initialisierung/Lernen Rauschen erlernen keine Sprache enthalten Erkennung von Sprache durch 3 Features für jedes Frame Vergleich mit den Referenzwerte(Tresholds) Markierung der Frames als Sprache/Rauschen

2.2. Fourier-Transformation Mathematiker: Jean Baptiste Joseph Fourier geb. 1768 Methode der Fourier-Analysis Jahr 1822 Fourier-Reihen vier verschiedene Arten von Fourier-Transformation DFT ( Distrekte Fourier-Transformation) Eingangsdaten: Signale aus Zeit-Domäne Zerlegung in Teilwellen» unter anderem Sinus oder Kosinus oder Kombination Umwandlung in eine Frequenz-Domäne sehr nützlich in der Signalverarbeitung» Bestimmung vorkommender Frequenzen in abgetasteten Signal» Bestimmung der einzelnen Amplituden zu diesen Frequenzen

2.2. Fourier-Transformation inverser DFT Rekonstruktion des Signales FFT ( Fast Fourier-Transformation) James Cooley / John W. Tukey Jahr 1965 basiert auf DFT schnellere Berechnung / weniger Rechenaufwand Berechnung von Zwischenergebnisse inverser FFT Rekonstruktion des Signales Gleicher Berechnung wie DFT

2.3. Short-Time Energy ermittelt den Energieerhalt des aktuellen Frames Quadrierung der Wave-Daten und Aufsummierung E( i) = N x= 0 Wi( x ) 2 Effizienz dieser Funktion Erkennung bei alleiniger Benutzung zu gering

2.4. Most Dominant Frequency Component aufbauend auf der Fourier- Transformation Finden des dominantesten Frequenzanteils F( i) = arg max k S( k) Funktion zur Erkennung ob Sprachaktivität in Frame herrscht bzgl. mit Frame-Energy noch zu ungenau

2.5. Spectral Flatness Measure aufbauend auf Fourier-Transformation Maß, wie sehr Energie des Signals über verschiedenen Frequenzen verteilt ist SFM ( i) N N 1 n= 0 = N 1 n= 0 xi( n) N xi( n) wird unter anderem in db gegemessen erstellt: Robert Schaar s63012

Tresholds werden bei ersten 30 Frames ermittelt Optimierung weiterhin während Laufzeit Vergleich von den drei ermittelten Features jedes Frames mit ermittelten Tresholds Markierung des Frames als: Sprache wenn mind. 2 Features Schwellenwert überschreitet Rauschen wenn 2 Features Schwellenwert unterschreitet

3. Implementierung im Workshop Implementierung in Skriptsprache PHP für VAD-Prototyp Klasse Wave, FFT, SimpleVAD gewohnte Entwicklungsumgebung Fast lauffähige Anwendung Derzeitiges Problem: Spectral Flatness Measure nicht 100% geeignet für VAD-Algorithmus Performance-Leistung bei Fourier-Transformation Berechnung t > 5min Sprachbasierte Rundungsfehler bei geometrischen Mittel Spätere Konvertierung in MATLAB Vorgefertigte Funktion von MATLAB: Fourier-Transformation Einlesen der WAVE-Datei schnellere Ermittlung des E und SFM erstellt: Robert Schaar s63012 Mensch-Maschine-Robotik

4. Quellen http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.176.6740 http://en.wikipedia.org/wiki/spectral_flatness http://www.dspdimension.com/admin/dft-a-pied/ http://en.wikipedia.org/wiki/voice_activity_detection http://www-sipl.technion.ac.il/new/teaching/projects/winter2006/effcient %20Voice%20Activity%20Detection%20Algorithms%20Using%20Long- Term%20Speech%20Information.pdf

Vielen Dank für Eure Aufmerksamkeit