Low Level Descriptoren. Anne Scheidler

Ähnliche Dokumente
Music Information Retrieval - automatische Genre-Klassifikation

VAD - Voice Activity Detection -

Bildverarbeitung Herbstsemester Fourier-Transformation

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)

MATLAB Kurs 2010 Teil 2 Eine Einführung in die Frequenzanalyse via MATLAB

Zeitdiskrete, digitale Filter und schnelle Fourier-Transformation (FFT)

-Oktavanalyse Wavelet. FFT 1 / n. -Oktavanalyse Wavelet. Fast Fourier Transformation

Seminar Digitale Signalverarbeitung

Modulationsanalyse. Amplitudenmodulation

Ordnungsanalyse. Einleitung

Argumente für die diskrete Realisierung der Fourierintegrale

Longitudinale und transversale Relaxationszeit

Signale und ihre Spektren

V 322 Überlagerung und Modulation /AD-Wandler

Technik der Fourier-Transformation

Lokale Frequenzanalyse

Digitale Signalbearbeitung und statistische Datenanalyse

Fourier - Transformation

Skriptum zur 4. Laborübung. Spektren

Bachelorarbeit (Informatik)

DFT / FFT der Titel der Präsentation wiederholt (Ansicht >Folienmaster) Dipl.-Ing. Armin Rohnen, Fakultät 03, rohnen@hm.edu

(Fast) Fourier Transformation und ihre Anwendungen

Signale und Systeme. A1 A2 A3 Summe

Digitale Bildverarbeitung (DBV)

Simulink: Einführende Beispiele

Modulationsverfahren

DSO. Abtastrate und Wiedergabegenauigkeit

Netzwerke - Bitübertragungsschicht (1)

Reell. u(t) Komplex u(t), Zeitabhängig Zeitunabhängig. u(t)e jωt. Reell Û. Elektrische Größe. Spitzenwert. Komplex Û. Reell U. Effektivwert.

Einführung in die Signalverarbeitung

Signalverarbeitung - Filterung, PSD, Korrelationen

Mathematische Melodieanalyse - Ein Streifzug

Modulation. Kommunikationstechnik, SS 08, Prof. Dr. Stefan Brunthaler 104

Erstes Nyquistkriterium im Zeitbereich

Analogmultiplexer als Amplitudenmodulatoren

1 Digital Oszilloskop

Elektrische Mess- und Prüftechnik Laborpraktikum. Signale im Zeit- und Frequenzbereich (FFT) USB-Oszilloskop. Testat:

Allgemeine Beschreibung von Blockcodes

Kybernetik Laplace Transformation

SS Klausur zum Praktikum ETiT III Mess- und Sensortechnik min. Vorname, Name: Matrikelnummer: Studiengang:

Elektrische Messtechnik, Labor Sommersemester 2014

Kapitel 4 Leitungscodierung

1. SCHALLWELLEN. A06 Akustik A06

Signalanalyse. Signalanalyse leer

Proseminar Algorithmen, Schnittstellen und Werkzeuge zur Audiobearbeitung 'LJLWDOH)LOWHU. Kaptiel 1 Signale im Frequenzspektrum...

Wave-Datei-Analyse via FFT

NANO III - MSR. Signalabtastung Analog Digital Converter (ADC) Digital Analog Converter (DAC) Themen: DAC

Allgemeine Psychologie: Auditive Wahrnehmung. Sommersemester Thomas Schmidt

Aufgabe 3. Signal Processing and Speech Communication Lab. Graz University of Technology

Fourier-Zerlegung, Fourier-Synthese

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Methodenseminar. Messtechnik und Biosignalerfassung / Übungen. Assist. Prof. Dipl.-Ing. Dr. Manfred Bijak

AM/FM/ϕM-Messdemodulator FS-K7

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Messtechnik-Praktikum. Spektrumanalyse. Silvio Fuchs & Simon Stützer. c) Berechnen Sie mit FFT (z.b. ORIGIN) das entsprechende Frequenzspektrum.

Grundlagen der Computer-Tomographie

Lab3 - Fourieranalyse von Signalen

Blockweise und symbolweise Codierung

Entwicklung eines Verfahrens in MATLAB und C zur Schätzung des Spektrums der Hintergrundstörung bei Sprachsignalen

Wichtige Eigenschaft: zeitliche Abnahme der Schallintensität. Akustische Ereignisse sind zeitliche Phänomene mit Anfang und Ende

Diphone Studio. Teil 1 Additive Analyse und Synthese. Hans Tutschku tutschku@ircam.fr

4.2 Abtastung und Rekonstruktion zeitkontinuierlicher

Einfluß von Wind bei Maximalfolgenmessungen

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

Digitale Signalverarbeitung Juli 2004

Titel: Darstellung und Analyse abgetasteter Signale Titel-Kürzel: ABT

Strategien der Schwingungsanalyse

Musterlösung zur Aufgabe A4.1

Programm zur Extraktion musikalischer Informationen aus akustischen Signalen

2.12 Potenzreihen. 1. Definitionen. 2. Berechnung POTENZREIHEN 207. Der wichtigste Spezialfall von Funktionenreihen sind Potenzreihen.

Zusammenfassung Digitale Bildverarbeitung By Fabian Flohrmann

LSD-Stimmung. Das Infrarot-Spektrum des LSD-Moleküls und seine Transkription in den Hörbereich mit Stimmdatenblättern.

Dazu werden so genannte Modulationstechniken verschiedenster Art angewandt.

Kapitel 7. Bildverarbeitung im Frequenzraum

Produktbeschreibung. MCD Audio Analyzer. Softline. Modline. Funktionen und Merkmale des Produkts. Conline. Boardline. Avidline. Pixline.

Diphone Studio. Teil 3 Analyse resonanter Modelle und Chant-Synthese. Hans Tutschku tutschku@ircam.fr

Carl von Ossietzky Universität Oldenburg. Masterarbeit

Carl-Engler-Schule Karlsruhe Analoge Signale 1 (8)

Einführung in die Robotik

FFT (Fast Fourier Transform) Plugins in ImageJ

Maximalpegel- und Verzerrungsmessungen bei Lautsprechern

Aufgaben des MSG-Zirkels 10b Schuljahr 2007/2008

Einführung in die automatische Spracherkennung

Diplomarbeit. Dirk Jagdmann. Analyse und Resynthese des Gitarrenklangs

III Verarbeitung und Analyse akustischer Signale

Zeichnen von Graphen. graph drawing

Ü bung GIT- Teil Nachrichtentechnik,

Kontinuierliche Digitaltechnik als völlig neues Prinzip der Digitalisierung

Vorlesung. Komplexe Zahlen

Digitale Signalverarbeitung für Einsteiger

Messdatenerfassung und verarbeitung mit dem PC

Experiment 4.1: Übertragungsfunktion eines Bandpasses

Kursübersicht "Signale und Systeme"

Erfahrungen mit SDR und SDR-Programmierung. Alfred Wullschleger, HB9EPU. 2. Februar USKA Sektion Winterthur

4 Modernes Analyzer-Konzept

Komplexe Zahlen und Wechselstromwiderstände

Bildrekonstruktion & Multiresolution

Kirstin Hübner Armin Burgmeier Gruppe Dezember 2007

Transkript:

Low Level Descriptoren Anne Scheidler

Aufbau des Vortrags LLD Kategorien Signaldarstellung Zeitbasierte Signaldarstellung und Merkmalsextraktion Transformation zwischen Signaldarstellungen Frequenzbasierte Signaldarstellung und Merkmalsextraktion MfCC (Begriffsdefinition und Berechnung) Rhythmus Content Feature

Kategorien der Low Level Descriptoren (nach Tzanetakis) Timbral Texture Features (Klangfarbe) Sub Features, MFCC, Spectral Rolloff, Spectral Centroid, RMS Pitch Content Features (Tonhöhe) Pitch Histogramme Subfeatures u.a. Amplitudendifferenz Rhytmic Content Features (Rhytmus) Beat Histogramme u.a Merkmalsextraktion wie SUM

Signaldarstellung Grundlegende Darstellungsmöglichkeit von Signalen: Zeitbasiert (Amplitude über Zeit), d.h. die Informationen liegen als Zeitreihen vor. Frequenzbasiert (Energiemenge über Frequenz in db) als Frequenzanteil, um Aussagen über das Frequenzspektrum machen zu können. Aus unterschiedlichen Darstellung lassen sich unterschiedliche Merkmale extrahieren.

Merkmale werden nicht über das ganze Signal berechnet sondern über kleine Fensterausschnitte, die sich überlappen, so genannte Analysefenster. Wie viele Analysefenster und wie groß sollten diese gewählt sein? Mehrere Analysefenster bilden das Texturenfenster.

Sampling Abtastung: Die Registrierung von Messwerten zu diskreten, meist äquidistanten Zeitpunkten. Aus einem zeitkontinuierlichen Signal wird so ein zeitdiskretes Signal gewonnen. Abtastrate: Die Abtastrate bezeichnet die Rate, mit der Signalwerte aus einem kontinuierlichen Signal entnommen werden. Analoge Signale: Wenn eine wert- und zeitkontinuierliche Zuordnung von einer physikalischen Messgröße zu einer anderen (z.b. Temperatur) vorgenommen wird. Digitale Signale: Gegenteil von analogen Signalen. Digitale Signale liegen als wert- und zeitdiskrete Zahlenfolgen vor.

Shannon-Nyquist Abtasttheorem Wenn man ein analoges Signal in ein digitales Signal umwandeln möchte, kann man die dafür notwendige Abtastrate durch das Abtasttheorem von Nyquist und Shannon bestimmen. Dabei gilt: Die Abtastrate muss mindestens doppelt so hoch wie die höchste im Signal vorhandene Frequenz sein. Untere Grenzfrequenz = 0 Allgemein Der Kehrwert der Abtastrate entspricht dem zeitlichen Abstand zwischen zwei Abtastungen.

Zeitbasierte LLD - Zero Crossing Rate Charakterisiert die Häufigkeit des Vorzeichenwechsels im Signal, d.h. wie oft überquert das Signal die 0-Amplitude

Zeitbasierte LLD Silent Ratio Anteil der Stille einer Periode, d.h. die Anzahl der Messwerte einer Periode mit Amplitude = 0 ( quasi ) Gebräuchliche Schwellenwerte zur Berechnung: 1. Amplitudenwert unterhalb dessen Stille angenommen wird 2. Mindestanzahl von direkt aufeinander folgenden Messwerten, die Kriterium 1 erfüllen, um eine Stilleperiode zu bilden

Darstellungstransformation Um Aussagen über das Frequenzspektrum zu machen, muss von der zeitbasierten in die frequenzbasierte Darstellung gewechselt werden. Hierfür stehen mehrere Möglichkeiten zur Verfügung: Eindimensionale Fourier Transformationen ( DFT, FFT ) Wavelet Transformationen Cosinus Transformationen

Fourier Transformationen FT Jean-Baptiste-Joseph Fourier: Man kann Funktionen durch die Summe von Sinus- und Cosinusfunktionen darstellen. Grundlagen: Direkte Betrachtung der diskreten Fourier Transformation, da wir durch das digitalisierte Signal von einem diskreten Definitionsbereich ausgehen.

Diskrete Fourier Transformation DFT Komplexität O ( n² ) Anmerkung:

Schnelle Fourier Transformation FFT Die FFT ist ein Algorithmus von Cooley und Tukey der das selbe Ergebnis wie die DFT hat die Laufzeit aber auf O ( n log(n)). Idee: Voraussetzung: Anzahl der Abtastpunkte Zweierpotenz, somit Länge des Eingangsvektor z.b. 1,2, 4,8, 16 usw. ( Radix 2 FFT) Divide And Conquer: Problem der Größe n in zwei Hälften der Größe n/2 Teilen. Der Messwertevektor wird nach geraden, ungeraden Indizes in Teilvektoren gesplittet. Die Ergebnisse der beiden Hälften werden dann zusammengeführt. Rekursive Anwendung der Grundidee impliziert die Laufzeit.

Magnitude Bei der Transformation von der Zeit- in die Frequenz-Ebene entstehen aus Amplitude und Zeit eine reelle und eine imaginäre Zahl, die für die Berechnung der Magnitude dienen. Die Formel für diese Berechnung lautet : (Mag = Magnitude / R = Reelle Zahl / I = Imaginäre Zahl) Die Magnitude wird in db angegeben und ist auf der Y-Achse des Spektrums abzulesen

Spektrumbasierte LLD - Rolloff Grenzfrequenz Gibt an bis zu welcher Frequenz sich ein bestimmter Prozentsatz a des Gesamtspektrums aufsummieren lässt ( Cook/Tzanetakis a = 85) Mt[n] Magnitudenwert des Spektrums an der Stelle n Höherer Rolloff = höhere / stärkere Frequenzen

Spektrumbasierte LLD - Spectral Centroid Spectral Centroid, auch Brightness genannt, basierend auf der DFT, umgangssprachlich Klangfarbe Mt[n] Magnitudenwert des Spektrums an der Stelle n C ist höher wenn bei gleich bleibender Tonhöhe viele Harmonien (d.h. Vielfaches der Grundfrequenz) vorkommen. Ziel: Ermittlung welche Frequenz dominiert, also den Schwerpunkt des Spektrums

Mel Frequency Cepstral Coefficients (MFCC) Was ist Mel? Mel Z ist die Einheit für die psychoakustischen Größe der Toneinheit und beschreibt die wahrgenommene Tonhöhe. ( 1937 ) Basis für die Mel Skala ist der Ton C mit f = 131 Hert / Z = 131 mel Mit Hilfe psychoakustischer Versuche kann so eine Tonheitsskala bestimmt werden (doppelt so hoch wahrgenommener Ton kriegt doppelten mel Wert)

MFCC elementare Begriffe Verfahren kommt ursprünglich aus der Spracherkennung Mel Cepstrum Koeffizient ist ein geeigneter Satz von Merkmalen zur automatischen Erkennung für die Musik Cepstrum = Spektrum des Spektrums, d.h. DCT eines logarithmischen Spektrums (ursprünglich für seismische Echos erfunden) Sprache verwendet 13 Koeffizienten Musik benötigt für effektive Ergebnisse nur die ersten 5 Koeffizienten (Tzanetakis/Cook)

Ablauf MFCC

Mathematik MFCC 1/4 1. PreEmphasis: Bewusste Verstärkung des Signals zur Anhebung der hohen Frequenzen. Da das Signal bereits diskret vorliegt, geschieht dieses mit Hilfe eines diskreten Filters, z.b. ein Fir-Filter. 3. Framing: Aufteilen des Signals in Bereich konstanter Größe, auf denen dann separat weitere Berechnungen durchgeführt werden. Die typischen Fenstergrößen sind 25 50 ms. (ms = Millisekunden) 5. Fensterung: Auf jeden dieser Bereich (Frame) wird nun die Fensterfunktion angewendet. Typisch bei MFCC ist das Hamming-Fenster, wobei generell die Auswahl der Fensterfunktion von der zugrunde liegenden Anwendung abhängt. Anwenden heißt, dass jeder Frame mit der Hamming-Fenster Funktion ausmultipliziert wird.

Mathematik MFCC 2/4 1. DFT: Auf jeden Frame wird nun die DFT angewendet (2. Beachte die Framegröße, sie muss eine zweier Potenz sein, wenn FFT gewünscht wird). Das Signal liegt nun als Frequenzspektrum vor. 3. Mel Filter: Nun wird der Mel Filter angewendet, d.h. es wird eine Filterbank bestehend aus Dreiecksfiltern erstellt. Die Filter der Filterbank schwanken je nach Anwendung. Durch die Dreiecksfilter werden die Frequenzbänder (Frequenzbereiche) zusammengefasst, also die Komplexität reduziert, das Ergebnis ist das so genannte Mel-Spektrum. 5. Logarithmieren: Auf dem Mel Spektrum erfolgen nun weitere Berechnungen, deren Ergebnis Mel Koeffizienten (auch Kanalenergien) sind. Durch Logarithmieren dieser erfolgt eine weitere Zusammenfassung. Genauere Analysen sind jedoch erst nach Schritt 7. möglich.

Mathematik MFCC 3/4 1. Cosinus Transformation: Das logarithmierte Mel Spektrum wird nun die diskrete Kosinus Transformation unterworfen. Im Unterschied zur FT werden nicht alle Frequenzen gleichmäßig behandelt, was zu einer Redundanzreduktion führt. Veranschaulicht wird das Spektrum geglättet, d.h. hochfrequente kleine Änderungen zwischen Werten entfernt. Ergebnis: Koeffizienten unkorreliert (Folge : eigene Aussagekraft einzelner Koeffizienten). Alternativ Dekorrelation (Reduzieren der Redundanz): Principal Component Analyse, Karhunen-Loeve-Transformation Definition Korrelation: Kovarianz = Zusammenhang von Variablen, K = 0 unkorelliert, sonst korreliert

Mathematik MFCC 4/4 Ergebnis: N Koeffizienten, zusammengefasst zu einem Merkmalsvektor X, die aus dem Mel-Frequenz-Spektrum gewonnen wurden und daher auch Mel-Frequency- Cepstral-Coefficients heißen. Für die Merkmalsextraktion aus Musikdaten konnte gezeigt werden, dass die 5 ersten Werte aus dem gewonnenen Vektor ausreichend zur Klassifizierung sind. In der Sprecherkennung sind ersten 13 Koeffizienten aus dem gewonnen Vektor der gebräuchliche Wert. Niedrige Cepstralwerte in Vektoren weisen auf hohe Frequenzen hin.

Rhytmic Content Features Wavelet Transformation: Funktionen können auch durch die Summe von anderen Funktionen (Basisfunktionen) dargestellt werden. Als Basisfunktion kann jede orthogonale Funktion genommen werden, für die gilt: Daher auch die Bezeichnung Wavelet engl. Wave = Welle Rhythmische Regelmäßigkeiten suchen Beat Histogramm Struktur + Stärke des Merkmals Rhythmus ablesen

Beispiel Beat Histogramm

Vielen Dank für Ihre Aufmerksamkeit