Ein hierarchisches Modell zur inhaltsbezogenen Audio-Klassifikation

Transkript

1 Carl von Ossietzky Universität Oldenburg Studiengang Hörtechnik und Audiologie MASTERARBEIT Ein hierarchisches Modell zur inhaltsbezogenen Audio-Klassifikation vorgelegt von Steffen Kortlang Betreuender Gutachter Prof. Dr. Dr. Birger Kollmeier Zweiter Gutachter Dr. Jörn Anemüller Oldenburg, 24. Januar 211

2 Ein hierarchisches Modell zur inhaltsbezogenen Audio-Klassifikation Masterarbeit vorgelegt von Steffen Kortlang Erstgutachter: Zweitgutachter: Betreuer (Fraunhofer IDMT-HSA): Prof. Dr. Dr. Birger Kollmeier Dr. Jörn Anemüller Jens Schröder Oldenburg, 24. Januar 211

3 III Kurzfassung Üblicherweise wird in der hierarchischen Klassifikation (in Abgrenzung zur flachen oder direkten Klassifikation) das System in kleinere, unabhängige und im Allgemeinen einfacher zu lösende Klassifikationsprobleme zerlegt und für jeden der Hierarchie inneliegenden Knoten ein Klassifikator bestimmt und trainiert. Anwendung findet dies klassischerweise in der automatischen Genreklassifikation oder der Text- bzw. Dokumentenklassifikation. Vorgestellt wird ein System zur inhaltsbezogenen Audioklassifikation mit benutzerdefinierter Taxonomie. Dieses ordnet ein Signal zunächst groben Kategorien (Sprache, Musik oder Geräusch) zu, um anschließend eine spezifische Klassifikation durchzuführen, wie beispielsweise in der Sprechererkennung oder Musikgenreklassifikation üblich. Es wird ein hierarchischer, Gaußscher Klassifizierer als Baum von flachen Gaußschen Klassifikatoren mit eigener Featureauswahl und eigenen Wahrscheinlichkeitsdichten vorgestellt. Zwar multiplizieren sich für die Berechnung der akkumulativen Klassifikationsrate beim hierarchischen Ansatz die Fehlerraten der Ebenen, allerdings ist so unter anderem eine knotenspezifische Wahl der besten Features möglich. Um das Potential eines hierarchischen Ansatzes auszuschöpfen, wird daher ein besonderer Wert auf die Implementation einer umfassenden Datenbank von Features sowie auf den Vergleich verschiedener Algorithmen zur Featureauswahl gelegt. Zunächst wird in Kapitel 1 eine Definition von hierarchischer Klassifikation versucht und Vor- und Nachteile benannt. Nachfolgend erfolgt mit einer Auflistung von Arbeiten zu dem Thema ein Überblick zum Stand der Forschung. Die theoretischen Grundlagen der (hierarchischen) Audioklassifikation werden in Kapitel 2 beschrieben. Auf die Software-Implementierung in Matlab wird in Kapitel 3 eingegangen. Dort folgt mit der Vorstellung der genutzten Audio-Taxonomie, der zur Klassifikation genutzten Features und der Merkmalsauswahl ein genauer Einblick in das verwendete System. In Kapitel 4 wird ein Vergleich zwischen den Klassifikationsraten von hierarchischem und flachem Ansatz geführt und so eine Aussage über Nutzbarkeit und Grenzen eines solchen Systems für unterschiedliche Klassifikationsszenarien getätigt. Es lassen sich verhältnismäßig hohe Klassifikationsraten über 9 % erzielen, wobei der hierarchische Ansatz im Mittel bessere Ergebnisse liefert als der flache. Zusätzlich erfolgt eine systematische Untersuchung zur Verbesserung des hierarchischen Modells anhand von Parametern und des Einflusses der benutzerdefinierten Taxonomie. Das vorgestellt Klassifikationssystem stellt daher eine gute Basis für weitere Entwicklungen dar.

4 IV Abstract Hierarchical classification schemes (in contrast to the flat or direct approach) usually assume a classification problem to be separable into smaller, independent and in general easier-to-solve tasks. Motivated by its success in the field of automatic music genre classification and document classification, a hierarchical approach for content-based classification of music, speech and environmental sounds with a predefined, tree-structured taxonomy is presented in this thesis. For each node in the tree, an individual Gaussian classifier (GMM) is developed and trained with node-specific features. As the accumulative classification rates are multiplied for each node in the tree, the optimal feature sets for each node and tree level are selected in such a way that the overall error-rate is minimized. In order to tap the full potential of a hierarchical approach, a special value is led on the implementation of a huge amount of features as well as on the comparison of different feature selection algorithms. Firstly, in chapter 1, a definition of hierarchical classification is tried and advantages and disadvantages are listed. Consecutively, an overview of the current literature is given. The theoretical principles of the (hierarchical) audio classification are descriped in chapter 2. The implemented Matlab-based classification system is presented in chapter 3. It provides a detailed insight into the audio taxonomy, the extracted features and the feature subset selection. A first comparison between the classification rates of the hierarchical and the direct approach is made in chapter 4. With average classification rates over 9%, better results than in the literature can be achieved, whereat on average the hierarchical aproach provides even better outcomes than the flat. The results allow an assessment of the usability and limitations of such a system also for other classification scenarios. Additionally, a systematic investigation for the enhancement of the hierarchical model is made on the basis of the parameters and the influence of the user-defined taxonomy. The present classification system therefore provides a good basis for further developments.

5 Inhaltsverzeichnis V Inhaltsverzeichnis 1 Einleitung Motivation Stand der Forschung Ziel der Arbeit Theorie Taxonomie Features Temporale Features Energetische Features Beschreibung der spektralen Form Spektrale Flachheit Zeitliche Variation des Spektrums Bandbasierte Beschreibung der spektralen Form Harmonische Features Lautheitsbasierte Features Temporale Modellierung Dimensionsreduktion Dimensionsreduktionsmethoden Motivation und Merkmalsauswahlalgorithmen Charakterisierung von Merkmalsauswahlalgorithmen Evaluationsmaße Übersicht gebräuchlicher Merkmalsauswahlalgorithmen Ausgewählte Algorithmen Gaussian Mixture Models Einführung Likelihood einer (Einzel-)Beobachtung Likelihood eines Satzes von Beobachtungen A-posteriori-Wahrscheinlichkeiten eines Sets von Beobachtungen EM-Algorithmus Testverfahren (Akkumulative) a-posteriori-wahrscheinlichkeiten Klassifikationsraten Das Kreuzvalidierungsverfahren Klassifikationssystem Wahl der Audio-Taxonomie Audiodateien Featureextraktion Features Temporale Modellierung Nachbearbeitung der Merkmale Auswahl der Trainingssamples Wahl der Algorithmen

6 Inhaltsverzeichnis VI 3.5 Testverfahren Framebasiert Dateibasiert Evaluation Voruntersuchung des Systems Ergebnisse der Feature Selection mittels mrmr D-Darstellungen des Feature-Raums Wahl der optimalen Parameter Klassifikationsraten Einfluss anderer Parameter (maximale) Anzahl Trainingssamples pro Klasse Merkmalsauswahlalgorithmus Leave-One-Out Test Zusammenfassung und Diskussion Zusammenfassung Diskussion Ausblick Anhang Grundlagen Korrelation Tiefpassfilterung Fourier-Transformation Filterbänke Die (Gauß sche) Normalverteilung K-means Clustering Tabellen Abkürzungsverzeichnis 84 Symbolverzeichnis 84 Literaturverzeichnis 86 Danksagung 89 Erklärung 9

7 Kapitel 1 Einleitung 1 Kapitel 1 Einleitung Einleitend soll zunächst eine Motivation für diese Masterarbeit gegeben werden. Anschließend erfolgt eine Übersicht zu hierarchischen Lern-Algorithmen in der Literatur und eine Skizzierung der verfolgten Ziele. 1.1 Motivation In der inhaltsbezogenen Audioklassifikation wurden in den letzten Jahren einige Fortschritte erzielt. Einsatzgebiete sind in der Unterhaltungsindustrie, der automatischen Datenarchivierung, der Überwachung aber auch in personenbezogenen Hörsystemen zu finden. Zum Beispiel kann ein Hörgerät mittels einer Analyse der auditiven Umgebung seine Parameter optimal auf die aktuelle Hörsituation (Konzert, Unterhaltung, Natur) einstellen. Mit der stetigen Verbesserung der technischen Möglichkeiten und der Erhöhung des Ausmaßes der Anwendungsszenarien steigt auch der Umfang zu unterscheidender Audioklassen. In der klassischen flachen (auch ebenen oder direkten ) Klassifikation werden diese gleichberechtigt modelliert und die Klassifikationsentscheidung auf Basis einer Entscheidungsstufe gefällt. Typischerweise wird also angenommen, dass die zu separierenden Klassen keine zugrundeliegende Struktur aufweisen. Bei einer solchen Vielzahl von Klassen jedoch ist zu untersuchen, ob eine hierarchisierte Taxonomie bessere Ergebnisse liefert. Beim hierarchischen Ansatz wird das System in kleinere, unabhängige und im Allgemeinen einfacher zu lösende Klassifikationsprobleme zerlegt und für jeden inneliegenden Knoten in der Hierarchie ein Klassifikator bestimmt und trainiert (Keshet, 29). Ein hierarchischer gaußscher Klassifizierer (H-GC) ist daher ein Baum von flachen gaußschen Klassifikatoren (F-GC, vgl. Peeters und Rodet, 23, S. 3), der die Möglichkeit enthält, an jedem Knotenpunkt eigene Verarbeitungsschritte (Merkmalsauswahl, Feature Transformation und Modellierung der Wahrscheinlichkeitsdichten) durchzuführen. Um beispielsweise einen bestimmten Sprecher zu klassifizieren, kann zunächst bestimmt werden, ob es sich bei dem Audiosignal um Sprache handelt. Anschließend wird dann überprüft, ob es sich um einen männlichen oder einen weiblichen Sprecher handelt. Erst zum Schluss wird dann mit Sprechern des entsprechenden Geschlechts verglichen. Diese Art der hierarchischen Klassifikation birgt gegenüber dem flachen Ansatz einige Vorteile: Das Klassifikationsproblem wird in kleinere (einfacher zu trennende) Teilmengen zerlegt. Die naturgemäß zugrundeliegende Systematik wird reflektiert. Eine knotenspezifische Wahl der Merkmale wird ermöglicht. Ähnliche Klassen können auf unterster Ebene der Hierarchie besser getrennt werden. Es besteht die Möglichkeit, später noch differenziertere Unterschiede an den Knotenpunkten zu machen (z.b. andere Erkenner, andere Vorverarbeitung der Features, etc.). Es ergeben sich jedoch auch folgende Nachteile gegenüber dem flachen Ansatz: Es besteht eine höhere Komplexität der Implementation und damit einhergend ein höherer Rechenaufwand.

8 Kapitel 1 Einleitung 2 Die Fehlerraten multiplizieren sich. Ein männlicher Sprecher muss beispielsweise zunächst als Sprecher, dann als männlich und anschließend unter den männlichen Sprechern richtig erkannt werden. 1.2 Stand der Forschung Die Einordnung von Klängen in eine hierarchische Struktur ist ein alltägliches Phänomen, z.b. die Einteilung von Liedern zu bestimmten Musikgenres. Die Kategorisierung von (Umgebungs-)geräuschen ist bisher weniger erforscht worden. Da dies aber einen Großteil der Taxonomie dieser Arbeit darstellt, werden nachfolgend zwei Ansätze aus der Literatur beschrieben. Die von Gaver (1993) vorgeschlagene Taxonomie sieht vor, Geräusche ( interagierende Materialien ) in schwingende Festkörper (Stoß, Kratzen,...), aerodynamische Klänge (Wind, Explosion,...) und liquide Klänge (Spritzer, Wellen,...) zu unterteilen. Gygi u. a. (27) hingegen stellen in ihrem Artikel Similarity and categorization of environmental sounds eine andere Kategorisierung vor. Sie haben in verschiedenen Experimenten untersucht, wie sich Umgebungsgeräusche hinsichtlich ihrer Ähnlichkeit zusammenfassen lassen. Dafür wurden zunächst 5 Geräusch-Klassen festgelegt. In einem Experiment sollten vier Probanden jedes Paar von Klängen (insgesamt 1.) hinsichtlich ihrer Ähnlichkeit auf einer Skala von 1 bis 7 bewerten. Es wurde jedoch keine Einschränkung dafür festgelegt, auf welcher Basis die Entscheidung gefällt werden sollte. Anschließend wurden die Ergebnisse zu einer Ähnlichkeitsmatrix geeignet zusammengefasst. Die Lösung eines Ordinationsverfahrens (drei-dimensionale Multidimensionale Skalierung, MDS) wurde auf Anhäufungen untersucht. In Abbildung 1.1 ist die erste Dimension dieser Lösung in Abhängigkeit der zweiten Dimension grafisch dargestellt. Aus dieser Darstellung heraus definieren sie drei Gruppen von Umgebungsgeräuschen: harmonische, impulsartige und kontinuierliche Klänge. In der Darstellung von Dimension 1 gegen Dimension 3 hingegen lassen sich Häufungen finden, die als vokal und nicht-vokal gekennzeichnet wurden. Sie konnten zudem nachweisen, dass die Dimensionen der MDS durch Linearkombinationen akustischer Merkmale angenähert werden können. Es gibt auch Bestrebungen eine Taxonomie bei gegebenen Audioklassen automatisch erzeugen zu lassen. Um die hierarchie-innere Semantik automatisch anzupassen, wurde einige statistische Ähnlichkeitsgrenzen zwischen den Wahrscheinlichkeitsmodellen angrenzender Klassen (Knoten) definiert. Die Ähnlichkeit mehrerer Klassen kann dann mittels back-off -Schätzung oder Schrumpfungsverfahren erzwungen werden (Keshet, 29). Anwendung findet die hierarchische Klassifikation klassischerweise in der Text- bzw. Dokumentenklassifikation (z.b. automatischer Spam-Filter). Ansonsten findet eine hierarchisch organisierte Klassifikationsstruktur in der Literatur nur in begrenztem Umfang Erwähnung, zum Beispiel in der automatischen Genreklassifikation. Zang und Kuo (1999) sind eine der ersten Autoren, die ein solches hierarchisches System in der Audio-Klassifikation nutzen. Hierfür entwickeln sie eine zwei Ebenen umfassende Hierarchie. Auf der höchsten Ebene unterscheiden sie Klänge in Sprache, Musik, Umgebungsgeräusche und Stille. Auf der niedrigen Ebene werden 1 Geräuschklassen (Applaus, Vögel, Lachen, u.a.) separiert. Auf dieser Ebene erreichen sie eine Klassifikationsrate von über 8%. Lu u. a. (26) stellen ein hierarchisches Klassifikationssystem für vier musikalische Stimmungen ( Zufriedenheit, Depression, Ausgelassenheit und Unruhe ) vor. Erstere und letztere Klassen werden auf höherer Ebene zusammengefasst, sodass sich ebenfalls eine hierarchische Taxonomie mit 2 Ebenen ergibt. Zur Klassifikation werden Intensitätsfeatures, Features zur Klangfarbe (z.b. Spectral Contrast Features ) und rhythmische Features verwendet. Lu u. a. (26) benutzen Mittelwert und Standardabweichung der Features und anschließend eine Lineare Diskriminanzanalyse (LDA, siehe Kapitel 2.3.1) zur Dimensionsreduktion. Zum Training wird ein Gaussian Mixture Model (GMM, siehe Kapitel 2.4) mit 16 Mischungskomponenten gewählt. Sie erzielen eine Klassifikationsrate von bis zu 86,3% beim hierarchischen Ansatz gegenüber 8,6% beim flachen Ansatz. Auch die Standardabweichung nimmt deutlich ab (5.2% gegenüber 1.7%). Roma u. a. (21) beschreiben in Content-based retrieval from unstructured databases using an ecological acoustics taxonomy ein Projekt, dessen Ziel es ist, die Erstellung von

9 Kapitel 1 Einleitung 3 Abbildung 1.1: Dimension 1 gegen Dimension 2 der dreidimensionalen MDS-Lösung für die akustischen Ähnlichkeitsdaten (Gygi u. a., 27, S. 844). Die charakteristischen Cluster sind wie im Text beschrieben markiert. Klangwelten ( Soundscapes ) in virtuellen Umgebungen zu erleichtern. Konkret geht es um die automatische Analyse und Kategorisierung von öffentlichen, benutzergetragenen Sound-Datensammlungen im Internet. Dabei nutzen sie die beschriebene Taxonomie nach Gaver (1993). Insgesamt ergeben sich so 11 verschiedene Klassen von Geräuschen. Es werden zwei Sätze von Merkmalen implementiert: Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs, siehe Kapitel 2.2.6) und Features zur Beschreibung der spektralen Einhüllenden (inklusive Tonhöhe). Zur Klassifikation werden Support Vector Machines (SVMs) benutzt. Das System ordnet die Klänge bezüglich ihrer akustischen Ähnlichkeit zu jeder Klasse der Taxonomie und ermöglicht so eine systematische Kategorisierung der Datenbanken. Sie testen einen hierarchischen Ansatz und erhalten eine Klassifikationsrate von 8.61% gegenüber 84.1% bei der flachen Klassifikation. Den beschriebenen Klassifikationssystem ist gemein, dass die spezifischen Merkmale jeder Verzweigungsstelle der Hierarchie separat mittels a-priori-wissen ausgewählt werden. Die Bestimmung der passendsten Features zu einem gegebenen Klassifikationsproblem aus einem Satz vorhandender Features kann jedoch auch automatisch mittels Merkmalsauswahlalgorithmus (FSA, siehe Kapitel 2.3.2) geschehen. Hier ist zum Beispiel die auf Transinformation basierende Minimum-redundancy-maximumrelevance feature selection (mrmr, siehe Kapitel 2.3.6) nach Peng u. a. (25) zu nennen. Auch in der hierarchischen Audio-Klassifikation finden Merkmalsauswahlalgorithmen Verwendung. Peeters und Rodet (23) beispielsweise stellen den Merkmalsauswahlalgorithmus Inertia Ratio Maximization using Feature Space Projection (IRMFSP, siehe Kapitel 2.3.6) vor. Diesen nutzen sie im Rahmen eines System zur Klassifikation einer großen Datenbank von Musikinstrumenten. Ihre Taxonomie besteht aus 23 verschiedenen Klassen (Instrumenten), die auf der höheren Hierarchiebene nach gestrichenen Instrumenten (z.b. Geige) und ungestrichenen Instrumenten (z.b. Klavier) unterteilt. Sie separieren also kontinuierliche von perkussiven Klängen. Peeters und Rodet erreichen mit dem H-GC eine Klassifikationsrate von 57% (8% für die richtige Instrumentenfamilie) gegenüber nur 53% mit dem F-GC. Unter Benutzung der Featuretransformations-Algorithmen Gaussianity (nichtlineare Transformation für jedes Feature zur Anpassung der Wahrscheinlichkeitsdichte an die einer Gauß-Verteilung)

10 Kapitel 1 Einleitung 4 und der LDA zur weiteren Dimensionsreduktion verbessert sie sich auf 64% (gegenüber 52% beim flachen Ansatz). Der IRMFSP-Algorithmus findet ebenfalls Verwendung im System von Essid u. a. (25) zur hierarchischen Instrumenten-Erkennung in polyphoner Musik, in dem 11 Kombinationen von Musikinstrumenten in Jazz-Ensembles (Solo bis Quartett) klassifizert werden. Aus einem Pool von 164 Merkmalen nutzen sie dabei im Mittel 3.33 Merkmale. Einen korrelationsbasierten Ansatz zur Merkmalsauswahl (CFS, siehe Kapitel 2.3.6) nach Hall (1999) verfolgt Burred. Er entwickelt im Rahmen seiner Diplomarbeit mit dem Thema An Objective Approach to Content-Based Audio Signal Classification (23) an der TU Berlin ein hierarchisch organisiertes Klassifikationssystem. Seine Ergebnisse werden von Burred und Lerch (23) in A Hierarchical Approach to Automatic Musical Genre Classification näher vorgestellt. In seiner hierarchischen Taxonomie werden die Audiodateien dabei zunächst den Kategorien Sprache, Hintergrund und Musik zugeordnet. Sprachsignale werden in männlich, weiblich und Sprache mit Hintergrundgeräusch (z.b. Musik) getrennt. Einen besonderen Wert legt Burred auf die Unterscheidung zwischen insgesamt 13 klassischen und nichtklassischen Musikgenres. Insgesamt unterscheidet er so zwischen 17 (nicht mehr weiter unterteilbaren) Klassen. Pro Klasse sind 5 Audiodateien (entsprechend 5 Samples) gegeben. 45 davon werden zum Training benutzt. Insgesamt werden 9 Features implementiert, darunter 2 instantane ( framebasierte ) Features (MFCCs, Nulldurchgangsrate u.a.) mit jeweils 4 verschiedenen statistischen Modellierungen der Features (Mittelwert, Standardabweichung, sowie Mittelwert und Standardabweichung der Delta-Features), ein globales Feature (Low energy rate) und 9 Features, die auf einem Beat-Histogramm (Pulsstärke in Abhängigkeit eines Tempowertes) beruhen. In einem ersten Schritt testet Burred die Features auf Unabhängigkeit von einer Rauschaddition und der Signal- Bandbreite (mittels Tiefpassfilterung bei 11 khz). 32 Features stellen sich in diesem Test als besonders anfällig heraus und werden nachfolgend aus dem Pool der Features ausgeschlossen, sodass effektiv nur noch 58 Features verwendet werden. In der Feature Selection werden die 2 besten Merkmale ausgewählt und zur Klassifikation genutzt. Es wird ein Vergleich der Klassifikationsfähigkeit zwischen dem GMM- und dem k-nearest-neighbor-erkenner (KNN) unternommen, bei dem festgestellt wird, dass beide etwa ähnliche Klassifikationsgenauigkeiten bieten. In der finalen Version seiner Implementation werden GMMs mit jeweils 3 Komponenten benutzt. Getestet wird das System mittels eines 1-fachen Kreuzvalidierungsverfahrens (siehe Kapitel 2.5.3). Die besten unabhängigen Klassifikationsraten werden auf den höheren Ebenen der Hierarchiestruktur erreicht. Sprache, Hintergrund und Musik können zu 94.59% getrennt werden, klassische und nicht-klassische Musik zu 96.% und Kammer- und Orchestermusik zu 81.52%. Auf den untersten Ebenen der Hierarchie hingegen fällt die unabhängige Klassifikationsrate ab. Insgesamt ergibt sich so eine durchschnittliche (akkumulative) Klassifikationsrate von 58.71%±2.85% und bei der flachen, direkten Klassifikation von 59.76%±5.23%. Die Leistung der beiden Ansätze ist damit insgesamt ähnlich. Burred (25) beschreibt und evaluiert seine Ergebnisse in A Hierarchical Music Genre Classifier Based on User-Defined Taxonomies weiter und vergleicht sie mit früheren Arbeiten. Im Rahmen der Music Information Retrieval Evaluation exchange (MIREX 25) wurde das System in einem Wettbewerb ( Audio Genre Classification ) zur Klassifikation von Audiodateien bezüglich ihres Musikgenres getestet. Die feste Taxonomie war nun definierbar durch den Benutzer. Außerdem wurde der Test der Features auf Robustheit gegenüber Irrelevanzen entfernt, da die Audiodaten der MIREX-Datenbank als rauschfrei angenommen wurden. Getestet wurde zum Einen auf dem Magnatune -Datensatz mit 1 verschiedenen Musikgenres (unterteilt in 5 ungleich große Gruppen). Dabei ergab sich eine hierarchische Klassifikationsrate von 59.22% (flach 54.12%). Der USPOP -Datensatz hingegen implizierte keine hierarchische Taxonomie, sodass lediglich der flache Ansatz getestet wurde. Es ergab sich eine Klassifikationsrate von 66.3%. Im Vergleich zu den anderen Teilnehmer im Wettbewerb konnte Burred (25) damit nur ein mittelmäßiges Ergebnis erzielen. Nicht zu Verwechseln ist dieses Verständnis der hierarchischen Klassifikation im Übrigen mit dem Hierarchical Gaussian Mixture Model (HGMM) von Garcia u. a. (21). Auch Liu u. a. (22) präsentieren in Hierarchical Gaussian mixture model for speaker verification eine neue Art von Gaussian Mixture Models und ihre Relevanz für die Sprechererkennung. In diesen Ansätzen wird aber nicht das eigentliche Klassifikationsproblem hierarchisch behandelt, sondern lediglich ein mit mehreren Hierarchien

11 Kapitel 1 Einleitung 5 System Anzahl Klassen flach hierarchisch Zhang (Geräusche) - >8% Peeters (Musikinstrumente) 53% 57% Peeters 23 (G+LDA) 23 (Musikinstrumente) 52% 64% Essid (Instrumentenkombin.) k.a. k.a Burred (Sprache, Musik) 59.76% 58.71% Burred (MIREX 25, Magnatune) 1 (Musikgenres) 54.12% 59.22% Burred (MIREX 25, USPOP) 6 (Musikgenres) 66.3% - MRA 26 4 (mus. Stimmungen) 8.6% 86.3% MTG Barcelona (Geräusche) 84.1% 8.61% Tabelle 1.1: Chronologisch sortierte Übersicht zu Ergebnissen mit H-GC vs. F-GC angelehnt an die Tabelle von Burred (25, S.3) ausgestatteter Erkenner vorgestellt. 1.3 Ziel der Arbeit Aus der Literaturrecherche ist festzustellen, dass der hierarchischen Audio-Klassifikation (speziell in den letzten Jahren) wenig Aufmerksamkeit gewidmet wurde und die vorgestellten hierarchischen Klassifikationssysteme in der Regel nur einen kleinen Bereich der Audio-Klassifikation abdecken. Eine vergleichende Übersicht mit den angegebenen Klassifikationsraten für den flachen und den hierarchischen Ansatz ist in Tabelle 1.1 dargestellt. Im Vergleich der Klassifikationsraten ist ersichtlich, dass der hierarchische Ansatz bisher nur vereinzelt eine Erhöhung der Erkennerleistung bewirken konnte. Ziel dieser Arbeit ist es daher, ein effizientes System zur Klassifikation von insgesamt 21 Klassen aus den Bereichen Musik, Sprache und Geräusche zu entwickeln, die konkurrierend in einer flachen und einer hierarchischen Taxonomie realisiert werden. Es soll eine systematische Untersuchung der hierarchischen Struktur und deren Vor- und Nachteile gegenüber dem flachen Ansatz erstellt und daraus auf das Potential der hierarchischen Audio-Klassifikation geschlossen werden. Das implementierte Klassifikationssystem wird in Kapitel 3 beschrieben. Die Klassen werden mit Gaussian Mixture Models (GMMs) modelliert. Um die Vorteile des hierarchischen System gemäß Kapitel 1.1 auszunutzen, also einen größtmöglichen Nutzen aus einem hierarchischen Ansatz zu ziehen, wird ein besonderer Wert auf die Extraktion der Merkmale und deren automatischer Auswahl gelegt. Um zu gewährleisten, dass für die verschiedenen Klassifikationsprobleme ein geeignter Satz von Features bereit gestellt wird, wird eine umfassende Feature-Datenbank (194 Merkmale) eingesetzt. Insgesamt werden drei verschiedene Algorithmen zur Merkmalsauswahl, also zur Wahl der spezifisch geeignetsten Merkmale, implementiert. Das Klassifikationssystem wird in Kapitel 4 in drei Stufen evaluiert. Die Ergebnisse der Merkmalsauswahl und die sich daraus ergebende Verteilung der Beobachtungen im Featureraum werden aufgelistet und interpretiert. Ausserdem wird eine Untersuchung zur Abhängigkeit des System von der Anzahl der genutzten Merkmale und der Anzahl der Komponenten des GMMs vollzogen. Im Anschluss werden mit diesen Parametern die Klassifikationsraten für die verschiedenen Verzweigungsstellen der Hierarchie ermittelt und die Ergebnisse mit denen des flachen Ansatzes verglichen. Abschließend erfolgt eine systematische Untersuchung zur Verbesserung des hierarchischen Modells anhand von Parametern und dem Einfluss der benutzerdefinierten Taxonomie.

12 Kapitel 2 Theorie 6 Kapitel 2 Theorie In diesem Kapitel werden einige grundlegende und für diese Arbeit relevante Konzepte der Audio- Klassifikation, im Sinne der automatischen Erkennung von definierten Audio-Klassen, vorgestellt. Gemäß Abbildung 2.1 lassen sich üblicherweise in fast jedem Klassifikationssystem ähnliche größtenteils unabhängige Teilelemente der Klassifikation herausstellen. Zunächst werden die zu unterscheidenden Klassen (z.b. die Sprecher bei der Sprechererkennung) in einer Systematik, der durch eine Gruppe von textuellen Attributen definierten Taxonomie, eingeteilt. Üblicherweise sind die Klassen dabei keiner Hierarchie unterworfen, sondern flach (nebeneinander) angeordnet. Da die hierarchische Strukturierung der Klassen (z.b. in Form der Zusammenfassung in Musikgenres) jedoch einen wichtigen Aspekt dieser Arbeit darstellt, wird darauf in Kapitel 2.1 eingegangen. Modellierung der Klassen Taxonomie Featureextraktion stat./temp. Modellierung Dimensionsreduktion 2/3 1/3 Test Abbildung 2.1: Allgemeines Klassifikations-Schema In der Featureextraktion werden für jede Klasse dieser Taxonomie aus den Audiosignalen Merkmale (engl.: features ) ermittelt. Dabei ist die Anzahl potentieller Features im Grunde nicht beschränkt und die Literatur beschreibt eine Menge möglicher Featursätze, von den klassischen MFCCs bis hin zu anderen spektralen oder temporalen Merkmalen. Eine Auflistung einer großen Menge von potentiellen Merkmalen erfolgt in Kapitel 2.2. Die Wahl der Features hängt von der beabsichtigten Anwendung ab (z.b. Sprach-, Musik-, oder Geräusch-Diskrimination, Sprechererkennung oder Musikinstrumentenklassifikation). Durch a-priori-wissen über die Diskriminationsfähigkeit für die gegebene Aufgabe (z.b. aus der Literatur) können bereits geeignete Features ausgewählt werden. Da Klänge sich im Allgemeinen über die Zeit ändern, werden die Features in der Regel über die Zeit, also framebasiert, berechnet. Diese instantanen Merkmale können direkt im Echtzeit-Kontext zur Klassifikation benutzt werden oder die statistische bzw. temporale Modellierung der Merkmale (üblicherweise über Mittelwert und Standardabweichung) kann gemäß Kapitel (siehe Kapitel 2.2.9) zur Modellierung herangezogen werden. Eine zeitliche Entwicklung der Merkmale kann alternativ auch durch Hidden Markov Modelle (HMMs) beschrieben werden. Anschließend erfolgt in der Regel eine Dimensionsreduktion des Merkmalraums (siehe Kapitel 2.3). Klassischerweise nutzt man hierfür die Lineare Diskriminanzanalyse (LDA). Bei der LDA werden Linearkombinationen der originalen Features als neue Dimensionen im Feature-Raum benutzt, um die Diskrimination der Klassen zu maximieren. Als Alternative zur a-priori Auswahl geeigneter Merkmale kann dies a posteriori über die Benutzung eines Algorithmus zur automatischen Merkmalsauswahl (Feature Subset Selection) geschehen. Traditionell teilt man die extrahierten Beobachtungen im Verhältnis 2:1 in Trainings- und Testmaterial ein, das heißt 2/3 der Beobachtungen werden im Sinne einer Referenz in der Trainingsphase zur Modellierung der Klassen benutzt. Der letzte große Unterschied zwischen den Klassifikations- System bezieht sich daher auf die Wahl des Modells, das die Wahrscheinlichkeitsdichten der Klassen in der Trainingsphase modellieren soll, also die Wahl des Erkenners bzw. Klassifikators. Üblich sind