Carl von Ossietzky Universität Oldenburg. Masterarbeit

Größe: px
Ab Seite anzeigen:

Download "Carl von Ossietzky Universität Oldenburg. Masterarbeit"

Transkript

1 Carl von Ossietzky Universität Oldenburg Masterstudiengang Hörtechnik + Audiologie Masterarbeit Eine Methode zur Gesangsdetektion basierend auf musikalischen Merkmalen und Merkmalen aus den Frequenzmodulationen tonaler Komponenten vorgelegt von: Gunnar Geißler Betreuender Gutachter: Prof. Dr. Steven van de Par Zweiter Gutachter: Dr. Jörn Anemüller Oldenburg, den 23. November 2011

2

3 Zusammenfassung Um Gesang in Musik zu detektieren reichen die Ansätze einer Speech Activity Detection nicht aus, da hier das Störgeräusch (die Instrumentalbegleitung) eine dem Gesang ähnliche harmonische und temporale Struktur aufweisen kann. Daher sind mit klassischen Merkmalen wie z.b. MFCC s, dem spektralen Schwerpunkt oder der spektralen Veränderung keine zufriedenstellenden Resultate erreichbar. Um dennoch bessere Klassifikationsraten zu erzielen, sollen die Unterschiede der zeitlichen Entwicklung der Teilharmonischen von Instrumenten und Gesang in die Klassifikation einbezogen werden. Da die Teilharmonischen der meisten Sänger eine größere Frequenzmodulation aufweisen als die der meisten Instrumente, könnten Merkmale, die diese Modulationen beschreiben, eine Verbesserung der Klassifikation erzielen. Zu diesem Zweck werden aus den Teilharmonischen, über lokale spektrale Maxima, Tracks extrahiert. Um spontane Tracks, die aus zufälligen Maxima resultieren, zu vermeiden, werden diejenigen Tracks zu einer Gruppe kombiniert, deren Frequenzänderungen stark miteinander korreliert sind. Anschließend werden die Modulationsmerkmale der gruppierten Tracks gemittelt. Anhand einer Database aus 47 Musikstücken verschiedener Genres und Interpreten ergibt sich, dass durch die entwickelten Merkmale die Klassifikationsrate um fast 5 % verbessert werden konnte. Abstract The task to detect singing voice within instrumental accompaniment is difficult to realize and a standard speech activity detection isn t sufficient, because of the spectral and temporal similarities between the accompaniment and the singing voice. With this in mind, features considering the harmonic structure of the signal (e. g. MFCC s, spectral centroid) will not adduce satisfying results. This might be corrected by taking features into account, describing the temporal evolution of the harmonics frequencies. Since the harmonics produced by a singer will possess larger frequency modulations than those of most instrument, features describing these modulations could improve the classification. For this purpose, so-called tracks will be extracted representing the harmonics by usage of maxima in the local spectra. To avoid coincidental tracks, only tracks will be considered that are highly correlated with other tracks. The modulation features of these correlated tracks are averaged. Using a database with 47 songs of different genres (all by different artists), it is shown that the modulation features are improving the classification rate by nearly 5 %.

4 Inhaltsverzeichnis I Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis III V 1 Einleitung Motivation Stand der Forschung Ziel der Arbeit Genre-Klassifikation System Merkmalsextraktion Gaussian Mixture Models Benutzte Merkmale LowLevel-Merkmale Auf musikalischen Eigenschaften basierende Merkmale Database Ergebnisse Dimensionsreduktion Beste Kombination von Merkmalen und Anzahl Gaußverteilungen Fazit Spezielle Merkmale für die Gesangserkennung Eigenschaften von Gesang Tracking der Verläufe von Teiltönen Lokale Maxima-Suche Tracking Korrelationsmatrix und Gruppierung von Tracks Merkmalsberechnung Die Tracks beschreibende Merkmale Mitteln der Track-Merkmale einer Gruppe Database Beschreibung der Database Manuelle Annotation Betrachtung Evaluation Extraktionssystem Unterteilung in Entscheidungsblöcke Berechnung der Merkmale

5 Inhaltsverzeichnis II 5.2 Training und Testen Trainieren der GMM Testen der Klassifikation Evaluation der Merkmale Anzahl der Gaußverteilungen Einfluss der Track-Merkmale Fazit und Ausblick 52 Literaturverzeichnis 54 A Anhang i A.1 Tabellen i A.2 Erklärung v

6 Abbildungsverzeichnis III Abbildungsverzeichnis 2.1 Die verschiedenen Blockgrößen zur Merkmalsberechnung. Die senkrechten Striche zeigen die Blockgrenzen an. Bei den Chromagramund den LowLevel-Blocks sind diese mit 50 % Überlapp angeordnet Wahrscheinlichkeitsdichten einzelner Normalverteilungen (blau) und gemeinsame Wahrscheinlichkeitsdichte (rot) Links: Trainingspunkte im zweidimensionalen Merkmals-Raum, Rechts: Wahrscheinlichkeitsdichte des darauf angepassten GMM s (mit drei Komponenten), wobei rot eine hohe und blau eine niedrige Wahrscheinlichkeit kodiert Mel-Filterbank mit 15 Kanälen a) Eingangssignal der Tempoerkennung, b) Signal nach den Schritten Halbwellengleichrichtung, TP-Filterung und Unterabtastung, c) Autokorrelationsfunktion von Signal in b) Tempo-Histogramm des Liedes Nirvana - Come as you are Beispiel zur quadratischen Interpolation: bei 237 Hz ist das ursprünglich detektierte Maximum, mit den benachbarten Werten wird die Interpolation durchgeführt (gestrichelte Linie) und das neue Maximum berechnet (rot) Klassifikationsraten in Abhängigkeit der Anzahl der benutzten Merkmale und der Anzahl der Gaußverteilungen Verwechslungsmatrix der Genre-Klassifikation für 5 Gaußverteilungen und 19 benutzte Merkmale. Für jedes Genre wird zeilenweise dargestellt, wieviel Prozent der Lieder welchem Genre zugeordnet werden Schematische Darstellung des Anregungsspektrums und des gefilterten Spektrums (aus: [Sun77]) Links: Spektrogramm eines Ausschnittes aus dem Stück Mondnacht von Robert Schumann, deutlich zu sehen die Frequenzmodulationen des Gesangs, Rechts: Spektrogramm eines Ausschnittes aus As long as you love me von den Backstreet Boys mit einem Ansteigen der Frequenzen der Teilharmonischen Logarithmiertes Betragsspektrum Y (k) (blau), Schwelle Y smooth (k) (rot) und detektierte Maxima (rote Kreuze) Beispiele zum Tracking Spektrogramm mit den lokalen Maxima und den daraus abgeleiteten Tracks Spektrogramme, alle detektierten Tracks (dünne Linien) und die Tracks, die zur Merkmalsberechnung genutzt werden (dicke Linien) für zwei beispielhafte Entscheidungsblöcke Kennzeichnen der Gesang beinhaltenden Segmente mit Praat

7 Abbildungsverzeichnis IV 4.2 Histogramme der Segmentlängen für Segmente ohne (links), und mit Gesang (rechts) Oben: in blau der Spectral Flux eines Musikausschnittes, in rot die vorläufigen Maxima und der auf dem Median basierende Schwellwert. Unten: die am Ende zur Blockbildung genutzten Maxima Spektrogramm eines Ausschnittes aus dem Lied Losing my Religion von R.E.M. mit einer Analyseblocklänge von s und einem Überlapp von 87.5%, in schwarz die Grenzen der zu klassifizierenden Blöcke Histogramm der Längen der Entscheidungsblöcke Ablaufplan der Evaluation des Klassifikationssystems, in grün sind Eingangs- und in rot Ausgabewerte markiert Die Zeitpunkte, zu denen mittels Gl. 5.1 Gesang detektiert wird, sind blau, und die, zu denen nach Gl. 5.2 Gesang detektiert wird, schwarz markiert. In rot sind die Zeitpunkte nach der Annotation dargestellt. In Klammern ist jeweils die Klassifikationsrate (Richtig erkannte Blöcke durch Gesamtanzahl Blöcke) für das jeweilige Lied bei Verwendung der Entscheidung Mit Glättung angegeben Klassifikationsraten für verschiedene Kombinationen der Anzahl der Gaußverteilungen und der Anzahl der benutzten Merkmale (ausgewählt nach Fisher) Klassifikationsraten für die beiden Merkmalsgruppen über der Anzahl der benutzten Merkmale Verwechslungsmatrix für die optimale Kondition (Merkmalsgruppe KLASS+TRACK, 40 Gaußverteilungen, 13 benutzte Merkmale).. 50

8 Tabellenverzeichnis V Tabellenverzeichnis 2.1 Die verschiedenen Fensterbezeichnungen und deren Blocklänge Den Zahlen zugeordnete Töne und deren Frequenzen Die benutzten Merkmale für die Genre-Erkennung Anzahl und Dauer der Lieder der verschiedenen Klassen Reihenfolge der Merkmale durch die Merkmalsselektion und die zugehörigen Klassifikationsraten Die Merkmale der Gruppen A.1 Musikstücke, welche für die Evaluation der GD verwendet wurden mit Dauer, Geschlecht des Interpreten, dem Genre und der erzielten Klassifikationsrate mit 40 Gaußkomponenten und dem Merkmalssatz KLASS+TRACK i A.2 Gesamtergebnisse der Merkmalsselektion iii

9 1 Einleitung 1 1 Einleitung 1.1 Motivation Bei immer größer werdenden Musikbibliotheken im Internet wächst der Bedarf, diese nach bestimmten Parametern zu sortieren. So möchte ein Benutzer vielleicht mehr Lieder mit einem bestimmten Instrument hören oder ein Lied finden, welches dem aktuell gespielten Lied möglichst ähnlich ist. Ein anderer möchte weitere Lieder einer bestimmten Stilrichtung und noch ein anderer möchte ausschließlich Lieder seines Lieblingssängers. Um diese Funktionen zu ermöglichen gibt es verschiedene Möglichkeiten: die manuelle Annotation bei der für jedes Lied gewisse Eigenschaften (Rhythmus, Instrumente, Charakter der Stimme,... ) bewertet werden. Diese Vorgehensweise ist mit einem immensen Aufwand verbunden, liefert aber bei entsprechender Schulung der Mitarbeiter zuverlässige Resultate. Für das Internet- Radio werden z. B. die Annotationen des Music Genome Project verwendet. Hierbei sind bisher für ca Stücke für jeweils etwa 250 Merkmale Werte vergeben worden ([Wal09]). die Nutzung der Vorlieben anderer Benutzer. Durch viele Benutzer entsteht mit der Zeit ein Bild davon, welche Interpreten oder Lieder bei anderen Nutzern beliebt sind, die den Interpreten mögen, den der Nutzer selbst gerade hört. Dadurch können weitere Vorschläge gemacht werden. Diese Technik wird u. a. von dem Internet-Radio benutzt. Es werden also keine Eigenschaften der Lieder beschrieben, sondern lediglich der soziale Kontext, in den sie eingebettet sind. die automatisierte Beschreibung durch Algorithmen. Das Ergebnis sollte dabei möglichst dicht an der manuellen Annotation sein, was sich aber in vielen Punkten als schwierig erweist. Die eigene Musiksammlung anhand solcher Algorithmen nach verschiedenen Aspekten zu sortieren verspricht der mufin player pro ( Wie gut dies funktioniert, ist nicht bekannt. Auf den letzten Punkt soll im Folgenden weiter eingegangen werden. Diese Forschungsrichtung hat sich in den letzten Jahren herausgebildet und wird auch als Music Information Retrieval (MIR), also das Herausziehen von Informationen

10 1 Einleitung 2 aus Musik, bezeichnet. Hierbei können natürlich verschiedenste Dinge von Interesse sein. Es kann sich aber als zum Teil außerordentlich schwierig erweisen, Eigenschaften von Musik mittels Algorithmen zu extrahieren, deren Erfassung durch Menschen leicht und ohne größere Konzentration möglich ist. Neben den oben beschriebenen Szenarien kann z. B. außerdem versucht werden, die stimmlichen Eigenschaften eines Sängers bzw. einer Sängerin zu beschreiben. Um dies zu tun, muss jedoch zuerst festgestellt werden, zu welchen Zeitpunkten Gesang präsent ist, und zu welchen das Musikstück nur aus instrumentalen Passagen besteht. Zu diesem Zweck wird eine Gesangsdetektion (GD, oder engl. Singing Voice Detection: SVD) benötigt. Seit einigen Jahren wird diese Problemstellung bearbeitet. Dabei gibt es Analogien zu der Speech Activity Detection (SAD, dt.: Sprachaktivitätserkennung), die in Algorithmen zur Rauschunterdrückung zum Einsatz kommen. Durch die ähnliche Struktur von Gesang und Musik treten bei der GD allerdings weitere Problematiken auf. Mögliche Anwendungen für eine GD wären: halbautomatische Karaoke-Systeme, die zusätzlich zu der Musik den Text erhalten, und die richtige Textzeile zum richtigen Zeitpunkt einblenden können Grundlage für eine Stimmanalyse um z. B. alle Lieder eines Interpreten zu erhalten oder von Interpreten mit ähnlichen Stimmen sehr schwierig, aber auch sehr attraktiv, wäre ein System, das aus Musik den Text transkribieren kann. Im nächsten Abschnitt soll kurz auf bisher durchgeführte Bemühungen und Ansätze verschiedener Autoren eingegangen werden. 1.2 Stand der Forschung In den letzten Jahren wurden verschiedene Ansätze erprobt um eine gute Gesangsdetektion zu erreichen. Hier soll ein kurzer Überblick über einige dieser Ansätze gegeben werden. Dabei werden auch zum Teil die in den zitierten Quellen angegebenen erreichten Klassifikationsraten (korrekt klassifizierte Blöcke durch Gesamtanzahl der Blöcke) genannt. Es sollte allerdings beachtet werden, dass diese Ergebnisse nicht direkt miteinander vergleichbar sind, da alle Autoren eine unterschiedliche Database verwenden. Der Begriff Database umfasst hier alle Lieder, die zum Trainieren und Testen des Systems verwendet werden, sowie die Annotation, die die wahren Gesangsabschnitte kennzeichnet. Somit kann die Schwierigkeit für einen Klassifikator zum einen stark von der Art der Musik (Gesangsstil, Verhältnis der Energien von Gesang und Musik), aber auch von der Vielfalt der Database abhängen. So ist es wahrscheinlich einfacher, eine Gesangsdetektion für ein einzelnes bekanntes Genre

11 1 Einleitung 3 durchzuführen, als wenn sehr viele verschiedene Genres berücksichtigt werden müssen. Ein naheliegender Ansatz wird in [BE01] beschrieben. Hier wird ein Spracherkenner, der unabhängig vom Kontext die Wahrscheinlichkeiten für verschiedene Phoneme berechnet, auf Musik angewandt. Als Merkmale wird ein Vektor mit eben diesen Wahrscheinlichkeiten, darauf aufbauende weitere Merkmale, sowie PLPC (Perceptual Linear Predictive Coefficients) verwendet, auf die hier nicht weiter eingegangen wird. Abhängig davon, über wieviele Blöcke die Wahrscheinlichkeiten kombiniert wurden, wurden Klassifikationsraten von bis zu 81 % erreicht. Hierbei wurden randomisiert aus dem Radio aufgenommene 15 s lange Abschnitte als Database verwendet. Das Genre dieser Abschnitte ist nicht angegeben. Sowohl in [LGD07] als auch in [LW07] wurden MFCC (Mel Frequency Cepstral Coefficients, siehe Seite 11) als Merkmal, und ein GMM (Gaussian Mixture Model, siehe Seite 8) als Klassifikator verwendet. Dabei werden in [LGD07] die lokalen Wahrscheinlichkeiten für eine der beiden Klassen mittels ARMA-Filterung (Autoregressive Moving Average) geglättet. Dadurch verbessert sich die Klassifikationsrate von 72.7 % (ohne ARMA-Filterung) deutlich auf 81.3 %. Die 84 Lieder in der Database sind dabei zwar aus verschiedenen Genres, allerdings nur von zehn verschiedenen Sängern. Es wird also auch auf die gleichen Stimmen getestet, mit denen auch trainiert wurde. In [LW07] werden die Merkmale von allen Blöcken gemittelt, die zu einem Entscheidungsblock gehören. Die Grenzen der Entscheidungsblöcke werden nach musikalischen Aspekten, und zwar an Zeitpunkten mit hoher spektraler Fluktuation, gesetzt. So werden je nach Kondition Klassifikationsraten von 80 % bis 90 % erreicht. Hierbei sind in der Database zehn Liedern aus den Genres Rock und Country enthalten. Die bisher beschriebenen Ansätze basieren überwiegend auf typischen, weit verbreiteten Merkmalen der Audio-Klassifikation. In der folgenden Literatur werden einige Ansätze beschrieben, die mehr auf die typischen Eigenschaften von Gesang abzielen. So wird in [KW02] im ersten Schritt das Signal mit einem Bandpassfilter von 200 Hz bis 2.5 khz gefiltert, da der größte Energieanteil von Gesang in diesen Bereich fällt. Anschließend wird das Signal mit Kammfiltern, die auf verschiedene Grundfrequenzen abgestimmt sind, gefiltert. Es wird die Annahme gemacht, dass das Filter, dessen Ausgangssignal die geringste verbleibende Energie hat, am besten auf die dominante harmonische Quelle passt. Mit der Annahme, dass Gesang in Audiodateien in den meisten Fällen mehr Energie hat als Instrumente, kann über den Anteil der herausgefilterten Energie zwischen Gesang und Instrumenten unterschieden werden. Mit diesem Ansatz wurde allerdings nur eine Klassifikationsrate von 55.4 % erreicht. Hier wurden als Database etwas mehr als 200 Lieder von 20 verschiedenen Interpreten der populärsten Alben (also in erster Linie Pop- und Rockmusik) benutzt.

12 1 Einleitung 4 Dadurch sind aber auch hier in Trainings- und Testmaterial die gleichen Interpreten enthalten. In [NL07], [RR09] und [RP09] hingegen wird die zeitliche Entwicklung der Teiltöne (Harmonische eines Tones) betrachtet. Da die meisten Instrumente eine relativ konstante Frequenz über die Zeit aufweisen, Gesang aber meistens starke Frequenzmodulationen aufweist, sind aus dieser Betrachtung durchaus gute Ergebnisse zu erwarten. Alle drei Ansätze haben gemeinsam, dass versucht wird, den zeitlichen Verlauf der Teiltöne zu extrahieren. Aus diesen sogenannten Tracks können nun Merkmale berechnet werden. So wird in [RR09] die Standardabweichung der Tracks als Merkmal genutzt. Damit wird eine Klassifikationsrate von 90 % erreicht, wobei dem Algorithmus zum Teil mit der wahren Grundfrequenz nachgeholfen wurde. Getestet wurde mit einer Database, die Ausschnitte aus 7 klassischen Nord-Indischen Musikstücken von insgesamt 23 Minuten enthält. In [RP09] werden neben den Frequenzvariationen (Vibrato) auch die Amplitudenvariationen (Tremolo) untersucht. Ein Track wird der Klasse Gesang zugeordnet, wenn dessen Vibrato- und Tremoloamplituden zwischen 4 Hz und 8 Hz größer als entsprechende Schwellenwerte sind. Mit einer Nachbearbeitung, in der als Instrumental klassifizierte Abschnitte mit einer Dauer von weniger als einer Sekunde ignoriert werden, erreicht diese Methode eine Klassifikationsrate von 76.8 %. Hierbei wurden 93 Lieder, die verschiedenen Genres repräsentieren und alle von unterschiedlichen Interpreten stammen, als Database genutzt. In [NL07] werden ähnliche Merkmale benutzt. Allerdings wird die Klassifikation nicht über Schwellwerte sondern ein GMM realisiert. So ergibt sich eine Klassifikationsrate von bis zu 82.8 %. Hier wurden zum Testen insgesamt 84 Songs von 12 verschiedenen Interpreten aus der Pop-Musik benutzt. 1.3 Ziel der Arbeit Um Gesang zu detektieren, müssen musikalische Eigenschaften in Zahlen erfasst werden, mit denen Modelle angepasst bzw. trainiert werden können. Um zu testen, ob die in dieser Arbeit zu entwickelnden Merkmale eine Verbesserung der Klassifikation im Vergleich zu Standard-Merkmalen bringen, soll zuerst in Kapitel 2 getestet werden, ob einige dieser Standard-Merkmale überhaupt musikalische Informationen erfassen können. Dies soll an der Aufgabe der Genre-Klassifikation erfolgen. Es werden die Merkmale und das Klassifikationssystem erläutert. In Kapitel 3 werden die speziellen Merkmale zur Gesangsdetektion abgeleitet, die auf den Frequenzmodulationen der Grundfrequenz beruhen. Die Annahme hierbei ist, dass Instrumente nur geringe Frequenzmodulationen aufweist, Gesang jedoch sehr große. Um zu überprüfen, ob diese Merkmale die Klassifikation verbessern, werden sie in Kapitel 5 anhand einer Database (Kapitel 4) getestet. Diese Database soll dabei

13 1 Einleitung 5 möglichst allgemein gehalten werden und, anders als die der meisten in Abschnitt 1.2 vorgestellten Studien, nicht auf wenige Genres bzw. Interpreten beschränkt sein. Es soll also evaluiert werden, ob die Informationen dieser zu entwickelnden Merkmale die der Standard-Merkmale bereichern und damit die Klassifikation verbessern können.

14 2 Genre-Klassifikation 6 2 Genre-Klassifikation Um das Klassifikationssystem und die Merkmale zu evaluieren, sollen diese an der Aufgabe Genre-Klassifikation getestet werden. Dabei soll einem Musikstück automatisch die richtige Klasse (also das richtige Genre) zugeordnet werden. Typische Genres wären z. B. Klassik, Rock oder Jazz. In diesem Kapitel soll zuerst das System zur Merkmalsextraktion und Klassifikation beschrieben werden. Anschließend werden einige typische Merkmale der Audio- Signalverarbeitung, sowie einige Merkmale, die auf musikalische Inhalte abzielen, erläutert. Letztendlich wird die Datenbank der benutzten Musikstücke beschrieben und die Klassifikationsrate ermittelt. 2.1 System In diesem Abschnitt soll die grundsätzliche Funktionsweise des kompletten Systems beschrieben werden: also dem Berechnen von verschiedenen Merkmalen, der Bildung von Modellen, die die Genres möglichst gut voneinander unterscheiden, sowie der letztendlichen Klassifikation Merkmalsextraktion Um die verschiedenen zu extrahierenden Merkmale (siehe Abschnitt 2.2) zu berechnen, werden unterschiedliche Blocklängen benötigt. Um auch noch eher langsame Tempi detektieren zu können, muss die Länge des Tempo-Blocks recht groß sein. Um hingegen Aussagen über die Veränderung der spektralen Form machen zu können, werden eher kleine Blöcke benötigt. Daher werden drei unterschiedliche Blocklängen (siehe Tabelle 2.1) angewendet. In Abb. 2.1 sind die Längen der verschiedenen Blöcke veranschaulicht. Die Tempo-Blöcke müssen, wie oben schon erwähnt, recht lang Tabelle 2.1: Die verschiedenen Fensterbezeichnungen und deren Blocklänge. Bezeichnung LowLevel Chromagram Tempo Blocklänge s s s

15 2 Genre-Klassifikation 7 1,486 s Tempo-Blocks 0,093 s Chromagram-Blocks 0,023 s LowLevel-Blocks Abbildung 2.1: Die verschiedenen Blockgrößen zur Merkmalsberechnung. Die senkrechten Striche zeigen die Blockgrenzen an. Bei den Chromagramund den LowLevel-Blocks sind diese mit 50 % Überlapp angeordnet.

16 2 Genre-Klassifikation 8 sein, da nur Tempi erkannt werden können, deren Periode T kleiner als die Blocklänge ist. Bei einer verwendeten Länge von s sind Tempi ab etwa 60 BPM (beats per minute, dt.: Schläge pro Minute) detektierbar, was für die meisten Stücke ausreichend ist. Für die Chromagram-Blöcke, in denen Tonhöhen extrahiert werden sollen, muss zwischen Zeit- und Frequenzauflösung abgewogen werden. Bei s kann zum einen davon ausgegangen werden, dass in dieser Zeit die Töne annähernd stationär sind, zum anderen ist die Frequenzauflösung bei einer verwendeten Abtastrate von f s = 44.1 khz mit 10.8 Hz einigermaßen genau. Für die LowLevel-Blöcke, in denen einfache Merkmale wie spektrale Schwerpunktmaße berechnet werden, soll vor allem eine möglichst hohe zeitliche Auflösung gewährleistet werden. Da die Signale der Chromagram- und der LowLevel-Blöcke in den Frequenzbereich transformiert werden, werden diese jeweils mit Hann-Fenstern multipliziert und mit 50 % Überlapp angeordnet Gaussian Mixture Models Da die Gaussian Mixture Models (GMM, dt. Gauß sche Mischverteilungen) im Folgenden für die Klassifikation benutzt werden, soll hier die Grundidee dieser erklärt werden. Diese besteht darin, dass versucht wird, anhand von Trainingsdaten für jede Klasse eine Wahrscheinlichkeitsdichtefunktion zu konstruieren, die aus der Summation mehrerer Normalverteilungen besteht. In Abb. 2.2 ist ein 1-dimensionales Beispiel mit drei Gaußkurven zu sehen. Abbildung 2.2: Wahrscheinlichkeitsdichten einzelner Normalverteilungen (blau) und gemeinsame Wahrscheinlichkeitsdichte (rot)

17 2 Genre-Klassifikation 9 Diese Kombination von J Normalverteilungen mit den Gewichten (auch a priori- Wahrscheinlichkeiten) P j, j = 1, 2,..., J lässt sich schreiben als [TK99]: p(x) = wobei gilt, dass: J p(x j)p j, (2.1) j=1 J P j = 1, und (2.2) j=1 p(x j)dx = 1. (2.3) x x ist hierbei der Merkmalsvektor, dessen Länge der Anzahl der verwendeten Merkmale entspricht. Mit entsprechend großer Anzahl an Normalverteilungen lässt sich somit jede beliebige Wahrscheinlichkeitsverteilung annähern. In Abb. 2.3 (links) sind Punkte einer zweidimensionalen Verteilung aufgetragen. Rechts ist die auf diese Punkte angepasste Wahrscheinlichkeitsdichte abgebildet. Hierfür sind drei Normalverteilungen angepasst worden. Abbildung 2.3: Links: Trainingspunkte im zweidimensionalen Merkmals-Raum, Rechts: Wahrscheinlichkeitsdichte des darauf angepassten GMM s (mit drei Komponenten), wobei rot eine hohe und blau eine niedrige Wahrscheinlichkeit kodiert Die Anpassung erfolgt über den Expectation Maximization-Algorithmus (EM, dt. Erwartungsmaximierung) auf den hier nicht näher eingegangen werden soll, der aber z. B. in [TK99] ausführlich beschrieben ist.

18 2 Genre-Klassifikation 10 Soll nun ein neuer Datenpunkt klassifiziert werden, wird die Wahrscheinlichkeit für jede Klasse berechnet, dass der Punkt aus deren GMM stammt. Der Klasse mit der höchsten Wahrscheinlichkeit wird der Punkt zugeordnet. GMM s haben den Vorteil, dass die Klassifikation eines Datenpunktes recht wenig Rechenzeit in Anspruch nimmt. Dafür kann das Trainieren des GMM s sehr aufwändig sein. Außerdem werden für eine gute Anpassung des Modells im Trainingsprozess große Mengen an Trainingsmaterial benötigt. Sowohl für die Anpassung der GMM, als auch die Klassifikation wird in dieser Arbeit eine Skriptsammlung von Tobias May verwendet, die für viele Funktion auf die Toolbox Netlab von Ian Nebney zugreift. 2.2 Benutzte Merkmale Merkmale (oder Features) sollen die wichtigen Eigenschaften (die aufgabenabhängig sind) der komplexen Wellenform eines Audio-Signals widerspiegeln. Anhand der Werte eines (oder mehrerer) Merkmale soll möglichst gut entschieden werden können, zu welcher Klasse ein Datenpunkt gehört. Dieser Datenpunkt ist ein Merkmalsvektor, der ein Lied repräsentiert. Im Folgenden sollen einige der klassischen Merkmale vorgestellt werden, die für verschiedene Klassifikations-Aufgaben benutzt werden LowLevel-Merkmale Spectral Centroid Der Spectral Centroid (SC) (dt. spektraler Schwerpunkt) charakterisiert ein Spektrum und ist ein Maß dafür, in welchem Frequenzbereich der Großteil der Energie liegt [TC02]. SC = N 1 k=0 X(k)f(k) N 1 k=0 X(k) (2.4)

19 2 Genre-Klassifikation 11 Spectral Rolloff Der Spectral Rolloff (SRO) charakterisiert den Frequenzwert f SR eines Spektrums, unterhalb dessen ein gewisser Prozentsatz der Gesamtenergie des Spektrums liegt (hier 85 %). f SRO k=0 N 1 X(k) = 0.85 k=0 X(k) (2.5) Spectral Flux Der Spectral Flux SF (kurzform für Spectral fluctuation, dt. spektrale Schwankung) beschreibt, wie stark sich das Betragsspektrum von Block m 1 zu Block m verändert. Er berechnet sich aus der euklidischen Distanz zwischen diesen beiden Spektren. SF = N 1 k=0 ( X(m, k) X(m 1, k) ) 2 (2.6) Zero Crossings Der Wert Zero Crossings (ZC) (dt. Nulldurchgänge) gibt an, wie oft ein Signal die Nulldurchgangslinie in einer bestimmten Zeit überquert (wie oft sich das Vorzeichen ändert). Dieser Wert kann ein Indiz dafür sein, wie rauschhaft ein Signal ist; periodische Signale (z. B. gesprochene Vokale) haben eher wenige ZC, rauschhafte Signale eher hohe. MFCC Mel Frequency Cepstral Coefficients MFCC (dt. Mel-Frequenz Cepstral-Koeffizienten) stellen ein kompaktes Kurzzeit-Amplitudenspektrum dar und werden für verschiedene Klassifikationsaufgaben (z. B. in der Sprechererkennung) verwendet. Sie werden berechnet, indem ein Spektrum mit einer Mel-Filterbank gefiltert wird. Die Mittenfrequenzen dieser Filter sind dabei logarithmisch angeordnet (siehe Abb. 2.4). Dies ist der menschlichen Wahrnehmung nachempfunden (siehe [FZ07]). Anschließend werden diese Filterausgänge logarithmiert und über eine Discrete Cosine Transform (DCT, dt. Diskrete Cosinus-Transformation) dekorreliert. Dabei beschreiben die niedrigeren MFCC s eher die Grobstruktur und die höheren MFCC s die Feinstruktur (schnelle Schwankungen) des Spektrums. Da bei der Genre-Klassifikation in erster Linie die grobe Verteilung des Spektrums von Interesse ist, werden die ersten fünf Koeffizienten verwendet. Die MFCC s beschreiben also die spektrale Verteilung,

20 2 Genre-Klassifikation 12 angelehnt an die menschliche Wahrnehmung. Abbildung 2.4: Mel-Filterbank mit 15 Kanälen Im Folgenden sollen die einzelnen Berechnungsschritte dargestellt werden. Von einem Signalabschnitt x[n] mit N Samples wird das Spektrum X(k) über eine Fouriertransformation berechnet X(k) = N 1 n=0 x[n] e i2π k n N, 0 k N 1. (2.7) Dieses wird energetisch mit den Übertragungsfunktionen der einzelnen Filter (zeilenweise in W ) multipliziert um den Ausgang X filt (k) zu erhalten. X filt (k) = W X(k) 2 (2.8) MFCC = DCT (10 log 10 (X filt (k) + eps)) (2.9) Low Energy Mit Low Energy (LE) ist der Anteil aller LowLevel-Blöcke gemeint, deren RMS- Wert unterhalb des Mittelwertes der RMS-Werte aller Blöcke liegt. Dieser Wert lässt Rückschlüsse darüber zu, ob die Energie über das gesamte Stück in etwa gleich bleibt, oder ob sie stark schwankt.

21 2 Genre-Klassifikation 13 Ableitungen von Merkmalen Um zu beobachten, wie stark sich gewisse Eigenschaften zwischen den Blöcken verändern kann, es sinnvoll sein, zusätzlich die Ableitungen mancher Merkmale zu berechnen. Die Ableitung des Merkmals M soll hier als M gekennzeichnet werden. Statistik von Merkmalen Um noch mehr Informationen darüber zu benutzen, wie sich ein Feature über die Zeit verhält, können die Werte mehrerer Blöcke zur Berechnung von statistischen Maßen (Mittelwert, Varianz, Schiefe,... ) herangezogen werden. Hier wird nur die Varianz berechnet, die als VAR(M) geschrieben wird Auf musikalischen Eigenschaften basierende Merkmale Im Folgenden sollen Merkmale berechnet werden, die mehr auf musikalische Aspekte eingehen. Tempobasierte Merkmale Um Merkmale zu extrahieren, die Tempo und Rhythmik der Musik beschreiben, wurde ein Algorithmus nach [TC02] implementiert. Es wird eine Blocklänge gewählt, die nicht zu klein ist, da sonst langsame Tempi nicht erfasst werden könnten (hier ca. 1,5 s). Dieser Block x(n) (siehe Abb. 2.5 a) wird anschließend wie folgt verarbeitet. Lokale Temposchätzung Um eine Einhüllende extrahieren zu können, wird das Signal halbwellengleichgerichtet. x pos [n] = x[n] (2.10) Die Einhüllende wird anschließend per IIR-Tiefpassfilterung berechnet. Dabei ist hier α = x TP [n] = (1 α) x pos [n] + α x TP [n 1] (2.11) Da die hohen Frequenzen herausgefiltert sind, kann das Signal über x U [n] = x TP [U n] (2.12)

22 2 Genre-Klassifikation 14 unterabgetastet werden. Der Faktor U für die Unterabtastung wurde als U = 16 gewählt. Anschließend wird das Signal über x AC [n] = x U [n] x U [n] (2.13) vom Mittelwert befreit. Das Signal nach diesen Schritten ist in Abb. 2.5 b) zu sehen. Über Formel 2.14 wird die Autokorrelationsfunktion C[L] für einen bestimmten Bereich von Verzögerungen L berechnet (Abb. 2.5 b). C[L] = 1 N N x[n] x[n L] (2.14) n=1 Sowohl die Amplitude, als auch der entsprechende Tempo-Wert in BPM der drei Abbildung 2.5: a) Eingangssignal der Tempoerkennung, b) Signal nach den Schritten Halbwellengleichrichtung, TP-Filterung und Unterabtastung, c) Autokorrelationsfunktion von Signal in b) größten Maxima von C[L] pro Block werden abgespeichert. Globale Tempo-Merkmale Anschließend wird ein Histogramm der lokalen Tempi über die gesamte Länge des Liedes berechnet. In dieses fließt jedoch nicht nur die Häufigkeit der Beobachtungen für ein bestimmtes Tempo ein, sondern auch deren Amplituden. Dabei wird nach Tempi von 40 bis 250 BPM gesucht, womit so ziemlich alle auftretenden Tempi abgedeckt sind. In Abb. 2.6 ist ein Beispiel eines solchen Histogramms zu sehen. Das Maximum liegt bei etwa 120 BPM. Dies ist auch das tatsächliche Tempo des Liedes.

23 2 Genre-Klassifikation 15 Deutlich erkennbar sind auch Nebenmaxima bei dem doppelten bzw. halben Tempo (also bei 60 bzw. 240 BPM). Aus diesem Tempo-Histogramm T werden letztendlich Abbildung 2.6: Tempo-Histogramm des Liedes Nirvana - Come as you are. drei Merkmale abgeleitet: das Tempo T max (in BPM) sowie die Amplitude A(T max ) des höchsten Wertes, sowie ein Merkmal T S (Tempostetigkeit), das die Variation des Tempos beschreibt. Dieses wird nach Formel 2.15 berechnet, wobei T die Länge des Histogramms ist. T S = 1 T A(T max) T t=1 T (t) (2.15) Der Wert dieses Merkmals ist groß für Lieder, die eine durchgängige und ausgeprägte rhythmische Struktur haben (z. B. bei Techno). Für Lieder mit vielen Tempowechseln bzw. ohne starke Rhythmik, wie z. B. in der Klassik oft vorkommend, ist er hingegen eher klein. Chromagramm Die bisherigen spektralen Merkmale aus Abschnitt 2.2 beschreiben lediglich die grobe Verteilung der Energie im Spektrum. Zumindest die westliche Musik wird jedoch in Noten verfasst, die in Abständen von 1 12 einer Oktave angeordnet sind. Mehrere gleichzeitig gespielte Noten ergeben einen Akkord. Sowohl in den lokalen Akkorden, als auch insbesondere in der zeitlichen Abfolge dieser stecken Informationen, die die Musik charakterisieren könnten. Zu diesem Zweck soll ein Chromagramm

24 2 Genre-Klassifikation 16 berechnet werden, in dem für jeden Zeitpunkt die Stärke aller zwölf Halbtöne repräsentiert wird. Die Berechnung dieses Chromagrams basiert in großen Teilen auf [vdpmr06]. Lokale Verarbeitung Es werden Blöcke von N = 4096 Samples ( s) verarbeitet. Diese werden von 44.1 khz auf khz unterabgetastet (Unterabtastungsfaktor U = 4) und mit einem Hann-Fenster multipliziert. Von diesem Signal x[n] wird über eine Fouriertransformation das Betragsspektrum X(k) berechnet. Es ergibt sich eine Frequenzauflösung von fs Hz N = 1024 = 10.8 Hz. Aus X(k) wird nach allen Maxima f max und den zugehörigen Amplituden a max gesucht. Allerdings erst ab einem Frequenzbereich, in dem die gegebene Frequenzauflösung hoch genug ist, um zwischen zwei benachbarten Halbtönen unterscheiden zu können. Dies ist ab etwa 110 Hz der Fall. Wie die Schätzung der wahren Frequenz eines Maximums verbessert werden kann, ist in Abschnitt dargestellt. Um lokale Maxima mit sehr geringer Energie nicht zu berücksichtigen, werden nur diejenigen in die Auswertung übernommen, die folgende Bedingung erfüllen: a max! > F D+1 d=d 1 X mel (d), (2.16) wobei F ein Faktor ist (hier 0.1), X mel (d) der d te Ausgang des melgefilterten Spektrums und D die Nummer des Melfilters ist, in den am meisten Energie des Maximums fällt. Es werden also nur Maxima berücksichtigt, die deutlich aus den umliegenden Werten herausragen. Um eine einfachere Auswertung der einzelnen Maxima zu ermöglichen, werden diese alle auf den Bereich einer Oktave (von 260 Hz bis 520 Hz) gebracht. Im letzten Schritt wird jede Frequenz der nächstliegenden musikalischen Note zugeordnet, die in Tab. 2.2 dargestellt sind. Die Frequenz eines Maximums bei f = 730 Hz würde also durch zwei geteilt, womit sich 365 Hz ergeben würden. Der am nächsten liegende Ton wäre dann F mit Hz. Globale Betrachtung des Spektrogramms Es kann nun versucht werden, durch die vorliegenden Informationen über die lokal aufgetretenen Töne, Aussagen über die harmonische Struktur des Musikstückes zu machen. Dafür werden die lokalen Amplituden der einzelnen Töne über alle Blöcke logarithmisch aufaddiert. Dabei wird der Anfang und das Ende jeden Stückes stärker gewichtet als der Mittelteil, da diese oft in der eigentlichen Tonart des Stückes stehen. Es ergibt sich somit ein Vektor C mit zwölf Einträgen, von denen jeder die Häufigkeit und Stärke eines bestimmten Tones (siehe Tab. 2.2) über das gesamte Stück beschreibt.

25 2 Genre-Klassifikation 17 Tabelle 2.2: Den Zahlen zugeordnete Töne und deren Frequenzen. Zahl Note Frequenz [Hz] 1 C C D D E F F G G A A H C Tonale Gleichheit Das Merkmal Tonale Gleichheit (T G) soll beschreiben, ob in einem Stück überwiegend wenige Töne dominieren oder viele verschiedene Töne mit hoher Amplitude vorhanden sind. Dafür wird die Amplitude A des Maximums C max des Chromagrams in das Verhältnis zu dessen Mittelwert gesetzt. T G = 1 12 A(C max) 12 c=1 C(c) (2.17) Außerdem wird die absolute Amplitude des Maximums A(C max ) als Merkmal verwendet. Tonart Anhand des Vektors C kann außerdem versucht werden die Tonart eines Musikstückes zu schätzen. Bei Musik, die über das ganze Stücke in der gleichen Tonart steht, kommt im Allgemeinen die Tonika am häufigsten vor. Zwischen Dur und Moll lässt sich am leichtesten anhand der Terz unterscheiden. Um die Tonart feststellen zu können, wird C einmal mit Ψ Dur und einmal mit Ψ Moll zirkulär gefaltet, wobei Ψ Dur Ψ Moll = [ ] und = [ ] ist. Ist D-Dur die wahre Tonart (und ist auch durch die auftretenden Töne als solche erkennbar) wird die Faltung von C mit Ψ Dur den größten Wert ergeben, und zwar bei einer Verschiebung von zwei. Als Feature wird dann die Zahl, die für den entsprechenden Grundton steht verwendet, sowie eine binäre Variable, die für Dur bzw. Moll steht.

26 2 Genre-Klassifikation 18 Tabelle 2.3: Die benutzten Merkmale für die Genre-Erkennung. Nummer Kürzel Erklärung 1 MFCC1 2 MFCC2 3 MFCC3 4 MFCC4 5 MFCC5 6 ZC Zero Crossings [ 1 s ] 7 VAR(ZC) Varianz von ZC 8 VAR( ZC) Varianz von der Ableitung der ZC 9 RMS Leistung (Root Mean Square) 10 VAR(RMS) Varianz von RMS 11 VAR( RMS) Varianz von der Ableitung des RMS 12 SC Spectral Centroid 13 VAR(SC) Varianz von SC 14 VAR( SC) Varianz von der Ableitung der SC 15 SRO Spectral Rolloff 16 SFL Spectral Flux 17 LE Low Energy 18 A(T max ) Amplitude des stärksten Tempos 19 T max Stärkstes Tempo [BPM] 20 TS Tempostetigkeit 21 A(C max ) Amplitude des stärksten Tones 22 TG Tonale Gleichheit 23 D/M Dur/Moll 24 GT Grundton

27 2 Genre-Klassifikation 19 Verbesserung der Frequenzschätzung Da bei der diskreten Fouriertransformation gilt, dass ähnlich wie bei der Heisenberg schen Unschärferelation eine Verbesserung der Frequenzauflösung zu Lasten der Zeitauflösung geht und anders herum, sind der Frequenzauflösung Grenzen gesetzt. Um bei einer gegebenen erforderlichen Zeitauflösung dennoch eine verbesserte Schätzung der wahren Frequenz eines Maximums zu erlangen, gibt es verschiedene Möglichkeiten, von denen hier zwei erläutert werden sollen. Die einfachste (und ungenaueste) Art der Frequenzschätzung eines Maximums ist f = k f s N fft, (2.18) wobei k der Frequenz-Bin des Maximums ist. Fällt beispielsweise die Frequenz eines Sinustones genau mit der Mittenfrequenz eines Frequenz-Bins zusammen, ist die Schätzung ausnahmsweise richtig. In den allermeisten Fällen wird dies jedoch nicht der Fall sein. Dann ist die wahre Frequenz des Tones nicht gleich der Mittenfrequenz des Frequenz-Bins. Durch eine Interpolation der Werte des Betragsspektrums an den Stellen f u, f m und f o lässt sich die Schätzung deutlich verbessern, wobei f m die Frequenz des Frequenz-Bins mit dem Maximum ist, und f u und f o die Frequenzen der benachbarten Frequenz-Bins sind. Im folgenden soll die quadratische Interpolation genauer betrachtet werden. Dabei wird ein Polynom zweiter Ordnung (siehe Gleichung 2.19) so angepasst, dass es die Werte des Betragsspektrums Y (f u ), Y (f m ) und Y (f o ) (im Folgenden auch Y u, Y m und Y o ) durchläuft. Y (f) = d 2 2 (f f m) 2 + d 1 (f f m ) + d 0 (2.19) d 2 = Y o Y m f o f m Ym Yu f m f u f o f u (2.20) d 1 = Y o Y m f o f m d 2 2 (f o f m ) (2.21) d 0 = Y m (2.22) Die Koeffizienten d 2, d 1 und d 0 können anhand der Steigungen berechnet werden (Gleichungen 2.20 bis 2.22). Diese sind notwendig um die Extremstelle der Interpolationsfunktion zu berechnen. Der Frequenzwert des Maximums lässt sich durch Ableiten und Nullsetzen von der Gleichung 2.19 berechnen.

28 2 Genre-Klassifikation 20 f max = f m d 1 d 2 (2.23) Y max = Y m + d 1 2 (f max f m ) (2.24) In Abb. 2.7 ist ein Beispiel dargestellt. Bei 237 Hz liegt ein Maximum vor. Über die oben beschriebene Schätzung wird ein Polynom 2. Grades an das Maximum und die benachbarten Punkte angepasst (gestrichelte Linie). Anschließend wird das Maximum der Interpolation als neue Schätzung für Amplitude und Frequenz genutzt. Abbildung 2.7: Beispiel zur quadratischen Interpolation: bei 237 Hz ist das ursprünglich detektierte Maximum, mit den benachbarten Werten wird die Interpolation durchgeführt (gestrichelte Linie) und das neue Maximum berechnet (rot). Eine weitere Möglichkeit, die nach hier gemachten Erfahrungen sehr präzise ist, wird in [DCM00] beschrieben. Wenn x[n] das ungefensterte Signal, x [n] das Differenzsignal x [n] = f s (x[n + 1] x[n]), X(k) = DFT(x[n]) das Spektrum von x[n], X (k) = DFT(x [n]) das Spektrum von x [n] und k die Nummer des Frequenz-Bins ist, das das Maximum beinhaltet, lässt sich über f = f ( s 1 π arcsin X ) (k) 2f s X(k) (2.25)

29 2 Genre-Klassifikation 21 Tabelle 2.4: Anzahl und Dauer der Lieder der verschiedenen Klassen. Klasse # Lieder Durchschn. Dauer und Standardabweichung [min] Rock ± 1.32 Klassik ± 3.68 Jazz ± 3.04 Pop ± 1.15 eine sehr gute Schätzung der wahren Frequenz berechnen. Da weiterhin durch die Fensterfunktion nicht die gesamte Energie eines Tones in ein Frequenzband fällt, entspricht der Wert X(k) nicht exakt der wahren Amplitude. Diese kann über a = X(k) W (0) (2.26) berechnet werden, wobei W (0) der Gleichanteil des Spektrums der Fensterfunktion w[n] ist. Diese Art der Schätzung schneidet sowohl bei [DCM00] als auch bei [KM02] sehr gut ab. In den meisten Fällen sind die Abweichungen von echter und geschätzter Frequenz vernachlässigbar klein. Von daher wird sie in dieser Arbeit überall dort verwendet, wo die Frequenz eines Maximums im Spektrum möglichst genau geschätzt werden muss. 2.3 Database Um eine grundsätzliche Aussage über den Nutzen und die Struktur des Klassifikationssystems zu machen sind wenige Klassen ausreichend. Hier sollen fünf der gängigsten Genres verwendet werden: Klassik, Rock, Pop, Jazz und Elektro. Im Folgenden sollen diese Genres kurz erläutert werden. Es wurde darauf geachtet, dass die ausgewählten Lieder möglichst eindeutig einem Genre zugeordnet werden können. Das heißt, dass subjektiv schwierig einzusortierende Lieder vermieden wurden. Um nicht von speziellen Eigenschaften bestimmter Komponisten/Interpreten abhängig zu sein, sind in jedem Genre viele verschiedene Künstler vertreten. Wie in Tabelle 2.4 zu sehen ist, sind pro Klasse 40 bis 128 Musikstücke vorhanden. Die Lieder der Klassen Klassik und Jazz sind im Mittel am längsten, wobei hier auch die Standardabweichung recht groß ist. Die Lieder der Klassen Rock und Pop hingegen sind im Mittel etwa eine Minute kürzer. Außerdem ist hier die Standardabweichung recht gering, was auch zu erwarten war, da die Musik in diesem Bereich häufig auf die Bedürfnisse der Radiosender zugeschnitten ist. In der Klassik hingegen

30 2 Genre-Klassifikation 22 ist die Variabilität der Längen sehr groß, da hier verschiedene Kompositionsformen auftreten: von recht kurzen Menuetten bis zu Sätzen von Sinfonien. 2.4 Ergebnisse Dimensionsreduktion Trägt ein Merkmal nicht oder nur wenig zur Unterscheidung zwischen zwei Klassen bei, so könnte angenommen werden, dass das Einbeziehen dieses Merkmals zwar keinen Nutzen, aber auch keinen Schaden nach sich zieht. Durch den Curse of dimensionality (dt.: Fluch der Dimensionalität) schaden aber solche Merkmale durchaus. Wird ein Histogramm der Merkmalsvektoren angefertigt, bei dem jede Dimension in m Abschnitte unterteilt wird, so ergeben sich daraus m D Unterräume. Liegen z. B Merkmalsvektoren vor, und jede Dimension wird in m = 100 Abschnitte unterteilt, liegen im 1-dimensionalen Fall für jeden Abschnitt im Mittel 100 Werte vor. Schon für D = 3 würden sich allerdings = Unterräume ergeben, die mit den vorhandenen Merkmalsvektoren nur noch sehr grob abgebildet werden können. Von daher ist es sinnvoll, nur Merkmale zu benutzen, die entscheidende Informationen für die Unterscheidung der Klassen enthalten. Es gibt zwei verschiedene Ansätze, die die Dimensionalität verringern. Zum einen gibt es die Merkmalsextraktion, bei der die wichtigen Informationen der Merkmale mittels PCA (Principal Component Analysis) auf weniger neue Merkmale projiziert werden können. Dafür werden Redunanzen zwischen den Merkmalen genutzt. Nachteilig hierbei ist sowohl, dass die Merkmale durch die Transformation ihre physikalische Bedeutung verlieren als auch, dass trotzdem immer alle Merkmale berechnet werden müssen. Dafür lässt sich die Transformation schnell durchführen. Die zweite Möglichkeit ist die Merkmalsselektion. Hier wird eine Teilmenge der verfügbaren Merkmale nach bestimmten Kriterien ausgewählt. Im Folgenden sollen zwei Möglichkeiten zur Merkmalsselektion vorgestellt werden, die im weiteren Verlauf genutzt werden. Merkmalsselektion nach Fisher Bei der Merkmalsselektion nach Fisher wird für jedes Merkmal ein Gewicht W berechnet. In dieses fließen die Distanzen der Klassen ein, sowie die Varianzen der einzelnen Klassen. Wenn M ij der Mittelwert und Var(M ij ) die Varianz der Werte von Merkmal i und Klasse j ist, M i der Mittelwert aller Werte von Merkmal

31 2 Genre-Klassifikation 23 i und p(j) die a priori-wahrscheinlichkeit von Klasse j, dann berechnet sich nach Gleichung 2.27 das Gewicht W (i) für das Merkmal i. W (i) = Cj=1 p(j) (M ij M i ) 2 Cj=1 p(j) Var(M ij ) (2.27) Ein großer Unterschied der Werte eines Merkmals für verschiedene Klassen führt also zu einem hohen Wert von W und eine große Gesamtstreuung eines Merkmals (unabhängig von den Klassen) zu einem niedrigen. Anschließend kann eine beliebige Anzahl von Merkmalen selektiert werden, indem die Merkmale mit den höchsten Werten von W benutzt werden. Der Vorteil dieser Merkmalsselektion ist, dass sie nur einen sehr geringen Rechenaufwand erfordert. Dafür wird aber auch nur jedes Merkmal isoliert betrachtet. Effekte, die durch Kombinationen von Merkmalen entstehen, werden somit nicht berücksichtigt. Greedy Merkmalsselektion Es gibt eine Kombination aller zur Verfügung stehenden Merkmale, die die mit diesen Merkmalen beste erreichbare Klassifikationsrate liefert. Wird diese gesucht, ergeben sich bei einer Gesamtanzahl von F verfügbaren Merkmalen und einer nicht festgelegten Zahl von zu benutzenden Merkmalen K mögliche Kombinationen. K = F p=1 ( ) F p (2.28) Mit F = 20 ergäben sich schon verschiedene Kombinationen der Merkmale. Diese können nicht alle getestet werden. Deswegen soll ein anderer Ansatz gewählt werden, bei dem nicht alle Kombinationen getestet werden, sondern bei dem Schritt für Schritt die besten Merkmale zu einem Merkmalssatz hinzugefügt werden. Dieses Verfahren, welches dem Optimum recht nahe kommen sollte, ist als Pseudocode in Algorithmus 1 dargestellt. Hierbei wird aus allen F Merkmalen zuerst dasjenige gesucht, durch welches die beste Klassifikationsrate erzielt werden kann. In der zweiten Iteration wird jedes der verbleibenden Merkmale M mit dem bereits gewählten Merkmal B kombiniert. Es wird wieder das gewählt, welches die beste Klassifikationsrate in Verbindung mit dem ersten Merkmal erzielt. Dieser Vorgang wird solange wiederholt, bis alle Merkmale einsortiert sind. Auf diese Weise müssen nur F +(F 1) +(F 2) verschiedene Kombinationen berechnet werden. Im Beispiel mit F = 20 würden die damit auf 209 zu berechnende Kombinationen reduziert werden. Allerdings ist auch nicht gewährleistet, dass wirklich die beste Kombination gefunden wird. So würden zwei Merkmale, die alleine jeweils schwach aber im Zusammenspiel miteinander mächtig sind, wohl eher als unbedeu-

32 2 Genre-Klassifikation 24 tend für das Klassifikationsresultat eingestuft. So lassen sich alle Merkmale nach ihrem Beitrag zum Klassifikationsresultat sortieren. Algorithmus 1 Merkmalsselektion 1: M 1 : F Nummern aller Merkmale 2: B [ ] Benutzte Merkmale leer initialisieren 3: for i 1 : F do 4: R length(m) 5: C [ ] 6: for j 1 : R do Schleife über alle verbliebenen Merkmale 7: C(j) KlassRate(B, M(j)) Teste bisherige Merkmale B mit einem 8: neuen 9: end for 10: Idx Index(max(C)) 11: B(i) Idx Wähle das Merkmal, das die Rate maximiert 12: M(Idx) [ ] und lösche es aus den verfügbaren Merkmalen 13: end for Beste Kombination von Merkmalen und Anzahl Gaußverteilungen Ein weiterer Parameter, der sich auf die Klassifikationsrate auswirkt, ist die Anzahl der Gaußverteilungen mit denen die GMM gebildet werden. Um die beste Kombination von Merkmalen und Anzahl der Gaußverteilungen herauszufinden, wird die Greedy Merkmalsselektion für acht verschiedene Anzahlen von Gaußverteilungen getestet. Es werden jeweil 90 % der Merkmalsvektoren (bzw. der Lieder) für das Training und 10 % für das Evaluieren des GMM verwendet. Um die Einflüsse der zufälligen Auswahl der Trainings- und Evaluationsvektoren gering zu halten, werden jeweils 500 Iterationen durchgeführt. Die Ergebnisse sind in Abb. 2.8 dargestellt. Es ist gut zu erkennen, dass die Klassifikationsrate sowohl bei sehr wenigen, als auch bei sehr vielen benutzten Merkmalen schlechter wird. Außerdem fällt auf, dass die Klassifikationsrate bei 13 und 14 benutzten Merkmale ein deutliches Minimum aufweist. Die Anzahl der Gaußverteilungen scheint hingegen kaum einen Einfluss zu haben. Dies liegt vermutlich vor allem daran, dass die Database recht klein ist, und somit für das Training pro Klasse auch nur ca Merkmalsvektoren vorliegen. Bei vielen Gaußverteilungen wird das GMM dann sehr spezifisch auf die Trainingsdaten angepasst. Das Maximum der Klassifikationsrate wird hier bei der Kombination von fünf Gaußverteilungen und 19 benutzten Merkmalen erreicht. Die Reihenfolge der ausgewählten Merkmale für 5 Gaußverteilungen ist in Tab. 2.5 aufgelistet. In Abb. 2.9 ist die Verwechslungsmatrix für diese Kombination (5 Gaußverteilungen, 19 benutzte Merkmale) dargestellt. Es ist gut zu erkennen, dass die Stücke des Genres Klassik sehr zuverlässig klassifiziert werden können. Jazz und Rock werden überwiegend richtig erkannt (70.5 % bzw %), während Pop lediglich zu 44 %

33 2 Genre-Klassifikation 25 Abbildung 2.8: Klassifikationsraten in Abhängigkeit der Anzahl der benutzten Merkmale und der Anzahl der Gaußverteilungen. Tabelle 2.5: Reihenfolge der Merkmale durch die Merkmalsselektion und die zugehörigen Klassifikationsraten. Nummer Bezeichnung Klassifikationsrate 1 VAR(SC) MFCC MFCC GT MFCC VAR( RMS) RMS MFCC TG VAR(RMS) LE D/M ZC TS SFL VAR(ZC) MFCC A(C max ) A(T max ) SRO SC VAR( SC) T max Var( ZC) 68.22

34 2 Genre-Klassifikation 26 korrekt klassifiziert wird. Dies ist nicht allzu überraschend, da manche Popmusik nicht gut von Jazz- oder Rockmusik abzugrenzen ist. Abbildung 2.9: Verwechslungsmatrix der Genre-Klassifikation für 5 Gaußverteilungen und 19 benutzte Merkmale. Für jedes Genre wird zeilenweise dargestellt, wieviel Prozent der Lieder welchem Genre zugeordnet werden Fazit Es wurde gezeigt, dass mit den benutzten Merkmale % der Lieder in das richtige Genre eingeordnet werden können. Dies macht deutlich, dass die Genre- Klassifikation grundsätzlich funktioniert und die benutzten Merkmale musikalische Aspekte widerspiegeln. Besonders die MFCC s scheinen einen großen Einfluss auf die Klassifikation zu haben. Es ließen sich unter Verwendung weiterer Merkmale und/oder anderer Methoden aber auch sicherlich noch bessere Ergebnisse erzielen.

35 3 Spezielle Merkmale für die Gesangserkennung 27 3 Spezielle Merkmale für die Gesangserkennung Die für die Genre-Klassifikation genutzten Merkmale sind eher allgemeiner Natur und sollen in verschiedener Art die lokalen Spektren bzw. deren zeitliche Entwicklung, oder musikalische Parameter wie z. B. das Tempo oder die Tonart beschreiben. Es sollen nun Merkmale entwickelt werden, die bei den konkreten Unterschieden zwischen Gesang und Instrumenten ansetzen. Hierfür werden zuerst die Charakteristika von Gesang untersucht, durch die Gesang von Instrumenten unterschieden werden könnte, mögliche Merkmale genannt und abschließend beschrieben, wie diese extrahiert werden können. 3.1 Eigenschaften von Gesang Zunächst soll die grundlegende Funktionsweise der menschlichen Spracherzeugung beschrieben werden. Auf dieser aufbauend kann anschließend analysiert werden, welche Eigenschaften Gesang ausmachen. Die Erzeugung von Sprache lässt sich im Wesentlichen in drei Schritte unterteilen: die Erzeugung des Luftstromes, das Generieren der Anregungsimpulse und das Filtern durch den Vokaltrakt. Die Lungen stellen einen konstanten Luftstrom bereit, der zu den (geschlossenen) Stimmlippen geführt wird. Für die Erzeugung von stimmhaften Lauten (z. B. æ, u) wird vor den geschlossenen Stimmlippen ein Druck aufgebaut, bis dieser groß genug ist um die Stimmlippen auseinanderzudrücken. Sind sie geöffnet, werden sie durch die erhöhte Strömungsgeschwindigkeit und den dadurch entstehenden Bernoulli- Effekt wieder dazu veranlasst, sich zu schließen [Sun77]. So werden immer nur kurze Druckimpulse erzeugt, die sich mit einer Frequenz von etwa 60 Hz Hz wiederholen. Das dadurch entstehende Spektrum enthält Frequenzkomponenten bei eben dieser Frequenz (auch Grundfrequenz), und allen Vielfachen. Die Amplitude fällt dabei zu höheren Frequenzen mit etwa 12 db pro Oktave ab, wie auch in Abb. 3.1(a) dargestellt ist. Anschließend werden diese Impulse im Vokaltrakt gefiltert. Dieser

36 3 Spezielle Merkmale für die Gesangserkennung 28 kann vereinfacht als eine Röhre mit sich änderndem Querschnitt angesehen werden. Die Stellung von Kehlkopf, Zunge, Kiefer und Lippen beeinflusst dabei die Länge und Form dieses Rohres und damit auch die akustische Wirkung. Je nach Stellung werden verschiedene Frequenzen betont (siehe Abb. 3.1(b)). Diese Frequenzen sind die Resonanzen, oder auch Formanten, des Systems und machen das Unterscheiden verschiedener Laute möglich. Bei der Erzeugung von stimmlosen Lauten sind die Stimmlippen durchgängig geöffnet. Je nach Laut geschieht die Artikulation dann durch turbulente Strömungen (Frikative, z. B. S, Z) oder durch ein plötzliches Entweichen angestauten Druckes (Plosive, z. B. p, k). Nun soll nach der Betrachtung der Sprachproduktion genauer (a) Anregungsspektrum (b) Gefiltertes Spektrum Abbildung 3.1: Schematische Darstellung des Anregungsspektrums und des gefilterten Spektrums (aus: [Sun77]). auf den Gesang eingegangen werden. Ein wesentlicher Unterschied zu Sprache besteht im Verhältnis von stimmhaften zu stimmlosen Lauten: während bei Sprache nach [Kim03] etwa 60% der Zeit mit stimmhaften Lauten gefüllt wird, liegt dieser Anteil bei Gesang bei etwa 90%. Somit würde es für eine Gesangsdetektion ausreichen, sich auf diese Laute zu konzentrieren. Konsonanten wären wohl auch nur sehr schwer von perkussiven Instrumenten zu unterscheiden. Nach [Sun77] ist ein wesentlicher Grund dafür, warum Sänger der klassischen Stilrichtung über ein ganzes Orchester hin zu hören sind, der Gesangs-Formant. Durch eine spezielle Stellung des Vokaltraktes wird bei etwa 2500 Hz bis 3000 Hz ein zusätzlicher Formant erzeugt, der bei normalem Sprechen nicht vorhanden ist. In diesem Bereich ist die Energie der begleitenden Instrumente bereits ziemlich niedrig, sodass der Formant gut hörbar ist, während tiefere Frequenzen des Sängers verdeckt werden. Dies könnte zur Gesangsdetektion in klassischer Musik beitragen. In anderen Stilrichtungen hingegen weisen die Sänger diesen Gesangs-Formanten meist nicht auf, da sie über elektrische Verstärkung verfügen und somit nicht auf ihn angewiesen sind. Außerdem sind oftmals Instrumente vorhanden, die ebenfalls hochfrequente Anteile besitzen, wie z.b. Becken, Snare und Hi-hat. Durch die in moderner Musik sehr dichte spektrale Verteilung würde es somit sehr schwierig, einen eventuell vorhanden Gesangs-Formant

37 3 Spezielle Merkmale für die Gesangserkennung 29 zu detektieren. Außerdem werden bereits Merkmale benutzt, die die spektrale Form beschrieben. In Abb. 3.2(a) ist ein Ausschnitt des romantischen Stückes Mondnacht von Robert (a) Vibrato (b) Frequenzanstieg Abbildung 3.2: Links: Spektrogramm eines Ausschnittes aus dem Stück Mondnacht von Robert Schumann, deutlich zu sehen die Frequenzmodulationen des Gesangs, Rechts: Spektrogramm eines Ausschnittes aus As long as you love me von den Backstreet Boys mit einem Ansteigen der Frequenzen der Teilharmonischen. Schumann als Spektrogramm dargestellt. In diesem Stück besteht die Instrumentalbegleitung aus einem ruhigen Piano. Der Gesang ist in diesem Stück in der Lautstärke sehr dominant, wodurch er in dem Spektrogramm auch gut zu erkennen ist. Hier fällt auf, dass die Teiltöne stark frequenzmoduliert sind. Dabei schwankt die Frequenz eines gehaltenen Tones mit etwa 4 Hz bis 8 Hz. Zwar können auch etliche Musikinstrumente Vibrato produzieren, jedoch tritt dies meist nicht in so starkem Umfang auf. Außerdem kommt es bei Gesang oft zu einem stufenlosen Übergang zwischen den Frequenzen zweier aufeinanderfolgender Töne, wie er in Abb. 3.2(b) zu sehen ist. Bei den meisten Instrumenten hingegen werden die Töne einzeln gespielt. Diese beiden zeitlichen Entwicklungen der Frequenz von Teiltönen könnten also eventuell dazu genutzt werden, um zu entscheiden ob dieser Teilton durch ein Instrument oder durch Gesang erzeugt wurde. Allerdings müsste dafür zum einen der Verlauf der Teiltöne erfasst werden, und zum anderen anschließend durch geeignete Maße beschrieben werden. Diese beiden Schritte sollen in den folgenden Abschnitten erklärt werden. 3.2 Tracking der Verläufe von Teiltönen Um die Tonhöhen von Teiltönen zu tracken, also über die Zeit zu verfolgen, wird ein System angewandt, das in der ersten Stufe lokal in kleinen Fenstern Maxima

38 3 Spezielle Merkmale für die Gesangserkennung 30 im Spektrum detektiert, und in der zweiten Stufe versucht diese über die Zeit zu verfolgen Lokale Maxima-Suche Für die lokale Maxima-Suche wird das einseitige, logarithmierte Betragsspektrum des aktuellen Blocks berechnet. Damit sowohl die zeitliche Auflösung ausreicht um schnelle Frequenzänderungen zu verfolgen, als auch die Frequenzauflösung um kleine Änderungen der Frequenz zu detektieren, wird mit einer Blockgröße von 46.4 ms und einer Schrittweite von 5.8 ms gearbeitet. Dadurch ergibt sich bei einer Abtastfrequenz von f s = 44.1 khz eine Frequenzauflösung von 21.5 Hz. Um zu verhindern, dass Werte als Maximum detektiert werden, die zwar sehr klein, aber größer als die beiden Nachbarwerte sind, wird ein geglättetes Spektrum berechnet, welches als adaptiver Schwellwert benutzt wird. Hier werden die einzelnen durchgeführten Schritte beschrieben. Glättung des Spektrums Um eine geglättete Version des Spektrums Y (k) zu erhalten, wird die Grobstruktur Y smooth (k) nach Formel 3.1 berechnet. 1 O Y smooth (k) = Y (j) H(j), mit (3.1) O U + 1 j=u ( ) k U = round 2 b und (3.2) ( O = round k 2 b). (3.3) Diese bedeutet lediglich, dass der Mittelwert über einen bestimmten mit einer Fensterfunktion H multiplizierten Bereich berechnet wird. U und O sind dabei die untere bzw. obere Grenze dieses Bereiches, die durch den Parameter b, der die Größe des Bereiches angibt, bestimmt werden. Dieser Parameter gibt an, wieviel einer Oktave das Fenster nach unten, sowie nach oben reicht (siehe auch Gl. 3.2 und 3.3). Ist z. B. b = 1 2, wird der Mittelwert über einen Bereich von einer halben Oktave unterhalb des aktuellen Wertes bis einer halben Oktave oberhalb des aktuellen Wertes gebildet. Dies bedeutet, dass das Fenster für höhere Frequenzen immer breiter wird. Für die Fensterfunktion wurde hier ein Hann-Fenster gewählt. Die Breite wurde auf b = 1 3 gesetzt.

39 3 Spezielle Merkmale für die Gesangserkennung 31 Maximumsselektion Anschließend werden alle Maxima aus Y (k) gesucht, die über dem jeweiligen Wert aus Y smooth (k) liegen. Dabei wird nur der Frequenzbereich 90 Hz bis 6 khz berücksichtigt, da unterhalb von 90 Hz die Frequenzauflösung sehr schlecht wird, und über 6 khz nur wenige relevante Anteile von Gesang liegen. Die Frequenzschätzung der Maxima wird auch hier wieder über die Verwendung des differenzierten Signals verbessert (siehe Abschnitt 2.2.2). Abbildung 3.3: Logarithmiertes Betragsspektrum Y (k) (blau), Schwelle Y smooth (k) (rot) und detektierte Maxima (rote Kreuze) Tracking Liegen die Frequenzen und die Amplituden der lokalen Maxima für alle Analyseblöcke innerhalb des Entscheidungsblockes vor, wird im nächsten Schritt versucht diese möglichst sinnvoll über die Zeit miteinander zu verbinden. Wie die Entscheidungsblöcke gebildet werden, wird in Abschnitt erläutert. Das Tracking wurde zu großen Teilen nach [LMR05] implementiert. Der zugrunde liegende Ansatz ist dabei recht simpel: liegt im Block m und bei der Frequenz f (in Hertz) ein Maximum f m vor, so wird im Block m + 1 nach einem Maximum f m+1 gesucht, wobei die Vorraussetzung aus Gleichung 3.4 erfüllt sein muss. f pred m+1 ist dabei eine Schätzung, welche Frequenz für das nächste Maximum wahrscheinlich wäre. Diese Schätzung berechnet sich aus der extrapolierten Steigung zwischen den

40 3 Spezielle Merkmale für die Gesangserkennung 32 Maxima f m 1 und f m. Damit soll die bisherige Entwicklung des Tracks berücksichtigt werden. Da es zu vielen Fehlern kommt, wenn die volle Steigung extrapoliert wird, wird die Schätzung nach Gleichung 3.5 nur mit der halbierten Steigung berechnet. Liegen mehrere Maxima f (i) m+1 im Block m + 1 vor, die maximal f von dieser Schätzung entfernt liegen, so wird jenes mit dem größten Wert der Kostenfunktion ( W f (i) ) ( m+1 gewählt (siehe Formel 3.6). In diese fließen die Amplituden A f (i) ) m+1 der Maxima, sowie die Distanz zu dem vorhergesagten Frequenzwert f pred m+1 ein. f pred m+1 f! m+1 f (3.4) W f pred m+1 = 3 f m f m 1 2 ) ( f (i) ) m+1 = A ( f (i) m+1 (3.5) f (i) m+1 f pred m+1 (3.6) Um zu vermeiden, dass wenige, fehlende Maxima die Bildung eines Tracks verhindern bzw. unterbrechen, werden Geistermaxima eingeführt. Wird im Block m + 1 kein Maxima gefunden, das die Bedingung in Gleichung 3.4 erfüllt, so wird ein Geistermaximum mit der Frequenz der Schätzung f pred m+1 eingefügt. Wird in einem der folgenden Blöcke wieder ein echtes Maximum gefunden, so werden die Geistermaxima durch Interpolation der an die Lücke angrenzenden echten Maxima ersetzt. Bei der maximalen Anzahl der hintereinander zugelassenen Geistermaxima wird zwischen jungen und alten Tracks entschieden. Wird ein Maximum gefunden, welches keinem bestehenden Track zugeordnet werden kann, wird ein neuer Track geöffnet, der als jung markiert wird. Überschreitet die Anzahl der zu diesem Track zugeordneten Maxima die Schwelle N j2a, wird der Track als alt markiert. Für junge Tracks werden maximal N jg hintereinander liegende Geistermaxima zugelassen, und für alte Tracks maximal N ag. Ist der letzte der Analyseblöcke erreicht und alle Maxima wurden einem Track zugeordnet, werden am Ende alle Tracks mit weniger als N min Maxima gelöscht. In Abb. 3.4 (Beispiel 1) ist dargestellt, wie das Abschätzen des Frequenzwertes im nächsten Block funktioniert. Liegt lediglich ein bisheriges Maximum in dem Track vor, so wird dessen Frequenz für die Schätzung f pred verwendet. Ansonsten wird die Hälfte der Steigung verwendet, die zwischen den beiden letzten Maxima zu beobachten ist. Es ist zu erkennen, dass (bei angenommenen gleichen Amplituden) das Maximum gewählt wird, dessen Distanz zu f pred am geringsten ist. In Beispiel 2 ist skizziert, wie bei fehlenden Maxima Geistermaxima mit der Frequenz der Schätzung f pred eingesetzt werden. Werden anschließend wieder Maxima gefunden (der Track wird also fortgesetzt), so werden anstelle der Geistermaxima normale Maxima eingesetzt, deren Frequenz und Amplitude anhand der angrenzenden Maxima interpoliert wird.

41 3 Spezielle Merkmale für die Gesangserkennung 33 Benutzte Maxima Nicht benutzte Maxima Geistermaxima Schätzung f pred Finaler Track >Δf Bsp. 3 Frequenz Bsp. 2 Bsp m-3 m-2 m-1 m m+1 m+2... Blocknummer Abbildung 3.4: Beispiele zum Tracking In Beispiel 3 ist zu erkennen, wie sich der Parameter f auswirkt. Da der Frequenzabstand zwischen den jeweiligen Maxima größer als dieser Wert ist, entstehen zwei getrennte Tracks, deren Lücken mit Geistermaxima und anschließend mit echten Maxima aufgefüllt werden. Die Parameter wurden durch Erprobung wie folgt gewählt: N j2a = 3, N jg = 2, N ag = 5, N min = 10 und f = 60 Hz. In Abb. 3.5 ist ein Beispiel zu sehen. Als x sind die lokalen Maxima eingezeichnet, als durchgehende Linien die aus den Maxima abgeleiteten Tracks. Es ist zu erkennen, dass die deutlich heraustretenden Teiltöne gut erkannt und verfolgt werden. Es kommt allerdings auch zu weniger sinnvollen, zufälligen Tracks. Wie versucht werden kann diese zu vermeiden, soll im nächsten Abschnitt erklärt werden Korrelationsmatrix und Gruppierung von Tracks Bei der vorgestellten Form des Trackings, können Tracks entstehen, deren Ursache keine Teilharmonischen sind, sondern zufällige, sporadisch auftretende Maxima, die miteinander verbunden werden. Um im Folgenden zu verhindern, dass diese Tracks in die Auswertung mit einfließen, werden nur Tracks berücksichtigt, die eine relativ

42 3 Spezielle Merkmale für die Gesangserkennung 34 Abbildung 3.5: Spektrogramm mit den lokalen Maxima und den daraus abgeleiteten Tracks hohe Korrelation mit mindestens einem anderen Track aufweisen. Die Idee dahinter ist, dass sich die einzelnen Teiltöne eines Tones identisch über die Zeit verändern und damit eine hohe Korrelation untereinander besitzen. Dahingegen werden die zufälligen Tracks in den meisten Fällen zu keinem anderen Track stark korreliert sein. Außerdem werden durch diese Korrelationsberechnung auch Tracks aussortiert, die Teilharmonische repräsentieren, deren Grundfrequenz sehr konstant ist. Dies ist durchaus erwünscht, da diese Tracks mit konstanter Frequenz meistens durch Instrumente erzeugt werden, und nur sehr selten durch Gesang. Für jeden Track wird der normierte Kreuzkorrelationskoeffizient r nach Gleichung 3.7 zu allen anderen Tracks im Entscheidungsblock berechnet, wobei x i und y i mit i = 1, 2,..., N die Teile der beiden Tracks T x und T y sind, die sich überlappen. N ist damit die Länge des überlappenden Bereiches. r(x, y) = 1 N Ni=1 (x i x)(y i y) Ni=1 (x i x) 2 N i=1 (y i y) 2 (3.7) Dabei werden nur die Anteile der Tracks berücksichtigt, die sich zeitlich überlappen. Außerdem wird der Korrelationskoeffizient nur für Paare von Tracks berechnet, die sich um mindestens 15 Analyseblöcke überlappen. Für Tracks, die sich nicht ausreichend (oder auch gar nicht) überlappen, wird der Korrelationskoeffizient r = 0 gesetzt. Dies soll verhindern, dass eine zufällige ähnliche Entwicklung über nur wenige Analyseblöcke zu einem hohen Korrelationskoeffizienten führt. Da gilt, dass r(t x, T y ) = r(t y, T x ) und r(t x, T x ) = 1 ist, wird der Koeffizient nur für Track-Kom-

43 3 Spezielle Merkmale für die Gesangserkennung 35 binationen (T x, T y ) mit y > x berechnet. Im Folgenden werden alle Tracks gruppiert, die untereinander eine Korrelation aufweisen, die größer ist als r thresh = 0.9. Dabei muss jeder Track nur mit mindestens einem anderen Track hoch korreliert sein. Es können mehrere Gruppen in einem Entscheidungsblock entstehen. Ist dies der Fall, wird die Gruppe gewählt, die die meisten Tracks beinhaltet. Für die Tracks dieser Gruppe werden dann die Track- Merkmale berechnet, die im nächsten Abschnitt beschrieben werden. In Abb. 3.6(a) sind die detektierten Tracks eines Entscheidungsblockes ohne Gesang eingezeichnet. Da die Teiltöne und damit auch die Tracks kaum Frequenzvariationen beinhalten, fällt die Korrelation zwischen den Tracks gering aus. Somit wird keine Gruppe gebildet. In Abb. 3.6(b) ist dagegen ein Entscheidungsblock mit Gesang dargestellt. Hier ist gut zu erkennen, dass die Teiltöne und damit auch die Tracks deutliche Frequenzvariationen aufweisen und sehr ähnlich verlaufen. Dadurch ist auch die Korrelation zwischen den Tracks relativ hoch, und es werden viele von ihnen zu einer Gruppe zusammengefasst. (a) Abschnitt ohne Gesang (b) Abschnitt mit Gesang Abbildung 3.6: Spektrogramme, alle detektierten Tracks (dünne Linien) und die Tracks, die zur Merkmalsberechnung genutzt werden (dicke Linien) für zwei beispielhafte Entscheidungsblöcke Durch diese Gruppierung werden im optimalen Fall die Teiltöne der dominanten Quelle bzw. der Quelle, die starke Frequenzvariationen aufweist, von den übrigen Bestandteilen der Musik getrennt. Dadurch soll versucht werden, die Quelle getrennt zu betrachten. Die meisten klassischen Merkmale hingegen beschreiben immer das komplette Spektrum oder Signal. 3.3 Merkmalsberechnung Liegen die Tracks vor, die zu der größten Gruppe gehören, sollen von diesen Merkmale berechnet werden, die die zeitlichen Frequenzvariationen beschreiben. Dafür

44 3 Spezielle Merkmale für die Gesangserkennung 36 sollen zum einen Merkmale entwickelt werden, die die relative Spanne der vorkommenden Frequenzen beschreiben, aber auch welche, die die Geschwindigkeit der Frequenzänderungen beschreiben. Diese Merkmale werden in den nächsten Abschnitten erläutert Die Tracks beschreibende Merkmale Standardabweichung Als Maß dafür, wie stark ein Track T x in seiner Frequenz variiert, wird die Standardabweichung σ(t x ) der Frequenzwerte der Maxima berechnet. Da höherfrequente Harmonische eines Tones absolut gesehen stärker in ihrer Frequenz schwanken als niederfrequente Harmonische des gleichen Tones, wird die berechnete Standardabweichung noch über den Mittelwert des Tracks normalisiert. ST D(T x ) = σ(t x) T x (3.8) Frequenzbereich Ein ähnliches Maß ist der Frequenzbereich, der die absolute Spanne der vorkommenden Frequenzen beschreibt. Auch hier wird wieder über den Mittelwert des Tracks normalisiert. F B(T x ) = max T x min T x T x (3.9) Mittlere Steigung Um zu erfassen, wie schnell und stark sich die Frequenz eines Tracks ändert, wird zusätzlich die mittlere Ableitung über die gesamte Länge des Tracks berechnet, wobei N die Länge des Tracks ist. Auch dieser Wert wird wieder über den Mittelwert des Tracks normalisiert. DEV (T x ) = 1 T x 1 N 1 N T x (n) T x (n 1) (3.10) n=2 Modulationsfrequenz Um die Art der zeitlichen Frequenzschwankungen zu beschreiben, wird die diskrete Fouriertransformation (DFT) des Tracks berechnet. Als Merkmale werden die

45 3 Spezielle Merkmale für die Gesangserkennung 37 Tabelle 3.1: Die Merkmale der Gruppen ST D(G) F B(G) DEV (G) M F (G) AMF (G) N RT (G) Standardabweichung Frequenzbereich Mittlere Steigung Modulationsfrequenz mit größter Amplitude Amplitude von MF (G) Anzahl Tracks Modulationsfrequenz MF (T x ) mit der höchsten spektralen Leistung, sowie die Amplitude AMF (T x ) von dieser genutzt. Das Spektrum wird dabei auf die Länge des Tracks normalisiert Mitteln der Track-Merkmale einer Gruppe Diese Merkmale werden für alle Tracks berechnet, die zu der größten Gruppe gehören. Um trotzdem für jede Gruppe nur einen Merkmalsvektor zu erhalten, werden die Merkmale der Tracks gemittelt. Wenn A (T x (m)) die Amplitude des Tracks x im Block m, N Tx die Länge des Tracks und N G die Anzahl der Tracks in der Gruppe ist, werden die Merkmale nach Gleichung 3.11 gemittelt. M(G) soll dabei ein beliebiges Merkmal der gesamten Gruppe sein, und M(T x ) das gleiche Merkmal eines einzelnen Tracks T x. M(G) = A(T x ) = 1 N Tx NG x=1 M(T x) A(T x ) K NG x=1 A(T x) K (3.11) N Tx m=1 A (T x (m)) (3.12) Die Merkmale von Tracks mit hoher mittlerer Amplitude werden also stärker berücksichtigt, als die von Tracks mit eher geringer mittlerer Amplitude. Durch den Exponenten K 1 wird dabei eine Komprimierung erreicht. Dadurch werden höhere Amplituden nicht so stark gewichtet, wie es bei einer linearen Gewichtung (K = 1) der Fall wäre. Somit werden die oben aufgeführten Merkmale der Tracks auf Merkmale der Gruppe abgebildet, welche in Tabelle 3.1 zusammengefasst sind. Es wurde K = 0.2 gesetzt. Als zusätzliches Merkmal wird noch die Anzahl NRT (G) der in der Gruppe vertetenen Tracks benutzt. Ist in einem Entscheidungsblock kein Track mit einem anderen stark korreliert und ist damit auch keine Gruppe vorhanden, werden diese sechs Merkmale gleich Null gesetzt. Inwiefern die einzelnen Merkmale zu der Erkennung von Gesang beitragen, wird in Kapitel 5 evaluiert.

46 4 Database 38 4 Database Um eine Aussage machen zu können, wie gut eine Gesangsdetektion funktioniert, müssen Musikstücke vorhanden sein, die als Trainings- und Testmaterial benutzt werden können. In diesem Kapitel soll erläutert werden, nach welchen Kriterien diese Musikstücke ausgewählt wurden und wie die manuelle Annotation erzeugt wurde, die als wahre Referenz bei den späteren Klassifikationsexperimenten dienen soll. 4.1 Beschreibung der Database Da die Gesangsdetektion für die am meisten verbreiteten Musikrichtung der westlichen Welt funktionieren soll, sollten im Trainingsmaterial auch diese Stile vertreten sein. Im Anhang auf Seite ii sind alle annotierten und in den späteren Evaluationen verwendeten Musikstücke aufgeführt. Diese sind alle von unterschiedlichen Künstlern. Dies soll verhindern, dass das System eventuell auf spezielle Eigenschaften einer bestimmten Stimme trainiert wird. Allerdings sei gesagt, dass in allen Stücken nur normaler Gesang enthalten ist, also keine geschrienen, gegrunzten oder experimentellen Passagen. In 31 der Lieder sind ausschließlich männliche, in 14 Liedern ausschließlich weibliche und in zwei Liedern sowohl männliche als auch weibliche Stimmen enthalten. Weiterhin sind die Stücke aus verschiedenen Genres, wie z. B. Klassik, Pop, Rock, HipHop, Jazz oder Metal. Die Einordnung der Lieder in diese Genres erfolgte auf subjektiver Basis. Demnach sind 16 Lieder aus dem Genre Pop, 13 aus Rock, fünf aus Metal, jeweils drei aus Jazz, Blues und Klassik, zwei aus Folk und jeweils eins aus den Genres HipHop und Musical. Auch wenn hier ein deutlicher Schwerpunkt auf den Genres Rock und Pop liegt, kann sichergestellt werden, dass die Modelle nicht auf ein bestimmtes Genre abgestimmt werden, sondern die gängigen Musik- und Gesangsstile der westlichen Welt repräsentieren. 4.2 Manuelle Annotation Um später eine Aussage machen zu können, ob ein Entscheidungsblock (siehe Abschnitt 5.1.1) der richtigen Klasse zugeordnet wurde, muss eine wahre Referenz vorliegen. Diese wurde mit Hilfe der freien Software Praat: doing phonetics by computer (Version: ) erstellt, die von Paul Boersma und David Weenink entwickelt

47 4 Database 39 wurde. In Abb. 4.1 ist die Software zu sehen. Es ist mit ihr möglich, verhältnismäßig schnell die Abschnitte zu annotieren. Abgespeichert wird eine Datei, in der für jedes Segment die Anfangs- und Endzeit, sowie die Annotation (hier voc ) enthalten ist. Sehr kurze Pausen (< 0.3 s) zwischen zwei Abschnitten mit Gesang wurden nicht Abbildung 4.1: Kennzeichnen der Gesang beinhaltenden Segmente mit Praat. berücksichtigt. Hier würde auch der Mensch eine durchgehende Gesangslinie erkennen. Es soll noch angemerkt werden, dass es keine absolut richtige Annotation gibt, da die Grenzen eines vokalen Abschnittes zum Teil durch langsam ein- oder ausgeblendeten Gesang nicht eindeutig festzulegen sind. 4.3 Betrachtung Wird die Gesamtlänge aller instrumentalen Abschnitte betrachtet, ergibt sich eine Gesamtlänge von Minuten. Die Gesamtlänge der Abschnitte, die Gesang beinhalten, beträgt Minuten. Damit sollte für beide Klassen eine genügend große Menge an Trainingsmaterial vorliegen. In Abb. 4.2 sind die Längen der instrumentalen Abschnitte, und der Abschnitte mit Gesang in zwei Histogrammen visualisiert. Die grundsätzliche Form ist ähnlich, allerdings gibt es deutlich mehr Abschnitte mit Gesang, die über zehn Sekunden lang sind. Entscheidend sind aber vielmehr die kurzen Segmente. Hier fällt auf, dass in beiden Histogrammen nur ein sehr kleiner Anteil der Segmente kürzer als etwa eine halbe Sekunde ist. Da die meisten Entscheidungsblöcke (siehe Abschnitt 5.1.1) auf deren Basis die Klassifikation getroffen

48 4 Database 40 werden soll, eine ähnliche Länge aufweisen, bzw. sogar kürzer sind, ist somit eine genügend hohe Auflösung gegeben. (a) ohne Gesang (b) mit Gesang Abbildung 4.2: Histogramme der Segmentlängen für Segmente ohne (links), und mit Gesang (rechts)

49 5 Evaluation 41 5 Evaluation In diesem Kapitel soll die Leistung der Gesangsdetektion genauer untersucht werden. Dafür soll zu Beginn das Merkmalsextraktions- und Klassifikationssystem im Detail beschrieben werden. Im Anschluss folgen einige Experimente um zu überprüfen ob, und wenn ja, in welchem Umfang die entwickelten Track-Merkmale zu einer Verbesserung der Gesangsdetektion beitragen. Sowohl die Extraktion der Merkmale als auch die Klassifikation wurden mit der Software Matlab (Version: 7.9.0) durchgeführt. 5.1 Extraktionssystem In diesem Abschnitt soll beschrieben werden, wie die Grenzen der Blöcke, für die eine Entscheidung getroffen werden soll, berechnet, und wie die verschiedenen Merkmale extrahiert werden Unterteilung in Entscheidungsblöcke Da die Gesangsdetektion eine Entscheidung ist, die vom Zeitpunkt im jeweiligen Musikstück abhängig ist, müssen zeitliche Abschnitte definiert werden für die dann die Entscheidung getroffen werden kann. Dies kann über feste Blöcke geschehen. Diese weisen allerdings den Nachteil auf, dass deren Grenzen nicht von dem musikalischen Inhalt abhängig sind. Dadurch könnte die erste Hälfte eines Blockes ausschließlich instrumental sein, und in der zweiten Hälfte setzt Gesang ein. Dies würde die Klassifikation erschweren. Um dies so weit wie möglich zu verhindern, soll ein Ansatz nach [LW07] implementiert werden. In diesem werden Blöcke variabler Länge verwendet. Die Grenzen dieser werden so gewählt, dass sie mit Zeitpunkten hoher spektraler Veränderung zusammenfallen. Dies geschieht aus der Annahme heraus, dass sich am Beginn oder Ende eines Gesangsabschnittes die spektrale Verteilung relativ stark ändert. Im ersten Schritt wird für ein komplettes Musikstück der Spectral Flux SF(m) (siehe Seite 11) mit einer hohen zeitlichen Auflösung (Blocklänge von 0,0116 s und nicht überlappende Fenster) berechnet, wobei m der Blockindex ist. Anschließend werden alle Maxima SF(m) markiert, die größer als C Median(SF(t)) sind, wobei

50 5 Evaluation 42 m H t m + H und C ein konstanter Faktor ist. Dies ist in Abb. 5.1 (oben) dargestellt. H gibt folglich nur an, über welchen Bereich (oder über wieviele Blöcke) der Median gebildet wird. Um zu kurze Entscheidungsblöcke zu vermeiden, werden im nächsten Schritt nur Maxima beibehalten, in deren Umgebung ±T min es kein höheres Maximum gibt (siehe Abb. 5.1 unten). Somit werden immer die Zeitpunkte mit der größten spektralen Änderung als Beginn eines neuen Entscheidungsblockes gewählt. Für die Parameter wurden Werte von C = 1.5, H = 40 Blöcke Abbildung 5.1: Oben: in blau der Spectral Flux eines Musikausschnittes, in rot die vorläufigen Maxima und der auf dem Median basierende Schwellwert. Unten: die am Ende zur Blockbildung genutzten Maxima. und T min = 0.2 s verwendet. In Abb. 5.2 ist an einem Spektrogramm eines Musikausschnittes zu erkennen, dass die Blockgrenzen (schwarze vertikale Linien) recht gut mit der musikalischen Struktur übereinstimmen. In Abb. 5.3 ist ein Histogramm der Längen der Entscheidungsblöcke aller 47 Musikstücke zu sehen. Wie zu erwarten, sind alle Entscheidungsblöcke länger als T min = 0.2 s. Außerdem ist ein Großteil der Blöcke kürzer als 0.5 s, was eine genügend hohe zeitliche Auflösung bedeutet, da die meisten instrumentalen bzw. vokalen Segmente, wie in Abschnitt 4.3 gezeigt wurde, länger als 0.5 s sind Berechnung der Merkmale Anschließend müssen die verschiedenen Merkmale für jeden dieser unterschiedlich langen Entscheidungsblöcke berechnet werden. Für diese Berechnung werden Analyseblöcke der Länge s verwendet, die sich zu 87.5 % überlappen. Für jeden

51 5 Evaluation 43 Abbildung 5.2: Spektrogramm eines Ausschnittes aus dem Lied Losing my Religion von R.E.M. mit einer Analyseblocklänge von s und einem Überlapp von 87.5%, in schwarz die Grenzen der zu klassifizierenden Blöcke. Abbildung 5.3: Histogramm der Längen der Entscheidungsblöcke.

52 5 Evaluation 44 dieser Analyseblöcke werden die MFCC, die LMSC (Logarithm Mel Spectrogram Coefficients) und die weiteren spektralen Merkmalen (Spectral Centroid, Spectral Rolloff, Spectral Flux) berechnet. Von diesen Werten wird für jeden Entscheidungsblock der Mittelwert als Merkmal abgespeichert. Zusammengenommen sind dies 33 Merkmale (15 MFCC, 15 LMSC, 3 spektrale Merkmale). Die Berechnung der LMSC ist dabei identisch mit der der MFCC, nur wird die abschließende diskrete Cosinus- Transformation ausgelassen. Außerdem werden die Track-Merkmale berechnet. Dazu werden wie in Abschnitt 3.2 beschrieben, die Tracks extrahiert. Von derjenigen Gruppe mit den meisten Tracks werden anschließend die Track-Merkmale gemittelt. Diese repräsentieren dann die sechs Track-Merkmale des Entscheidungsblockes. Sind in einem Entscheidungsblock keine Tracks miteinander korreliert, es also auch keine Gruppe gibt, werden diese Track-Merkmale gleich Null gesetzt. 5.2 Training und Testen In diesem Abschnitt soll erläutert werden, wie das Klassifikationssystem evaluiert werden kann. In Abb. 5.4 ist der grundlegende Ablauf dargestellt, nach dem der Klassifikator trainiert und anschließend getestet wird Trainieren der GMM Um das System entscheiden zu lassen, ob in einem Entscheidungsblock Gesang vorhanden ist oder nicht, müssen zuvor die Modelle für diese beiden Klassen trainiert werden. Hierfür werden die Merkmalsvektoren von 46 der 47 Musikstücken verwendet. Nach der Unterteilung ergeben sich gut Entscheidungsblöcke. Da über alle Lieder gemittelt die instrumentalen Passagen 39 % der Gesamtzeit, und damit die vokalen 61 %, ausmachen, liegen etwa bzw. etwa Merkmalsvektoren vor. An diese werden die Mischverteilungen für die beiden Klassen bestmöglich angepasst Testen der Klassifikation Die Merkmalsvektoren der Entscheidungsblöcke des nicht für das Training verwendeten Musikstückes werden schließlich benutzt, um das trainierte Modell zu testen. Für jeden Entscheidungsblock z werden die Wahrscheinlichkeiten P (M(z) = C I ) (für die Klasse Instrumental) und P (M(z) = C G ) (für die Klasse Gesang) berechnet, dass

53 5 Evaluation 45 Datenbank mit Musikstücken Trainingsstücke Teststücke Partitionierung Partitionierung Merkmale und Gruppierung der Tracks Merkmale und Gruppierung der Tracks Klassische Merkmale Nein Track- Merkmale = 0 Gruppe enthalten? Ja Mitteln der Track- Merkmale Ja Mitteln der Track- Merkmale Gruppe enthalten? Nein Track- Merkmale = 0 Klassische Merkmale Trainiere GMM Lokale Wahrscheinlichkeiten GMM Manuelle Annotation Geglättete Entscheidung Klassifikationsrate Abbildung 5.4: Ablaufplan der Evaluation des Klassifikationssystems, in grün sind Eingangs- und in rot Ausgabewerte markiert.

54 5 Evaluation 46 der Merkmalsvektor M(z) aus der jeweiligen Mischverteilung erzeugt wurde. Die einfachste Art um ausgehend von diesen Wahrscheinlichkeiten zu einer Entscheidung E(z) für jeden Block zu kommen wäre die nach Gleichung 5.1, wobei I und G für die Entscheidungen Instrumental bzw. Gesang stehen. I wenn P (M(z) = C I ) > P (M(z) = C G ), E(z) = (5.1) G wenn P (M(z) = C G ) > P (M(z) = C I ). Es würde also für jeden Entscheidungsblock nur die Informationen des aktuellen Blockes genutzt. Dadurch kann es jedoch zu schnellen Schwankungen der Entscheidung kommen. Zuverlässiger wird die Entscheidung, wenn zusätzlich die Wahrscheinlichkeiten der benachbarten Entscheidungsblöcke genutzt werden. Dies wird erreicht, indem soviele umliegenden Blöcke mit einbezogen werden, dass eine Gesamtlänge von zwei Sekunden erreicht wird. Die Wahrscheinlichkeiten dieser Blöcke könnten nun miteinander multipliziert werden. Bei den sehr kleinen Werten könnte es dabei aber zu numerischen Ungenauigkeiten kommen. Deswegen werden sie erst logarithmiert und anschließend aufaddiert. Die Entscheidung wird dann nach Gleichung 5.2 über den direkten Vergleich dieser aufaddierten Wahrscheinlichkeit getroffen, wobei Z für die Entscheidungsblöcke steht, die innerhalb dieser zwei Sekunden liegen. I wenn i Z E(z) = log (P (M(i) = C I)) > i Z log (P (M(i) = C G)), G wenn i Z log (P (M(i) = C G)) > (5.2) i Z log (P (M(i) = C I)). In Abb. 5.5 sind für fünf beispielhaft ausgewählte Lieder die Zeitpunkte dargestellt, zu denen Gesang detektiert worden ist. Es ist gut zu erkennen, dass es durch die einfache Entscheidungsvorschrift ( Ohne Glättung ) zu vielen Wechseln der Entscheidung zwischen den beiden Klassen kommt. Durch die Entscheidungsvorschrift, die die Wahrscheinlichkeiten von mehreren Blöcken berücksichtigt ( Mit Glättung ) wird diese Entscheidung verlässlicher. Es ist auch zu erkennen, dass die Klassifikationsrate des Systems stark von dem Lied abhängig ist, auf welches getestet wird. So wird der Gesang in den Liedern in den Abbildungen 5.5(a) bis 5.5(d) recht gut erkannt, wohingegen in Abb. 5.5(e) deutlich wird, dass hier die Klassifikationsrate kaum oberhalb der Ratewahrscheinlichkeit von 50 % liegt. Für diese Abbildungen wurden die optimalen Parameter benutzt, die in Abschnitt 5.3 optimiert werden. Die Raten für alle Lieder sind der Tabelle A.1 zu entnehmen.

55 5 Evaluation 47 (a) Jewel - Standing Still (89.59 %) (b) Hoodys - Judgement Day (86.6 %) (c) Stratovarius - Falling Star (85.02 %) (d) Kings of Leon - Beach Side (70.1 %) (e) Haydn - Il pensier sta negli ogetti (51.41 %) Abbildung 5.5: Die Zeitpunkte, zu denen mittels Gl. 5.1 Gesang detektiert wird, sind blau, und die, zu denen nach Gl. 5.2 Gesang detektiert wird, schwarz markiert. In rot sind die Zeitpunkte nach der Annotation dargestellt. In Klammern ist jeweils die Klassifikationsrate (Richtig erkannte Blöcke durch Gesamtanzahl Blöcke) für das jeweilige Lied bei Verwendung der Entscheidung Mit Glättung angegeben.

56 5 Evaluation Evaluation der Merkmale Anzahl der Gaußverteilungen Die Anzahl der für die Klassifikation benutzten Gaußverteilungen kann einen großen Einfluss auf die Klassifikationsrate haben. Bei zu wenigen Verteilungen kann evtl. die wahre Form der Verteilung nicht detailliert genug wiedergegeben werden, und es gehen wichtige Informationen verloren. Andererseits kann es bei zu vielen benutzten Gaußverteilungen zu einer zu genauen Anpassung der Verteilung an die Trainingsdaten kommen, zu einer sogenannten Überanpassung. Da noch nicht geklärt ist, wie viele Merkmale letztendlich benutzt werden, wird im Folgenden die Klassifikationsrate für verschiedene Kombinationen aus Anzahl der Gaußverteilungen und Anzahl der benutzten Merkmale berechnet, um die optimale Anzahl der Gaußverteilungen festzustellen. Dafür wurden 1 bis 50 Gaußverteilungen und die 7 bis 39 nach Fisher (siehe Abschnitt 2.4.1) wichtigsten Merkmale kombiniert. Es wurde hier die Merkmalsselektion nach Fisher gewählt, um den Rechenaufwand nicht zu groß werden zu lassen. Die erhaltenen Ergebnisse sind in Abb. 5.6 dargestellt. Es ist zu erkennen, Abbildung 5.6: Klassifikationsraten für verschiedene Kombinationen der Anzahl der Gaußverteilungen und der Anzahl der benutzten Merkmale (ausgewählt nach Fisher). dass die Rate mit zunehmender Anzahl von Gaußverteilungen etwas ansteigt, um ab einer Anzahl von 40 wieder recht stark abzufallen. Bei der Anzahl der benutzten Merkmale ist ebenfalls zu beobachten, dass die Rate zu sehr kleinen und sehr großen Werten abfällt. Die besten Ergebnisse werden mit 40 Gaußverteilungen und

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Physik & Musik. Stimmgabeln. 1 Auftrag

Physik & Musik. Stimmgabeln. 1 Auftrag Physik & Musik 5 Stimmgabeln 1 Auftrag Physik & Musik Stimmgabeln Seite 1 Stimmgabeln Bearbeitungszeit: 30 Minuten Sozialform: Einzel- oder Partnerarbeit Voraussetzung: Posten 1: "Wie funktioniert ein

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen Abfragen lassen sich längst nicht nur dazu benutzen, die gewünschten Felder oder Datensätze einer oder mehrerer Tabellen darzustellen. Sie können Daten auch nach bestimmten Kriterien zu Gruppen zusammenfassen

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Wie optimiert man die Werbungserkennung von Ad- Detective?

Wie optimiert man die Werbungserkennung von Ad- Detective? Wie optimiert man die Werbungserkennung von Ad- Detective? Die Ad-Detective-Werbe-Erkennung von VideiReDo basiert auf der Erkennung von Schwarzwerten / scharzen Bildern, die die Werbeblöcke abgrenzen.

Mehr

EINFACHES HAUSHALT- KASSABUCH

EINFACHES HAUSHALT- KASSABUCH EINFACHES HAUSHALT- KASSABUCH Arbeiten mit Excel Wir erstellen ein einfaches Kassabuch zur Führung einer Haushalts- oder Portokasse Roland Liebing, im November 2012 Eine einfache Haushalt-Buchhaltung (Kassabuch)

Mehr

Modulationsanalyse. Amplitudenmodulation

Modulationsanalyse. Amplitudenmodulation 10/13 Die liefert Spektren der Einhüllenden von Teilbändern des analysierten Signals. Der Anwender kann damit Amplitudenmodulationen mit ihrer Frequenz, ihrer Stärke und ihrem zeitlichen Verlauf erkennen.

Mehr

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT) Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT) Ziele In diesem Versuch lernen Sie zwei Anwendungen der Diskreten Fourier-Transformation in der Realisierung als recheneffiziente schnelle

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Objektorientierte Programmierung für Anfänger am Beispiel PHP Objektorientierte Programmierung für Anfänger am Beispiel PHP Johannes Mittendorfer http://jmittendorfer.hostingsociety.com 19. August 2012 Abstract Dieses Dokument soll die Vorteile der objektorientierten

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

AUTOMATISIERTE HANDELSSYSTEME

AUTOMATISIERTE HANDELSSYSTEME UweGresser Stefan Listing AUTOMATISIERTE HANDELSSYSTEME Erfolgreich investieren mit Gresser K9 FinanzBuch Verlag 1 Einsatz des automatisierten Handelssystems Gresser K9 im Portfoliomanagement Portfoliotheorie

Mehr

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten bedingten Wahrscheinlichkeit. Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

Simulation LIF5000. Abbildung 1

Simulation LIF5000. Abbildung 1 Simulation LIF5000 Abbildung 1 Zur Simulation von analogen Schaltungen verwende ich Ltspice/SwitcherCAD III. Dieses Programm ist sehr leistungsfähig und wenn man weis wie, dann kann man damit fast alles

Mehr

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Gert Zöller Übungsklausur Hilfsmittel: Taschenrechner, Formblatt mit Formeln. Lösungswege sind stets anzugeben. Die alleinige Angabe eines

Mehr

(1) Problemstellung. (2) Kalman Filter

(1) Problemstellung. (2) Kalman Filter Inhaltsverzeichnis (1) Problemstellung...2 (2) Kalman Filter...2 Funktionsweise... 2 Gleichungen im mehrdimensionalen Fall...3 Schätzung des Systemzustands...3 Vermuteter Schätzfehler... 3 Aktualisierung

Mehr

EasyWk DAS Schwimmwettkampfprogramm

EasyWk DAS Schwimmwettkampfprogramm EasyWk DAS Schwimmwettkampfprogramm Arbeiten mit OMEGA ARES 21 EasyWk - DAS Schwimmwettkampfprogramm 1 Einleitung Diese Präsentation dient zur Darstellung der Zusammenarbeit zwischen EasyWk und der Zeitmessanlage

Mehr

Grundfunktionen und Bedienung

Grundfunktionen und Bedienung Kapitel 13 Mit der App Health ist eine neue Anwendung in ios 8 enthalten, die von vorangegangenen Betriebssystemen bislang nicht geboten wurde. Health fungiert dabei als Aggregator für die Daten von Fitness-

Mehr

Messtechnik-Praktikum. Spektrumanalyse. Silvio Fuchs & Simon Stützer. c) Berechnen Sie mit FFT (z.b. ORIGIN) das entsprechende Frequenzspektrum.

Messtechnik-Praktikum. Spektrumanalyse. Silvio Fuchs & Simon Stützer. c) Berechnen Sie mit FFT (z.b. ORIGIN) das entsprechende Frequenzspektrum. Messtechnik-Praktikum 10.06.08 Spektrumanalyse Silvio Fuchs & Simon Stützer 1 Augabenstellung 1. a) Bauen Sie die Schaltung für eine Einweggleichrichtung entsprechend Abbildung 1 auf. Benutzen Sie dazu

Mehr

personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014

personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014 personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014 Anleitung und Informationzur Handhabung ab personal.net Version 14.0.0 (ab heim.net Version 2.3.0.0) Domis Consulting AG, 6246 Altishofen personal

Mehr

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut Von Susanne Göbel und Josef Ströbl Die Ideen der Persönlichen Zukunftsplanung stammen aus Nordamerika. Dort werden Zukunftsplanungen schon

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

Programm 4: Arbeiten mit thematischen Karten

Programm 4: Arbeiten mit thematischen Karten : Arbeiten mit thematischen Karten A) Anteil der ausländischen Wohnbevölkerung an der Wohnbevölkerung insgesamt 2001 in Prozent 1. Inhaltliche und kartographische Beschreibung - Originalkarte Bei dieser

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Projekt 2HEA 2005/06 Formelzettel Elektrotechnik

Projekt 2HEA 2005/06 Formelzettel Elektrotechnik Projekt 2HEA 2005/06 Formelzettel Elektrotechnik Teilübung: Kondensator im Wechselspannunskreis Gruppenteilnehmer: Jakic, Topka Abgabedatum: 24.02.2006 Jakic, Topka Inhaltsverzeichnis 2HEA INHALTSVERZEICHNIS

Mehr

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was

Mehr

Der Kalender im ipad

Der Kalender im ipad Der Kalender im ipad Wir haben im ipad, dem ipod Touch und dem iphone, sowie auf dem PC in der Cloud einen Kalender. Die App ist voreingestellt, man braucht sie nicht laden. So macht es das ipad leicht,

Mehr

Grundlagen der Videotechnik. Redundanz

Grundlagen der Videotechnik. Redundanz Grundlagen der Videotechnik Redundanz Redundanz beruht auf: - statistischen Abhängigkeiten im Signal, - Information, die vorher schon gesendet wurde - generell eine Art Gedächtnis im Signal Beispiel: Ein

Mehr

Microsoft Access 2013 Navigationsformular (Musterlösung)

Microsoft Access 2013 Navigationsformular (Musterlösung) Hochschulrechenzentrum Justus-Liebig-Universität Gießen Microsoft Access 2013 Navigationsformular (Musterlösung) Musterlösung zum Navigationsformular (Access 2013) Seite 1 von 5 Inhaltsverzeichnis Vorbemerkung...

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Online Schulung Anmerkungen zur Durchführung

Online Schulung Anmerkungen zur Durchführung Online Schulung Anmerkungen zur Durchführung 1.0 Einleitung Vielen Dank, dass Sie sich für die Online Schulung von SoloProtect entschieden haben. Nachfolgend finden Sie Informationen für Identicomnutzer

Mehr

Einführung in. Logische Schaltungen

Einführung in. Logische Schaltungen Einführung in Logische Schaltungen 1/7 Inhaltsverzeichnis 1. Einführung 1. Was sind logische Schaltungen 2. Grundlegende Elemente 3. Weitere Elemente 4. Beispiel einer logischen Schaltung 2. Notation von

Mehr

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Leitfaden #1a. zanox Publisher-Statistik (next generation) Leitfaden #1a "zanox Publisher-Statistik" (next generation) Thema: Sortieren von Leads und Sales nach dem Bearbeitungsdatum (inklusive Abschnitt "Filterung nach Transaktionsstatus") 1/8 Leitfaden "Sortieren

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08 Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements von Stephanie Wilke am 14.08.08 Überblick Einleitung Was ist ITIL? Gegenüberstellung der Prozesse Neuer

Mehr

GeoPilot (Android) die App

GeoPilot (Android) die App GeoPilot (Android) die App Mit der neuen Rademacher GeoPilot App machen Sie Ihr Android Smartphone zum Sensor und steuern beliebige Szenen über den HomePilot. Die App beinhaltet zwei Funktionen, zum einen

Mehr

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN Karlsruhe, April 2015 Verwendung dichte-basierter Teilrouten Stellen Sie sich vor, in einem belebten Gebäude,

Mehr

Dokumentation von Ük Modul 302

Dokumentation von Ük Modul 302 Dokumentation von Ük Modul 302 Von Nicolas Kull Seite 1/ Inhaltsverzeichnis Dokumentation von Ük Modul 302... 1 Inhaltsverzeichnis... 2 Abbildungsverzeichnis... 3 Typographie (Layout)... 4 Schrift... 4

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Aufträge bearbeiten in euro-bis flow

Aufträge bearbeiten in euro-bis flow Aufträge bearbeiten in euro-bis flow Zunächst sollte darauf geachtet werden, in welchem Status sich ein Auftrag oder eine einzelne Position befindet. Davon abhängig stehen Ihnen verschiedene Möglichkeiten

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch Info@schaffer-consulting.ch Haben Sie gewusst dass... >

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Zahlenoptimierung Herr Clever spielt optimierte Zahlen

Zahlenoptimierung Herr Clever spielt optimierte Zahlen system oder Zahlenoptimierung unabhängig. Keines von beiden wird durch die Wahrscheinlichkeit bevorzugt. An ein gutes System der Zahlenoptimierung ist die Bedingung geknüpft, dass bei geringstmöglichem

Mehr

Datensicherung. Beschreibung der Datensicherung

Datensicherung. Beschreibung der Datensicherung Datensicherung Mit dem Datensicherungsprogramm können Sie Ihre persönlichen Daten problemlos Sichern. Es ist möglich eine komplette Datensicherung durchzuführen, aber auch nur die neuen und geänderten

Mehr

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock infach Ihr Weg zum finanzellen Erfolg Geld Florian Mock FBV Die Grundlagen für finanziellen Erfolg Denn Sie müssten anschließend wieder vom Gehaltskonto Rückzahlungen in Höhe der Entnahmen vornehmen, um

Mehr

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192. Binäres und dezimales Zahlensystem Ziel In diesem ersten Schritt geht es darum, die grundlegende Umrechnung aus dem Dezimalsystem in das Binärsystem zu verstehen. Zusätzlich wird auch die andere Richtung,

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Studieren- Erklärungen und Tipps

Studieren- Erklärungen und Tipps Studieren- Erklärungen und Tipps Es gibt Berufe, die man nicht lernen kann, sondern für die man ein Studium machen muss. Das ist zum Beispiel so wenn man Arzt oder Lehrer werden möchte. Hat ihr Kind das

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Elektrische Messtechnik Protokoll - Bestimmung des Frequenzgangs durch eine Messung im Zeitbereich

Elektrische Messtechnik Protokoll - Bestimmung des Frequenzgangs durch eine Messung im Zeitbereich Elektrische Messtechnik Protokoll - Bestimmung des Frequenzgangs durch eine Messung im Zeitbereich André Grüneberg Janko Lötzsch Mario Apitz Friedemar Blohm Versuch: 19. Dezember 2001 Protokoll: 6. Januar

Mehr

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken? UErörterung zu dem Thema Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken? 2000 by christoph hoffmann Seite I Gliederung 1. In zu großen Mengen ist alles schädlich. 2.

Mehr

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW Universität Bonn, Institut für Angewandte Mathematik Dr. Antje Kiesel WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW 08.03.2013 Matrikelnummer Platz Name Vorname 1 2 3 4 5 6

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Orderarten im Wertpapierhandel

Orderarten im Wertpapierhandel Orderarten im Wertpapierhandel Varianten bei einer Wertpapierkauforder 1. Billigst Sie möchten Ihre Order so schnell wie möglich durchführen. Damit kaufen Sie das Wertpapier zum nächstmöglichen Kurs. Kurs

Mehr

How to do? Projekte - Zeiterfassung

How to do? Projekte - Zeiterfassung How to do? Projekte - Zeiterfassung Stand: Version 4.0.1, 18.03.2009 1. EINLEITUNG...3 2. PROJEKTE UND STAMMDATEN...4 2.1 Projekte... 4 2.2 Projektmitarbeiter... 5 2.3 Tätigkeiten... 6 2.4 Unterprojekte...

Mehr

Bilder Schärfen und Rauschen entfernen

Bilder Schärfen und Rauschen entfernen Bilder Schärfen und Rauschen entfernen Um alte Bilder, so wie die von der Olympus Camedia 840 L noch dazu zu bewegen, Farben froh und frisch daherzukommen, bedarf es einiger Arbeit und die habe ich hier

Mehr

Barrierefreie Webseiten erstellen mit TYPO3

Barrierefreie Webseiten erstellen mit TYPO3 Barrierefreie Webseiten erstellen mit TYPO3 Alternativtexte Für jedes Nicht-Text-Element ist ein äquivalenter Text bereitzustellen. Dies gilt insbesondere für Bilder. In der Liste der HTML 4-Attribute

Mehr

! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006

!  # $  % & Nicki Wruck worldwidewruck 08.02.2006 !"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Die Übereckperspektive mit zwei Fluchtpunkten

Die Übereckperspektive mit zwei Fluchtpunkten Perspektive Perspektive mit zwei Fluchtpunkten (S. 1 von 8) / www.kunstbrowser.de Die Übereckperspektive mit zwei Fluchtpunkten Bei dieser Perspektivart wird der rechtwinklige Körper so auf die Grundebene

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität

Mehr

Plotten von Linien ( nach Jack Bresenham, 1962 )

Plotten von Linien ( nach Jack Bresenham, 1962 ) Plotten von Linien ( nach Jack Bresenham, 1962 ) Ac Eine auf dem Bildschirm darzustellende Linie sieht treppenförmig aus, weil der Computer Linien aus einzelnen (meist quadratischen) Bildpunkten, Pixels

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

1.1 Allgemeines. innerhalb der Nachtzeit (19:00 24:00) Gesamte Normalarbeitszeit (16:00 19:00)

1.1 Allgemeines. innerhalb der Nachtzeit (19:00 24:00) Gesamte Normalarbeitszeit (16:00 19:00) Abschnitt 1 Überstunden in der Nacht 11 1.1 Allgemeines # Die Ermittlung und Abrechnung von Überstunden unter der Woche, an Sonn- und Feiertagen wurde bereits im Band I, Abschnitt 3 behandelt. Sehen wir

Mehr

Umgang mit Schaubildern am Beispiel Deutschland surft

Umgang mit Schaubildern am Beispiel Deutschland surft -1- Umgang mit Schaubildern am Beispiel Deutschland surft Im Folgenden wird am Beispiel des Schaubildes Deutschland surft eine Lesestrategie vorgestellt. Die Checkliste zur Vorgehensweise kann im Unterricht

Mehr

Simulink: Einführende Beispiele

Simulink: Einführende Beispiele Simulink: Einführende Beispiele Simulink ist eine grafische Oberfläche zur Ergänzung von Matlab, mit der Modelle mathematischer, physikalischer bzw. technischer Systeme aus Blöcken mittels plug-and-play

Mehr

Versuch 3. Frequenzgang eines Verstärkers

Versuch 3. Frequenzgang eines Verstärkers Versuch 3 Frequenzgang eines Verstärkers 1. Grundlagen Ein Verstärker ist eine aktive Schaltung, mit der die Amplitude eines Signals vergößert werden kann. Man spricht hier von Verstärkung v und definiert

Mehr

AUF LETZTER SEITE DIESER ANLEITUNG!!!

AUF LETZTER SEITE DIESER ANLEITUNG!!! BELEG DATENABGLEICH: Der Beleg-Datenabgleich wird innerhalb des geöffneten Steuerfalls über ELSTER-Belegdaten abgleichen gestartet. Es werden Ihnen alle verfügbaren Belege zum Steuerfall im ersten Bildschirm

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Die reellen Lösungen der kubischen Gleichung

Die reellen Lösungen der kubischen Gleichung Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................

Mehr

Kulturelle Evolution 12

Kulturelle Evolution 12 3.3 Kulturelle Evolution Kulturelle Evolution Kulturelle Evolution 12 Seit die Menschen Erfindungen machen wie z.b. das Rad oder den Pflug, haben sie sich im Körperbau kaum mehr verändert. Dafür war einfach

Mehr

Task: Nmap Skripte ausführen

Task: Nmap Skripte ausführen Task: Nmap Skripte ausführen Inhalt Einfache Netzwerkscans mit NSE Ausführen des Scans Anpassung der Parameter Einleitung Copyright 2009-2015 Greenbone Networks GmbH Herkunft und aktuellste Version dieses

Mehr

Elektromobilität und Elektromagnetische Verträglichkeit eines BMS Moduls

Elektromobilität und Elektromagnetische Verträglichkeit eines BMS Moduls Robert Palme FH Nordhausen, Frank Gräbner* Ass.Prof.(BG) Dr., Christian Kallemyer* Dipl.-Ing.(FH), Gunther Schmidt*Dipl.-Ing., Axel Hungsberg* st.cert. Engineer * Hörmann IMG GmbH, An der Salza 8a, 99734

Mehr

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis)

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis) Kennzahlen und Kennzeichen Dieses Dokument zeigt Ihnen in wenigen kurzen Schritten die Logik und Vorgehensweise der Definition der Kennzahlen und Kennzeichen und deren Auswertung in eigens dafür vorhandenen

Mehr

Theoretische Informatik SS 04 Übung 1

Theoretische Informatik SS 04 Übung 1 Theoretische Informatik SS 04 Übung 1 Aufgabe 1 Es gibt verschiedene Möglichkeiten, eine natürliche Zahl n zu codieren. In der unären Codierung hat man nur ein Alphabet mit einem Zeichen - sagen wir die

Mehr

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

AZK 1- Freistil. Der Dialog Arbeitszeitkonten Grundsätzliches zum Dialog Arbeitszeitkonten AZK 1- Freistil Nur bei Bedarf werden dafür gekennzeichnete Lohnbestandteile (Stundenzahl und Stundensatz) zwischen dem aktuellen Bruttolohnjournal und dem AZK ausgetauscht. Das Ansparen und das Auszahlen

Mehr