Computer Vision for Music Iden3fica3on. Yan Ke, Derek Hoiem, Rahul Sukthankar

Ähnliche Dokumente
Beat Detektion. Proseminar Computer und Musik. Daniel Sous. 12. Dezember 2017

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Seminar: Multi-Core Architectures and Programming. Viola-Jones Gesichtsdetektor

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Interaktive Lokalisierung durch Objekterkennung

Named Entity Recognition auf Basis von Wortlisten

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Methoden zur Cluster - Analyse

Learning to Rank Sven Münnich

Auf dem Weg zu einer automa1schen Fachklassifika1on wissenscha:licher Arbeiten mi<els Supervised Machine Learning am Beispiel der Biotechnologie

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Bildverarbeitung: RANSAC. D. Schlesinger () Bildverarbeitung: RANSAC 1 / 11

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Bayes sches Lernen: Übersicht

Einführung in das Maschinelle Lernen I

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Mathematische Grundlagen III

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Vorlesung 7 GRAPHBASIERTE BILDSEGMENTIERUNG

Decision Tree Learning

Stefan Schmid TU Berlin & T-Labs, Berlin, Germany. Reduktionen in der Berechenbarkeitstheorie

Data Mining in speziellen Daten und Data Mining Anwendungen

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Suche nach korrespondierenden Pixeln

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum

2. Schnitterkennung Video - Inhaltsanalyse

Proseminar "Aufgabenstellungen der Bildanalyse und Mustererkennung"

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Chapter 2 Image Similarity. Chapter 2 Image Similarity

Akustischer Dopplereffekt

Störgeräuschreduktion bei stimmhaften Sprachsignalen

Semiüberwachte Paarweise Klassifikation

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Aesthetic Guideline Driven Photography by Robots

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Bayes sches Lernen: Übersicht

Neue Ansätze für Mustererkennung und automatisches Lernen

Bachelorverteidigung Marco Franke

Vorlesung 8b. Zweistufige Zufallsexperimente. Teil 1

Vom Leichtesten zum Schwersten Sortieralgorithmen

Messung & Darstellung von Schallwellen

Probabilistisches Tracking mit dem Condensation Algorithmus

IT-Security. Teil 15: Zufall

Ahnlichkeitsbestimmung von Bildern

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Randomisierte Algorithmen und probabilistische Analyse

Recognizing Cars. André Justus. 7.Juni Louka Dlagnekov, Serge Belongie. Visuelle Überwachung Universität Bielefeld

Evaluierung von Information Retrieval Systemen Teil 1: Standardverfahren. Karin Haenelt

Praktische Anwendung von EMF Compare

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Hauptseminar Roboternavigation. Kartenaufbau nach Thrun

BLATT 1. Dieser Test soll mir helfen, Ihre Vorkenntnisse richtig einzuschätzen und die Seminarinhalte entsprechend anzupassen.

Ringvorlesung Bildverarbeitung

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Spektralanalyse. Spektralanalyse ist derart wichtig in allen Naturwissenschaften, dass man deren Bedeutung nicht überbewerten kann!

Handbuch für Sonix Station V1.61

Fehlersuche mit Hilfe der Real-Time Spektrum Analyse. in der EMV

KLASSIFIZIERUNG VON SCHADSOFTWARE ANHAND VON SIMULIERTEM NETZWERKVERKEHR

4.3 Splitstrategien für R-Bäume (I)

Evaluation von IR-Systemen

Charakterisierung von 1D Daten

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN

Objekterkennung am Beispiel des Viola-Jones-Objektdetektors

SIFT Flow Dense Correspondence across Different Scenes

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Informatik II, SS 2014

Klassifikation und Ähnlichkeitssuche

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Projekt Maschinelles Lernen WS 06/07

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Stichproben Parameterschätzung Konfidenzintervalle:

2. Schnitterkennung Videoanalyse

Computergestützte Mathematik zur Linearen Algebra

(Bamberg)

Diskriminatives syntaktisches Reranking für SMT

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Kalibrierungsfreie Bildverarbeitungsalgorithmen. echtzeitfähigen Objekterkennung im Roboterfuÿball. Thomas Reinhardt Nao-Team HTWK. 26.

Query By Humming. Murat Uzun, Ronja Deisel

Prüfung. Wahrscheinlichkeit und Statistik. ETH Zürich HS 2015 Prof. Dr. P. Embrechts Januar Nachname. Vorname. Legi Nummer

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Volkswagen Data Lab Connected Car Fahrererkennung mit MATLAB

Digitale Signalverarbeitung, Vorlesung 11 - Kurzzeitfouriertransformation

Randomisierte Algorithmen 2. Erste Beispiele

Projekt-INF Folie 1

Prädiktion und Klassifikation mit

Morphologische BV. Morphological Image Processing. M. Thaler, TG208 Bildverarbeitung ZHAW, BV HS17, M. Thaler.

Human Detection Based On Part Models

Der Mutter auf der Spur schnell zu DNA-Ergebnissen Einlauffreigabe durch iba-fingerprint-verfahren

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Automatisches Layout von Graphen

Transkript:

Computer Vision for Music Iden3fica3on Yan Ke, Derek Hoiem, Rahul Sukthankar

Inhalt Ziel und Anforderungen Problemstellen Ansatz im Überblick Ansatz im Detail Resultate Exkurs Talkalyzer 2

Ziel und Anforderungen Ziel der Arbeit Iden3fizierung von Musikstücken anhand weniger Sekunden gestörter Audiodaten Anforderungen an das System Hohe Ausbeute (Recall) Hohe Präzision (Precision) Schnelles Retrieval 3

Problemstellen Queries Schlechte Aufnahmequalität resistent gegen Störgeräusche und schlechte Aufnahmequalität Ausschluss von stark gestörten AbschniVen Aufnahme an einem willkürlichen Punkt im Song lokal und robust gegenüber kleinen zeitlichen Verschiebungen Datenmenge DB mit mehreren 100 000 Songs ist zu erwarten effizientes berechnen und indexieren effizientes Abfragen 4

Ansatz im Überblick Darstellung als Spektrogram Lernen eines Filtersets Extrahieren der Signatur Retrieval [ 1 [ 1 0 1 1 0 1 0 ] ] [ 0 1 1 0 0 ] 5

Darstellung als Spektrogram Spektrogramme zeigen Ähnlichkeit/Differenz von Original und Aufnahme Transforma3on mivels Short- Term Fourier Transform (STFT) 33 logarithmisch verteilte Frequenzbändern gemessen über Zeidenster von 0.372 s jeweils um 11.6 ms inkremen3ert Rund 97% Überlappung 6

Lernen eines Filtersets (1) Filterkandidaten Einfaches Vergleichen von Spektrogrammen ungenau und langsam Set von visuellen Filtern Anforderungen robust gegenüber kleinen zeitlichen Verschiebungen halten Ähnlichkeit/Differenz fest ignorieren irrelevante Daten 5 Basisfilter von Viola und Jones zur automa3schen Erkennung von Objekten entworfen Varia3onen in exponen3ellen SchriVen Rund 25 000 Filterkandidaten bzw. weak Classifiers. 7

Lernen eines Filtersets (2) Filtereigenschanen Min. 1 schwarzes und min. 1 weisses Rechteck Funk3on Aufsummieren der Pixelwerte in der schwarzen Fläche Aufsummieren der Pixelwerte in der weissen Fläche Flächen subtrahieren à et voilà Filter besitzen einen Threshold Filterwert oberhalb à 1 Filterwert unterhalb à 0 Interpreta3on 1. Energiedifferenzen in benachbarten Frequenzbändern 2. Energiedifferenzen über die Zeit 3. Verschiebungen der dominanten Frequenz über die Zeit 4. Energiespitzen in benachbarten Frequenzbändern 5. Energiespitzen über die Zeit 8 Frequenz Zeit

Lernen eines Filtersets (3) AdaBoost Selek3on von n Filtern mit AdaBoost Berechnen eines «Strong Classifiers» H(x1, x2) y = { 1, 1} besteht aus n «weak classifiers» «weak classifier» hm(x1, x2) = sgn[(fm(x1) tm)(fm(x2) tm)] Hier: Viola- Jones Filter inkl. Threshold nur besser als zufällig Songs unterscheiden/erkennen Wählt itera3v die «besten» Filter Trainigsdaten sind gewichtet Hohes Gewicht bei falsch erkannten Daten Tiefes Gewicht bei korrekt erkannten Daten 1 Filter pro Itera3on Anpassung aller Gewichte pro Itera3on 9

Lernen eines Filtersets (4) Pairwise Boost Trainingsdaten Posi3ve Paare (Original und Aufnahme des selben Songs) Nega3ve Paare (verschiedene Songs) Problem AdaBoost «weak classifiers» nicht besser als Zufall bei nega3ven Paaren verletzt «weak classifier» Bedingung von Adaboost Pairwise Boost ist eine Anpassung von AdaBoost Nur posi3ve Paare werden neu gewichtet Gewichtung der posi3ven und nega3ven Paaren auf jew. 0.5 normalisiert Experimente zeigten: n = 32 als geeignete Wahl lose korrelierten Daten brauchen keine nega3ven Paare AdaBoost evtl. doch geeignet!? 10

Extrahieren der Signatur [ 1 [ 1 0 1 1 0 1 0 ] ] [ 0 1 1 0 0 ] Die Filter (inkl. Thresholds) liefern einen Desktriptor pro Spektrogramm 32- Bit Vektor Kompakte Repräsenta3on einer lokalen Region (eines Songs) Enthalten nicht genügend Informa3on um zuverlässig Songs zu erkennen Signaturen sind kombinierte, überlappende Deskriptoren Spektrogramme: Rund 97% Überschneidung Signatur als Basis für das Matching und Retrieval 11

Retrieval (1) Datenbank Deskriptoren erlauben direktes indexieren Verwendung von Hashtables Sehr schnell kaum Verlust der Genauigkeit Abfrage der Signaturen anhand der Deskriptoren 12

Retrieval (2) Matching Finden der ähnlichen Signaturen Hamming- Distanz Deskriptoren mit einer Hamming- Distanz <= 2 gelten als near- neighbors und sind somit relevant Selek3on des besten Matchs Zeitliches Ausrichten der Query RANSAC- Algorithmus (random sample consensus) Übereins3mmung berechnen Expecta3on- Maximiza3on (EM) Score als Distanz Vergleich mit Threshold EM Score > Threshold = Treffer 13

Retrieval (3) Ausschluss Einzelne Deskriptoren können von «Störgeräuschen» dominiert sein diese sollen (mögl.) ignoriert werden Ausschlussmodell Gegeben: Signatur x r = ( x 1 r, x 2 r,, x n r ) Vergleich mit Signatur x o = ( x 1 o, x 2 o,, x n o ) x i r o = Bit- Differenz zwischen x i r und x i o Verteilung von x i r o mivels unabhängigen Bernoulli- Zufallsvariablen modellieren Mit EM und einem entsprechenden Threshold Label y i bes3mmen y i =1 wenn vom Musikstück generiert y i =0 wenn von Störungen überlagert 14

Experimente (1) Setup Total 1862 Musikstücke Grosse Auswahl an Genres enthalten Trainingdata 78 Musikstücke Abgespielt mit low- quality Speakers Aufgenommen mit low- quality Mikrophonen Test A 71 Musikstücke Abgespielt auf niedriger Lautstärke Aufgenommen mit einem verzerrenden Mikrophon Test B 220 Musikstücke Aufgenommen in einer sehr lärmigen Umgebung 15

Experimente (2) Resultate Gegeben: 10 Sekunden Daten pro Query Test A Recall: 90% Precision: 96% Test B Recall 80% Precision 93% 16

Exkurs Talkalyzer (1) Überblick 17

Exkurs Talkalyzer (2) Resultate Se ng: 40 Sprecher aufgeteilt in 80 Gruppen Clustering experiment Baselineansatz: MFCC / GMM Errorrate: Baseline: 12.76% Talkalyzer: 16.95% Erkenntnis: Problemstellung zu unterschiedlich bzw. Anpassung an Sprecherclustering zu simpel 18

Fragen 19