Semi-Supervised Online Learning for Acoustic Data Mining



Ähnliche Dokumente
Efficient Design Space Exploration for Embedded Systems

Group and Session Management for Collaborative Applications

Integer Convex Minimization in Low Dimensions

Titelbild1 ANSYS. Customer Portal LogIn

On the List Update Problem

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Das neue Volume-Flag S (Scannen erforderlich)

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

Optimal Energy Management and Component Sizing of a Stand-Alone Building Energy System

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

Therefore the respective option of the password-protected menu ("UPDATE TUBE DATA BASE") has to be selected:

miditech 4merge 4-fach MIDI Merger mit :

SanStore: Kurzanleitung / SanStore: Quick reference guide

Daten haben wir reichlich! The unbelievable Machine Company 1

Mitglied der Leibniz-Gemeinschaft

Diss. ETH No SCALABLE SYSTEMS FOR DATA ANALYTICS AND INTEGRATION. A dissertation submitted to ETH ZURICH. for the degree of. Doctor of Sciences

Big Data Projekte richtig managen!

Algorithms & Datastructures Midterm Test 1

4.) Geben Sie im Feld Adresse die IP Adresse des TDC Controllers ein. Die Standard Adresse lautet

Wenn Russland kein Gas mehr liefert

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Listening Comprehension: Talking about language learning

Konzept zur Push Notification/GCM für das LP System (vormals BDS System)

MobiDM-App Handbuch für Windows Mobile

Readme-USB DIGSI V 4.82

EEX Kundeninformation

Installation mit Lizenz-Server verbinden

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Research Collection. Backward stochastic differential equations with super-quadratic growth. Doctoral Thesis. ETH Library. Author(s): Bao, Xiaobo

Video Line Array Highest Resolution CCTV

Finite Difference Method (FDM)

Alle Informationen zu Windows Server 2003 Übersicht der Produkte

VERLÄNGERUNGSANTRAG für ein Erasmus+ Praktikum für Studierende/Graduierte im Studienjahr 2014/2015 1

Installation von horizont 4 bei Verwendung mehrerer Datenbanken

Für AX 4.0, den letzten Hotfix rollup einspielen. Der Hotfix wurde das erste Mal im Hotfix rollup eingeschlossen:

Windows Server 2012 R2 Essentials & Hyper-V

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

CABLE TESTER. Manual DN-14003

Hauptprüfung Abiturprüfung 2015 (ohne CAS) Baden-Württemberg

Softwareupdate-Anleitung // AC Porty L Netzteileinschub

Fast alle pdfs sind betroffen, Lösungsmöglichkeiten siehe Folgeseiten

Retraktionssystem Frankfurt Frankfurt Retraction System

Schreiben auf Englisch

BartPE. Dokumentation. Projektarbeit Network Services. Dozent: Wolf-Fritz Riekert. Belmondo Kovac. Autor: Andreas Dinkelacker, 3.

Parameter-Updatesoftware PF-12 Plus

English. Deutsch. niwis consulting gmbh ( manual NSEPEM Version 1.0

A dissertation submitted to ETH ZURICH. for the degree of Doctor of Sciences. presented by ALEXANDER SCHILLING Dipl. Masch.-Ing.

Installation & Konfiguration AddOn AD-Password Changer

FIREPLACE EXPANDABLE BANNER v1.01

GDPdU Export. Modulbeschreibung. GDPdU Export. Software-Lösungen. Stand: Seite 1

Office 365 Partner-Features

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license

zum IT- und Business Service Management

Maximizing the Spread of Influence through a Social Network

Survival Analysis (Modul: Lebensdaueranalyse)


QS solutions GmbH. präsentiert das Zusammenspiel von. Ihr Partner im Relationship Management

Kulturobjekte der Donau Das ContentManagementSystem (CMS)

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

SharePoint 2010 Mobile Access

Übersicht. Normung von Software in der Medizin. Vorstellung der DKE. Vorstellung der Normungsgremien. Normen im Bereich Software.

FIRMWARE UPDATE TAPMOTION TD

PS3 / PS4 / PC XBOX 360 GAMING HEADSET LX16

KVIrc installieren (win) i. KVIrc installieren (win)

Preisliste für The Unscrambler X

Technical Support Information No. 123 Revision 2 June 2008

WAS IST DER KOMPARATIV: = The comparative

Universität Zürich Informatikdienste. SpamAssassin. Spam Assassin Go Koordinatorenmeeting 27. April

Internet online Update (Internet Explorer)

BIG ANALYTICS AUF DEM WEG ZU EINER DATENSTRATEGIE. make connections share ideas be inspired. Wolfgang Schwab SAS D

Mitarbeiter IVR - Wozu

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Zum Download von ArcGIS 10, 10.1 oder 10.2 die folgende Webseite aufrufen (Serviceportal der TU):

Umbenennen eines NetWorker 7.x Servers (UNIX/ Linux)


Anleitung Typo3-Extension - Raumbuchungssystem

CONTINUOUS LEARNING. Agile Anforderungsanalyse mit Impact Mapping

Version/Datum: Dezember-2006

ecaros-update 8.2 Update 8.2 procar informatik AG 1 Stand: DP 02/2014 Eschenweg Weiterstadt

Beratung bei der Zukunftssicherung Ihres Unternehmens

A-CERT CERTIFICATION SERVICE

UWC 8801 / 8802 / 8803

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Ein reales Testumfeld bereitstellen - basierend auf einer Produktionsdatenbank (ohne eine neue Kopie zu erstellen)

Unigraphics Schnittstelle entfernen

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen:

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Research Collection. Real-time multi-object tracking. Doctoral Thesis. ETH Library. Author(s): Roth, Daniel Eugen. Publication Date: 2010


Usability ohne Maus und ohne Bildschirm

XING und LinkedIn-Integration in das erecruiter-bewerberportal

Smartphone Benutzung. Sprache: Deutsch. Letzte Überarbeitung: 25. April

USB Treiber updaten unter Windows 7/Vista

ANALYSIS AND SIMULATION OF DISTRIBUTION GRIDS WITH PHOTOVOLTAICS

Datenanpassung: Erdgas und Emissionsrechte

Transkript:

DISS. ETH NO. 19395 Semi-Supervised Online Learning for Acoustic Data Mining A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by TSER LING YVONNE MOH Dipl.-Inf., RWTH-Aachen born 21. April 1977 citizen of Singapore accepted on the recommendation of Prof. Dr. Joachim M. Buhmann, examiner Prof. Dr. Juraj Hromkovic, co-examiner 2010

Abstract The main focus of this thesis is semi-supervised online learning for acoustic data analysis. In semi-supervised learning, both labeled and unlabeled instances are used for learning. Online learning addresses the inference scenario where labeled instances are processed in a time-sequential manner. In our scenario, only a subset of the data that arrives over time is labeled. Instead of naively discarding the unlabeled data, semi-supervised online learning tries to exploits these unlabeled data during learning. This setting is motivated by online adaptation of hearing devices using the user feedback obtained during operation. A default classifier is dispatched with the hearing device. A user may wish to personalize the classifier during operation of the device. Clearly, online learning is vital, since storage of the time-sequential data is limited. Furthermore, it is obvious that the user is not dedicated to labeling all the instances while operating the device, resulting in a semisupervised learning problem. We see that semi-supervised online learning is a practical approach to this setting. We look at classification and relevance feedback problems in semi-supervised learning. For the classification problem, we view semi-supervised online learning from two angles. The first approach introduces a general plug-and-play structure. Here, any online algorithm can be augmented with a semi-supervised learning algorithm, that suggests labels for the unlabeled instances which the online algorithm uses for its learning process. Many semi-supervised learning algorithms are transductive, i.e., they do not generalize for unseen samples. Through this two-step approach, the information captured by the unlabeled data is exploited by the online learning algorithm, that is able to generalize and adapt over time. The second approach considers the passive aggressive online algorithm where online learning is posed as a convex optimization problem. The semi-supervised information is injected directly into the objective function as a regularization term. We provide a formulation that yields again a convex optimization problem, and show that the updates to the classifier can be analytically computed. Experimental results show that using semi-supervised information improves learning compared to when the unlabeled data is ignored, especially in cases where the labels are biased. Online relevance learning for content-based audio retrieval is interesting for large unlabeled data sets. The user presents an example snippet of the desired audio signal (e.g., applause), and the algorithm should adaptively retrieve relevant segments from the data set with high precision. When many users actively use a data set, methods such as collaborative filtering exploit user behaviors for the retrieval process, and the multi-users preferences are

ii labels to the data set. However, when only few users access the data set, e.g., large personal audio logs collected over hearing devices, such highlevel information is no longer available. Hence, the retrieval process has to operate on the level of audio content. For this purpose, we motivate a graph-based approach whilst executing the retrieval in the presence of relevance feedback. The graph connects similar data instances, and the connectivity may expose structures of the underlying manifold of the data. We show results on a publicly available music data set, where the graph based approach outperforms existing algorithms. An extension that supports feature re-weighting results in an additional performance gain.

Zusammenfassung Schwerpunkt der vorliegenden Arbeit ist das überwachte sequentielle Lernen mithilfe eines teilweise gelabelten Datensatzes. Das Lernen von einem Datensatz, in dem nur wenige Instanzen gelabelt sind, und in dem sonst vorwiegend ungelabelte Daten vorliegen, heisst halb überwachtes Lernen. Das sequentielle Lernen nennt man online Lernen. Unsere Ziel ist das daher das halb überwachtes Lernen über die Zeit. Die Motivation dieser Arbeit stammt aus der adaptiven Anpassung von Hörgeraten. Dieser Anpassungsprozess wird durch Benutzerfeedback ausgelöst, das allerdings nur sporadisch geben wird, woraus die unvollständig gelabelten Daten resultieren. Das halb überwachte Lernen ist sequentiell, da die Zeitreihendaten nicht vollständig speicherbar sind, sondern in Echtzeit bearbeitet werden müssen. In dieser Arbeit werden wir sowohl die Klassifikation von Audiosequenzen als auch die Suche relevanter Treffer in grossen Datenbanken untersuchen, die ähnlich zu einem Suchmuster sind. Die Klassifikation wird von zwei Herangehensweisen betrachtet: In der ersten Vorgehensweise stellen wir eine vielseitig verwendbare Struktur vor, in der zwei frei wählbare bereits existierende Algorithmen jeweils ein online Lernalgorithmus und ein halb überwachter Lernalgorithmus kombiniert werden. Während des Lernprozesses bekommt der online Lernalgorithmus von dem halb überwachten Lernverfahren Vorschläge für die Labels der ungelabelten Instanzen, welche für das sequentielle Lernen genutzt werden können. Der resultierende zwei-schritt-algorithmus erbt die Vorteile beider Algorithmen. Der zweite Ansatz basiert auf der Erweiterung des passive-aggressive online Algorithmus für teilweise ungelabelte Daten. Der Passive-Aggressive online Algorithmus löst das online Lernen als ein konvexes Optimierungsproblem. In unserer Erweiterung werden die ungelabelten Daten als Regularisierungsterm benutzt. Wir zeigen, dass dieses neue Optimerungsproblem weiterhin konvex und analytisch zu berechnen ist. Die experimentiellen Ergebnisse dieser Arbeit bestätigen, dass das halbüberwachte online Lernen gerade dann von den ungelabelten Daten profitiert, wenn die zur Verfügung gestellten Labelinformationen nicht unabhängig verteilt sind. Im letzten Teil betrachten wir die Suche nach Audiosegmenten in einer Menge unbeschrifteter Audiodaten. Anhand eines Suchmusters, z.b. Applaus, findet ein Algorithmus mit hoher Präzision ähnliche Audiosegmente. Mittels Feedback über die bisherigen Suchergebnisse passt der Algorithmus die Suche an und beeinflusst dadurch die zukünftigen Suchergebnisse. Unsere Herangehensweise stellt die Daten als ein Graph dar, welcher die Informationen bezüglich der Datenmanigfaltigkeiten beinhaltet, die dann bei der Suche ausgenutzt werden. In unseren Experimenten zeigen wir die höhere Präzision

dieser Methode verglichen mit herkömmlichen Methoden wie der Rocchio Algorithmus. Weitere Verbesserungen des Algorithmus werden durch eine Erweiterung um Merkmalgewichtung erzielt. ii