EM-type algorithms for non-convex and high-dimensional problems

Ähnliche Dokumente
Group and Session Management for Collaborative Applications

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

Classical and Quantum Secure Two-Party Computation

Mitglied der Leibniz-Gemeinschaft

Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models

Diss. ETH No SCALABLE SYSTEMS FOR DATA ANALYTICS AND INTEGRATION. A dissertation submitted to ETH ZURICH. for the degree of. Doctor of Sciences

All-Digital Standard-Cell Based Audio Clock Synthesis

Algorithms for graph visualization

Workflow-based Services: Infrastructure for Scientific Applications

Understanding and Improving Collaboration in Distributed Software Development

Contract-based tests in the software process and environment

Notice: All mentioned inventors have to sign the Report of Invention (see page 3)!!!


A Systematic Approach to Adaptive Algorithms for Multichannel System Identification, Inverse Modeling, and Blind Identification

Modeling, Pricing and Risk Management of Power Derivatives


HIR Method & Tools for Fit Gap analysis

Daniel Burkhardt (Autor) Möglichkeiten zur Leistungssteigerung und Garnqualitätsverbesserung beim Rotorspinnen


Context-adaptation based on Ontologies and Spreading Activation

Geometrie und Bedeutung: Kap 5

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

An Open Innovation Technology Transfer Concept - R&D Cooperation for breakthrough Technologies between Academic Spin-Offs and established Industry

Extended Ordered Paired Comparison Models An Application to the Data from Bundesliga Season 2013/14

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:


GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

Radiation Grafted Fuel Cell Membranes with Improved Oxidative Stability

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

ReadMe zur Installation der BRICKware for Windows, Version ReadMe on Installing BRICKware for Windows, Version 6.1.2

Strategic Resource Management for Power Grid Operators

A Practical Approach for Reliable Pre-Project Effort Estimation

Project GIPSY. Facing the Challenge of Future Integrated Software Engineering Environments. Dipl. Betr. Wiss. NDS ETH. Dipl. Inf.

On Optimal Algorithms for List Ranking in the Parallel External Memory Model with Applications to Treewidth and other Elementary Graph Problems

Abschlussklausur des Kurses Portfoliomanagement

Prof. Dr. Margit Scholl, Mr. RD Guldner Mr. Coskun, Mr. Yigitbas. Mr. Niemczik, Mr. Koppatz (SuDiLe GbR)

Data Stream Processing in Complex Applications

Titelbild1 ANSYS. Customer Portal LogIn

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen


Challenges for the future between extern and intern evaluation

Advances in Integrated Software Sciences

Strategies for Random Contract-Based Testing

1. General information Login Home Current applications... 3

A Continuous Relaxation Based Heuristic for a Class of Constrained Semi-Assignment Problems

Semi-Supervised Online Learning for Acoustic Data Mining

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Resilient Remote Procedure Call

Algorithms and Hardness Results for DNA Physical Mapping, Protein Identification, and Related Combinatorial Problems

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

The drift chambers of the MEG experiment and measurement of the ρ-parameter in the Michel spectrum of the muon decay.

Capillary interactions, shear thickening and liquid migration in wet granular media

Customer-specific software for autonomous driving and driver assistance (ADAS)


PRESS RELEASE. Kundenspezifische Lichtlösungen von MENTOR

RS232-Verbindung, RXU10 Herstellen einer RS232-Verbindung zwischen PC und Messgerät oder Modem und Messgerät

DISS. ETH NO A thesis submitted to attain the degree of. DOCTOR OF SCIENCES of ETH ZURICH. (Dr. sc. ETH Zurich) presented by

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

eurex rundschreiben 094/10

Diss. ETH No ROUTERS. A dissertation submitted to the. for the degree of Doctorof Technical Sciences. presented by. Daniel S. Dfcaspf.

A Domain-Specific Language and Scalable Middleware for Particle-Mesh Simulations on Heterogeneous Parallel Computers

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Installationshinweise Z501J / Z501K Adapter IrDa USB Installation hints Z501J / Z501K Adapter IrDa USB

Ingenics Project Portal


Models and Dynamic Optimisation for the Asset and Liability Management of Pension Funds

How to access licensed products from providers who are already operating productively in. General Information Shibboleth login...

Dun & Bradstreet Compact Report

NVR Mobile Viewer for iphone/ipad/ipod Touch


TomTom WEBFLEET Tachograph

EvaluatingPerformance in Systems with Heavy-Tailed Input A Quantile-based Approach

Prediction Market, 28th July 2012 Information and Instructions. Prognosemärkte Lehrstuhl für Betriebswirtschaftslehre insbes.

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license

Release Notes BRICKware Copyright 23. March 2010 Funkwerk Enterprise Communications GmbH Version 1.0

herzberg social housing complex green living

Instruktionen Mozilla Thunderbird Seite 1

Pilot Project Biogas-powered Micro-gas-turbine


ABSTRACT. A large body of empirical research documents that different linguistic forms lead to a


Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Robotino View Kommunikation mit OPC. Communication with OPC DE/EN 04/08

Optimal Portfolio Construction. and Active Portfolio Management. Including Alternative Investments

A Requirement-Oriented Data Quality Model and Framework of a Food Composition Database System

Symbio system requirements. Version 5.1

Real-time Model Predictive Control

Die Kunst des Programmierens...

Toward Full Autonomy for Vision-Guided Robots: From Self-Calibration to Self-Directed Exploration

Ways and methods to secure customer satisfaction at the example of a building subcontractor

Technologies for Next Generation Telepresence


Environmental Assessment of Waste-Solvent Treatment in the Swiss Chemical Industry

Magazines for MP38 and MP40

Business-centric Storage How appliances make complete backup solutions simple to build and to sell

Themen für Seminararbeiten WS 15/16

Real-Time Spotting of Human Activities in Industrial Environments

The extreme Design Approach

Preisliste für The Unscrambler X

Optimization in Business Applications: 2. Modeling principles


Research Collection Doctoral Thesis EM-type algorithms for non-convex and high-dimensional problems Author(s): Städler, Nicolas Publication Date: 2010 Permanent Link: https://doi.org/10.3929/ethz-a-006218249 Rights / License: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use. ETH Library

Diss. ETH No. 19136 EM-Type Algorithms for Non-Convex and High-Dimensional Problems A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by NICOLAS STÄDLER Dipl. Math. ETH born March 15, 1981 citizen of Altstätten SG accepted on the recommendation of Prof. Dr. Peter Bühlmann, examiner Prof. Dr. Sara van de Geer, co-examiner 2010

Abstract Today s trend is to analyse high-dimensional datasets through convex optimization. A famous example is the Lasso for estimation and variable selection in the high-dimensional regression model. Another currently very popular example is the so-called matrix completion problem, where the goal is to recover missing entries in large low-rank matrices by solving a simple convex optimization program. The main advantages of convex problems are that they can be numerically solved very efficiently and that they have a unique solution which can be mathematically analysed using powerful tools from convex analysis. Despite the advantages of convex optimization problems, we believe that convex functions are often too limited to take into account the complex structure present in real data applications. In this thesis, we therefore move on and use more advanced and flexible modelling techniques to describe high-dimensional data. The resulting optimization problems are very challenging, far from being convex and may have several optimal solutions. However, we demonstrate that in a sparse context, where only a small number of the model parameters are nonzero, it is possible to solve such problems very efficiently. Furthermore, we will also show on real datasets that there is a considerable gain in terms of statistical performance over convex methods. In a first project, Chapter 2 in this thesis, we extend estimation and variable selection in a high-dimensional setup to a finite mixture of regressions (FMR) model, which can deal with a heterogeneous population consisting of different unknown subgroups. We propose a penalized maximum likelihood estimator using a novel parameterization, analyse its asymptotic properties and derive oracle inequalities. From a compuix

x Abstract tational point of view we develop an efficient generalized EM algorithm which can easily handle problems where the number p of variables is in the thousands. Finally, we apply the new method to a gene expression dataset about riboflavin production and demonstrate a 17% gain in prediction accuracy over a (non-mixture) linear model. In a second project, Chapters 3 and 4, we draw attention to missing values in high-dimensional data. Very different from the matrix completion approach, where the incomplete matrix is approximated by a (complete) low-rank matrix, our methods are all likelihood based. In Chapter 3 we introduce an l 1 -penalized likelihood approach for sparse inverse covariance estimation and sparse regression when data contain missing values. The methodology developed in Chapter 3 can easily be used to estimate missing entries in large incomplete matrices. However, the approach has two disadvantages which have a negative effect on computational efficiency and on statistical performance. Motivated by wiping out these drawbacks we come up with the Pattern Alternating Maximization algorithm in Chapter 4. This procedure, which is based on iteratively regressing the missing on the observed variables, generalizes the traditional EM algorithm by alternating between different complete data spaces and performing the E-Step incrementally. In a high-dimensional context we add a Lasso penalty in the regression part of the algorithm and perform coordinate descent approximations. Most importantly, the proposed method significantly outperforms all other currently popular imputation techniques, including matrix completion through nuclear norm minimization.

Zusammenfassung Hochdimensionale Datensätze werden heutzutage oft mittels konvexer Optimierung analysiert. Ein berühmtes Beispiel ist der Lasso-Schätzer, der sich zur Variablenselektion im hochdimensionalen Regressionsmodell eignet. Ein anderes, zurzeit sehr populäres Beispiel ist das sogenannte Matrix Completion -Problem. Hier ist das Ziel, fehlende Werte in sehr grossen Matrizen von kleinem Rang mittels einem einfachen konvexen Optimierungsprogramm zu rekonstruieren. Die zentralen Vorteile konvexer Probleme bestehen darin, dass sie numerisch sehr effizient gelöst werden können und dass sie eine eindeutige Lösung besitzen, die mit Hilfe mächtiger Werkzeuge aus der konvexen Analysis mathematisch untersucht werden kann. Trotz der erwähnten Vorteile konvexer Optimierung sind wir der Überzeugung, dass konvexe Funktionen oft zu limitiert sind um der komplexen Struktur realer Daten genügend Rechnung zu tragen. In dieser Doktorarbeit gehen wir deshalb einen Schritt weiter und verwenden fortgeschrittenere und flexiblere Modellierungstechniken um hochdimensionale Daten zu beschreiben. Die resultierenden Optimierungsaufgaben sind sehr anspruchsvoll, nicht konvex und können mehrere optimale Lösungen besitzen. In dieser Arbeit zeigen wir auf, dass es möglich ist, solche Probleme sehr effizient zu lösen. Zielführend ist die Annahme, dass die zugrunde liegenden Modellparameter dünnbesetzt sind. Wir illustrieren zudem, dass unsere Methoden, angewandt auf reale Daten, zu besseren Resultaten führen als entsprechende konvexe Probleme. In einem ersten Projekt, dem Kapitel 2 in dieser Arbeit, entwickeln wir Schätzverfahren sowie Methoden zur Variablenselektion für hochdimensionale Mischverteilungen, die sich zur Modellierung einer heterogexi

xii Zusammenfassung nen Population, bestehend aus verschiedenen unbekannten Untergruppen, eignen. Wir schlagen einen l 1 -bestraften Maximum-Likelihood- Schätzer in einer geschickten Parametrisierung vor, analysieren seine asymptotischen Eigenschaften und leiten Orakelungleichungen her. Von einem numerischen Standpunkt aus entwickeln wir einen effizienten verallgemeinerten EM Algorithmus, der mühelos Probleme mit mehr als tausend Prädiktoren bewältigen kann. Schliesslich wenden wir die neue Methode auf einen Gen-Expressions Datensatz über die Produktion des Vitamins Riboflavin an. Unsere neue Methode besitzt eine verbesserte Vorhersagefähigkeit von 17%, im Vergleich zu einem gewöhnlichen linearen Regressionsmodell. In einem zweiten Projekt, den Kapiteln 3 und 4, lenken wir unsere Aufmerksamkeit auf hochdimensionale Datensätze, die fehlende Werte aufweisen. Unsere Methoden zur Schätzung solcher unvollständiger Daten sind alle likelihood basiert. Dieser Ansatz unterscheidet sich wesentlich vom sogenannten Matrix Completion -Problem, wo die unvollständige Daten-Matrix durch eine vollständige Matrix von kleinem Rang approximiert wird. Im Kapitel 3 beginnen wir mit l 1 -bestraften Likelihood-Methoden zur Schätzung dünnbesetzter inverser Kovarianzmatrizen sowie dünnbesetzter Regressionskoeffizienten, wenn die zur Verfügung stehenden Daten fehlende Werte aufweisen. Wir werden sehen, dass die im Kapitel 3 entwickelte Methodik auch dazu benutzt werden kann, fehlende Werte in grossen Matrizen zu schätzen. Leider hat dieser Ansatz zwei Nachteile, die einen negativen Effekt auf die numerische und statistische Effizienz haben. Motiviert diese Nachteile auszumerzen, entwickeln wir im Kapitel 4 den Pattern Alternating Maximization Algorithmus. Diese Prozedur, bei welcher iterativ eine Regression der fehlenden auf die beobachteten Variablen durchgeführt wird, verallgemeinert den traditionellen EM Algorithmus auf unterschiedliche Weise. Einerseits alterniert der neue Algorithmus für verschiedene M-Schritte zwischen verschiedenen vollständigen Datenräumen, andererseits wird der E-Schritt nur partiell durchgeführt. In einem hochdimensionalen Kontext ersetzen wir zudem gewöhnliche Regressionen durch Lasso-Regressionen und approximieren diese koordinatenweise. Vielleicht am wichtigsten ist die Tatsache, dass der Pattern Alternating Maximization Algorithmus alle anderen zurzeit verbreiteten Methoden zur Schätzung fehlender Daten übertrifft. Insbesondere führt unsere Methode zu besseren Ergebnissen als Matrix Completion mittels Nuclear Norm -Minimierung.