EM-type algorithms for non-convex and high-dimensional problems

Research Collection Doctoral Thesis EM-type algorithms for non-convex and high-dimensional problems Author(s): Städler, Nicolas Publication Date: 2010 Permanent Link: https://doi.org/10.3929/ethz-a-006218249 Rights / License: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use. ETH Library

Diss. ETH No. 19136 EM-Type Algorithms for Non-Convex and High-Dimensional Problems A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by NICOLAS STÄDLER Dipl. Math. ETH born March 15, 1981 citizen of Altstätten SG accepted on the recommendation of Prof. Dr. Peter Bühlmann, examiner Prof. Dr. Sara van de Geer, co-examiner 2010

Abstract Today s trend is to analyse high-dimensional datasets through convex optimization. A famous example is the Lasso for estimation and variable selection in the high-dimensional regression model. Another currently very popular example is the so-called matrix completion problem, where the goal is to recover missing entries in large low-rank matrices by solving a simple convex optimization program. The main advantages of convex problems are that they can be numerically solved very efficiently and that they have a unique solution which can be mathematically analysed using powerful tools from convex analysis. Despite the advantages of convex optimization problems, we believe that convex functions are often too limited to take into account the complex structure present in real data applications. In this thesis, we therefore move on and use more advanced and flexible modelling techniques to describe high-dimensional data. The resulting optimization problems are very challenging, far from being convex and may have several optimal solutions. However, we demonstrate that in a sparse context, where only a small number of the model parameters are nonzero, it is possible to solve such problems very efficiently. Furthermore, we will also show on real datasets that there is a considerable gain in terms of statistical performance over convex methods. In a first project, Chapter 2 in this thesis, we extend estimation and variable selection in a high-dimensional setup to a finite mixture of regressions (FMR) model, which can deal with a heterogeneous population consisting of different unknown subgroups. We propose a penalized maximum likelihood estimator using a novel parameterization, analyse its asymptotic properties and derive oracle inequalities. From a compuix

x Abstract tational point of view we develop an efficient generalized EM algorithm which can easily handle problems where the number p of variables is in the thousands. Finally, we apply the new method to a gene expression dataset about riboflavin production and demonstrate a 17% gain in prediction accuracy over a (non-mixture) linear model. In a second project, Chapters 3 and 4, we draw attention to missing values in high-dimensional data. Very different from the matrix completion approach, where the incomplete matrix is approximated by a (complete) low-rank matrix, our methods are all likelihood based. In Chapter 3 we introduce an l 1 -penalized likelihood approach for sparse inverse covariance estimation and sparse regression when data contain missing values. The methodology developed in Chapter 3 can easily be used to estimate missing entries in large incomplete matrices. However, the approach has two disadvantages which have a negative effect on computational efficiency and on statistical performance. Motivated by wiping out these drawbacks we come up with the Pattern Alternating Maximization algorithm in Chapter 4. This procedure, which is based on iteratively regressing the missing on the observed variables, generalizes the traditional EM algorithm by alternating between different complete data spaces and performing the E-Step incrementally. In a high-dimensional context we add a Lasso penalty in the regression part of the algorithm and perform coordinate descent approximations. Most importantly, the proposed method significantly outperforms all other currently popular imputation techniques, including matrix completion through nuclear norm minimization.

Zusammenfassung Hochdimensionale Datensätze werden heutzutage oft mittels konvexer Optimierung analysiert. Ein berühmtes Beispiel ist der Lasso-Schätzer, der sich zur Variablenselektion im hochdimensionalen Regressionsmodell eignet. Ein anderes, zurzeit sehr populäres Beispiel ist das sogenannte Matrix Completion -Problem. Hier ist das Ziel, fehlende Werte in sehr grossen Matrizen von kleinem Rang mittels einem einfachen konvexen Optimierungsprogramm zu rekonstruieren. Die zentralen Vorteile konvexer Probleme bestehen darin, dass sie numerisch sehr effizient gelöst werden können und dass sie eine eindeutige Lösung besitzen, die mit Hilfe mächtiger Werkzeuge aus der konvexen Analysis mathematisch untersucht werden kann. Trotz der erwähnten Vorteile konvexer Optimierung sind wir der Überzeugung, dass konvexe Funktionen oft zu limitiert sind um der komplexen Struktur realer Daten genügend Rechnung zu tragen. In dieser Doktorarbeit gehen wir deshalb einen Schritt weiter und verwenden fortgeschrittenere und flexiblere Modellierungstechniken um hochdimensionale Daten zu beschreiben. Die resultierenden Optimierungsaufgaben sind sehr anspruchsvoll, nicht konvex und können mehrere optimale Lösungen besitzen. In dieser Arbeit zeigen wir auf, dass es möglich ist, solche Probleme sehr effizient zu lösen. Zielführend ist die Annahme, dass die zugrunde liegenden Modellparameter dünnbesetzt sind. Wir illustrieren zudem, dass unsere Methoden, angewandt auf reale Daten, zu besseren Resultaten führen als entsprechende konvexe Probleme. In einem ersten Projekt, dem Kapitel 2 in dieser Arbeit, entwickeln wir Schätzverfahren sowie Methoden zur Variablenselektion für hochdimensionale Mischverteilungen, die sich zur Modellierung einer heterogexi

xii Zusammenfassung nen Population, bestehend aus verschiedenen unbekannten Untergruppen, eignen. Wir schlagen einen l 1 -bestraften Maximum-Likelihood- Schätzer in einer geschickten Parametrisierung vor, analysieren seine asymptotischen Eigenschaften und leiten Orakelungleichungen her. Von einem numerischen Standpunkt aus entwickeln wir einen effizienten verallgemeinerten EM Algorithmus, der mühelos Probleme mit mehr als tausend Prädiktoren bewältigen kann. Schliesslich wenden wir die neue Methode auf einen Gen-Expressions Datensatz über die Produktion des Vitamins Riboflavin an. Unsere neue Methode besitzt eine verbesserte Vorhersagefähigkeit von 17%, im Vergleich zu einem gewöhnlichen linearen Regressionsmodell. In einem zweiten Projekt, den Kapiteln 3 und 4, lenken wir unsere Aufmerksamkeit auf hochdimensionale Datensätze, die fehlende Werte aufweisen. Unsere Methoden zur Schätzung solcher unvollständiger Daten sind alle likelihood basiert. Dieser Ansatz unterscheidet sich wesentlich vom sogenannten Matrix Completion -Problem, wo die unvollständige Daten-Matrix durch eine vollständige Matrix von kleinem Rang approximiert wird. Im Kapitel 3 beginnen wir mit l 1 -bestraften Likelihood-Methoden zur Schätzung dünnbesetzter inverser Kovarianzmatrizen sowie dünnbesetzter Regressionskoeffizienten, wenn die zur Verfügung stehenden Daten fehlende Werte aufweisen. Wir werden sehen, dass die im Kapitel 3 entwickelte Methodik auch dazu benutzt werden kann, fehlende Werte in grossen Matrizen zu schätzen. Leider hat dieser Ansatz zwei Nachteile, die einen negativen Effekt auf die numerische und statistische Effizienz haben. Motiviert diese Nachteile auszumerzen, entwickeln wir im Kapitel 4 den Pattern Alternating Maximization Algorithmus. Diese Prozedur, bei welcher iterativ eine Regression der fehlenden auf die beobachteten Variablen durchgeführt wird, verallgemeinert den traditionellen EM Algorithmus auf unterschiedliche Weise. Einerseits alterniert der neue Algorithmus für verschiedene M-Schritte zwischen verschiedenen vollständigen Datenräumen, andererseits wird der E-Schritt nur partiell durchgeführt. In einem hochdimensionalen Kontext ersetzen wir zudem gewöhnliche Regressionen durch Lasso-Regressionen und approximieren diese koordinatenweise. Vielleicht am wichtigsten ist die Tatsache, dass der Pattern Alternating Maximization Algorithmus alle anderen zurzeit verbreiteten Methoden zur Schätzung fehlender Daten übertrifft. Insbesondere führt unsere Methode zu besseren Ergebnissen als Matrix Completion mittels Nuclear Norm -Minimierung.