Algorithms for Regression and Classification

Größe: px

Ab Seite anzeigen:

Download "Algorithms for Regression and Classification"

Arnim Kneller
vor 8 Jahren
Abrufe

1 Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Promotionsvortrag

Robust Regression and Genetic Association Studies Robin Nunkesser

2 Überblick Algorithmische Statistik Regression Klassifikation Robuste Skalenschätzung Robuste lineare Regression Genetische Assoziationsstudien Qn Sn LQD LTS, LMS,... GPAS

3 Überblick Regression Klassifikation Robuste Skalenschätzung Robuste lineare Regression Genetische Assoziationsstudien Qn Sn LQD LTS, LMS,... GPAS Q n S n LQD in R 2 LTS, LMS,... GPAS Online-Algorithmus mit Laufzeitvorteilen für viele Daten Online-Algorithmus mit Laufzeit O (n) pro Update Obere Schranken O(n 2 log 2 n) und erw. O(n 2 logn) Praktikable Alternativen mit ähnlichen Laufzeiten Evolutionärer Algorithmus für verschiedene robuste Schätzer GP Algorithmus für Assoziationsstudien Weitere Einsatzgebiete

.. GPAS Online-Algorithmus mit Laufzeitvorteilen für viele Daten Online-Algorithmus mit Laufzeit O (n) pro Update Obere

4 Robuste Regression Definition (Donoho und Huber, 1983) Der Ersetzungsbruchpunkt eines Schätzers für eine endliche Stichprobe bezeichnet den kleinsten Stichprobenanteil, der ersetzt werden muss, um die Schätzung unbegrenzt zu beeinflussen. Internationale Telefonate aus Belgien Internationale Telefonate 0.0e e e+08 LS LQD Jahr

ersetzt werden muss, um die Schätzung unbegrenzt zu beeinflussen.

5 Einige robuste lineare Schätzer Sei Y 1,...,Y n eine Stichprobe und x i1,...,x ip für i = 1,...,n Beobachtungen. Das lineare Modell ist gegeben durch Definition Y i = β 0 + β 1 x i β p x ip + ε i i = 1,...,n. Die Schätzungen ˆβ LXX der Parameter β 0,...,β p sind gegeben durch ˆβ LQS = min β 0,...,β p {r 1 (β 0,...,β p ) 2,...,r n (β 0,...,β p ) 2 } (hp ) ˆβ LTS = min h p β 0,...,β p i=1 {r 1 (β 0,...,β p ) 2,...,r n (β 0,...,β p ) 2 } (i) ˆβ LQD = min β 0,...,β p { r i (β 0,...,β p ) r j (β 0,...,β p ) ;i < j} ( hp 2 ). r i (β 0,...,β p ): Differenz zwischen Beobachtung y i und der durch β 0,...,β p bestimmten Hyperebene

..,β p sind gegeben durch ˆβ LQS = min β 0,...,β p {r 1 (β 0,...,β p ) 2,...,r n (β 0,...,β p ) 2 } (hp ) ˆβ LTS = min h p β 0,...,β p i=1 {r 1 (β 0,.

6 Geometrische Dualität Punkt p = (β 1,β 0 ) wird zu Gerade T p : y = β 1 x β 0 Gerade g : y = β 1 x + β 0 wird zu Punkt T g = (β 1, β 0 ) Primalraum Dualraum y x x

T g = (β 1, β 0 ) Primalraum Dualraum -3-3 -2-2 -1-1 y 0 0

7 Geometrische Dualität Punkt p = (β 1,β 0 ) wird zu Gerade T p : y = β 1 x β 0 Gerade g : y = β 1 x + β 0 wird zu Punkt T g = (β 1, β 0 ) y Primalraum v Dualraum x u Duale LQD Berechnung Suche den niedrigsten Punkt in k oberen Halbräumen Dessen Koordinaten bestimmen die LQD Schätzung

8 Dualraum 0 0 1 2 3 4 5 6 7 x -0.2 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.

8 Lokale Lösungen Frage: Gibt es in fester Höhe eine lokale Lösung? Vorgehen 1 Berechne Schnittpunkte mit horizontaler Geraden 2 Betrachte Schnittpunkte von links nach rechts und aktualisiere dabei Zahl der darüberliegenden Halbräume 3 Sind k erreicht, gebe JA zurück Laufzeit: O(n log n)

Schnittpunkte von links nach rechts und aktualisiere dabei Zahl der

9 Randomisierter Algorithmus Wir verwalten eine untere und eine obere Schranke für die Höhe der globalen Lösung 1 Initialisierung: Initialisiere 0 als untere Schranke Finde triviale lokale Lösung als obere Schranke 2 Suche nach der globalen Lösung: Berechne die Anzahl der Schnittpunkte zwischen unterer und oberer Schranke Wähle zufällig gleichverteilt einen dieser Schnittpunkte Entscheide, ob die Höhe des Schnittpunkts neue untere oder neue obere Schranke wird 3 Stoppkriterium: Suche bis keine Schnittpunkte mehr zwischen unterer und oberer Schranke liegen Erwartete Aufrufe des Entscheidungsproblems: O(log n)

und oberer Schranke Wähle zufällig gleichverteilt einen dieser Schnittpunkte Entscheide, ob die Höhe des Schnittpunkts neue untere oder neue obere

10 Höhere Dimension Die betrachteten robusten Schätzer sind NP-hart (Bernholt, 2005) Die Berechnung für höhere Dimensionen erfolgt mit Heuristiken Typische Heuristiken basieren auf durch Teilmengen der Größe d = p + 1 definierten Lösungen Eine Heuristik kann für mehrere Schätzer angewandt werden

Heuristiken Typische Heuristiken basieren auf durch Teilmengen der Größe

11 Evolutionärer Algorithmus 1 Wähle uniform zufällig d Beobachtungen 2 Berechne darauf basierend eine eindeutige Hyperebene mit Parametern ˆβ 0,..., ˆβ p 3 Führe uniform zufällig eine der folgenden Adaptionen durch: 1 Tausche eine gewählte Beobachtung mit einer nicht gewählten Beobachtung 2 Wähle einen nicht gewählten Punkt zufällig und d 1 weitere Punkte mit ähnlichen Residuen 3 Wähle uniform zufällig d Beobachtungen 4 Berechne für das adaptierte Individuum eine eindeutige Hyperebene mit Parametern β 0,...,β p 5 Fahre mit dem adaptierten Individuum fort, wenn dessen Zielfunktionswert für den gewünschten Schätzer LTS, LMS, LQD,... mindestens so gut wie der des Originalindividuums ist 6 Wenn das Abbruchkriterium erfüllt ist, gib das letzte Individuum aus. Sonst gehe zu 3.

d 1 weitere Punkte mit ähnlichen Residuen 3 Wähle uniform zufällig d Beobachtungen 4 Berechne für das adaptierte Individuum eine eindeutige Hyperebene mit Parametern β 0,.

12 Schätzung auf d Punkten 1 Berechne Parameter der Hyperebene durch die d Punkte 2 Berechne ˆβ LS = min h p β 0,...,β p i=1 r i (β 0,...,β p ) 2 auf den h p Punkten mit den geringsten Residuen 3 Schätzung sind die Parameter, die den besseren Zielkriteriumswert ergeben

..,β p ) 2 auf den h p Punkten mit den geringsten Residuen 3

13 Vergleich Vergleich mit Standardheuristiken für LTS und LMS auf zwei Datensätzen Datensatz 1 Datensatz 2 y y x x Datensatz 1: 20% Ausreißer in x- und 20% Ausreißer in y-richtung Datensatz 2: Strukturbruch nach 60% der Daten

14 Ergebnis LTS (Datensatz 1) LTS (Datensatz 2) LTS Zielfunktionswert ltsreg robreg.evol Anzahl Regressoren LTS Zielfunktionswert ltsreg robreg.evol Anzahl Regressoren LMS (Datensatz 1) LMS (Datensatz 2) LMS Zielfunktionswert lqs robreg.evol Anzahl Regressoren LMS Zielfunktionswert lqs robreg.evol Anzahl Regressoren

evol 0 5 10 15 20 25 30 Anzahl Regressoren LMS (Datensatz 1) LMS (Datensatz 2) LMS Zielfunktionswert 0 10 30

Genetische Assoziationsstudien Ziel: Identifiziere genetische Risikofaktoren für Erkrankungen Daten: Genetische Faktoren von Fällen und Kontrollen Basis: SNPs sind häufig betrachteter genetischer

15 Genetische Assoziationsstudien Ziel: Identifiziere genetische Risikofaktoren für Erkrankungen Daten: Genetische Faktoren von Fällen und Kontrollen Basis: SNPs sind häufig betrachteter genetischer Faktor Single Nucleotide Polymorphism Genetische Variation Single: tritt an einem Basenpaar auf Nucleotide: Zucker, Phosphat und Adenin, Thymin, Cytosin oder Guanin Polymorphism: Nukleotidvariante mit Häufigkeit 1% 90% der genetischen Variationen Beispiel eines SNP

Polymorphism Genetische Variation Single: tritt an einem Basenpaar auf Nucleotide: Zucker, Phosphat und Adenin,

16 Einzelnukleotidpolymorphismen Die meisten SNPs besitzen zwei Allele (Varianten) Sei A das Referenzallel und a das Variantenallel Wir unterscheiden drei Typen durch Allel in Mutterchromosom und Allel in Vaterchromosom: homozygote Referenz AA (kodiert als 0) heterozygote Variante aa/aa (1) homozygote Variante aa (2) Datenbeispiel SNP 1 SNP 2 SNP 3 SNP 4 SNP 5 SNP 6 Fall

und Allel in Vaterchromosom: homozygote Referenz AA (kodiert als 0) heterozygote Variante aa/aa (1)

17 Lernproblem Beispiele aus B := {0,1}, Eingaben aus {0,1,2} Ziel: Finde eine zu Eingabe und Beispielen passende Funktion f : {0,1,2} n B Ansatz: Bilde mehrwertige Variablen auf Boolesche Variablen { x a 1, falls x = a := 0, sonst und x a mit a {0,1,2} ab und suche nach Polynomen

B Ansatz: Bilde mehrwertige Variablen auf Boolesche Variablen { x a

18 GP Algorithmus 1 Erzeuge uniform zufällig zwei Polynome der Größe 1 2 Reproduziere alle Polynome und selektiere 7 uniform zufällig für Einfügen eines Monoms aus einem Polynom in ein anderes Polynom Einsetzen eines neuen Literals Löschen eines bestehenden Literals Ersetzen eines bestehenden Literals Einsetzen eines neuen Monoms Löschen eines bestehenden Monoms 3 Bestimme die Fitnesswerte als Tripel aus vorhergesagte Kontrollen, vorhergesagte Fälle, Polynomgröße 4 Entferne pareto-dominierte Polynome 5 Wenn das Abbruchkriterium erfüllt ist, gib die Population aus. Sonst gehe zu 2.

bestehenden Literals Einsetzen eines neuen Monoms Löschen eines bestehenden Monoms 3 Bestimme die Fitnesswerte als Tripel aus vorhergesagte

19 Überanpassung Trainingsdaten Testdaten Missklassifikation Missklassifikation Polynomgröße Polynomgröße Problem: Tendenz zur Überanpassung Ziel: Ermittle korrekte Modellgröße (hier 5) in den Trainingsdaten

1 3 5 7 9 11 Polynomgröße Problem: Tendenz zur Überanpassung

20 Überanpassung Trainingsdaten Testdaten Steigung Missklassifikation Polynomgröße Polynomgröße Problem: Tendenz zur Überanpassung Ziel: Ermittle korrekte Modellgröße (hier 5) in den Trainingsdaten Ansatz: Betrachte nur die konvexe Hülle und für diese Punkte die Steigung zwischen benachbarten Punkten

Überanpassung Ziel: Ermittle korrekte Modellgröße (hier 5) in den Trainingsdaten

21 Ergebnisse auf GENICA Missklassifikation bei fester Modellgröße Missklassifikation Logic Regression GPAS Modellgröße Missklassifikation und Laufzeit GPAS Logic Regression Forests CART Bagging Random MCR Laufzeit

22 Ergebnisse auf HapMap Missklassifikation und Laufzeit auf signifikanten SNPs GPAS Logic Regression Forests CART Bagging Random MCR Laufzeit 1.1 (89.3) Suche auf allen SNPs Anzahl Generationen in Tausend Zufällige Zuordnung Originaldaten Laufzeit Etwa 8 Minuten für Generationen Die anderen Methoden laufen nicht Polynomgröße

23 Überblick Regression Klassifikation Robuste Skalenschätzung Robuste lineare Regression Genetische Assoziationsstudien Qn Sn LQD LTS, LMS,... GPAS Q n S n LQD in R 2 LTS, LMS,... GPAS Online-Algorithmus mit Laufzeitvorteilen für viele Daten Online-Algorithmus mit Laufzeit O (n) pro Update Obere Schranken O(n 2 log 2 n) und erw. O(n 2 logn) Praktikable Alternativen mit ähnlichen Laufzeiten Evolutionärer Algorithmus für verschiedene robuste Schätzer GP Algorithmus für Assoziationsstudien Weitere Einsatzgebiete

Ähnliche Dokumente

Die Komplexitätsklassen P und NP

Die Komplexitätsklassen P und NP Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen 3. Dezember 2009 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit und