Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Größe: px

Ab Seite anzeigen:

Download "Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen"

Angelika Boer
vor 6 Jahren
Abrufe

1 Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit weniger Merkmalen, gemäß Ockhams Rasiermesser, bevorzugt werden Stochastisches Gradientenverfahren als universelles Optimierungsverfahren bei bekannten Gradienten 76

2 3.5 Validierung Systematische Vorgehensweise zum Messen der Güte eines Modells (z.b. Regressionsgerade) oder zum Vergleichen mehrerer konkurrierender Modelle Gütemaß von Anwendung und Art des Modells abhängig Bestimmtheitsmaß, Quadratischer Fehler für Regression R 2 = nq i=1 nq i=1 (ŷ i ȳ) 2 =1 (y i ȳ) 2 Recall und Precision für Klassifikation (vgl. Kapitel 5) nq i=1 nq i=1 (y i ŷ i ) 2 (y i ȳ) 2 77

3 Trainings-, Validierungs- und Testdaten Vorhersagekraft bzw. Verallgemeinerbarkeit eines Modells auf vorher unbekannten Daten ist zu messen Randomisierte Aufteilung der vorhandenen Daten in Trainingsdaten (z.b. 80%) werden verwendet, um ein Modell (z.b. Regressionsgerade) zu bestimmen Testdaten (z.b. 20%) werden verwendet, um die Güte des Modells auf unbekannten Daten zu messen Zusätzlich können Validierungsdaten (z.b. 10%) verwendet werden, um eines aus mehreren konkurrierenden Modellen auszuwählen 78

4 Kreuzvalidierung Verlässlichkeit der Validierung kann, insbesondere wenn relativ wenig Daten verfügbar sind, durch k-fache Kreuzvalidierung (k-fold cross validation) gesteigert werden Vorgehensweise: Teile verfügbare Daten in k gleich große Teile (folds) Verwende jeden Teil einmal als Testdaten für ein Modell, das auf den anderen (k-1) Teilen trainiert wurde Bestimme Gütemaß als arithmetisches Mittel aus diesen k Messungen 79

5 Beispiel: 5-fach Kreuzvalidierung Daten D1 D2 D3 D4 D5 Training Test D1 D2 D3 D4 D5 m 1 D1 D2 D3 D4 D5 m 2 D1 D2 D3 D4 D5 m 3 D1 D2 D3 D4 D5 D1 D2 D3 D4 D5 m 4 m 5 m = 1 5 5ÿ i=1 m i 80

6 Kreuzvalidierung in R (vgl. [2, Kapitel 8]) 1 require(bootstrap) 2 3 # Regression mit allen Merkmalen 4 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr, 5 data=autos) 6 7 theta.fit <- function(x,y){lsfit(x,y)} 8 theta.predict <- function(fit,x){cbind(1,x)%*% fit$ coef} 9 10 x <- fit$ model[,2:ncol(fit$ model)] 11 y <- fit$ model[,1] # 10-fache Kreuzvalidierung 14 results <- crossval(x,y, theta.fit, theta.predict, ngroup=10) # Bestimmtheitsmaß ohne Kreuzvalidierung 17 r2 <- cor(y, fit$ fitted.values)ˆ # Bestimmtheitsmaß mit 10-facher Kreuzvalidierung 20 r2cv <- cor(y, results$cv.fit)ˆ2 R 2 ohne KV / R 2 mit 10-fach KV ca

7 3.6 Faktorenanalyse Welche unabhängigen Merkmale haben relativ großen Einfluss auf das zu erklärende abhängige Merkmal? Idee #1: Verwende Korrelationskoeffizient nach Pearson bestimme Korrelationskoeffizient zwischen jedem unabhängigen und dem zu erklärenden Merkmal ordne unabhängige Merkmale nach dem Wert ihrer Korrelation mit zu erklärendem Merkmal 82

8 Faktorenanalyse Beispiel: Korrelation mit Verbrauch Merkmal Korrelation Gewicht Hubraum PS Zylinder Beschleunigung Jahr Problem: Unabhängige Merkmale miteinander korreliert Hubraum und Zylinder haben Korrelationskoeffizient 0.95 wählt man eines aus, ist das andere Merkmal überflüssig 83

9 Faktorenanalyse Idee #2: Verwende Parameter (Koeffizienten) der optimalen Regressionshyperebene bei Betrachtung aller unabhängigen Merkmale Beispiel: Erklärung von Verbrauch durch die Merkmale Gewicht, Hubraum, PS, Zylinder, Beschleunigung und Jahr Parameter Merkmal Koe zient Gewicht Hubraum PS Zylinder Beschleunigung Jahr

10 Faktorenanalyse Problem: Werte der Koeffizienten hängen von Größenordnung der zugehörigen Merkmale ab Zylinder (Werte zwischen 3 und 8) großer Koeffizient Gewicht (Werte zwischen 732 und 2331) kleiner Koeffizient Idee #3: Transformiere Merkmale derart, dass alle die gleiche Größenordnung haben und die ermittelten Koeffizienten damit vergleichbar sind Normalisierung anhand minimalem und maximalem Wert Standardisierung unter Annahme einer Normalverteilung 85

11 Normalisierung Normalisierung (normalization) transformiert die Werte eines Merkmals x so, dass sie im Intervall [0,1] liegen x Õ = x x min x max x min mit x min und x max als minimaler und maximaler beobachteter (oder möglicher) Wert des Merkmals Ausreißer (z.b. durch Messfehler) sind problematisch 86

12 Standardisierung Standardisierung (standardization) nimmt an, dass die Werte eines Merkmals x normalverteilt sind und transformiert sie als x Õ = x µ mit geschätztem Mittelwert µ und Standardabweichung σ ˆ µ = 1 nÿ ı x i = Ù 1 nÿ (x n i µ) n 1 2 i=1 i=1 Transformierte Werte haben Mittelwert 0 und Standardabweichung 1 87

13 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale Parameter Merkmal Koe zient Gewicht Hubraum PS Zylinder Beschleunigung Jahr Beobachtung: Hubraum hat negativen Einfluss, Zylinder hat positiven Einfluss auf Verbrauch 88

14 Faktorenanalyse Interpretation: Koeffizienten spiegeln die erwartete Veränderung des abhängigen Merkmals (hier: Verbrauch) in Standardabweichungen bei Veränderung des zugehörigen unabhängigen Merkmals (z.b. Gewicht) um eine Standardabweichung an Problem: Unabhängige Merkmale miteinander korreliert 89

15 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale ohne Berücksichtigung von Zylinder Parameter Merkmal Koe zient Gewicht Hubraum PS Beschleunigung Jahr Beobachtung: Hubraum hat leicht positiven Einfluss 90

16 Faktorenanalyse Beispiel: Parameter (Koeffizienten) der optimalen Regressionshypereben nach Standardisierung des abhängigen und der unabhängigen Merkmale ohne Berücksichtigung von Hubraum Parameter Merkmal Koe zient Gewicht PS Zylinder Beschleunigung Jahr Beobachtung: Zylinder hat leicht positiven Einfluss 91

17 Faktorenanalyse Korrelierte unabhängige Merkmale (hier: Zylinder und Hubraum) erschweren die Faktorenanalyse, da der Einfluss eines Merkmals von den anderen betrachteten Merkmalen abhängt Idee #4: Betrachte mittlere Verbesserung im Bestimmtheitsmaß R 2, wenn unabhängiges Merkmal zu Teilmenge anderer unabhängiger Merkmale hinzugefügt wird rechenintensiv, da bei n unabhängigen Merkmalen Regressionsmodell für alle 2 n Teilmengen betrachtet werden müssen 92

18 Faktorenanalyse in R Faktorenanalyse mittels standardisierter Merkmale in R 1 # Merkmale standardisieren 2 autos_ standardized = scale(autos[c(" Verbrauch"," Gewicht"," Hubraum","PS", 3 " Zylinder"," Beschleunigung"," Jahr" )]) 4 5 # Regression mit standardisierten Merkmalen 6 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr, 7 data=as. data. frame(autos_ standardized)) 8 9 # Koeffizienten anzeigen 10 coefficients(fit) 93

19 3.7 Kodierung nominaler und ordinaler Merkmale Wie lassen sich nominale Merkmale (z.b. Geschlecht, Herkunft) und ordinale Merkmale (z.b. Güteklasse) in einem Regressionsmodell berücksichtigen? Nominale Merkmale als binäre Merkmale kodiert ein binäres Merkmal pro Wert des nominalen Merkmals für jeden Datenpunkt nimmt genau eines der binären Merkmale den Wert 1 an; alle anderen den Wert 0 Beispiel: Herkunft mit Wert in {USA, Europa, Japan} wird zu HerkunftUSA, HerkunftEuropa, HerkunftJapan 94

20 Kodierung nominaler und ordinaler Merkmale Ordinale Merkmale als metrische Merkmale kodiert ein metrisches Merkmal pro nominalem Merkmal die Werte des nominalen Merkmals (z.b. Güteklasse A, B, C) werden in numerische Werte übersetzt (z.b. -1, 0, 1), so dass deren Ordnung erhalten bleibt alternativ, kann wie bei nominalen Merkmalen, eine Kodierung als binäre Merkmale erfolgen; die Ordnung der Werte geht dabei verloren 95

21 Kodierung nominaler Merkmale in R R erkennt und kodiert nominale Merkmale automatisch 1 # Merkmale außer Herkunft standardisieren 2 autos_ standardized = 3 cbind( scale(autos[c(" Verbrauch"," Gewicht"," Hubraum","PS", 4 " Zylinder"," Beschleunigung"," Jahr")]), 5 autos[c(" Herkunft" )]) 6 7 # Regression mit standardisierten Merkmalen 8 fit <- lm(verbrauch Gewicht+Hubraum+PS+Zylinder+Beschleunigung+Jahr+Herkunft 9 data=as. data. frame(autos_ standardized)) # Koeffizienten anzeigen 12 coefficients(fit) 96

22 Kodierung nominaler Merkmale in R R erkennt und kodiert nominale Merkmale automatisch; der alphabetisch kleinste Wert (hier: Europa) wird zum Standardwert und der Achsenabschnitt entspricht seinem Koeffizienten Parameter Merkmal Koe zient 0 HerkunftEuropa (Achsenabschnitt) Gewicht Hubraum PS Zylinder Beschleunigung Jahr HerkunftJapan HerkunftUSA

23 Zusammenfassung Vorhersagekraft eines Modells muss auf Daten gemessen werden, die nicht seiner Bestimmung verwendet wurden Kreuzvalidierung teilt Daten zufällig in gleich große Teile auf und verwendet jeden Teil einmal zum Testen der Güte Faktorenanalyse misst den Einfluss eines einzelnen unabhängigen Merkmals auf das zu erklärende Merkmal; Nominale und ordinale Merkmale lassen sich durch Kodierung in einem Regressionsmodell berücksichtigen 98

24 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer 2012 [2] R. Kabacoff: R In Action, Manning 2015 [Kapitel 8] [3] N. Zumel und J. Mount: Practical Data Science with R, Manning

Ähnliche Dokumente

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden