Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Größe: px
Ab Seite anzeigen:

Download "Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009"

Transkript

1 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

2 Gliederung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

3 Hintergrund Einführung in CART Motivation Entscheidungsbäume Darstellungsform zur Veranschaulichung von Entscheidungsregeln Lösung von Entscheidungsproblemen (Klassifikation, Regression) Aufbau bestehend aus Wurzelknoten, inneren Knoten und Endknoten Repräsentation einer Entscheidungsregel durch Knoten Beschränkung auf binäre Entscheidungsbäume Aufteilung des Merkmalsraums in disjunkte Rechtecke bzw. Regionen Anpassung eines einfachen Modells (z.b. Konstante) für jede Region jeder Endknoten stellt eine Region dar Aufteilung der Daten in Trainings- und Testmenge Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

4 Einführungsbeispiel Einführung in CART Motivation Regressionsproblem Gegeben: abhängige Variable Y und unabhängige Variablen X 1, X 2 Ziel: möglichst genaue Vorhersage von Y Abbildung: Beispielhafte Partitionierung des Merkmalsraums im R 2 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

5 Einführungsbeispiel Einführung in CART Motivation Partitionierung des Merkmalsraums rekursives Vorgehen, bis gewünschte Anzahl von Regionen erreicht binäre Partitionierung, d.h. ausgehend vom gesamtem Raum in jedem Schritt Aufteilung einer Region in zwei Schätzung von Y mittels ˆf (X) = c m, wobei c m Mittelwert von Y in der Region m ist, in der sich X=(X 1, X 2 ) befindet hier fünf Regionen R 1,..., R 5 mit Regressionsmodell: 5 ˆf (X) = c m I {(X1,X 2 ) R m}(x) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

6 Einführungsbeispiel Einführung in CART Motivation Abbildung: Darstellung des Regressionsmodells mit einem Entscheidungsbaum 1 Wurzelknoten, 3 innere Knoten, 5 Endknoten, 4 Entscheidungsregeln Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

7 Einführungsbeispiel Einführung in CART Motivation Mittelwerte der Regionen z.b. c 1 = 5, c 2 = 7, c 3 = 0, c 4 = 2, c 5 = 4 Abbildung: perspektivische Darstellung der Schätzoberfläche Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

8 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Datengrundlage (x i1,..., x ip, y i ), i = 1,..., N, mit x i = (x i1,..., x ip ) Ziele Bestimmung einer geeigneten Partitionierung des Merkmalsraum in M Regionen R 1,..., R M möglichst genaue Vorhersage der y i mittels c m, m = 1,..., M Entscheidungsregel des Baums M f (x i ) = c m I {xi R m}(x i ) m=1 d.h. falls x i R k f (x i ) = c k, k {1,..., M} Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

9 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Lösung mit binärem Partitionierungsalgorithmus Sei j Index der Trennvariable und s Trennpunkt eines Knotens, d.h. erster Schritt: R 1 (j, s) = {x i x ij s} und R 2 (j, s) = {x i x ij > s} min j,s min c 1 x i R 1 (j,s) (y i c 1 ) 2 + min dabei Lösung der inneren Minimierungsproblems: ĉ 1 = 1 N 1 x i R 1 (j,s) c 2 y i und ĉ 2 = 1 N 2 x i R 2 (j,s) (y i c 2 ) 2 x i R 2 (j,s) Aufteilung der Daten in zwei Regionen im ersten Schritt Wiederholung des Partitionierungsprozesses in resultierenden Regionen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43 y i

10 Baumgröße Einführung in CART Regressionsbäume Problem Welche Größe (Anzahl der Endknoten/Regionen) soll der Baum haben? Tuningparameter zur Steuerung der Modellkomplexität Neigung zum Overfitting bei sehr großen Bäumen Vernachlässigung der Datenstruktur bei sehr kleinen Bäumen Lösungsansätze Aufteilung einer Region nur, wenn Verkleinerung der Quadratsumme festgelegten Grenzwert überschreitet Bestimmung eines sehr großen Baums, anschließend Zweige abschneiden im Sinne eines Optimierungskriteriums (cost-complexity pruning) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

11 Einführung in CART Klassifikationsbäume Bestimmung eines Klassifikationsbaums Situationsunterschied im Vergleich zu Regressionsbäumen: Zielvariable y i jetzt Klassenzugehörigkeit k = 1,..., K der x i, i = 1,..., N Bestimmung eines geeigneten Klassifikationsbaums mittels Gütekriterien Anteil der Beobachtungen aus Klasse k in Endknoten m bzw. Region R m : ˆp mk = 1 N m x i R m I {yi =k} Mehrheit der dortigen Beobachtungen entscheidet Klassifikation: k(m) = arg max ˆp mk k Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

12 Gütekriterien Einführung in CART Klassifikationsbäume Fehlklassifikationsrate: 1 N m x i R m I {yi k(m)} = 1 ˆp mk(m) Gini-Index: k k ˆp mk ˆp mk = K k=1 ˆp mk (1 ˆp mk ) Kreuzentropie: K k=1 ˆp mk log(ˆp mk ) FKR Gini Index Kreuzentropie p Abbildung: Beispielhafter Verlauf der Gütekriterien im Zweiklassenfall Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

13 Klassifikationsbeispiel Einführung in CART Klassifikationsbäume Vergleich von zwei Stümpfen (Bäume mit nur zwei Endknoten) Zweiklassenproblem mit 400 Beobachtungen in jeder Klasse (400,400) Aufteilung beim ersten Baum: (300,100) und (100,300) Aufteilung beim zweiten Baum: (200,400) und (200,0) Baum FKR Gini KE zweiter Stumpf ist zu bevorzugen Gini-Index und Kreuzentropie sensibler gegenüber Veränderungen in den Endknoten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

14 Gliederung Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

15 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Erinnerung Grundlage: Klassifikations- oder Regressionsproblem Boosting-Konzept: Zusammenführung vieler schwacher Klassifizierer/Schätzer zu einem starken Kollektiv Kombination in Boosting-Algorithmen Jetzt: Klassifikations- und Regressionsbäume (CART) als Basisprozeduren Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

16 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus formale Schreibweise eines Entscheidungsbaums T (x i, Θ) = M m=1 c m I {xi R m}, i = 1,..., N dabei Θ = {(R 1, c 1 ),..., (R M, c M )} Aufteilung des Merkmalsraums in M Regionen bzw. des Entscheidungsbaums in M Endknoten falls x i R k mit k {1,..., M} T (x i, Θ) = c k Schätzung der Parameter mit Hilfe einer Verlustfunktion: ˆΘ = arg min Θ M m=1 x i R m L(y i, c m ) anspruchsvolles kombinatorisches Optimierungsproblem approximative Lösung gesucht Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

17 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Aufteilung des Optimierungsproblems 1 Bestimmung der Regionen R m : schwieriges Unterfangen, approximative Lösungen nötig typische Strategie: rekursiver (Top-Down)-Partitionierungsalgorithmus alternative Schreibweise des Optimierungsproblems: Θ = arg min Θ N L(y i, T (x i, Θ)) präzisere Schätzung der c m mit ˆR m = R m 2 Bestimmung der c m (gegeben die Regionen R m ): oftmals trivial mit ĉ m = ȳ m (Mittelwert der y i aus Region m) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

18 Boostingmodelle für Bäume Boostingmodell mit Bäumen Aufbau des Boosting-Algorithmus J J M j f (x i ) = T (x i, Θ j ) = c jm I {xi R jm } j=1 j=1 m=1 Approximierung der wahren y i durch Summe der Regionskonstanten, die x i durch Bäume zugeteilt werden Θ j = {(R jm, c jm )} M j m=1 ˆ= Aufteilung des Merkmalsraums in M j Regionen im j-ten Schritt R jm ˆ= m-te Region im j-ten Schritt c jm ˆ= Region R jm widerspiegelnde Konstante im j-ten Schritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

19 Boostingmodelle für Bäume Boostingalgorithmus mit Bäumen Aufbau des Boosting-Algorithmus schrittweise rekursiver Aufbau Ziel in jedem Schritt: Bestimmung einer geeigneten Partitionierung Θ j ˆΘ j = arg min Θ j N L(y i, f j 1 (x i ) + T (x i, Θ j )) i=1 mit f 0 (x i ) := 0 und f j (x i ) := f j 1 (x i ) + T (x i, Θ j ), j = 1,..., J Bestimmung der c jm gegeben die Regionen R jm : ĉ jm = arg min L(y i, f j 1 (x i ) + c jm ) c jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

20 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen quadratischer Verlust L(y, f (x)) = (y f (x)) 2 bei Regressionsbäumen ˆΘ j ˆ= Partitionierung, die die Residuen y i f j 1 (x i ) am besten vorhersagt ĉ jm = 1 (y i f j 1 (x i )) N jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

21 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen exponentielle Verlustfunktion L(y, f (x)) = exp( y f (x)) bei Klassifikationsbäumen mit zwei Klassen AdaBoost-Algorithmus w ij = exp( y i f j 1 (x i )) N ˆΘ j = arg min w ij exp( y i T (x i, Θ j )) Θ j i=1 ĉ jm = log( x i R jm w ij I {yi =+1} x i R jm w ij I {yi = 1} ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

22 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus für Regressionsbäume absoluter Verlust: L(y, f (x)) = y f (x) Huber-Verlustfunktion: { (y f (x)) L(y, f (x)) = 2 für y f (x) δ 2δ y f (x) δ 2 sonst für Klassifikationsbäume multinomiale Devianz für K Klassen: K K L(y, f (x)) = I {y=k} f k (x) + log( e fh(x) ) k=1 h=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

23 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus Vorteile robustere Entscheidungsbäume schnelle iterative Algorithmen zur Bestimmung der c jm Problem keine schnellen iterativen Boostingalgorithmen zur Bestimmung der Regionen bzw. Endknoten Übergang zu approximativen Kriterien Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

24 Gliederung Boostingmodelle für Bäume Optimierung mittels Gradientenboosting 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

25 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Ziele: schnelle approximative Boostingalgorithmen zur Bestimmung von Entscheidungsbäumen für jede differenzierbare Verlustfunktion Minimierung des Verlusts L(f ) = N i=1 L(y i, f (x i )) numerische Optimierung Gesucht: f = arg min f L(f ) dabei f R N mit f = {f (x 1 ),..., f (x N )} f (x i ) approximierende Funktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

26 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Behandlung von f im numerischen Lösungsverfahren als Summe von Komponentenvektoren h j R N : J f J = h j j=0 dabei f 0 = h 0 anfängliche Schätzung (durch Raten) und f j basierend auf f j 1, j = 1,..., J Methode des steilsten Abstiegs: h j = ρ j g j p j Skalar und g j R N Gradient von L(f ) an der Stelle f = f j 1 Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

27 Boostingmodelle für Bäume Parameterbestimmung Optimierung mittels Gradientenboosting Komponenten des Gradienten g j (j-ter Schritt): [ ] L(yi, f (x i )) g ij = f (x i ) f (x i )=f j 1 (x i ) Schrittlänge ρ j : ρ j = arg min ρ L(f j 1 ρ g j ) rekursive Bestimmung der approximierenden Funktionen: f j = f j 1 ρ j g j Interpretation von ( g j ) (negativer Gradient im j-ten Schritt): Richtung im R N, für die L(f ) mit f = f j 1 am schnellsten fällt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

28 Boostingmodelle für Bäume Vergleich mit Boosting für Bäume Optimierung mittels Gradientenboosting Gemeinsamkeiten iterative { Algorithmen, die in jedem } Schritt Verlustfunktion bzgl. Θ j = (R j1, c j1 ),..., (R jmj, c jmj ) bzw. ρ j maximal reduzieren rekursiver Aufbau (auf f j 1 basierend) Baumkomponenten T (x i, Θ j ) analog zu Komponenten des negativen Gradienten g ij Unterschiede t j = (T (x 1, Θ j ),..., T (x N, Θ j )) nicht unabhängig, da Vorhersagen eines Baums mit M j Endknoten negativer Gradient g j (Richtung des maximalen Gefälles) ohne einschränkende Bedingung Bestimmung der c jm für jede Region R jm separat Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

29 Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Dilemma der Methode des steilsten Abstiegs Methode des steilsten Abstiegs zu bevorzugen, wenn Minimierung des Verlusts L(f ) auf den Trainingsdaten einziges Ziel Gradient g j, j = 1,..., J, leicht zu bestimmen für differenzierbare Verlustfunktionen L(y, f (x)) Lösung des Optimierungsproblem für Θ j schwierig für robuste Verlustfunktionen Problem: Gradient nur für Trainingsdaten x i, i = 1,..., N, definiert Hauptziel aber: Generalisierung von f (x) für neue Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

30 Ausweg Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Erstellung eines Baums T (x, Θ j ) im j-ten Boostingschritt, dessen Vorhersagen t j sich so nah wie möglich am negativen Gradienten orientieren: Θ j = arg min Θ N ( g ij T (x i, Θ)) 2 i=1 Anpassung mittels Minimierung des quadratischer Fehlers Regionen R jm zumeist leicht von R jm abweichend dennoch ähnlich genug, um dem gleichen Zweck zu dienen keine Veränderung in der Bestimmung der c jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

31 Boostingmodelle für Bäume Gradienten gängiger Verlustfunktionen Optimierung mittels Gradientenboosting Verfahren Verlustfunktion L(y i, f (x i ))/ f (x i ) Regression 1 2 [y i f (x i )] 2 y i f (x i ) Regression y i f (x i ) sign[y i f (x i )] Regression Huber y i f (x i ) für y i f (x i ) δ j δ j sign[y i f (x i )] für y i f (x i ) > δ j wobei δ j das α-quantil von y i f (x i ) Klassifikation multinomiale k-te Klasse: (K Klassen) Devianz I {yi =k} e f k(x i ) / K h=1 e f h(x i ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

32 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Regressionsproblem N 1 Setze f 0 (x) = arg min L(y i, c) c i=1 2 Für j = 1,..., J: [ ] L(yi, f (x i ) Für i = 1,..., N berechne: g ij = f (x i ) f =f j 1 Anpassung eines Regressionsbaums T (x, Θ j ) an den neg. Gradienten g j mit Endregionen R jm, m = 1,..., M j Für m = 1,..., M j berechne c jm = arg min L(y i, f j 1 (x i ) + c) c x i R jm Setze f j (x) = f j 1 (x) + c jm I {x Rjm} M j m=1 J 3 Ergebnis: Regressionsbaum f J (x) = T (x, Θ j ) j=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

33 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Klassifikationsproblem Einzige Unterschiede K-malige Ausführung von Schritt 2 pro Iteration j = 1,..., J Resultat nach letzter (J-ter) Iteration: K verschiedene Regressionsbäume f Jk, k = 1,..., K Allgemeine Tuningparameter Anzahl der Iterationen J im Boostingalgorithmus Größe M j (Anzahl der Endknoten bzw. Regionen) des zu bestimmenden Baums im j-ten Boostingschritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

34 Gliederung Boostingmodelle für Bäume Bestimmung der Baumgröße 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

35 Boostingmodelle für Bäume Baumgröße als Tuningparameter Bestimmung der Baumgröße bisherige Vorgehensweise: in jeder Boosting-Iteration zunächst Bestimmung eines sehr großen, überdimensionierten Baums anschließend Verminderung der Endknoten bis zur jeweils gewünschten (als optimal geschätzten) Anzahl M j (pruning) unerwünschte Begleiterscheinungen: Erstellung erheblich zu großer Bäume besonders in den ersten Iterationen höherer Rechenaufwand, geringere Effizienz einfachste Lösungsstrategie: Restriktion auf einheitliche Größe M j = M j Approximation der Zielfunktion η = arg min E XY [L(Y, f (X))] f Ziel: Minimierung des Vorhersagerisikos auf Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

36 Boostingmodelle für Bäume Approximation der Zielfunktion Bestimmung der Baumgröße wichtiger Bestandteil der zu approximierenden Zielfunktion η(x): Interaktionsgrad der Variablen X T = (X 1,..., X p ) beschrieben in ANOVA-Struktur (analysis of variance) η(x) = j η j (X j ) + jk η jk (X j, X k ) + jkl η jkl (X j, X k, X l ) +... Haupteffekte, Wechselwirkungen ersten Grades, zweiten Grades usw. in der Praxis oftmals nur Wechselwirkungen niedrigen Grades einflussreich Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

37 Boostingmodelle für Bäume Zusammenhang mit Baumgröße Bestimmung der Baumgröße Frage: Was hat der Wechselwirkungsgrad mit der Baumgröße zu tun? Wechselwirkungsniveau von baumbasierenden Approximationen begrenzt durch Baumgröße M keine Interaktionseffekte vom Grad größer (M 1) übertragbar in Boostingmodelle für Bäume (als Summe von Bäumen) Anzahl dominanter Wechselwirkungen zwar unbekannt, aber in der Praxis niedrig tendierend (i.d.r. 4 J 8 im Boostingprozess) Feintuning möglich mittels Risikovergleich auf Trainingsdatensatz Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

38 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Gegeben: Klassifikationsproblem Seien X 1,..., X 10 ~N(0,1) (u.i.v.) Zielvariable Y definiert durch Y = { +1 falls 10 j=1 X j 2 >med(χ 2 10 ) 1 sonst 2000 Trainingsfälle (mit etwa 1000 in jeder Klasse), Testfälle med(χ 2 10 ) 9.34 Testfehler von 45.8% mit einem Stumpf (ohne Boosting) Ziel: Verkleinerung der Testfehlers mittels Boosting für Bäume Gradientenboosting mit binomialer Devianz L(Y, f (X)) = log(1 + exp( 2Y f (X))) als Verlustfunktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

39 Boostingmodelle für Bäume Bestimmung der Baumgröße Beispiel X1 X X1 X2 Y = 1 Y = +1 Abbildung: Gegenüberstellung zweier Variablen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

40 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Abbildung: Testfehler unterschiedlicher Baumgrößen beim Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

41 Gliederung Zusammenfassung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

42 Zusammenfassung Zusammenfassung Entscheidungsbäume nützlich zur Lösung von Klassifikations- und Regressionsproblemen (CART-Algorithmus) mit Boosting-Konzept kombinierbar Robustheit in Abhängigkeit der gewählten Verlustfunktion Übergang zu approximativem Verfahren (Gradientenboosting) Baumgröße und Anzahl der Iterationen sind Tuningparameter Interaktionsgrad beschränkt durch Baumgröße geringere Fehlerrate im Vergleich zum herkömmlichen AdaBoost Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

43 Literatur Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2. Auflage, Springer, New York. R Development Core Team (2009): A language and environment for statistical computing, Version 2.9.0, R Foundation for Statistical Computing, Wien. Vogt, J. (2000): Bagging, Boosting und verwandte Methoden, Diplomarbeit. Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Statistisches Lernen

Statistisches Lernen Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28

Mehr

Fortgeschrittene Computerintensive Methoden

Fortgeschrittene Computerintensive Methoden Fortgeschrittene Computerintensive Methoden Einheit 8: Gradient Boosting (basierend auf einer VL-Einheit von B. Bischl in Dortmund) Bernd Bischl Matthias Schmid, Manuel Eugster, Bettina Grün, Friedrich

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Euler-Approximation. Leonie van de Sandt. TU Dortmund Prof. Dr. Christine Müller. 5. Juni 2012

Euler-Approximation. Leonie van de Sandt. TU Dortmund Prof. Dr. Christine Müller. 5. Juni 2012 Euler-Approximation Leonie van de Sandt TU Dortmund Prof. Dr. Christine Müller 5. Juni 2012 Leonie van de Sandt (TU Dortmund) Euler-Approximation 5. Juni 2012 1 / 26 Inhaltsverzeichnis 1 Einleitung Leonie

Mehr

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung Operations Research Rainer Schrader Konvexe Funktionen Zentrum für Angewandte Informatik Köln 4. Juni 2007 1 / 84 2 / 84 wir haben uns bereits mit linearen Optimierungsproblemen beschäftigt wir werden

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007. Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung

Mehr

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

6.2 Lineare Regression

6.2 Lineare Regression 6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )

Mehr

Seminarvortrag. Euler-Approximation. Marian Verkely TU Dortmund

Seminarvortrag. Euler-Approximation. Marian Verkely TU Dortmund Seminarvortrag Euler-Approximation Marian Verkely TU Dortmund 03.12.14 1 / 33 Inhaltsverzeichnis 1 Motivation 2 Simulierte Prozesse 3 Euler-Approximation 4 Vasicek-Prozess: Vergleich analytische Lösung

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer

Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer Angewandte Biostatistik mit R Fabian Knorre 26.11.2012 Ein Seminar bei Prof. Dr. Jörg Rahnenführer 1 / 53 Inhaltsverzeichnis 1 Motivation und Einleitung: Was ist ein... und wozu? 2 CART - Einleitung Konstruktion

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Fixpunkt-Iterationen

Fixpunkt-Iterationen Fixpunkt-Iterationen 2. Vorlesung 170 004 Numerische Methoden I Clemens Brand und Erika Hausenblas Montanuniversität Leoben 27. Februar 2014 Gliederung Wiederholung: Gleichungstypen, Lösungsverfahren Grundprinzip

Mehr

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536 fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität) Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration

Mehr

Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang

Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Numerisches Rechnen (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Institut für Geometrie und Praktische Mathematik RWTH Aachen Wintersemester 2011/12 IGPM, RWTH Aachen Numerisches Rechnen

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Lösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 =

Lösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 = Lösungsskizzen zu den Klausuraufgaben zum Kurs 4 Algorithmische Mathematik 4KSL3 6 Punkte Aufgabe. Die Folge (a n ) n N natürlicher Zahlen a n sei rekursiv definiert durch a 0 = 0, a n = a n + n falls

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Naive Bayes für Regressionsprobleme

Naive Bayes für Regressionsprobleme Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt

Mehr

Sparse Hauptkomponentenanalyse

Sparse Hauptkomponentenanalyse Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Einführung in das statistische Lernen

Einführung in das statistische Lernen Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl

Mehr

Kapitel 3 Schließende Statistik

Kapitel 3 Schließende Statistik Motivation Grundgesamtheit mit unbekannter Verteilung F Stichprobe X 1,...,X n mit Verteilung F Realisation x 1,...,x n der Stichprobe Rückschluss auf F Dr. Karsten Webel 160 Motivation (Fortsetzung) Kapitel

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Algorithmen und Komplexität

Algorithmen und Komplexität Algorithmen und Komplexität Dynamische Programmierung Markus Ullrich Norbert Baum Fachbereich Informatik - IIb07 Hochschule Zittau/Görlitz 28. Mai 2009 1 / 29 Wie sieht es mit langen Ketten aus? A 1 A

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung 8. Optimierung Inhalt 8.1 Motivation 8.2 Optimierung ohne Nebenbedingungen 8.3 Optimierung unter Nebenbedingungen 8.4 Lineare Programmierung 8.5 Kombinatorische Optimierung 2 8.1 Motivation Viele Anwendungen

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Eidesstattliche Erklärung

Eidesstattliche Erklärung BACHELORARBEIT Implementierung und Evaluation ergänzender Korrekturmethoden für statistische Lernverfahren bei unbalancierten Klassifikationsproblemen Tobias Kühn Betreuung: Prof. Dr. Bernd Bischl Institut

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

7.1 Matrizen und Vektore

7.1 Matrizen und Vektore 7.1 Matrizen und Vektore Lineare Gleichungssysteme bestehen aus einer Gruppe von Gleichungen, in denen alle Variablen nur in der 1. Potenz vorkommen. Beispiel Seite 340 oben: 6 x 2 = -1 + 3x 2 = 4 mit

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus

Mehr

Totale Ableitung und Jacobi-Matrix

Totale Ableitung und Jacobi-Matrix Totale Ableitung und Jacobi-Matrix Eine reelle Funktion f : R n R m ist in einem Punkt x differenzierbar, wenn f (x + h) = f (x) + f (x)h + o( h ) für h 0. Totale Ableitung 1-1 Totale Ableitung und Jacobi-Matrix

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Seminar Optimierung - Approximation and fitting. Christian Bretzke

Seminar Optimierung - Approximation and fitting. Christian Bretzke Seminar Optimierung - Approximation and fitting Christian Bretzke 1 Inhaltsverzeichnis 1 Norm Approximation 3 1.1 Verschiedene Interpretation.................................. 3 1.2 Gewichtete NAP........................................

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Das Nelder Mead Verfahren Sei f : R n R eine (nicht

Mehr

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Verteidigung der Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Von: Tom Fels 23.11.2015 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Motivation Motivation PROGNOSEN Schätzung zukünftiger

Mehr

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben

Mehr

9.5 Entscheidungsbäume

9.5 Entscheidungsbäume 9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel

Mehr

Kapitel 9: Lineare Programmierung Gliederung

Kapitel 9: Lineare Programmierung Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Wintersemester 2012/13 26. Vorlesung Greedy- und Approximationsalgorithmen Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Operations Research Optimierung für Wirtschaftsabläufe:

Mehr

Simultane Mehrgleichungssysteme: Parameterschätzung

Simultane Mehrgleichungssysteme: Parameterschätzung Simultane Mehrgleichungssysteme: Parameterschätzung Stichwörter: Eigenschaften des OLS-Schätzers Hilfsvariablenschätzer 2SLS limited information Methoden 3SLS FIML full information Methoden o1-21.tex/0

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Multiple Regressionsanalyse - Kurzabriss

Multiple Regressionsanalyse - Kurzabriss Multiple Regressionsanalyse - Kurzabriss Ziele: Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren Meist zu Screening-Untersuchungen, um den Einfluß von vermuteten Ursachenvariablen

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Studientag zur Algorithmischen Mathematik

Studientag zur Algorithmischen Mathematik Studientag zur Algorithmischen Mathematik Aufgaben zur nicht-linearen Optimierung Teil II Winfried Hochstättler Diskrete Mathematik und Optimierung FernUniversität in Hagen 1. Juli 2012 Aufgabe 5 Bestimmen

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für

Mehr

Die Größe A(n, d) und optimale Codes

Die Größe A(n, d) und optimale Codes Die Größe A(n, d) und optimale Codes Definition Optimaler Code Wir definieren A(n, d) = max{m binärer (n, M, d) Code} Ein (n, M, d)-code heißt optimal, falls M = A(n, d). Bestimmung von A(n, d) ist offenes

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Ein Filter-Trust-Region Verfahren zum Lösen nichtlinearer Zulässigkeitsprobleme mit teuren Funktionen

Ein Filter-Trust-Region Verfahren zum Lösen nichtlinearer Zulässigkeitsprobleme mit teuren Funktionen Ein Filter-Trust-Region Verfahren zum Lösen nichtlinearer Zulässigkeitsprobleme mit teuren Funktionen Markus Kaiser 1, Alexander Thekale 2 1 Arbeitsgruppe Optimierung & Approximation Bergische Universität

Mehr

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology

Mehr

Vorlesung 2 KÜRZESTE WEGE

Vorlesung 2 KÜRZESTE WEGE Vorlesung 2 KÜRZESTE WEGE 34 Kürzeste Wege im Graphen Motivation! Heute:! Kürzeste Wege von einem Knoten (SSSP)! Kürzeste Wege zwischen allen Knotenpaaren (APSP)! Viele Anwendungen:! Navigationssysteme!

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Zeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation

Zeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation Zeitreihenanalyse Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation Beispiel für Zeitreihe Andere Anwendungen Inventarmanagment Produktionsplanung

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit) 3. Lineare Optimierung (Entscheidungen unter Sicherheit) Betrachtet wird hier der Fall Θ = (bzw. die Situation u(a, ϑ) bzw. l(a,ϑ) konstant in ϑ Θ für alle a A). Da hier keine Unsicherheit über die Umweltzustände

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers

Mehr

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht

Mehr

Bagging, Boosting und verwandte Methoden

Bagging, Boosting und verwandte Methoden Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich Abteilung für Mathematik Seminar für Statistik

Mehr

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h. Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,

Mehr

Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell

Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Tobias Liboschik Verena Ueberfeldt Seminar Modellwahlkriterien Wintersemester 2009/10 13. November 2009 1 / 48 Inhaltsverzeichnis

Mehr

Mining the Network Value of Customers

Mining the Network Value of Customers Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz

Mehr

Fehler- und Ausgleichsrechnung

Fehler- und Ausgleichsrechnung Fehler- und Ausgleichsrechnung Daniel Gerth Daniel Gerth (JKU) Fehler- und Ausgleichsrechnung 1 / 12 Überblick Fehler- und Ausgleichsrechnung Dieses Kapitel erklärt: Wie man Ausgleichsrechnung betreibt

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Fallzahlplanung bei unabhängigen Stichproben

Fallzahlplanung bei unabhängigen Stichproben Fallzahlplanung bei unabhängigen Stichproben Seminar Aktuelle biometrische Probleme Benjamin Hofner benjamin.hofner@stat.uni-muenchen.de 12. Januar 2005 Übersicht 1. Einführung und Grundlagen der Fallzahlplanung

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr