Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009
|
|
- Victor Maus
- vor 6 Jahren
- Abrufe
Transkript
1 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
2 Gliederung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
3 Hintergrund Einführung in CART Motivation Entscheidungsbäume Darstellungsform zur Veranschaulichung von Entscheidungsregeln Lösung von Entscheidungsproblemen (Klassifikation, Regression) Aufbau bestehend aus Wurzelknoten, inneren Knoten und Endknoten Repräsentation einer Entscheidungsregel durch Knoten Beschränkung auf binäre Entscheidungsbäume Aufteilung des Merkmalsraums in disjunkte Rechtecke bzw. Regionen Anpassung eines einfachen Modells (z.b. Konstante) für jede Region jeder Endknoten stellt eine Region dar Aufteilung der Daten in Trainings- und Testmenge Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
4 Einführungsbeispiel Einführung in CART Motivation Regressionsproblem Gegeben: abhängige Variable Y und unabhängige Variablen X 1, X 2 Ziel: möglichst genaue Vorhersage von Y Abbildung: Beispielhafte Partitionierung des Merkmalsraums im R 2 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
5 Einführungsbeispiel Einführung in CART Motivation Partitionierung des Merkmalsraums rekursives Vorgehen, bis gewünschte Anzahl von Regionen erreicht binäre Partitionierung, d.h. ausgehend vom gesamtem Raum in jedem Schritt Aufteilung einer Region in zwei Schätzung von Y mittels ˆf (X) = c m, wobei c m Mittelwert von Y in der Region m ist, in der sich X=(X 1, X 2 ) befindet hier fünf Regionen R 1,..., R 5 mit Regressionsmodell: 5 ˆf (X) = c m I {(X1,X 2 ) R m}(x) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
6 Einführungsbeispiel Einführung in CART Motivation Abbildung: Darstellung des Regressionsmodells mit einem Entscheidungsbaum 1 Wurzelknoten, 3 innere Knoten, 5 Endknoten, 4 Entscheidungsregeln Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
7 Einführungsbeispiel Einführung in CART Motivation Mittelwerte der Regionen z.b. c 1 = 5, c 2 = 7, c 3 = 0, c 4 = 2, c 5 = 4 Abbildung: perspektivische Darstellung der Schätzoberfläche Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
8 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Datengrundlage (x i1,..., x ip, y i ), i = 1,..., N, mit x i = (x i1,..., x ip ) Ziele Bestimmung einer geeigneten Partitionierung des Merkmalsraum in M Regionen R 1,..., R M möglichst genaue Vorhersage der y i mittels c m, m = 1,..., M Entscheidungsregel des Baums M f (x i ) = c m I {xi R m}(x i ) m=1 d.h. falls x i R k f (x i ) = c k, k {1,..., M} Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
9 Einführung in CART Regressionsbäume Bestimmung eines Regressionsbaums Lösung mit binärem Partitionierungsalgorithmus Sei j Index der Trennvariable und s Trennpunkt eines Knotens, d.h. erster Schritt: R 1 (j, s) = {x i x ij s} und R 2 (j, s) = {x i x ij > s} min j,s min c 1 x i R 1 (j,s) (y i c 1 ) 2 + min dabei Lösung der inneren Minimierungsproblems: ĉ 1 = 1 N 1 x i R 1 (j,s) c 2 y i und ĉ 2 = 1 N 2 x i R 2 (j,s) (y i c 2 ) 2 x i R 2 (j,s) Aufteilung der Daten in zwei Regionen im ersten Schritt Wiederholung des Partitionierungsprozesses in resultierenden Regionen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43 y i
10 Baumgröße Einführung in CART Regressionsbäume Problem Welche Größe (Anzahl der Endknoten/Regionen) soll der Baum haben? Tuningparameter zur Steuerung der Modellkomplexität Neigung zum Overfitting bei sehr großen Bäumen Vernachlässigung der Datenstruktur bei sehr kleinen Bäumen Lösungsansätze Aufteilung einer Region nur, wenn Verkleinerung der Quadratsumme festgelegten Grenzwert überschreitet Bestimmung eines sehr großen Baums, anschließend Zweige abschneiden im Sinne eines Optimierungskriteriums (cost-complexity pruning) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
11 Einführung in CART Klassifikationsbäume Bestimmung eines Klassifikationsbaums Situationsunterschied im Vergleich zu Regressionsbäumen: Zielvariable y i jetzt Klassenzugehörigkeit k = 1,..., K der x i, i = 1,..., N Bestimmung eines geeigneten Klassifikationsbaums mittels Gütekriterien Anteil der Beobachtungen aus Klasse k in Endknoten m bzw. Region R m : ˆp mk = 1 N m x i R m I {yi =k} Mehrheit der dortigen Beobachtungen entscheidet Klassifikation: k(m) = arg max ˆp mk k Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
12 Gütekriterien Einführung in CART Klassifikationsbäume Fehlklassifikationsrate: 1 N m x i R m I {yi k(m)} = 1 ˆp mk(m) Gini-Index: k k ˆp mk ˆp mk = K k=1 ˆp mk (1 ˆp mk ) Kreuzentropie: K k=1 ˆp mk log(ˆp mk ) FKR Gini Index Kreuzentropie p Abbildung: Beispielhafter Verlauf der Gütekriterien im Zweiklassenfall Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
13 Klassifikationsbeispiel Einführung in CART Klassifikationsbäume Vergleich von zwei Stümpfen (Bäume mit nur zwei Endknoten) Zweiklassenproblem mit 400 Beobachtungen in jeder Klasse (400,400) Aufteilung beim ersten Baum: (300,100) und (100,300) Aufteilung beim zweiten Baum: (200,400) und (200,0) Baum FKR Gini KE zweiter Stumpf ist zu bevorzugen Gini-Index und Kreuzentropie sensibler gegenüber Veränderungen in den Endknoten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
14 Gliederung Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
15 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Erinnerung Grundlage: Klassifikations- oder Regressionsproblem Boosting-Konzept: Zusammenführung vieler schwacher Klassifizierer/Schätzer zu einem starken Kollektiv Kombination in Boosting-Algorithmen Jetzt: Klassifikations- und Regressionsbäume (CART) als Basisprozeduren Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
16 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus formale Schreibweise eines Entscheidungsbaums T (x i, Θ) = M m=1 c m I {xi R m}, i = 1,..., N dabei Θ = {(R 1, c 1 ),..., (R M, c M )} Aufteilung des Merkmalsraums in M Regionen bzw. des Entscheidungsbaums in M Endknoten falls x i R k mit k {1,..., M} T (x i, Θ) = c k Schätzung der Parameter mit Hilfe einer Verlustfunktion: ˆΘ = arg min Θ M m=1 x i R m L(y i, c m ) anspruchsvolles kombinatorisches Optimierungsproblem approximative Lösung gesucht Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
17 Ausgangssituation Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Aufteilung des Optimierungsproblems 1 Bestimmung der Regionen R m : schwieriges Unterfangen, approximative Lösungen nötig typische Strategie: rekursiver (Top-Down)-Partitionierungsalgorithmus alternative Schreibweise des Optimierungsproblems: Θ = arg min Θ N L(y i, T (x i, Θ)) präzisere Schätzung der c m mit ˆR m = R m 2 Bestimmung der c m (gegeben die Regionen R m ): oftmals trivial mit ĉ m = ȳ m (Mittelwert der y i aus Region m) i=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
18 Boostingmodelle für Bäume Boostingmodell mit Bäumen Aufbau des Boosting-Algorithmus J J M j f (x i ) = T (x i, Θ j ) = c jm I {xi R jm } j=1 j=1 m=1 Approximierung der wahren y i durch Summe der Regionskonstanten, die x i durch Bäume zugeteilt werden Θ j = {(R jm, c jm )} M j m=1 ˆ= Aufteilung des Merkmalsraums in M j Regionen im j-ten Schritt R jm ˆ= m-te Region im j-ten Schritt c jm ˆ= Region R jm widerspiegelnde Konstante im j-ten Schritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
19 Boostingmodelle für Bäume Boostingalgorithmus mit Bäumen Aufbau des Boosting-Algorithmus schrittweise rekursiver Aufbau Ziel in jedem Schritt: Bestimmung einer geeigneten Partitionierung Θ j ˆΘ j = arg min Θ j N L(y i, f j 1 (x i ) + T (x i, Θ j )) i=1 mit f 0 (x i ) := 0 und f j (x i ) := f j 1 (x i ) + T (x i, Θ j ), j = 1,..., J Bestimmung der c jm gegeben die Regionen R jm : ĉ jm = arg min L(y i, f j 1 (x i ) + c jm ) c jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
20 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen quadratischer Verlust L(y, f (x)) = (y f (x)) 2 bei Regressionsbäumen ˆΘ j ˆ= Partitionierung, die die Residuen y i f j 1 (x i ) am besten vorhersagt ĉ jm = 1 (y i f j 1 (x i )) N jm x i R jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
21 Boostingmodelle für Bäume Lösung des Optimierungsproblems Aufbau des Boosting-Algorithmus Vereinfachung in Spezialfällen exponentielle Verlustfunktion L(y, f (x)) = exp( y f (x)) bei Klassifikationsbäumen mit zwei Klassen AdaBoost-Algorithmus w ij = exp( y i f j 1 (x i )) N ˆΘ j = arg min w ij exp( y i T (x i, Θ j )) Θ j i=1 ĉ jm = log( x i R jm w ij I {yi =+1} x i R jm w ij I {yi = 1} ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
22 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus für Regressionsbäume absoluter Verlust: L(y, f (x)) = y f (x) Huber-Verlustfunktion: { (y f (x)) L(y, f (x)) = 2 für y f (x) δ 2δ y f (x) δ 2 sonst für Klassifikationsbäume multinomiale Devianz für K Klassen: K K L(y, f (x)) = I {y=k} f k (x) + log( e fh(x) ) k=1 h=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
23 Boostingmodelle für Bäume Alternative Verlustfunktionen Aufbau des Boosting-Algorithmus Vorteile robustere Entscheidungsbäume schnelle iterative Algorithmen zur Bestimmung der c jm Problem keine schnellen iterativen Boostingalgorithmen zur Bestimmung der Regionen bzw. Endknoten Übergang zu approximativen Kriterien Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
24 Gliederung Boostingmodelle für Bäume Optimierung mittels Gradientenboosting 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
25 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Ziele: schnelle approximative Boostingalgorithmen zur Bestimmung von Entscheidungsbäumen für jede differenzierbare Verlustfunktion Minimierung des Verlusts L(f ) = N i=1 L(y i, f (x i )) numerische Optimierung Gesucht: f = arg min f L(f ) dabei f R N mit f = {f (x 1 ),..., f (x N )} f (x i ) approximierende Funktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
26 Ausgangssituation Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Behandlung von f im numerischen Lösungsverfahren als Summe von Komponentenvektoren h j R N : J f J = h j j=0 dabei f 0 = h 0 anfängliche Schätzung (durch Raten) und f j basierend auf f j 1, j = 1,..., J Methode des steilsten Abstiegs: h j = ρ j g j p j Skalar und g j R N Gradient von L(f ) an der Stelle f = f j 1 Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
27 Boostingmodelle für Bäume Parameterbestimmung Optimierung mittels Gradientenboosting Komponenten des Gradienten g j (j-ter Schritt): [ ] L(yi, f (x i )) g ij = f (x i ) f (x i )=f j 1 (x i ) Schrittlänge ρ j : ρ j = arg min ρ L(f j 1 ρ g j ) rekursive Bestimmung der approximierenden Funktionen: f j = f j 1 ρ j g j Interpretation von ( g j ) (negativer Gradient im j-ten Schritt): Richtung im R N, für die L(f ) mit f = f j 1 am schnellsten fällt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
28 Boostingmodelle für Bäume Vergleich mit Boosting für Bäume Optimierung mittels Gradientenboosting Gemeinsamkeiten iterative { Algorithmen, die in jedem } Schritt Verlustfunktion bzgl. Θ j = (R j1, c j1 ),..., (R jmj, c jmj ) bzw. ρ j maximal reduzieren rekursiver Aufbau (auf f j 1 basierend) Baumkomponenten T (x i, Θ j ) analog zu Komponenten des negativen Gradienten g ij Unterschiede t j = (T (x 1, Θ j ),..., T (x N, Θ j )) nicht unabhängig, da Vorhersagen eines Baums mit M j Endknoten negativer Gradient g j (Richtung des maximalen Gefälles) ohne einschränkende Bedingung Bestimmung der c jm für jede Region R jm separat Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
29 Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Dilemma der Methode des steilsten Abstiegs Methode des steilsten Abstiegs zu bevorzugen, wenn Minimierung des Verlusts L(f ) auf den Trainingsdaten einziges Ziel Gradient g j, j = 1,..., J, leicht zu bestimmen für differenzierbare Verlustfunktionen L(y, f (x)) Lösung des Optimierungsproblem für Θ j schwierig für robuste Verlustfunktionen Problem: Gradient nur für Trainingsdaten x i, i = 1,..., N, definiert Hauptziel aber: Generalisierung von f (x) für neue Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
30 Ausweg Boostingmodelle für Bäume Optimierung mittels Gradientenboosting Erstellung eines Baums T (x, Θ j ) im j-ten Boostingschritt, dessen Vorhersagen t j sich so nah wie möglich am negativen Gradienten orientieren: Θ j = arg min Θ N ( g ij T (x i, Θ)) 2 i=1 Anpassung mittels Minimierung des quadratischer Fehlers Regionen R jm zumeist leicht von R jm abweichend dennoch ähnlich genug, um dem gleichen Zweck zu dienen keine Veränderung in der Bestimmung der c jm Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
31 Boostingmodelle für Bäume Gradienten gängiger Verlustfunktionen Optimierung mittels Gradientenboosting Verfahren Verlustfunktion L(y i, f (x i ))/ f (x i ) Regression 1 2 [y i f (x i )] 2 y i f (x i ) Regression y i f (x i ) sign[y i f (x i )] Regression Huber y i f (x i ) für y i f (x i ) δ j δ j sign[y i f (x i )] für y i f (x i ) > δ j wobei δ j das α-quantil von y i f (x i ) Klassifikation multinomiale k-te Klasse: (K Klassen) Devianz I {yi =k} e f k(x i ) / K h=1 e f h(x i ) Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
32 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Regressionsproblem N 1 Setze f 0 (x) = arg min L(y i, c) c i=1 2 Für j = 1,..., J: [ ] L(yi, f (x i ) Für i = 1,..., N berechne: g ij = f (x i ) f =f j 1 Anpassung eines Regressionsbaums T (x, Θ j ) an den neg. Gradienten g j mit Endregionen R jm, m = 1,..., M j Für m = 1,..., M j berechne c jm = arg min L(y i, f j 1 (x i ) + c) c x i R jm Setze f j (x) = f j 1 (x) + c jm I {x Rjm} M j m=1 J 3 Ergebnis: Regressionsbaum f J (x) = T (x, Θ j ) j=1 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
33 Boostingmodelle für Bäume Gradientenboosting-Algorithmus Optimierung mittels Gradientenboosting Gegeben: Klassifikationsproblem Einzige Unterschiede K-malige Ausführung von Schritt 2 pro Iteration j = 1,..., J Resultat nach letzter (J-ter) Iteration: K verschiedene Regressionsbäume f Jk, k = 1,..., K Allgemeine Tuningparameter Anzahl der Iterationen J im Boostingalgorithmus Größe M j (Anzahl der Endknoten bzw. Regionen) des zu bestimmenden Baums im j-ten Boostingschritt Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
34 Gliederung Boostingmodelle für Bäume Bestimmung der Baumgröße 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
35 Boostingmodelle für Bäume Baumgröße als Tuningparameter Bestimmung der Baumgröße bisherige Vorgehensweise: in jeder Boosting-Iteration zunächst Bestimmung eines sehr großen, überdimensionierten Baums anschließend Verminderung der Endknoten bis zur jeweils gewünschten (als optimal geschätzten) Anzahl M j (pruning) unerwünschte Begleiterscheinungen: Erstellung erheblich zu großer Bäume besonders in den ersten Iterationen höherer Rechenaufwand, geringere Effizienz einfachste Lösungsstrategie: Restriktion auf einheitliche Größe M j = M j Approximation der Zielfunktion η = arg min E XY [L(Y, f (X))] f Ziel: Minimierung des Vorhersagerisikos auf Testdaten Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
36 Boostingmodelle für Bäume Approximation der Zielfunktion Bestimmung der Baumgröße wichtiger Bestandteil der zu approximierenden Zielfunktion η(x): Interaktionsgrad der Variablen X T = (X 1,..., X p ) beschrieben in ANOVA-Struktur (analysis of variance) η(x) = j η j (X j ) + jk η jk (X j, X k ) + jkl η jkl (X j, X k, X l ) +... Haupteffekte, Wechselwirkungen ersten Grades, zweiten Grades usw. in der Praxis oftmals nur Wechselwirkungen niedrigen Grades einflussreich Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
37 Boostingmodelle für Bäume Zusammenhang mit Baumgröße Bestimmung der Baumgröße Frage: Was hat der Wechselwirkungsgrad mit der Baumgröße zu tun? Wechselwirkungsniveau von baumbasierenden Approximationen begrenzt durch Baumgröße M keine Interaktionseffekte vom Grad größer (M 1) übertragbar in Boostingmodelle für Bäume (als Summe von Bäumen) Anzahl dominanter Wechselwirkungen zwar unbekannt, aber in der Praxis niedrig tendierend (i.d.r. 4 J 8 im Boostingprozess) Feintuning möglich mittels Risikovergleich auf Trainingsdatensatz Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
38 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Gegeben: Klassifikationsproblem Seien X 1,..., X 10 ~N(0,1) (u.i.v.) Zielvariable Y definiert durch Y = { +1 falls 10 j=1 X j 2 >med(χ 2 10 ) 1 sonst 2000 Trainingsfälle (mit etwa 1000 in jeder Klasse), Testfälle med(χ 2 10 ) 9.34 Testfehler von 45.8% mit einem Stumpf (ohne Boosting) Ziel: Verkleinerung der Testfehlers mittels Boosting für Bäume Gradientenboosting mit binomialer Devianz L(Y, f (X)) = log(1 + exp( 2Y f (X))) als Verlustfunktion Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
39 Boostingmodelle für Bäume Bestimmung der Baumgröße Beispiel X1 X X1 X2 Y = 1 Y = +1 Abbildung: Gegenüberstellung zweier Variablen Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
40 Beispiel Boostingmodelle für Bäume Bestimmung der Baumgröße Abbildung: Testfehler unterschiedlicher Baumgrößen beim Gradientenboosting Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
41 Gliederung Zusammenfassung 1 Einführung in CART Motivation Regressionsbäume Klassifikationsbäume 2 Boostingmodelle für Bäume Aufbau des Boosting-Algorithmus Optimierung mittels Gradientenboosting Bestimmung der Baumgröße 3 Zusammenfassung 4 Literatur Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
42 Zusammenfassung Zusammenfassung Entscheidungsbäume nützlich zur Lösung von Klassifikations- und Regressionsproblemen (CART-Algorithmus) mit Boosting-Konzept kombinierbar Robustheit in Abhängigkeit der gewählten Verlustfunktion Übergang zu approximativem Verfahren (Gradientenboosting) Baumgröße und Anzahl der Iterationen sind Tuningparameter Interaktionsgrad beschränkt durch Baumgröße geringere Fehlerrate im Vergleich zum herkömmlichen AdaBoost Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
43 Literatur Hastie, T., Tibshirani, R., Friedman, J. (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2. Auflage, Springer, New York. R Development Core Team (2009): A language and environment for statistical computing, Version 2.9.0, R Foundation for Statistical Computing, Wien. Vogt, J. (2000): Bagging, Boosting und verwandte Methoden, Diplomarbeit. Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember / 43
Analytics Entscheidungsbäume
Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering
MehrEntscheidungsbäume aus großen Datenbanken: SLIQ
Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:
MehrLernen von Entscheidungsbäumen. Volker Tresp Summer 2014
Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
MehrMethoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07
Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2
Mehr3.3 Nächste-Nachbarn-Klassifikatoren
3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrStatistisches Lernen
Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28
MehrFortgeschrittene Computerintensive Methoden
Fortgeschrittene Computerintensive Methoden Einheit 8: Gradient Boosting (basierend auf einer VL-Einheit von B. Bischl in Dortmund) Bernd Bischl Matthias Schmid, Manuel Eugster, Bettina Grün, Friedrich
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrEuler-Approximation. Leonie van de Sandt. TU Dortmund Prof. Dr. Christine Müller. 5. Juni 2012
Euler-Approximation Leonie van de Sandt TU Dortmund Prof. Dr. Christine Müller 5. Juni 2012 Leonie van de Sandt (TU Dortmund) Euler-Approximation 5. Juni 2012 1 / 26 Inhaltsverzeichnis 1 Einleitung Leonie
MehrOperations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung
Operations Research Rainer Schrader Konvexe Funktionen Zentrum für Angewandte Informatik Köln 4. Juni 2007 1 / 84 2 / 84 wir haben uns bereits mit linearen Optimierungsproblemen beschäftigt wir werden
MehrEntscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
MehrModellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.
Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung
MehrKap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur
Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
MehrSeminarvortrag. Euler-Approximation. Marian Verkely TU Dortmund
Seminarvortrag Euler-Approximation Marian Verkely TU Dortmund 03.12.14 1 / 33 Inhaltsverzeichnis 1 Motivation 2 Simulierte Prozesse 3 Euler-Approximation 4 Vasicek-Prozess: Vergleich analytische Lösung
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrRandom Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer
Angewandte Biostatistik mit R Fabian Knorre 26.11.2012 Ein Seminar bei Prof. Dr. Jörg Rahnenführer 1 / 53 Inhaltsverzeichnis 1 Motivation und Einleitung: Was ist ein... und wozu? 2 CART - Einleitung Konstruktion
MehrAlgorithmische Modelle als neues Paradigma
Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN
MehrFixpunkt-Iterationen
Fixpunkt-Iterationen 2. Vorlesung 170 004 Numerische Methoden I Clemens Brand und Erika Hausenblas Montanuniversität Leoben 27. Februar 2014 Gliederung Wiederholung: Gleichungstypen, Lösungsverfahren Grundprinzip
MehrStatistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrKapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading
Kapitel V V. Ensemble Methods Einführung Bagging Boosting Cascading V-1 Ensemble Methods c Lettmann 2005 Einführung Bewertung der Generalisierungsfähigkeit von Klassifikatoren R (c) wahre Missklassifikationsrate
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrInhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume
4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden
MehrBeispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
MehrAlgorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)
Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration
MehrGrundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang
Numerisches Rechnen (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Institut für Geometrie und Praktische Mathematik RWTH Aachen Wintersemester 2011/12 IGPM, RWTH Aachen Numerisches Rechnen
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrLösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 =
Lösungsskizzen zu den Klausuraufgaben zum Kurs 4 Algorithmische Mathematik 4KSL3 6 Punkte Aufgabe. Die Folge (a n ) n N natürlicher Zahlen a n sei rekursiv definiert durch a 0 = 0, a n = a n + n falls
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrNaive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
MehrSparse Hauptkomponentenanalyse
Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrEinführung in das statistische Lernen
Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl
MehrKapitel 3 Schließende Statistik
Motivation Grundgesamtheit mit unbekannter Verteilung F Stichprobe X 1,...,X n mit Verteilung F Realisation x 1,...,x n der Stichprobe Rückschluss auf F Dr. Karsten Webel 160 Motivation (Fortsetzung) Kapitel
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
MehrData Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
MehrAlgorithmen und Komplexität
Algorithmen und Komplexität Dynamische Programmierung Markus Ullrich Norbert Baum Fachbereich Informatik - IIb07 Hochschule Zittau/Görlitz 28. Mai 2009 1 / 29 Wie sieht es mit langen Ketten aus? A 1 A
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrInhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung
8. Optimierung Inhalt 8.1 Motivation 8.2 Optimierung ohne Nebenbedingungen 8.3 Optimierung unter Nebenbedingungen 8.4 Lineare Programmierung 8.5 Kombinatorische Optimierung 2 8.1 Motivation Viele Anwendungen
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrEidesstattliche Erklärung
BACHELORARBEIT Implementierung und Evaluation ergänzender Korrekturmethoden für statistische Lernverfahren bei unbalancierten Klassifikationsproblemen Tobias Kühn Betreuung: Prof. Dr. Bernd Bischl Institut
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
Mehr7.1 Matrizen und Vektore
7.1 Matrizen und Vektore Lineare Gleichungssysteme bestehen aus einer Gruppe von Gleichungen, in denen alle Variablen nur in der 1. Potenz vorkommen. Beispiel Seite 340 oben: 6 x 2 = -1 + 3x 2 = 4 mit
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrTotale Ableitung und Jacobi-Matrix
Totale Ableitung und Jacobi-Matrix Eine reelle Funktion f : R n R m ist in einem Punkt x differenzierbar, wenn f (x + h) = f (x) + f (x)h + o( h ) für h 0. Totale Ableitung 1-1 Totale Ableitung und Jacobi-Matrix
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrSeminar Optimierung - Approximation and fitting. Christian Bretzke
Seminar Optimierung - Approximation and fitting Christian Bretzke 1 Inhaltsverzeichnis 1 Norm Approximation 3 1.1 Verschiedene Interpretation.................................. 3 1.2 Gewichtete NAP........................................
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:
MehrNumerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben
Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Das Nelder Mead Verfahren Sei f : R n R eine (nicht
MehrMERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN
Verteidigung der Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Von: Tom Fels 23.11.2015 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Motivation Motivation PROGNOSEN Schätzung zukünftiger
MehrAnwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at
Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben
Mehr9.5 Entscheidungsbäume
9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel
MehrKapitel 9: Lineare Programmierung Gliederung
Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Wintersemester 2012/13 26. Vorlesung Greedy- und Approximationsalgorithmen Prof. Dr. Alexander Wolff Lehrstuhl für Informatik I Operations Research Optimierung für Wirtschaftsabläufe:
MehrSimultane Mehrgleichungssysteme: Parameterschätzung
Simultane Mehrgleichungssysteme: Parameterschätzung Stichwörter: Eigenschaften des OLS-Schätzers Hilfsvariablenschätzer 2SLS limited information Methoden 3SLS FIML full information Methoden o1-21.tex/0
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrEinfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrMultiple Regressionsanalyse - Kurzabriss
Multiple Regressionsanalyse - Kurzabriss Ziele: Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren Meist zu Screening-Untersuchungen, um den Einfluß von vermuteten Ursachenvariablen
MehrStatistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II
Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen
Mehr16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87
16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor
MehrStudientag zur Algorithmischen Mathematik
Studientag zur Algorithmischen Mathematik Aufgaben zur nicht-linearen Optimierung Teil II Winfried Hochstättler Diskrete Mathematik und Optimierung FernUniversität in Hagen 1. Juli 2012 Aufgabe 5 Bestimmen
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
MehrDie Größe A(n, d) und optimale Codes
Die Größe A(n, d) und optimale Codes Definition Optimaler Code Wir definieren A(n, d) = max{m binärer (n, M, d) Code} Ein (n, M, d)-code heißt optimal, falls M = A(n, d). Bestimmung von A(n, d) ist offenes
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrEin Filter-Trust-Region Verfahren zum Lösen nichtlinearer Zulässigkeitsprobleme mit teuren Funktionen
Ein Filter-Trust-Region Verfahren zum Lösen nichtlinearer Zulässigkeitsprobleme mit teuren Funktionen Markus Kaiser 1, Alexander Thekale 2 1 Arbeitsgruppe Optimierung & Approximation Bergische Universität
MehrEntscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrVorlesung 2 KÜRZESTE WEGE
Vorlesung 2 KÜRZESTE WEGE 34 Kürzeste Wege im Graphen Motivation! Heute:! Kürzeste Wege von einem Knoten (SSSP)! Kürzeste Wege zwischen allen Knotenpaaren (APSP)! Viele Anwendungen:! Navigationssysteme!
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrZeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation
Zeitreihenanalyse Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation Beispiel für Zeitreihe Andere Anwendungen Inventarmanagment Produktionsplanung
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mehr3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)
3. Lineare Optimierung (Entscheidungen unter Sicherheit) Betrachtet wird hier der Fall Θ = (bzw. die Situation u(a, ϑ) bzw. l(a,ϑ) konstant in ϑ Θ für alle a A). Da hier keine Unsicherheit über die Umweltzustände
MehrEmpirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers
MehrEinführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens
in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht
MehrBagging, Boosting und verwandte Methoden
Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich Abteilung für Mathematik Seminar für Statistik
MehrKonvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.
Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,
MehrVerfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell
Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Tobias Liboschik Verena Ueberfeldt Seminar Modellwahlkriterien Wintersemester 2009/10 13. November 2009 1 / 48 Inhaltsverzeichnis
MehrMining the Network Value of Customers
Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz
MehrFehler- und Ausgleichsrechnung
Fehler- und Ausgleichsrechnung Daniel Gerth Daniel Gerth (JKU) Fehler- und Ausgleichsrechnung 1 / 12 Überblick Fehler- und Ausgleichsrechnung Dieses Kapitel erklärt: Wie man Ausgleichsrechnung betreibt
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
MehrFallzahlplanung bei unabhängigen Stichproben
Fallzahlplanung bei unabhängigen Stichproben Seminar Aktuelle biometrische Probleme Benjamin Hofner benjamin.hofner@stat.uni-muenchen.de 12. Januar 2005 Übersicht 1. Einführung und Grundlagen der Fallzahlplanung
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
Mehr