Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse
|
|
- Franz Krause
- vor 5 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer
2 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 2 Konfidenzintervalle ROC-Analyse
3 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 3 Konfidenzintervalle ROC-Analyse
4 Lernen und Vorhersage Klassifikation, Regression: Lernproblem Eingabe: Trainingsdaten L Ausgabe: Hypothese (Modell) f ( x)? Y xx Testbeispiel ( x, y 1),...,( x, y 1 m m f : X Y Ziel des Lernens: genaue Vorhersagen treffen Verschiedene Verfahren kennengelernt Bayesian model averaging, MAP-Hypothesen Hypothesen, Lineare Modelle, Entscheidungsbäume, Naive Bayes ) 4
5 Hypothesenbewertung Nachdem wir Verfahren implementiert, Hypothese trainiert haben etc.: wie gut sind die Vorhersagen? Was genau heißt gut? Wie berechnet / misst / schätzt man es? Gut heißt vor allem: gut in der Zukunft, wenn die gelernte Hypothese eingesetzt wird Hypothesenbewertung : Abschätzung der Genauigkeit von Vorhersagen 5
6 Hypothesenbewertung Zentrale Annahme: dem Lernproblem liegt eine (unbekannte) Verteilung p(x,y) zugrunde Verteilung über Instanzen p ( x, y ) p ( x ) p ( y x ) Beispiel Spam-Filterung Verteilung für Label gegeben Instanz p(x) Wahrscheinlichkeit dass wir x sehen p(y x) Wahrscheinlichkeit dass Mensch x als y {Spam/Ok} klassifiziert 6
7 Hypothesenbewertung i.i.d. -Annahme: Beispiele sind independent and identically distributed. Trainingsdaten werden unabhängig aus der Verteilung p(x,y) gezogen: ( x, y )~ p( x, y) Trainingsbeispiele i i Testdaten ebenfalls i.i.d. aus dieser Verteilung gezogen ( x, y)~ p( x, y) Immer realistisch? Testbeispiel (Anwendung des Modells) 7
8 Verlustfunktionen Wir haben Annahmen darüber gemacht, welche Instanzen (x,y) auftauchen werden Instanz (x,y), Hypothese sagt f(x). Verlustfunktion definiert, wie schlecht das ist. ( y, f ( x )) Nicht-negativ: Verlust der Vorhersage f(x) auf Instanz (x,y) yy, ': ( yy, ') 0 Problem-spezifisch, gegeben. g Verlustfunktionen für Klassifikation Zero-one loss: (, ') 0, '; 1, yy wenn y y sonst Klassenabhängige Kostenmatrix: Verlustfunktionen für Regression Squared error: ( yy, ') ( y y') 2 ( yy, ') cyy ' 8
9 Hypothesenbewertung Beispiel Verlustfunktion Spam-Filterung: c 10 c 01 c : " ", ( ) " " 10 y spam f x ok ( y, f( x)) c01 : y " ok ", f ( x ) " spam " 0: sonst Falsch-negativ Kosten (Spam als legitim vorhergesagt) Falsch-positive Kosten (legitim als Spam vorhergesagt) g c c Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
10 Hypothesenbewertung: Risiko Risiko einer Hypothese: erwarteter Verlust für eine neue Instanz ( x, y)~ p ( x, y ) Testbeispiel x mit Label y (Zufallsvariable) ( y, f( x)) Verlust auf Testbeispiel (Zufallsvariable) R( f ) E[ ] ( y, f( x)) p( x, y) ddy x ( ( yy, ') Risiko=erwarteter Verlust Zero-One-Loss: Risiko ik heisst auch Fehlerrate. 2 ( yy, ') quadratische Fehler ( y y') : Risiko heisst auch Mean Squared Error. Ziel: Risikobestimmung Nicht möglich, das Risiko exakt zu bestimmen, weil p(x,y) unbekannt ist Schätzproblem 10
11 Hypothesenbewertung:Risikoschätzung Wenn Daten T ( x, y ),...,( x, y ) gegeben sind, dann kann das Risiko geschätzt werden. Empirisches Risiko ( 1 1 m m ˆ 1 R( f ) m m j 1 l( y j, f ( x (Empirische Fehlerrate, empirischer Mean Squared Error, ). Wichtig: Wo kommt T her? Trainingsdaten (T=L)? Verfügbare Daten in disjunkte L und T aufteilen. Cross-Validation. j )) 11
12 Bias eines Schätzers Empirischer Fehler ist Schätzer ˆ 1 R( f ) m m j 1 Schätzer ist Zufallsvariable. l( y j, f ( x Hängt von Menge T ab, auf der Risiko geschätzt wird Instanzen in T zufällig gezogen ( x, y )~ p ( x, y ) Welche ( x, y ) werden gezogen? g i i Schätzer hat einen Erwartungswert Schätzer ist erwartungstreu, genau dann wenn: Erwartungswert des empirischen Risikos = echtes Risiko. i j )) i 12
13 Bias eines Schätzers Schätzer R( ˆ ( f ) ist erwartungstreu, genau dann wenn: E[ Rˆ( f )] R( f ) Ansonsten hat R( ˆ ( f ) einen Bias: Bias E[ Rˆ ( f )] R( f ) Schätzer ist optimistisch, wenn Bias < 0. Schätzer ist pessimistisch, wenn Bias > 0. Schätzer ist erwartungstreu, wenn Bias = 0. 13
14 Erwartungstreuer Risikoschätzer Datensatz T ( x 1, y 1 ),...,( x m, ym ) ( x, y )~ p ( x, y ) Risikoschätzer Schätzer auf T R ˆ 1 ( f m T ) l ( y, f ( )) j1 j x j m Risikoschätzer Rˆ ( f ) T für eine (festgehaltene, von T unabhängige) Hypothese f : Erwartungswert = echtes Risiko, Erwartungswert über Datensätze e T 1 m ˆ ER [ ( f)] E (, ( )) T y f x j j m j1 m 1 1 E [( y, f ( x )) ] mr ( f ) R ( f ) j j m j1 m i i 14
15 Varianz eines Schätzers ˆ f Schätzer R( ( f ) hat eine Varianz ˆ ˆ ˆ 2 ˆ 2 ˆ 2 Var[ R( f)] E[( R( f) E[ R( f)]) ] E[ R( f) ] E[ R( f)] Je größer die Stichprobe ist, die zum Schätzen verwendet wird, desto geringer ist die Varianz. Genaue Form der Varianz hängt von der Verlustfunktion ab. Hohe Varianz: großer Zufallsanteil bei der Bestimmung des empirischen Risikos. Großer Bias: systematischer Fehler bei der Bestimmung des empirischen Risikos. 15
16 Varianz eines Schätzers Wert Rˆ ( f ) Bias dominiert R Varianz dominiert R Erwarteter Fehler des Schätzers R ( ) lässt sich in Bias und Varianz zerlegen ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R ˆ ˆ 2 2 ER [ ( f ) ] 2 RER [ ( f )] R ˆ f ER [ ˆ( f )] 2 RE[ Rˆ( f)] R E[ Rˆ( f) ] ER [ ˆ( f )] ˆ ( ER [ ( f )] R ) VarR [ ( f )] Bias Rˆ f Var Rˆ f 2 [ ( )] [ ( )] ˆ 16
17 Risikoschätzer auf den Trainingsdaten Welche Menge T verwenden? 1. Versuch: Trainingsdaten L Empirisches Risiko R ˆ 1 ( f m L ) j 1 ( y j, f ( x j )) m auf den Trainingsdaten L ( x, y ),...,( x, y ( 1 1 m m Ist dieses empirische Risiko ein erwartungstreuer optimistischer pessimistischer Schätzer für das echte Risiko und warum? ) gemessen. 17
18 Risikoschätzer auf den Trainingsdaten Feste Trainingsmenge L Empirisches Risiko aller Hypothesen für ein festes L? Aufgrund der Varianz des Schätzers gilt für einige Hypothesen f, dass Rˆ L ( f ) R ( f ) und für andere Hypothesen f, dass Rˆ ( f ) R ( f ) L Lernalgorithmus wählt eine Hypothese f L mit kleinem empirischen Risiko Rˆ ( f ) Wahrscheinlich, dass Rˆ ( f ) R ( f ) L L L L L 18
19 Risikoschätzer auf den Trainingsdaten Empirisches Risiko der vom Lerner gewählten Hypothese ( Trainingsfehler Trainingsfehler ) ist ein optimistischer Schätzer des echten Risikos: ER [ ˆ ( f )] R ( f ) f vom Lerner gewählte Hypothese, Zufallsvariable L L L L in Abhängigkeit von L Problem ist die Abhängigkeit gg von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind. 19
20 Holdout-Testing Idee: Fehlerschätzung auf unabhängigen Testdaten Gegeben: Daten D ( x, y ),...,( x, y ) 1 1 d d Teile Daten auf in Trainingsdaten L ( x, y ),...,( x, y ) und 1 1 m m Testdaten T ( x, y ),...,( x, y ) m1 m1 d d L T 20 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelle s Lernen
21 Holdout-Testing Starte Lernalgorithmus mit Daten L, gewinne so Hypothese. f L ˆ ( ) Ermittle empirisches Risiko R ( f ) auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so Hypothese. f D Ausgabe: Hypothese, benutze RT fl als Schätzer für das Risiko von f D T f D L L T ˆ ( ) 21 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen
22 Holdout-Testing: Analyse Ist der Schätzer ˆ ( ) für Risiko der Hypothese erwartungstreu, optimistisch, pessimistisch? R f f D T L 22 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen
23 Holdout-Testing: Analyse Schätzer Rˆ ist pessimistisch für T( f ) R( f L D ) : Rˆ ( f ) ist erwartungstreu für fl T L f L wurde mit weniger Trainingsdaten gelernt als f D hat und daher im Erwartungswert ein höheres Risiko Aber Schätzer RT fl ist in der Praxis brauchbar, während Rˆ ( f ) meist 0 (oder nahe 0) ist. L L ˆ ( ) 23 Sawade/La andwehr/p Prasse/Scheffer, Ma aschinelles Lernen
24 Holdout-Testing: Analyse Warum wird Hypothese f D trainiert und zurückgeliefert? Rückgegebene g Hypothese f D und nicht fl, weil ein geringeres Risiko hat, also besser ist. f D 24 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen
25 Holdout-Testing: Analyse Was sind die Vorteile/Nachteile wenn Testmenge T möglichst groß möglichst klein gewählt wird? T möglichst groß, damit Risikoschätzer Rˆ T ( f L ) geringe g Varianz hat. T möglichst klein, damit Risikoschätzer R ˆ ( ) T fl geringen Bias hat, also nicht so stark pessimistisch ist. Braucht viele Daten, um gute Schätzungen zu bekommen Wird praktisch nur verwendet, wenn sehr viele Daten zur Verfügung stehen. Cross-Validation meist besser (siehe unten) 25
26 Cross-Validation Gegeben: Daten D ( x, y ),...,( x, y ) ( 1 1 d d Teile D in n gleich große Abschnitte mit D D und D i D 0 n i 1 1 Wiederhole für i=1..n i Trainiere f i mit L i =D \ D i. j ˆ D,..., 1 Dn Bestimme empirisches Risiko ( ) auf D i. D1 D2 D3 D4 R i D f i Training examples 26 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
27 Cross-Validation Mittle empirische Risikoschätzungen auf den jeweiligen Testmengen D i : 1 n n i 1 Trainiere f D auf allen Daten D. R R ˆ D ( f ) Liefere Hypothese f D und Schätzer R. i i Training examples 27 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
28 Leave-One-Out Cross-Validation Spezialfall n=d heisst auch leave-one-out Fehlerschätzung d 28 Sawade/La andwehr/prasse/scheffer, Maschinelle s Lernen
29 Cross-Validation: Analyse Ist der Schätzer optimistisch, pessimistisch, erwartungstreu? 29 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen
30 Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? Schätzer ist pessimistisch: Hypothesen f i werden auf Anteil (n-1)/n der verfügbaren Daten trainiert. Hypothese f D wird auf den gesamten Daten trainiert Cross-Validation Vlidti Holdout Training examples 30 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
31 Cross-Validation: Analyse Bias/Varianz im Vergleich zu Holdout-Testing? Varianz ist geringer als beim Holdout-Testing Mittelung über mehrere Holdout-Experimente, das reduziert die Varianz Alle Daten fließen in den Schätzer ein Bias ähnlich wie beim Holdout-Testing, je nach Split- Verhältnissen. Cross-Validation Vlidti Holdout Training examples 31 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
32 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 32 Konfidenzintervalle ROC-Analyse
33 Anwendungen/Beispiele Hypothesenevaluierung Wir wollen/müssen aus Anwendungsgründen wissen, wie gut Hypothese ist Macht es überhaupt Sinn, maschinelles Lernen in der Anwendung zu verwenden? Mit wie vielen falschen Vorhersagen müssen wir rechnen? Wir wollen mehrere verschiedene Lernansätze vergleichen Sollte man Entscheidungsbäume verwenden? SVMs? Logistische Regression? Naive Bayes? 33
34 Anwendungen Hypothesenevaluierung Verfahren hat einen Parameter, den wir einstellen müssen Regularisierungsparameter g fw f x y w * 2 arg min f ( ( i), i) =? w i w (Hyper)Parameter, der Modellklasse bestimmt, z.b. Polynomgrad bei polynomieller Regression M i fw ( x) wx i M=? i0 In allen diesen Fällen ist der Trainingsfehler i kein geeignetes Entscheidungskriterium! Fehlerschätzung mit Holdout-Menge oder Cross- Validation 34
35 Beispiel: Polynomgrad bei polynomieller Regression Polynommodell vom Grad M: fw ( x ) wx i Wir lernen Modell durch Minimierung des quadratischen Verlustes (unregularisiert schlecht) Gelerntes Modell Echtes Modell m 2 w * arg min w ( fw ( x i ) y i ) L ( x1, y1 ),...,( xm, ym ) i1 M i0 i Trainingsdaten Datenpunkte = echtes Modell plus Gaußsches Rauschen 35
36 Beispiel polynomielle Regression: Training i vs. Testfehler Erfolg des Lernens hängt vom gewählten Polynomgrad M ab, der Komplexität des Modells kontrolliert 36 Sawade/La andwehr/prasse/scheffer, Maschinelles Lernen
37 Beispiel polynomielle Regression: Training i vs. Testfehler Trainingsfehler vs. Testfehler für unterschiedliche Polynomgrade Testfehler z.b. mit grosser Holdout-Menge gemessen Phänomen der Überanpassung ( Overfitting ): Trainingsfehler sinkt monoton mit M, aber Testfehler steigt für große M wieder 37 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen
38 Beispiel polynomielle Regression: Training i vs. Testfehler Problem der Überanpassung (Overfitting) wird geringer, wenn mehr Daten verfügbar 10 Beispiele, M = Beispiele, M = 9 In der Praxis verfügbare Daten begrenzt Modell muss regularisiert werden 38 Sawade/La andwehr/p Prasse/Scheffer, Maschinelle s Lernen
39 Regularisierte Polynomielle Regression Polynommodell vom Grad M: f ( x ) M wx i Lerne Modell durch Minimierung des regularisierten quadratischen Verlustes Trainingsdaten w* arg min ( ( ) ) L ( x, y ),...,( x, y ) M Gelerntes Modell Echtes Modell 9, ln 18 i0 m 2 2 w f w x i y i w 1 1 i1 i Datenpunkte = echtes Modell plus Gaußsches Rauschen m m 39
40 Regularisierte Polynomielle Regression Jetzt müssen wir einstellen Regularisierungsparameter kontrolliert Komplexität ähnlich wie Polynomgrad M M 9 M 9 M 9 ln ln 18 ln 0 40 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen
41 Regularisierte Polynomielle Regression Trainingsfehler vs. Testfehler für unterschiedliche Werte des Regularisierungsparameters Testfehler z.b. mit grosser Holdout-Menge gemessen 0 Trainingsfehler minimal ohne Regularisierung, aber Testfehler besser für regularisiertes Modell Umgekehrtes Verhalten wie für unterschiedliche Polynomgrade 41 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen
42 Regularisierte Polynomielle Regression Regularisierer wirkt wie eine Begrenzung der Modellkomplexität und verhindert Überanpassung In der Praxis am besten, Modellkomplexität durch Regularisierung zu kontrollieren (direkter Parameter wie bei Polynomen oft nicht verfügbar) Regularisierer kann durch Fehlerschätzung (Holdout- Testing oder Cross-Validation) eingestellt werden. 42 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen
43 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 43 Konfidenzintervalle ROC-Analyse
44 Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler R ( ) angeben so dass der echte Fehler meistens im Intervall liegt ˆ f Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable R ˆ( f ) R ˆ( f ) [ ] R 44
45 Zero-One Loss und Fehlerwahrscheinlichkeit h h li hk it Für Konfidenzintervalle betrachten wir Risikoschätzung im Spezialfall Klassifikation mit Zero-One Loss Verlustfunktion Zero-One Loss: 0, wenn y y' l ( yy, ') 1, wenn y y ' Risiko = Fehlerwahrscheinlichkeit. R( f) ( y, f( x)) p( x, y) ddy x py ( f( x)) 45
46 Verteilung für Fehlerschätzer Hypothese f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m m Rˆ ( f ) ( y, f ( x )) T j1 j j Fehlerschätzer ist erwartungstreu, T ( x, y ),...,( x, y ) 1 1 m ER [ ˆ ( f)] R( f) Betrachten zunächst unnormalisierten Fehlerschätzer ˆ ( ) m mr f ( y, f ( x )) T j1 j j Summe über Beispielverluste i l ( y, f( x )) {0,1} {01} Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R ( f ) j j T m 46
47 Fehlerwahrscheinlichkeit Unnormalisiertes empirisches Risiko ˆ ( ) m mr f ( y, f ( x )) T j1 j j ist Summe von Bernouilli-Variablen, also binomialverteilt: P mr ˆ ( f ) mr ˆ R ( f ) r Bin( mr ˆ m, r ) rˆ r T beobachtetes empirisches Risiko echtes Risiko Erwartungswert ˆ mr( f) mr mr Varianz 2 ˆ m r(1 r) mr 47
48 Fehlerwahrscheinlichkeit Normalisiertes empirisches Risiko ebenso binomialverteilt P mr ˆ ( f) mr ˆ R( f) r Bin( mr ˆ m, r) T P R ˆ ( f ) r ˆ R( f ) r Bin( mr ˆ m, r) T Erwartungswert Varianz rˆ R( f) r 2 1 r(1 r) rˆ m r (1 r ) 2 m m Standardabweichung g( ( Standardfehler ) rˆ r(1 r) m Standardabweichung: Zufallsanteil des Schätzers, sinkt mit 1 m 48
49 Binomialverteilung r 0.5 Wahrscheinlichkeit, empirischen Fehler rˆr zu beobachten: ˆ m ˆ (1 ˆ ˆ ˆ ) ( T ( ) ) Bin(, ) mr m r PR f r r mr rm r (1 r) mrˆ Konvergiert für große m gegen Normalverteilung m 5 m 16 m 160 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelle ( rˆ r) / rˆ ( rˆ r) / rˆ ( rˆ r) / rˆ 49 s Lernen
50 Normalverteilung Empirisches Risiko annähernd normalverteilt: ˆ ˆ r(1 r) RT( f) ~ N RT( f) r, [approximativ, für große m] m Erwartungswert, Varianz der Binomialverteilung Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ ˆ T( f) R( f) RT( f) R( f) ~ N 0,1 [approximativ, für große m] rˆ rˆ Für die weitere Analyse brauchen wir Varianz des empirischen Risikos, ist abhängig vom echtem Risiko: 2 rˆ r(1 r) m 50
51 Students t-verteilung Schätzen der Varianz durch empirische Varianz: s 2 rˆ rˆ (1 rˆ ) ˆ (1 ˆ ), r s r rˆ m 1 m 1 Standardisiertes empirisches Risiko folgt bei geschätzter Varianz einer Students t-verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen). Für große m konvergiert Students t-verteilung gegen die Standardnormalverteilung. 51
52 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen 52 Students t-verteilung rˆr rˆr lim m t m N 0,1 s rˆ s rˆ
53 Schranken für echtes Risiko Wir haben Verteilung des empirischen Risikos hergeleitet Was sagt das empirische Risiko jetzt also über das echte Risiko? Wir können Schranke für echtes Risiko bestimmen! 2 rˆ Empirisches Risiko ˆr empirische Varianz s rˆ (1 rˆ) m1 ˆ ˆ ˆ R( f) RT ( f) P R( f) RT( f) P R( f) RT( f) P srˆ srˆ srˆ Approximativ standardnormalverteilt x P( X x) kumulative Verteilungsfunktion der Standardnormalverteilung 53
54 Schranken für echtes Risiko Zweiseitige Schranke: P R( f) Rˆ ( f)... T sˆr ˆ 54 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen
55 Konfidenzintervalle Idee: so wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1- (z.b. =0.05) gilt. Einseitiges 1--Konfidenzintervall: Schranke, so dass P R ( f ) Rˆ ( f ) 1 T Zweiseitiges 1--Konfidenzintervall: Schranke, so dass P R( f) Rˆ ( f) 1 Bei symmetrischer Verteilung gilt immer: zu einseitigem 1--Konfidenzintervall = zu zweiseitigem iti 1-2-Konfidenzintervall. i T 55
56 Konfidenzintervalle Ermitteln des einseitiges 1--Konfidenzintervalls: P R ( f ) Rˆ ( f ) 1 T 1 s rˆ s 1 1 Konfidenzintervall ist (Konfidenzlevel 1-2) rˆ [ Rˆ ( f), Rˆ ( f) ] T T 56
57 Konfidenzintervalle Beispiel: ˆ 0.08 beobachtetes empirisches Risiko, m=100 r s r ˆ Konfidenzlevel PR ( ( f ) R ˆ T ( f ) ) (0.95) [Tabelle] Für gilt mit etwa 95% Wahrscheinlichkeit: R( f) R ( f) empirischer Standardfehler T [ ] R 90% Konfidenz 57
58 Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko ˆr und das davon abgeleitete Intervall, nicht das echte Risiko R( f ). Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 95%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 95%" 58
59 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 59 Konfidenzintervalle ROC-Analyse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Tobias Scheffer Michael Brückner Hypothesenbewertung Ziel: gute Vorhersagen treffen. Bayesian model averaging,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Tobias Scheffer Überblick Wiederholung: Konfidenzintervalle Statistische Tests
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Sh Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrModell Komplexität und Generalisierung
Modell Komplexität und Generalisierung Christian Herta November, 2013 1 von 41 Christian Herta Bias-Variance Lernziele Konzepte des maschinellen Lernens Targetfunktion Overtting, Undertting Generalisierung
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrModelle, Daten, Lernprobleme
Universität Potsdam Institut für Informatik Lehrstuhl Modelle, Daten, Lernprobleme Tobias Scheffer Überblick Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression, ordinale Regression,
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
Mehrvon x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.
Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert die
MehrÜbersicht. Definition Daten Problemklassen Fehlerfunktionen
Übersicht 1 Maschinelle Lernverfahren Definition Daten Problemklassen Fehlerfunktionen 2 Entwickeln von maschinellen Lernverfahren Aufteilung der Daten Underfitting und Overfitting Erkennen Regularisierung
MehrStichproben Parameterschätzung Konfidenzintervalle:
Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrZusammenfassung PVK Statistik
Zusammenfassung PVK Statistik (Diese Zusammenfassung wurde von Carlos Mora erstellt. Die Richtigkeit der Formeln ist ohne Gewähr.) Verteilungen von diskreten Zufallsvariablen Beschreibung Binomialverteilung
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrValidation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation
Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation
MehrWS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.
Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
MehrProf. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft
Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56
MehrData Mining - Wiederholung
Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)
MehrModelle, Daten, Lernprobleme
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Modelle, Daten, Lernprobleme Tobias Scheffer Überblick Arten von Lernproblemen: Überwachtes Lernen (Klassifikation, Regression,
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken, Häufige Mengen Nico Piatkowski und Uwe Ligges 09.05.2017 1 von 15 Überblick Was bisher geschah... Heute Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
Mehrvon x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.
Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert nämlich
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblic Grundonepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münwürfe Lineare Regression Logistische Regression Bayes sche Vorhersage Münwürfe Lineare Regression 14 Modell für Münwürfe
Mehr6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:
MehrStatistik I für Betriebswirte Vorlesung 13
Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrFlussdiagramm der ökonometrischen Methode
Flussdiagramm der ökonometrischen Methode z.b Sättigungs modell Parameter schätzung Daten Sach verhalt oder Spezifikation des ökonometrischen Modells geschätztes Modell phäno menologische Modellierung
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
Mehr7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.
7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe
MehrStatistics, Data Analysis, and Simulation SS 2017
Mainz, 8. Juni 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
MehrAufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).
Aufgaben 1. Bei den folgenden 10 Fragen ist jeweils genau eine Antwort richtig. Es gibt pro richtig beantwortete Frage 1 Punkt und pro falsche Antwort 1/2 Punkt Abzug. Minimal erhält man für die gesamte
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrHypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015
Hypothesentests für Erwartungswert und Median Statistik (Biol./Pharm./HST) FS 2015 Normalverteilung X N μ, σ 2 X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 pdf: pdf cdf:??? cdf 1 Zentraler
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung
0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 5.5.2006 1 Ausgangslage Wir können Schätzen (z.b. den Erwartungswert) Wir können abschätzen, wie zuverlässig unsere Schätzungen sind: In welchem Intervall
MehrVerteilung von Summen
Verteilung von Summen Beispiel: Würfelwurf Frage: Wie verhält sich die Verteilung der Augensumme von -Würfeln bei wachsendem? Zur Beantwortung führen wir ein Simulationseperiment durch. 6 Würfe mit 1 Würfel
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrBeispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10
6 Hypothesentests Gauß-Test für den Mittelwert bei bekannter Varianz 6.3 Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 G(µ) 0 α 0. 0.4 0.6 0.8 1 n = 10 n =
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)
MehrSchätzung von Parametern
Schätzung von Parametern Schätzung von Parametern Quantitative Wissenschaft: Messung von Parametern Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters
MehrKorollar 116 (Grenzwertsatz von de Moivre)
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrRingvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Ringvorlesung interdisziplinäre, angewandte Mathematik: Maschinelles Lernen Niels Landwehr, Paul Prasse, Termine VL Dienstag 12:15-13:45,
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
MehrStatistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
MehrGrundlagen der schließenden Statistik
Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrLineare Regression 2: Gute Vorhersagen
Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,
MehrStatistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen Noémie Becker & Dirk Metzler http://evol.bio.lmu.de/_statgen 7. Juni 2013 1 Binomialverteilung 2 Normalverteilung 3 T-Verteilung
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
MehrZentraler Grenzwertsatz
Statistik 2 für SoziologInnen Zentraler Grenzwertsatz Univ.Prof. Dr. Marcus Hudec Statistik für SoziologInnen 1 Zentraler Grenzwertsatz Inhalte Themen dieses Kapitels sind: Der zentrale Grenzwertsatz und
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrZentraler Grenzwertsatz
Statistik 2 für SoziologInnen Zentraler Grenzwertsatz Univ.Prof. Dr. Marcus Hudec Statistik für SoziologInnen 1 Zentraler Grenzwertsatz Inhalte Themen dieses Kapitels sind: Der zentrale Grenzwertsatz und
MehrStatistics, Data Analysis, and Simulation SS 2017
Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, May 29, 2017 Dr. Michael O. Distler
MehrErstes Mathe-Tutorium am Themen können gewählt werden unter:
Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für
MehrÜber dieses Buch Die Anfänge Wichtige Begriffe... 21
Inhalt Über dieses Buch... 12 TEIL I Deskriptive Statistik 1.1 Die Anfänge... 17 1.2 Wichtige Begriffe... 21 1.2.1 Das Linda-Problem... 22 1.2.2 Merkmale und Merkmalsausprägungen... 23 1.2.3 Klassifikation
MehrParameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),
Kapitel 14 Parameterschätzung Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum), = ( 1,..., n ) sei eine Realisierung der Zufallsstichprobe X = (X 1,..., X n ) zu
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 12. Januar 2011 1 Vergleich zweier Erwartungswerte Was heißt verbunden bzw. unverbunden? t-test für verbundene Stichproben
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
Mehr