Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer

2 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen Überblick Hypothesenbewertung, Risikoschätzung Anwendungen/Beispiele 2 Konfidenzintervalle ROC-Analyse

4 Lernen und Vorhersage Klassifikation, Regression: Lernproblem Eingabe: Trainingsdaten L Ausgabe: Hypothese (Modell) f ( x)? Y xx Testbeispiel ( x, y 1),...,( x, y 1 m m f : X Y Ziel des Lernens: genaue Vorhersagen treffen Verschiedene Verfahren kennengelernt Bayesian model averaging, MAP-Hypothesen Hypothesen, Lineare Modelle, Entscheidungsbäume, Naive Bayes ) 4

5 Hypothesenbewertung Nachdem wir Verfahren implementiert, Hypothese trainiert haben etc.: wie gut sind die Vorhersagen? Was genau heißt gut? Wie berechnet / misst / schätzt man es? Gut heißt vor allem: gut in der Zukunft, wenn die gelernte Hypothese eingesetzt wird Hypothesenbewertung : Abschätzung der Genauigkeit von Vorhersagen 5

6 Hypothesenbewertung Zentrale Annahme: dem Lernproblem liegt eine (unbekannte) Verteilung p(x,y) zugrunde Verteilung über Instanzen p ( x, y ) p ( x ) p ( y x ) Beispiel Spam-Filterung Verteilung für Label gegeben Instanz p(x) Wahrscheinlichkeit dass wir x sehen p(y x) Wahrscheinlichkeit dass Mensch x als y {Spam/Ok} klassifiziert 6

7 Hypothesenbewertung i.i.d. -Annahme: Beispiele sind independent and identically distributed. Trainingsdaten werden unabhängig aus der Verteilung p(x,y) gezogen: ( x, y )~ p( x, y) Trainingsbeispiele i i Testdaten ebenfalls i.i.d. aus dieser Verteilung gezogen ( x, y)~ p( x, y) Immer realistisch? Testbeispiel (Anwendung des Modells) 7

8 Verlustfunktionen Wir haben Annahmen darüber gemacht, welche Instanzen (x,y) auftauchen werden Instanz (x,y), Hypothese sagt f(x). Verlustfunktion definiert, wie schlecht das ist. ( y, f ( x )) Nicht-negativ: Verlust der Vorhersage f(x) auf Instanz (x,y) yy, ': ( yy, ') 0 Problem-spezifisch, gegeben. g Verlustfunktionen für Klassifikation Zero-one loss: (, ') 0, '; 1, yy wenn y y sonst Klassenabhängige Kostenmatrix: Verlustfunktionen für Regression Squared error: ( yy, ') ( y y') 2 ( yy, ') cyy ' 8

9 Hypothesenbewertung Beispiel Verlustfunktion Spam-Filterung: c 10 c 01 c : " ", ( ) " " 10 y spam f x ok ( y, f( x)) c01 : y " ok ", f ( x ) " spam " 0: sonst Falsch-negativ Kosten (Spam als legitim vorhergesagt) Falsch-positive Kosten (legitim als Spam vorhergesagt) g c c Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

10 Hypothesenbewertung: Risiko Risiko einer Hypothese: erwarteter Verlust für eine neue Instanz ( x, y)~ p ( x, y ) Testbeispiel x mit Label y (Zufallsvariable) ( y, f( x)) Verlust auf Testbeispiel (Zufallsvariable) R( f ) E[ ] ( y, f( x)) p( x, y) ddy x ( ( yy, ') Risiko=erwarteter Verlust Zero-One-Loss: Risiko ik heisst auch Fehlerrate. 2 ( yy, ') quadratische Fehler ( y y') : Risiko heisst auch Mean Squared Error. Ziel: Risikobestimmung Nicht möglich, das Risiko exakt zu bestimmen, weil p(x,y) unbekannt ist Schätzproblem 10

11 Hypothesenbewertung:Risikoschätzung Wenn Daten T ( x, y ),...,( x, y ) gegeben sind, dann kann das Risiko geschätzt werden. Empirisches Risiko ( 1 1 m m ˆ 1 R( f ) m m j 1 l( y j, f ( x (Empirische Fehlerrate, empirischer Mean Squared Error, ). Wichtig: Wo kommt T her? Trainingsdaten (T=L)? Verfügbare Daten in disjunkte L und T aufteilen. Cross-Validation. j )) 11

12 Bias eines Schätzers Empirischer Fehler ist Schätzer ˆ 1 R( f ) m m j 1 Schätzer ist Zufallsvariable. l( y j, f ( x Hängt von Menge T ab, auf der Risiko geschätzt wird Instanzen in T zufällig gezogen ( x, y )~ p ( x, y ) Welche ( x, y ) werden gezogen? g i i Schätzer hat einen Erwartungswert Schätzer ist erwartungstreu, genau dann wenn: Erwartungswert des empirischen Risikos = echtes Risiko. i j )) i 12

13 Bias eines Schätzers Schätzer R( ˆ ( f ) ist erwartungstreu, genau dann wenn: E[ Rˆ( f )] R( f ) Ansonsten hat R( ˆ ( f ) einen Bias: Bias E[ Rˆ ( f )] R( f ) Schätzer ist optimistisch, wenn Bias < 0. Schätzer ist pessimistisch, wenn Bias > 0. Schätzer ist erwartungstreu, wenn Bias = 0. 13

14 Erwartungstreuer Risikoschätzer Datensatz T ( x 1, y 1 ),...,( x m, ym ) ( x, y )~ p ( x, y ) Risikoschätzer Schätzer auf T R ˆ 1 ( f m T ) l ( y, f ( )) j1 j x j m Risikoschätzer Rˆ ( f ) T für eine (festgehaltene, von T unabhängige) Hypothese f : Erwartungswert = echtes Risiko, Erwartungswert über Datensätze e T 1 m ˆ ER [ ( f)] E (, ( )) T y f x j j m j1 m 1 1 E [( y, f ( x )) ] mr ( f ) R ( f ) j j m j1 m i i 14

15 Varianz eines Schätzers ˆ f Schätzer R( ( f ) hat eine Varianz ˆ ˆ ˆ 2 ˆ 2 ˆ 2 Var[ R( f)] E[( R( f) E[ R( f)]) ] E[ R( f) ] E[ R( f)] Je größer die Stichprobe ist, die zum Schätzen verwendet wird, desto geringer ist die Varianz. Genaue Form der Varianz hängt von der Verlustfunktion ab. Hohe Varianz: großer Zufallsanteil bei der Bestimmung des empirischen Risikos. Großer Bias: systematischer Fehler bei der Bestimmung des empirischen Risikos. 15

16 Varianz eines Schätzers Wert Rˆ ( f ) Bias dominiert R Varianz dominiert R Erwarteter Fehler des Schätzers R ( ) lässt sich in Bias und Varianz zerlegen ˆ 2 ˆ 2 ˆ 2 [( ( ) ) ] [ ( ) 2 ( ) ] E R f R E R f RR f R ˆ ˆ 2 2 ER [ ( f ) ] 2 RER [ ( f )] R ˆ f ER [ ˆ( f )] 2 RE[ Rˆ( f)] R E[ Rˆ( f) ] ER [ ˆ( f )] ˆ ( ER [ ( f )] R ) VarR [ ( f )] Bias Rˆ f Var Rˆ f 2 [ ( )] [ ( )] ˆ 16

17 Risikoschätzer auf den Trainingsdaten Welche Menge T verwenden? 1. Versuch: Trainingsdaten L Empirisches Risiko R ˆ 1 ( f m L ) j 1 ( y j, f ( x j )) m auf den Trainingsdaten L ( x, y ),...,( x, y ( 1 1 m m Ist dieses empirische Risiko ein erwartungstreuer optimistischer pessimistischer Schätzer für das echte Risiko und warum? ) gemessen. 17

18 Risikoschätzer auf den Trainingsdaten Feste Trainingsmenge L Empirisches Risiko aller Hypothesen für ein festes L? Aufgrund der Varianz des Schätzers gilt für einige Hypothesen f, dass Rˆ L ( f ) R ( f ) und für andere Hypothesen f, dass Rˆ ( f ) R ( f ) L Lernalgorithmus wählt eine Hypothese f L mit kleinem empirischen Risiko Rˆ ( f ) Wahrscheinlich, dass Rˆ ( f ) R ( f ) L L L L L 18

19 Risikoschätzer auf den Trainingsdaten Empirisches Risiko der vom Lerner gewählten Hypothese ( Trainingsfehler Trainingsfehler ) ist ein optimistischer Schätzer des echten Risikos: ER [ ˆ ( f )] R ( f ) f vom Lerner gewählte Hypothese, Zufallsvariable L L L L in Abhängigkeit von L Problem ist die Abhängigkeit gg von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind. 19

20 Holdout-Testing Idee: Fehlerschätzung auf unabhängigen Testdaten Gegeben: Daten D ( x, y ),...,( x, y ) 1 1 d d Teile Daten auf in Trainingsdaten L ( x, y ),...,( x, y ) und 1 1 m m Testdaten T ( x, y ),...,( x, y ) m1 m1 d d L T 20 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelle s Lernen

21 Holdout-Testing Starte Lernalgorithmus mit Daten L, gewinne so Hypothese. f L ˆ ( ) Ermittle empirisches Risiko R ( f ) auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so Hypothese. f D Ausgabe: Hypothese, benutze RT fl als Schätzer für das Risiko von f D T f D L L T ˆ ( ) 21 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

22 Holdout-Testing: Analyse Ist der Schätzer ˆ ( ) für Risiko der Hypothese erwartungstreu, optimistisch, pessimistisch? R f f D T L 22 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

23 Holdout-Testing: Analyse Schätzer Rˆ ist pessimistisch für T( f ) R( f L D ) : Rˆ ( f ) ist erwartungstreu für fl T L f L wurde mit weniger Trainingsdaten gelernt als f D hat und daher im Erwartungswert ein höheres Risiko Aber Schätzer RT fl ist in der Praxis brauchbar, während Rˆ ( f ) meist 0 (oder nahe 0) ist. L L ˆ ( ) 23 Sawade/La andwehr/p Prasse/Scheffer, Ma aschinelles Lernen

24 Holdout-Testing: Analyse Warum wird Hypothese f D trainiert und zurückgeliefert? Rückgegebene g Hypothese f D und nicht fl, weil ein geringeres Risiko hat, also besser ist. f D 24 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen

25 Holdout-Testing: Analyse Was sind die Vorteile/Nachteile wenn Testmenge T möglichst groß möglichst klein gewählt wird? T möglichst groß, damit Risikoschätzer Rˆ T ( f L ) geringe g Varianz hat. T möglichst klein, damit Risikoschätzer R ˆ ( ) T fl geringen Bias hat, also nicht so stark pessimistisch ist. Braucht viele Daten, um gute Schätzungen zu bekommen Wird praktisch nur verwendet, wenn sehr viele Daten zur Verfügung stehen. Cross-Validation meist besser (siehe unten) 25

26 Cross-Validation Gegeben: Daten D ( x, y ),...,( x, y ) ( 1 1 d d Teile D in n gleich große Abschnitte mit D D und D i D 0 n i 1 1 Wiederhole für i=1..n i Trainiere f i mit L i =D \ D i. j ˆ D,..., 1 Dn Bestimme empirisches Risiko ( ) auf D i. D1 D2 D3 D4 R i D f i Training examples 26 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

27 Cross-Validation Mittle empirische Risikoschätzungen auf den jeweiligen Testmengen D i : 1 n n i 1 Trainiere f D auf allen Daten D. R R ˆ D ( f ) Liefere Hypothese f D und Schätzer R. i i Training examples 27 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

28 Leave-One-Out Cross-Validation Spezialfall n=d heisst auch leave-one-out Fehlerschätzung d 28 Sawade/La andwehr/prasse/scheffer, Maschinelle s Lernen

29 Cross-Validation: Analyse Ist der Schätzer optimistisch, pessimistisch, erwartungstreu? 29 Sawade/La andwehr/p Prasse/Scheffer, Maschinelles Lernen

30 Cross-Validation: Analyse Ist der Schätzer Optimistisch / pessimistisch / erwartungstreu? Schätzer ist pessimistisch: Hypothesen f i werden auf Anteil (n-1)/n der verfügbaren Daten trainiert. Hypothese f D wird auf den gesamten Daten trainiert Cross-Validation Vlidti Holdout Training examples 30 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

31 Cross-Validation: Analyse Bias/Varianz im Vergleich zu Holdout-Testing? Varianz ist geringer als beim Holdout-Testing Mittelung über mehrere Holdout-Experimente, das reduziert die Varianz Alle Daten fließen in den Schätzer ein Bias ähnlich wie beim Holdout-Testing, je nach Split- Verhältnissen. Cross-Validation Vlidti Holdout Training examples 31 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

33 Anwendungen/Beispiele Hypothesenevaluierung Wir wollen/müssen aus Anwendungsgründen wissen, wie gut Hypothese ist Macht es überhaupt Sinn, maschinelles Lernen in der Anwendung zu verwenden? Mit wie vielen falschen Vorhersagen müssen wir rechnen? Wir wollen mehrere verschiedene Lernansätze vergleichen Sollte man Entscheidungsbäume verwenden? SVMs? Logistische Regression? Naive Bayes? 33

34 Anwendungen Hypothesenevaluierung Verfahren hat einen Parameter, den wir einstellen müssen Regularisierungsparameter g fw f x y w * 2 arg min f ( ( i), i) =? w i w (Hyper)Parameter, der Modellklasse bestimmt, z.b. Polynomgrad bei polynomieller Regression M i fw ( x) wx i M=? i0 In allen diesen Fällen ist der Trainingsfehler i kein geeignetes Entscheidungskriterium! Fehlerschätzung mit Holdout-Menge oder Cross- Validation 34

35 Beispiel: Polynomgrad bei polynomieller Regression Polynommodell vom Grad M: fw ( x ) wx i Wir lernen Modell durch Minimierung des quadratischen Verlustes (unregularisiert schlecht) Gelerntes Modell Echtes Modell m 2 w * arg min w ( fw ( x i ) y i ) L ( x1, y1 ),...,( xm, ym ) i1 M i0 i Trainingsdaten Datenpunkte = echtes Modell plus Gaußsches Rauschen 35

36 Beispiel polynomielle Regression: Training i vs. Testfehler Erfolg des Lernens hängt vom gewählten Polynomgrad M ab, der Komplexität des Modells kontrolliert 36 Sawade/La andwehr/prasse/scheffer, Maschinelles Lernen

37 Beispiel polynomielle Regression: Training i vs. Testfehler Trainingsfehler vs. Testfehler für unterschiedliche Polynomgrade Testfehler z.b. mit grosser Holdout-Menge gemessen Phänomen der Überanpassung ( Overfitting ): Trainingsfehler sinkt monoton mit M, aber Testfehler steigt für große M wieder 37 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen

38 Beispiel polynomielle Regression: Training i vs. Testfehler Problem der Überanpassung (Overfitting) wird geringer, wenn mehr Daten verfügbar 10 Beispiele, M = Beispiele, M = 9 In der Praxis verfügbare Daten begrenzt Modell muss regularisiert werden 38 Sawade/La andwehr/p Prasse/Scheffer, Maschinelle s Lernen

39 Regularisierte Polynomielle Regression Polynommodell vom Grad M: f ( x ) M wx i Lerne Modell durch Minimierung des regularisierten quadratischen Verlustes Trainingsdaten w* arg min ( ( ) ) L ( x, y ),...,( x, y ) M Gelerntes Modell Echtes Modell 9, ln 18 i0 m 2 2 w f w x i y i w 1 1 i1 i Datenpunkte = echtes Modell plus Gaußsches Rauschen m m 39

40 Regularisierte Polynomielle Regression Jetzt müssen wir einstellen Regularisierungsparameter kontrolliert Komplexität ähnlich wie Polynomgrad M M 9 M 9 M 9 ln ln 18 ln 0 40 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

41 Regularisierte Polynomielle Regression Trainingsfehler vs. Testfehler für unterschiedliche Werte des Regularisierungsparameters Testfehler z.b. mit grosser Holdout-Menge gemessen 0 Trainingsfehler minimal ohne Regularisierung, aber Testfehler besser für regularisiertes Modell Umgekehrtes Verhalten wie für unterschiedliche Polynomgrade 41 Sawade/La andwehr/prasse/sc cheffer, Ma aschinelle s Lernen

42 Regularisierte Polynomielle Regression Regularisierer wirkt wie eine Begrenzung der Modellkomplexität und verhindert Überanpassung In der Praxis am besten, Modellkomplexität durch Regularisierung zu kontrollieren (direkter Parameter wie bei Polynomen oft nicht verfügbar) Regularisierer kann durch Fehlerschätzung (Holdout- Testing oder Cross-Validation) eingestellt werden. 42 Sawade/La andwehr/p Prasse/Sc cheffer, Maschinelles Lernen

44 Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler R ( ) angeben so dass der echte Fehler meistens im Intervall liegt ˆ f Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable R ˆ( f ) R ˆ( f ) [ ] R 44

45 Zero-One Loss und Fehlerwahrscheinlichkeit h h li hk it Für Konfidenzintervalle betrachten wir Risikoschätzung im Spezialfall Klassifikation mit Zero-One Loss Verlustfunktion Zero-One Loss: 0, wenn y y' l ( yy, ') 1, wenn y y ' Risiko = Fehlerwahrscheinlichkeit. R( f) ( y, f( x)) p( x, y) ddy x py ( f( x)) 45

46 Verteilung für Fehlerschätzer Hypothese f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m m Rˆ ( f ) ( y, f ( x )) T j1 j j Fehlerschätzer ist erwartungstreu, T ( x, y ),...,( x, y ) 1 1 m ER [ ˆ ( f)] R( f) Betrachten zunächst unnormalisierten Fehlerschätzer ˆ ( ) m mr f ( y, f ( x )) T j1 j j Summe über Beispielverluste i l ( y, f( x )) {0,1} {01} Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R ( f ) j j T m 46

47 Fehlerwahrscheinlichkeit Unnormalisiertes empirisches Risiko ˆ ( ) m mr f ( y, f ( x )) T j1 j j ist Summe von Bernouilli-Variablen, also binomialverteilt: P mr ˆ ( f ) mr ˆ R ( f ) r Bin( mr ˆ m, r ) rˆ r T beobachtetes empirisches Risiko echtes Risiko Erwartungswert ˆ mr( f) mr mr Varianz 2 ˆ m r(1 r) mr 47

48 Fehlerwahrscheinlichkeit Normalisiertes empirisches Risiko ebenso binomialverteilt P mr ˆ ( f) mr ˆ R( f) r Bin( mr ˆ m, r) T P R ˆ ( f ) r ˆ R( f ) r Bin( mr ˆ m, r) T Erwartungswert Varianz rˆ R( f) r 2 1 r(1 r) rˆ m r (1 r ) 2 m m Standardabweichung g( ( Standardfehler ) rˆ r(1 r) m Standardabweichung: Zufallsanteil des Schätzers, sinkt mit 1 m 48

49 Binomialverteilung r 0.5 Wahrscheinlichkeit, empirischen Fehler rˆr zu beobachten: ˆ m ˆ (1 ˆ ˆ ˆ ) ( T ( ) ) Bin(, ) mr m r PR f r r mr rm r (1 r) mrˆ Konvergiert für große m gegen Normalverteilung m 5 m 16 m 160 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelle ( rˆ r) / rˆ ( rˆ r) / rˆ ( rˆ r) / rˆ 49 s Lernen

50 Normalverteilung Empirisches Risiko annähernd normalverteilt: ˆ ˆ r(1 r) RT( f) ~ N RT( f) r, [approximativ, für große m] m Erwartungswert, Varianz der Binomialverteilung Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ ˆ T( f) R( f) RT( f) R( f) ~ N 0,1 [approximativ, für große m] rˆ rˆ Für die weitere Analyse brauchen wir Varianz des empirischen Risikos, ist abhängig vom echtem Risiko: 2 rˆ r(1 r) m 50

51 Students t-verteilung Schätzen der Varianz durch empirische Varianz: s 2 rˆ rˆ (1 rˆ ) ˆ (1 ˆ ), r s r rˆ m 1 m 1 Standardisiertes empirisches Risiko folgt bei geschätzter Varianz einer Students t-verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen). Für große m konvergiert Students t-verteilung gegen die Standardnormalverteilung. 51

52 Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen 52 Students t-verteilung rˆr rˆr lim m t m N 0,1 s rˆ s rˆ

53 Schranken für echtes Risiko Wir haben Verteilung des empirischen Risikos hergeleitet Was sagt das empirische Risiko jetzt also über das echte Risiko? Wir können Schranke für echtes Risiko bestimmen! 2 rˆ Empirisches Risiko ˆr empirische Varianz s rˆ (1 rˆ) m1 ˆ ˆ ˆ R( f) RT ( f) P R( f) RT( f) P R( f) RT( f) P srˆ srˆ srˆ Approximativ standardnormalverteilt x P( X x) kumulative Verteilungsfunktion der Standardnormalverteilung 53

54 Schranken für echtes Risiko Zweiseitige Schranke: P R( f) Rˆ ( f)... T sˆr ˆ 54 Sawade/La andwehr/p Prasse/Sc cheffer, Ma aschinelles Lernen

55 Konfidenzintervalle Idee: so wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1- (z.b. =0.05) gilt. Einseitiges 1--Konfidenzintervall: Schranke, so dass P R ( f ) Rˆ ( f ) 1 T Zweiseitiges 1--Konfidenzintervall: Schranke, so dass P R( f) Rˆ ( f) 1 Bei symmetrischer Verteilung gilt immer: zu einseitigem 1--Konfidenzintervall = zu zweiseitigem iti 1-2-Konfidenzintervall. i T 55

56 Konfidenzintervalle Ermitteln des einseitiges 1--Konfidenzintervalls: P R ( f ) Rˆ ( f ) 1 T 1 s rˆ s 1 1 Konfidenzintervall ist (Konfidenzlevel 1-2) rˆ [ Rˆ ( f), Rˆ ( f) ] T T 56

57 Konfidenzintervalle Beispiel: ˆ 0.08 beobachtetes empirisches Risiko, m=100 r s r ˆ Konfidenzlevel PR ( ( f ) R ˆ T ( f ) ) (0.95) [Tabelle] Für gilt mit etwa 95% Wahrscheinlichkeit: R( f) R ( f) empirischer Standardfehler T [ ] R 90% Konfidenz 57

58 Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko ˆr und das davon abgeleitete Intervall, nicht das echte Risiko R( f ). Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 95%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 95%" 58