Schätzug der Kovariazmatri Aus eiem Esemble vo Beobachtuge { i } ka die Kovariazmatri (Zetralmomete) geschätzt werde: C E{( )( ) } R ˆ 1 k ˆ k ˆ k 1 Schätzwert (edliche Summe): C ( )( ) ud dem Schätzwert: ˆ 1 k 1 k Cˆ wird also aus der Summe vo Matrize vom Rag 1 berechet: ( ˆ )( ˆ ) k k da i dem dyadische Produkt ur Vielfache des Zeilevektors ( ˆ ) bzw. Spaltevektors ( ˆ ) vorkomme, wege: y k 1 2 N y y y y y y 1 2 k N H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 1
Problem der hohe Merkmalsdimesioalität Ĉ ist somit sigulär, we weiger als =N, mit N=dim(), uabhägige Beobachtuge des Esembles verfügbar sid!! Dies ist ei Problem, we die Azahl der Merkmale sehr groß ist ud ur weige Stichprobe des Esembles zur Verfügug stehe. Die Güte der Schätzug wird allerdigs erst mit >>N verbessert. Außerdem wird icht Ĉ, soder Ĉ -1 beötigt! Was ka ma tu, we eie zu gerige Stichprobe zur Verfügug steht? Ma ka die Azahl der Merkmale durch eie KL reduziere, oder Ma vereifacht das Modell ud damit die Azahl der Parameter: ma immt z.b. Ukorreliertheit der Merkmale a ud setzt alle Nebediagoalelemete zu Null, wodurch die Ivertierbarkeit erzwuge wird. Obwohl diese Vorgehesweise eigetlich ikorrekt ist, ergebe sich durch diese Heuristik häufig brauchbare Ergebisse. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 2
Zum Problem der gerige Stichprobe Der resultierede Klasssifikator uter der Zwagsaahme der statistische Uabhägigkeit ist sicherlich suboptimal. Dies hägt zusamme mit dem Problem der uzureichede Stichprobe. Ma ka es vergleiche mit dem Problem des Kurve-Fittig. Das Bild zeigt 6 Datepukte ud verschiedee Polyome zum Fitte. Die Datepukte wurde erzeugt durch Hizufüge vo mittelwertfreie, uabhägigem Rausche zu eier Parabel. Deshalb sollte eie Parabel de beste Fit ergebe, we wir aehme, dass weitere Stichprobe hizukomme ud die 6 Pukte ergäze (Geeralisierug). Kurveapproimatio a eie Mege vo Pukte Die Gerade ergibt eie brauchbare Näherug. Die Parabel ergibt eie bessere Approimatio, aber ma ka sich frage, ob die Stichprobe gut geeiget war, die Parabel festzulege. Die Parabel für eie größere Stichprobe köte gaz woaders liege ud im betrachtete Itervall köte die Gerade die bessere Näherug sei. Overfittig: Das Polyom 10. Grades ergibt eie perfekte Fit. Aber ma ka icht erwarte, dass solch eie uterbestimmte Näherug eue Stichprobe gut approimiert. Es müßte sehr viel mehr Stichprobe zur Verfügug stehe, um eie ählich gute Approimatio vo eiem Polyom 10. Grades im Vergleich zu eiem Parabelfit zu bekomme, trotz der atsache, dass das Letztere ei Soderfall (=2) des Erste ist. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 3
Regel: je kleier die Stichprobe, desto eifacher sollte auch das Modell gewählt werde Esemble Im allg. gilt: Zuverlässige Iter- ud Etrapolatio ka ur bei stark überbestimmte Lösuge erwartet werde (hireiched großer Stichprobeumfag). Also: We eie eakte statistische Modellierug gegebe wäre, da ist mit dem MAP-Asatz user Problem gelöst. I der Prais stellt sich jedoch i der Regel das Problem, aus eier edliche Stichprobe eie gute Klassifikator herzuleite. Stichprobe 1 (repräsetativ) Stichprobe 2 (icht repräsetativ) H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 4
Problem der Geeralisierugsfähigkeit eies Klassifikators Wie reagiert ei Klassifikator, welcher auf eie edliche Stichprobe aufbaut, auf eu hizukommede Eperimete (Problem der Iter- ud Etrapolatio)? Ma uterscheidet deshalb zwische eier raiigs- (Ler-) ud eier estmege. Die Überprüfug der Leistugsfähigkeit ur ahad des Lersatzes bezeichet ma als Reklassifikatio (dabei ka ma eie ideale Fit erreiche) ud die Überprüfug ahad eies uabhägige estdatesatzes bezeichet ma als Geeralisierug (Iter- ud Etrapolatiosfähigkeit). Je größer die Azahl der Parameter der i der Klassifikatio verwedete Schätzfuktio, desto größer muss der Stichprobeumfag der raiigsmege sei. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 5
Rekursive Schätzug der statistische Kegröße Komme währed eier Erkeugsaufgabe fortwähred eue Stichprobe hizu, so ist es vorteilhaft, die statistische Kegröße rekursiv zu schätze. Dies ist mit wesetlich weiger Aufwad verbude, als vo dem erweiterte Stichprobeumfag die Grudgleichuge immer wieder ereut zu löse (lerede bzw. adaptive Vorgehesweise, batch estimate versus recursive estimate). H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 6
Für die Schätzug des Erwartugswerts gilt: 1 ˆ 1 1 k ( k ) k 1 k 1 (1 ) ˆ ˆ ( ˆ ) 1 1 1 1 1 1 Die Schätzug wird i jedem Schritt proportioal zur Abweichug zwische der der derzeitige Schätzug ud der derzeitige Beobachtug verädert. Eie Verallgemeierug der obige Rekursio ergibt: ˆ ˆ ( ˆ ) (1 ) ˆ 1 1 1 mit: 1/ statioär cost. quasi-statioär H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 7
Mit =1/ werde statioäre Verhältisse ageomme, d.h. alle Beobachtuge habe uabhägig vo der Zeit ihres Auftretes das gleiche Gewicht, d.h. die letzte Beobachtuge sid geauso wichtig wie die erste. Bei =cost. wird eie Fluktuatio akzeptiert, d.h. die euere Beobachtuge habe ei größeres Gewicht als die alte (epoetial smoothig). Das Beobachtugsfester ist äherugsweise gegebe durch 1/ mit =cost. Beitrag zum Mittelwert Lagzeitmittelug 1/ 1 2 3 4 5 6 Beitrag zum Mittelwert 1 2 3 4 5 6 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 8 1/ Kurzzeitmittelug cost.
Rekursive Schätzug der Kovariazmatri Für die Korrelatiosmatri (2. Momete) erhält ma die Rekursio: Rˆ (1 ) Rˆ 1 Für die rekursive Berechug der Kovariazmatri wird ˆ beötigt, was durch eie zweite Rekursio zu ermittel ist: ˆ ˆ C R ˆ ˆ ˆ [(1 ) R 1 ] [(1 ) ˆ 1 ][(1 ) ˆ 1 ] (1 ) Rˆ (1 ) ˆ ˆ (1 )[ ˆ ˆ ] (1 )[ ˆ R 1 ˆ 1ˆ 1 ( ˆ 1 ˆ 1 ˆ 1ˆ 1] ˆ (1 )[ C ( ˆ )( ˆ ) ] 2 2 1 1 1 1 1 1 1 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 9
Rekursive Schätzug der Kovariazmatri Also beide Rekursioe zusamme: ˆ ˆ C (1 )[ C 1 ( ˆ 1)( ˆ 1) ] ˆ (1 ) ˆ 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 10
Rekursive Schätzug der iverse Korrelatiosmatri Für die Berechug des Mahalaobis-Abstades wird higege eie Rekursio für die iverse Kovariazmatri beötigt, ohe dass dabei jeweils zusätzlich eie Matriiversio (O(N 3 )) durchzuführe ist! Mit dem folgede Satz zur Matriiversio: ( I AB ) I A( I B A) B 1 1 Erhält ma eie Rekursio für die iverse Korrelatiosmatri: Rˆ [(1 ) Rˆ ] 1 1 1 1 ˆ 1 ˆ 1 1 R R ( Rˆ (1 ) (1 ) (1 ) ) Rˆ 1 ˆ ˆ ˆ R R R (1 ) 1 ( 1) 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 ˆ 1 R 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 11
Rekursive Schätzug der iverse Kovariazmatri Ud für die iverse Kovariazmatri: Cˆ [(1 ) Rˆ ˆ ˆ ] 1 1 1 1 ˆ 1 [ C 1 ( ˆ 1)( ˆ 1) ] (1 ) 1 ˆ ( ˆ )( ˆ ) ˆ ˆ C C C (1 ) 1 ( ˆ ) ( ˆ ) 1 1 1 1 1 1 1 1 ˆ 1 1 C 1 1 Rekursives Lere ka atürlich auch mit der Musterklassifikatio kombiiert werde. Das System verbessert sich bei eu hizukommede Stichprobe. Dies setzt allerdigs voraus, dass ei Labellig für die Klasse stattfidet (überwachtes Lere), d.h. der meschliche Beobachter trifft eie übergeordete Etscheidug für die Klassezugehörigkeit. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 12