Schätzung der Kovarianzmatrix

Schätzug der Kovariazmatrix Aus eiem Esemble vo Beobachtuge {x i } ka die Kovariazmatrix (Zetralmomete) geschätzt werde: C = E{( x µ )( x µ ) } = R µ µ xx x x xx x x ˆ 1 C ˆ ˆ xx = xk µ x xk µ x k = 1 1 µ ˆ x = xk k = 1 Schätzwert (edliche Summe): ( )( ) ud dem Schätzwert: Cˆ wird also aus der Summe vo Matrize vom Rag 1 berechet: xx ( x ˆ )( ˆ k µ x xk µ x) da i dem dyadische Produkt ur Vielfache des Zeilevektors ( x µ ˆ ) vorkomme, wege: xy k x x1 y x2 y = x N y

Problem der hohe Merkmalsdimesioalität Ĉ ist somit sigulär, we weiger als =N, mit N=dim(x), uabhägige Beobachtuge des Esembles verfügbar sid!! Dies ist ei Problem, we die Azahl der Merkmale sehr groß ist ud ur weige Stichprobe des Esembles zur Verfügug stehe. Die Güte der Schätzug wird allerdigs erst mit >>N verbessert. Außerdem wird icht Ĉ, soder Ĉ -1 beötigt! Was ka ma tu, we eie zu gerige Stichprobe zur Verfügug steht? Ma ka die Azahl der Merkmale durch eie KL reduziere, oder Ma vereifacht das Modell ud damit die Azahl der Parameter: ma immt z.b. Ukorreliertheit der Merkmale a ud setzt alle Nebediagoalelemete zu Null, wodurch die Ivertierbarkeit erzwuge wird. Obwohl diese Vorgehesweise eigetlich ikorrekt ist, ergebe sich durch diese Heuristik häufig brauchbare Ergebisse.

Zum Problem der gerige Stichprobe Der resultierede Klasssifikator uter der Zwagsaahme der statistische Uabhägigkeit ist sicherlich suboptimal. Dies hägt zusamme mit dem Problem der uzureichede Stichprobe. Ma ka es vergleiche mit dem Problem des Kurve- Fittig. Das Bild zeigt 6 Datepukte ud verschiedee Polyome zum Fitte. Die Datepukte wurde erzeugt durch Hizufüge vo mittelwertfreie, uabhägigem Rausche zu eier Parabel. Deshalb sollte eie Parabel de beste Fit ergebe, we wir aehme, dass weitere Stichprobe hizukomme ud die 6 Pukte ergäze. Kurveapproximatio a eie Mege vo Pukte Die Gerade ergibt eie brauchbare Näherug. Die Parabel ergibt eie bessere Approximatio, aber ma ka sich frage, ob die Stichprobe gut geeiget war, die Parabel festzulege. Die Parabel für eie größere Stichprobe köte gaz woaders liege ud im betrachtete Itervall köte die Gerade die bessere Näherug sei. Overfittig: Das Polyom 10. Grades ergibt eie perfekte Fit. Aber ma ka icht erwarte, dass solch eie uterbestimmte Näherug eue Stichprobe gut approximiert. Es müßte sehr viel mehr Stichprobe zur Verfügug stehe, um eie ählich gute Approximatio vo eiem Polyom 10. Grades im Vergleich zu eiem Parabelfit zu bekomme, trotz der atsache, dass das Letztere ei Soderfall (=2) des Erste ist.

Regel: je kleier die Stichprobe, desto eifacher sollte auch das Modell gewählt werde Esemble Im allg. gilt: Zuverlässige Iter- ud Extrapolatio ka ur bei stark überbestimmte Lösuge erwartet werde (hireiched großer Stichprobeumfag). Also: We eie exakte statistische Modellierug gegebe wäre, da ist mit dem MAP-Asatz user Problem gelöst. I der Praxis stellt sich jedoch i der Regel das Problem, aus eier edliche Stichprobe eie gute Klassifikator herzuleite. Stichprobe 1 (repräsetativ) Stichprobe 2 (icht repräsetativ)

Problem der Geeralisierugsfähigkeit eies Klassifikators Wie reagiert ei Klassifikator, welcher auf eie edliche Stichprobe aufbaut, auf eu hizukommede Experimete (Problem der Iter- ud Extrapolatio)? Ma uterscheidet deshalb zwische eier raiigs- (Ler-) ud eier estmege. Die Überprüfug der Leistugsfähigkeit ur ahad des Lersatzes bezeichet ma als Reklassifikatio (dabei ka ma eie ideale Fit erreiche) ud die Überprüfug ahad eies uabhägige estdatesatzes bezeichet ma als Geeralisierug (Iter- ud Extrapolatiosfähigkeit). Je größer die Azahl der Parameter der i der Klassifikatio verwedete Schätzfuktio, desto größer muss der Stichprobeumfag der raiigsmege sei.

Rekursive Schätzug der statistische Kegröße Komme währed eier Erkeugsaufgabe fortwähred eue Stichprobe hizu, so ist es vorteilhaft, die statistische Kegröße rekursiv zu schätze. Dies ist mit wesetlich weiger Aufwad verbude, als vo dem erweiterte Stichprobeumfag die Grudgleichuge immer wieder ereut zu löse (lerede bzw. adaptive Vorgehesweise, batch estimate versus recursive estimate).

Für die Schätzug des Erwartugswerts gilt: 1 1 1 ˆ = xk = ( xk + x) k= 1 k= 1 µ = (1 ) µ ˆ + x = µ ˆ + ( x µ ˆ ) 1 1 1 1 1 1 Die Schätzug wird i jedem Schritt proportioal zur Abweichug zwische der der derzeitige Schätzug ud der derzeitige Beobachtug verädert. Eie Verallgemeierug der obige Rekursio ergibt: µ ˆ = µ ˆ + α( x µ ˆ ) = (1 α) µ ˆ + αx 1 1 1 mit: 1/ statioär α = cost. quasi-statioär

Mit α=1/ werde statioäre Verhältisse ageomme, d.h. alle Beobachtuge habe uabhägig vo der Zeit ihres Auftretes das gleiche Gewicht, d.h. die letzte Beobachtuge sid geauso wichtig wie die erste. Bei α=cost. wird eie Fluktuatio akzeptiert, d.h. die euere Beobachtuge habe eie größeres Gewicht als die alte (expoetial smoothig). Das Beobachtugsfester ist äherugsweise gegebe durch 1/α mit α=cost. Beitrag zum Mittelwert Lagzeitmittelug α =1/ Beitrag zum Mittelwert Kurzzeitmittelug α = cost. 1/α

Rekursive Schätzug der Kovariazmatrix Für die Korrelatiosmatrix (2. Momete) erhält ma die Rekursio: Rˆ = (1 α) Rˆ + αx x 1 Für die rekursive Berechug der Kovariazmatrix wird ˆµ beötigt, was durch eie zweite Rekursio zu ermittel ist: Cˆ = Rˆ µµ ˆ ˆ ˆ = [(1 α) R ˆ ˆ 1+ αxx] [(1 α) µ 1+ αx][(1 α) µ 1+ αx] ˆ 2 2 = (1 α) R ˆ ˆ ˆ ˆ 1+ αxx (1 α) µ 1µ 1 α(1 α)[ µ 1x + xµ 1] α xx (1 )[ ˆ = α R ˆ ˆ ˆ ˆ ˆ ˆ 1 µµ + α( xx µ 1x xµ 1+ µ 1µ 1] = ( ˆ 1 α)[ C + α( x µ ˆ )( x µ ˆ ) ] 1 1 1

Rekursive Schätzug der Kovariazmatrix Also beide Rekursioe zusamme: ˆ ˆ C = (1 α)[ C + α( x µ ˆ )( x µ ˆ ) ] 1 1 1 µ ˆ = (1 α) µ ˆ + αx 1

Rekursive Schätzug der iverse Korrelatiosmatrix Für die Berechug des Mahalaobis-Abstades wird higege eie Rekursio für die iverse Kovariazmatrix beötigt, ohe dass dabei jeweils zusätzlich eie Matrixiversio durchzuführe ist! Mit dem folgede Satz zur Matrixiversio: ( I+ AB ) = I A( I+ B A) B 1 1 Erhält ma eie Rekursio für die iverse Korrelatiosmatrix: Rˆ = [(1 α) Rˆ + αx x ] 1 1 1 1 ˆ 1 ˆ 1 1 = R R x ( + x Rˆ x ) x Rˆ (1 α) (1 α) α (1 α) 1 1 1 1 1 1 2 1 1 1 ˆ 1 ˆ 1 1 ˆ 1 R 1xxR 1 = R 1 α ˆ 1 (1 α) 1 + α( xr 1x 1)

Rekursive Schätzug der iverse Kovariazmatrix Ud für die iverse Kovariazmatrix: Cˆ = [(1 α) Rˆ + αx x ] 1 1 1 1 ˆ = [ C ˆ ˆ 1+ α( x µ 1)( x µ 1) ] (1 α) ˆ ˆ 1 1 ˆ 1 C ˆ ˆ 1( x µ 1)( x µ 1) C 1 = 1 α ˆ 1 (1 α) C 1 + α( x ˆ ˆ µ 1) C 1( x µ 1) 1 Rekursives Lere ka atürlich auch mit der Musterklassifikatio kombiiert werde. Das System verbessert sich bei eu hizukommede Stichprobe. Dies setzt allerdigs voraus, dass ei Labellig für die Klasse stattfidet (überwachtes Lere), d.h. der meschliche Beobachter trifft eie übergeordete Etscheidug für die Klassezugehörigkeit.