Schätzung der Kovarianzmatrix

Ähnliche Dokumente
Schätzung der Kovarianzmatrix

Kapitel 5: Schließende Statistik

Übungen mit dem Applet erwartungstreu

Schätzen von Populationswerten

Die notwendigen Verteilungstabellen finden Sie z.b. hier:

Schätzen von Populationswerten

10. Testen von Hypothesen Seite 1 von 6

4 Schwankungsintervalle Schwankungsintervalle 4.2

Umrechnung einer tatsächlichen Häufigkeitsverteilung in eine prozentuale Häufigkeitsverteilung

und wird als n-dimensionaler (reeller) Vektorraum bezeichnet. heißt der von v 1,..., v k aufgespannte Unterraum des R n.

Kapitel VI. Einige spezielle diskrete Verteilungen

2. Repetition relevanter Teilbereiche der Statistik

II. Grundzüge der Stichprobentheorie

1.2. Taylor-Reihen und endliche Taylorpolynome

So lösen Sie die Gleichung für den Korrelationskoeffizienten

Wirksamkeit, Effizienz. Beispiel: Effizienz. Mittlerer quadratischer Fehler (MSE) Konsistenz im quadratischen Mittel

Statistik. 5. Schließende Statistik: Typische Fragestellung anhand von Beispielen. Kapitel 5: Schließende Statistik

Methode der kleinsten Quadrate

6. Übung - Differenzengleichungen

Wirksamkeit, Effizienz

Vl Statistische Prozess- und Qualitätskontrolle und Versuchsplanung Übung 5

Beispiel: p-wert bei Chi-Quadrat-Anpassungstest (Grafik) Auftragseingangsbeispiel, realisierte Teststatistik χ 2 = , p-wert: 0.

Übungen mit dem Applet Fourier-Reihen

( ), der genau auf der Geraden ( ) 2 ( ) #( ) 8. Lineare Regression. = f i. Nach der Summe der kleinsten. mx i

14 Statistische Beziehungen zwischen nomi nalen Merkmalen

Teil II Zählstatistik

Vl Statistische Prozess und Qualitätskontrolle und Versuchsplanung Übung 3

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Tests statistischer Hypothesen

Schwerpunkt 1 E Ma 1 Lubov Vassilevskaya

a) Histogramm der Verteilung: Zunächst werden die gegebenen Messwerte in aufsteigender Reihenfolge sortiert:

Statistik Einführung // Konfidenzintervalle für einen Parameter 7 p.2/39

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Kapitel 6 : Punkt und Intervallschätzer

Wirksamkeit, Effizienz

Kapitel 2: Stochastische Prozesse. Copyright M. Gross, ETH Zürich 2006, 2007

Für eine n n-matrix A müssen wir die Gleichung. lösen. Falls (A λi) invertierbar ist, dann ist. Dann ist aber λ kein Eigenwert.

= 3. = 14,38... = x neu x = 0, = 97,87...%. Wie verändert sich der arithmetische Mittelwert von 20 Zahlen, wenn...

2. Schätzverfahren 2.1 Punktschätzung wirtschaftlicher Kennzahlen. Allgemein: Punktschätzung eines Parameters:

1 Randomisierte Bestimmung des Medians

Übungen zu QM III Mindeststichprobenumfang

Wahrscheinlichkeit & Statistik Musterlösung Serie 13

n 2(a + bx i y i ) = 0 und i=1 n 2(a + bx i y i )x i = 0 i=1 gilt. Aus diesen beiden Gleichungen erhalten wir nach wenigen einfachen Umformungen

Beispiel: p-wert bei Chi-Quadrat-Anpassungstest (Grafik) Auftragseingangsbeispiel, realisierte Teststatistik χ 2 = , p-wert: 0.

3 Kritischer Bereich zum Niveau α = 0.10: K = (χ 2 k 1;1 α, + ) = (χ2 5;0.90, + ) = (9.236, + ) 4 Berechnung der realisierten Teststatistik:

Statistik und Wahrscheinlichkeitsrechnung

x 1, x 2,..., x n ist eine Liste von n reellen Zahlen. Das arithmetische Mittel x der Zahlen ist x = x 1 + x x n n

Positiv denken! Lösungen

Mathematische und statistische Methoden I

Lösungsvorschlag zu den Hausaufgaben der 1. Übung

Mathematische und statistische Methoden I

Kapitel 9: Schätzungen

Vorkurs Mathematik für Informatiker Folgen

(a) Richtig, die Varianz ist eine Summe quadratischer Größen.

Lineare Transformationen

3 Vergleich zweier unverbundener Stichproben

Teilaufgabe 1.0 Bei der Firma Kohl kommen morgens alle im Büro Beschäftigten nacheinander ins Großraumbüro.

2.2.1 Lagemaße. Exkurs: Quantile. und n. p n

3. Anwendungen der Differentialrechnung

Kapitel 10 VERTEILUNGEN

Übungen mit dem Applet Taylor-Entwickung von Funktionen

Praktikum Vorbereitung Fertigungsmesstechnik Statistische Qualitätskontrolle

3 Grenzwerte. 3.1 Grenzwerte von Folgen

Anwendungen der Wahrscheinlichkeit II. Markovketten

6 Vergleich mehrerer unverbundener Stichproben

Wissenschaftliches Arbeiten Studiengang Energiewirtschaft

SBP Mathe Aufbaukurs 1. Absolute und relative Häufigkeit. Das arithmetische Mittel und seine Eigenschaften. Das arithmetische Mittel und Häufigkeit

Probeklausur. (b) Was geschieht, wenn man ein Quantenbit in einem solchen Zustand misst?

Bei 95%iger Konfidenz wäre der Mittelwert der GG zwischen 1421,17DM und 1778,83DM zu erwarten.

,,, xn. 3. Intervallschätzungen Zufallsstichproben und Stichprobenfunktionen Zufallsstichproben. Zufallsvariablen mit

Tests für beliebige Zufallsvariable

Einführung in die Grenzwerte

6. Grenzwertsätze. 6.1 Tschebyscheffsche Ungleichung

Einführung in die Stochastik 10. Übungsblatt

Konfidenzbereiche die auf Runden Normaldaten Basiert Sind

Ulrich Stein Fehlerrechnung

X in einer Grundgesamtheit vollständig beschreiben.

Auszüge der nichtparametrischen Statisik

Normalverteilung. Voraussetzung und verwandte Themen. Einführung. Ziel und Nutzen. Grundlagen

Kunde. Kontobewegung

Prof. Dr. Roland Füss Statistik II SS 2008

Das kollektive Risikomodell. 12. Mai 2009

Übungen zur Analysis 1 für Informatiker und Statistiker. Lösung zu Blatt 8

Funktionenreihen. 1-E1 Ma 2 Lubov Vassilevskaya

Kurvenanpassung durch Regression (3) Ac nichtlineare Regression/Linearisierung -

Folgen und Reihen. 23. Mai 2002

ALP I Induktion und Rekursion

Strukturelle Modelle in der Bildverarbeitung Markovsche Ketten II

Übungen Abgabetermin: Freitag, , 10 Uhr THEMEN: Testtheorie

Statistik und Wahrscheinlichkeitsrechnung

6 Folgen. 6.4 Folgen reeller Zahlen. Mathematik für Informatiker B, SS 2012 Dienstag 5.6. $Id: folgen.tex,v /06/05 11:12:18 hk Exp $

Evaluierung einer Schulungsmaßnahme: Punktezahl vor der Schulung Punktezahl nach der Schulung. Autoritarismusscore vor/nach Projekt

ELEMENTE DER ZAHLENTHEORIE UND AUFBAU DES ZAHLENSYSTEMS

Statistik und Wahrscheinlichkeitsrechnung

Parameter von Häufigkeitsverteilungen

Transkript:

Schätzug der Kovariazmatri Aus eiem Esemble vo Beobachtuge { i } ka die Kovariazmatri (Zetralmomete) geschätzt werde: C E{( )( ) } R ˆ 1 k ˆ k ˆ k 1 Schätzwert (edliche Summe): C ( )( ) ud dem Schätzwert: ˆ 1 k 1 k Cˆ wird also aus der Summe vo Matrize vom Rag 1 berechet: ( ˆ )( ˆ ) k k da i dem dyadische Produkt ur Vielfache des Zeilevektors ( ˆ ) bzw. Spaltevektors ( ˆ ) vorkomme, wege: y k 1 2 N y y y y y y 1 2 k N H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 1

Problem der hohe Merkmalsdimesioalität Ĉ ist somit sigulär, we weiger als =N, mit N=dim(), uabhägige Beobachtuge des Esembles verfügbar sid!! Dies ist ei Problem, we die Azahl der Merkmale sehr groß ist ud ur weige Stichprobe des Esembles zur Verfügug stehe. Die Güte der Schätzug wird allerdigs erst mit >>N verbessert. Außerdem wird icht Ĉ, soder Ĉ -1 beötigt! Was ka ma tu, we eie zu gerige Stichprobe zur Verfügug steht? Ma ka die Azahl der Merkmale durch eie KL reduziere, oder Ma vereifacht das Modell ud damit die Azahl der Parameter: ma immt z.b. Ukorreliertheit der Merkmale a ud setzt alle Nebediagoalelemete zu Null, wodurch die Ivertierbarkeit erzwuge wird. Obwohl diese Vorgehesweise eigetlich ikorrekt ist, ergebe sich durch diese Heuristik häufig brauchbare Ergebisse. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 2

Zum Problem der gerige Stichprobe Der resultierede Klasssifikator uter der Zwagsaahme der statistische Uabhägigkeit ist sicherlich suboptimal. Dies hägt zusamme mit dem Problem der uzureichede Stichprobe. Ma ka es vergleiche mit dem Problem des Kurve-Fittig. Das Bild zeigt 6 Datepukte ud verschiedee Polyome zum Fitte. Die Datepukte wurde erzeugt durch Hizufüge vo mittelwertfreie, uabhägigem Rausche zu eier Parabel. Deshalb sollte eie Parabel de beste Fit ergebe, we wir aehme, dass weitere Stichprobe hizukomme ud die 6 Pukte ergäze (Geeralisierug). Kurveapproimatio a eie Mege vo Pukte Die Gerade ergibt eie brauchbare Näherug. Die Parabel ergibt eie bessere Approimatio, aber ma ka sich frage, ob die Stichprobe gut geeiget war, die Parabel festzulege. Die Parabel für eie größere Stichprobe köte gaz woaders liege ud im betrachtete Itervall köte die Gerade die bessere Näherug sei. Overfittig: Das Polyom 10. Grades ergibt eie perfekte Fit. Aber ma ka icht erwarte, dass solch eie uterbestimmte Näherug eue Stichprobe gut approimiert. Es müßte sehr viel mehr Stichprobe zur Verfügug stehe, um eie ählich gute Approimatio vo eiem Polyom 10. Grades im Vergleich zu eiem Parabelfit zu bekomme, trotz der atsache, dass das Letztere ei Soderfall (=2) des Erste ist. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 3

Regel: je kleier die Stichprobe, desto eifacher sollte auch das Modell gewählt werde Esemble Im allg. gilt: Zuverlässige Iter- ud Etrapolatio ka ur bei stark überbestimmte Lösuge erwartet werde (hireiched großer Stichprobeumfag). Also: We eie eakte statistische Modellierug gegebe wäre, da ist mit dem MAP-Asatz user Problem gelöst. I der Prais stellt sich jedoch i der Regel das Problem, aus eier edliche Stichprobe eie gute Klassifikator herzuleite. Stichprobe 1 (repräsetativ) Stichprobe 2 (icht repräsetativ) H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 4

Problem der Geeralisierugsfähigkeit eies Klassifikators Wie reagiert ei Klassifikator, welcher auf eie edliche Stichprobe aufbaut, auf eu hizukommede Eperimete (Problem der Iter- ud Etrapolatio)? Ma uterscheidet deshalb zwische eier raiigs- (Ler-) ud eier estmege. Die Überprüfug der Leistugsfähigkeit ur ahad des Lersatzes bezeichet ma als Reklassifikatio (dabei ka ma eie ideale Fit erreiche) ud die Überprüfug ahad eies uabhägige estdatesatzes bezeichet ma als Geeralisierug (Iter- ud Etrapolatiosfähigkeit). Je größer die Azahl der Parameter der i der Klassifikatio verwedete Schätzfuktio, desto größer muss der Stichprobeumfag der raiigsmege sei. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 5

Rekursive Schätzug der statistische Kegröße Komme währed eier Erkeugsaufgabe fortwähred eue Stichprobe hizu, so ist es vorteilhaft, die statistische Kegröße rekursiv zu schätze. Dies ist mit wesetlich weiger Aufwad verbude, als vo dem erweiterte Stichprobeumfag die Grudgleichuge immer wieder ereut zu löse (lerede bzw. adaptive Vorgehesweise, batch estimate versus recursive estimate). H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 6

Für die Schätzug des Erwartugswerts gilt: 1 ˆ 1 1 k ( k ) k 1 k 1 (1 ) ˆ ˆ ( ˆ ) 1 1 1 1 1 1 Die Schätzug wird i jedem Schritt proportioal zur Abweichug zwische der der derzeitige Schätzug ud der derzeitige Beobachtug verädert. Eie Verallgemeierug der obige Rekursio ergibt: ˆ ˆ ( ˆ ) (1 ) ˆ 1 1 1 mit: 1/ statioär cost. quasi-statioär H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 7

Mit =1/ werde statioäre Verhältisse ageomme, d.h. alle Beobachtuge habe uabhägig vo der Zeit ihres Auftretes das gleiche Gewicht, d.h. die letzte Beobachtuge sid geauso wichtig wie die erste. Bei =cost. wird eie Fluktuatio akzeptiert, d.h. die euere Beobachtuge habe ei größeres Gewicht als die alte (epoetial smoothig). Das Beobachtugsfester ist äherugsweise gegebe durch 1/ mit =cost. Beitrag zum Mittelwert Lagzeitmittelug 1/ 1 2 3 4 5 6 Beitrag zum Mittelwert 1 2 3 4 5 6 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 8 1/ Kurzzeitmittelug cost.

Rekursive Schätzug der Kovariazmatri Für die Korrelatiosmatri (2. Momete) erhält ma die Rekursio: Rˆ (1 ) Rˆ 1 Für die rekursive Berechug der Kovariazmatri wird ˆ beötigt, was durch eie zweite Rekursio zu ermittel ist: ˆ ˆ C R ˆ ˆ ˆ [(1 ) R 1 ] [(1 ) ˆ 1 ][(1 ) ˆ 1 ] (1 ) Rˆ (1 ) ˆ ˆ (1 )[ ˆ ˆ ] (1 )[ ˆ R 1 ˆ 1ˆ 1 ( ˆ 1 ˆ 1 ˆ 1ˆ 1] ˆ (1 )[ C ( ˆ )( ˆ ) ] 2 2 1 1 1 1 1 1 1 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 9

Rekursive Schätzug der Kovariazmatri Also beide Rekursioe zusamme: ˆ ˆ C (1 )[ C 1 ( ˆ 1)( ˆ 1) ] ˆ (1 ) ˆ 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 10

Rekursive Schätzug der iverse Korrelatiosmatri Für die Berechug des Mahalaobis-Abstades wird higege eie Rekursio für die iverse Kovariazmatri beötigt, ohe dass dabei jeweils zusätzlich eie Matriiversio (O(N 3 )) durchzuführe ist! Mit dem folgede Satz zur Matriiversio: ( I AB ) I A( I B A) B 1 1 Erhält ma eie Rekursio für die iverse Korrelatiosmatri: Rˆ [(1 ) Rˆ ] 1 1 1 1 ˆ 1 ˆ 1 1 R R ( Rˆ (1 ) (1 ) (1 ) ) Rˆ 1 ˆ ˆ ˆ R R R (1 ) 1 ( 1) 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 ˆ 1 R 1 H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 11

Rekursive Schätzug der iverse Kovariazmatri Ud für die iverse Kovariazmatri: Cˆ [(1 ) Rˆ ˆ ˆ ] 1 1 1 1 ˆ 1 [ C 1 ( ˆ 1)( ˆ 1) ] (1 ) 1 ˆ ( ˆ )( ˆ ) ˆ ˆ C C C (1 ) 1 ( ˆ ) ( ˆ ) 1 1 1 1 1 1 1 1 ˆ 1 1 C 1 1 Rekursives Lere ka atürlich auch mit der Musterklassifikatio kombiiert werde. Das System verbessert sich bei eu hizukommede Stichprobe. Dies setzt allerdigs voraus, dass ei Labellig für die Klasse stattfidet (überwachtes Lere), d.h. der meschliche Beobachter trifft eie übergeordete Etscheidug für die Klassezugehörigkeit. H. Burkhardt, Istitut für Iformatik, Uiversität Freiburg ME-I, Kap. 7c 12