Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz



Ähnliche Dokumente
Predictive Modeling. Thorsten Holz

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Seminar Text- und Datamining Datamining-Grundlagen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Interne und externe Modellvalidität

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Fortgeschrittene Statistik Logistische Regression

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Textmining Klassifikation von Texten Teil 1: Naive Bayes

One-class Support Vector Machines

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Data Mining: Einige Grundlagen aus der Stochastik

Statistik II für Betriebswirte Vorlesung 2

Binäre abhängige Variablen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Entscheidungsbaumverfahren

Willkommen zur Vorlesung Statistik

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Dokumentation Datamining

Data Mining und maschinelles Lernen

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Statistische Thermodynamik I Lösungen zur Serie 1

Automatisches Übersetzen von Gebärdensprache

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

W-Rechnung und Statistik für Ingenieure Übung 11

Programmiertechnik II

QM: Prüfen -1- KN

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Softwareprojektpraktikum Maschinelle Übersetzung

Diskriminanzanalyse Beispiel

15 Optimales Kodieren

Konzepte der Informatik

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Überblick über die Verfahren für Ordinaldaten

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Softwareprojektpraktikum Maschinelle Übersetzung

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Künstliche Intelligenz Maschinelles Lernen

Risiko und Symmetrie. Prof. Dr. Andrea Wirth

y P (Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Varianzanalyse (ANOVA: analysis of variance)

Einführung in statistische Analysen

Kapitalerhöhung - Verbuchung

2.Tutorium Generalisierte Regression

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Zusammenhänge zwischen metrischen Merkmalen

Grundlagen der Inferenzstatistik

Multivariate Statistik

Stichprobenauslegung. für stetige und binäre Datentypen

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Data Quality Management: Abgleich großer, redundanter Datenmengen

Auswertung mit dem Statistikprogramm SPSS:

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Data Mining - Wiederholung

Maximizing the Spread of Influence through a Social Network

Grundbegriffe der Informatik

Theoretische Grundlagen der Informatik WS 09/10

14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch

Kapitel 4: Binäre Regression

Computerlinguistische Textanalyse

x 2 x 1 x Lernen mit Entscheidungsbäumen

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

5. Schließende Statistik Einführung


Korrelation - Regression. Berghold, IMI

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

in vielen technischen und wissenschaftlichen Anwendungen erforderlich: hohe Präzision große Dynamik möglich durch Verwendung von Gleitkommazahlen

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Mining High-Speed Data Streams

Ausarbeitung des Seminarvortrags zum Thema

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Eine Einführung in R: Statistische Tests

Algorithmische Modelle als neues Paradigma

Transkript:

Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University of Technology D-52056 Aachen, Germany Thorsten Holz Predictive Modeling January 21, 2004

Gliederung Predictive Modeling Grundbegriffe der Klassifikation und Regression Verschiedene Verfahren Logistische Diskriminanzanalyse Nächste-Nachbarn-Methode Naive Bayes Modell Andere Verfahren Evaluierung Kreuzvalidierung / Bootstrap Receiver-Operating-Characteristic (ROC) Kurven Zusammenfassung Thorsten Holz Predictive Modeling January 21, 2004 1

Literaturübersicht Hauptquelle: D. Hand, H. Mannila and P. Smyth: Principles of Data Mining, MIT Press, Cambridge MA, 2001, (Kapitel 10 + 11). Sonstige Bücher: R.O. Duda, P.E. Hart and D.J. Stock: Pattern Classification, Wiley, 2001. T. Hastie, R.J. Tibshirani and J. Friedman: The Elements of Statistical Learning, Springer, 2001. G.J. McLachlan: Discriminant Analysis and Statistical Pattern Recognition, Wiley, 1992. Thorsten Holz Predictive Modeling January 21, 2004 2

Predictive Modeling We are drowning in information and starving for knowledge. Rutherford D. Roger Immer mehr Daten werden gesammelt und gespeichert: Einkaufsverhalten, Verbindungsdaten, astronomische Daten,... Data-Mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner Predictive Modeling macht Vorhersage über zukünftige Werte der Daten Modell: y = f(x, Θ) mit Zielvariable y, Prädiktor x R D, Parameter Θ Bei Klassifikation ist y kategorische Variable, bei Regression reellwertig Thorsten Holz Predictive Modeling January 21, 2004 3

Grundbegriffe der Klassifikation und Regression Beispiel für Klassifikation: Beurteilung Kreditwürdigkeit anhand verschiedener Variablen x = (x 1,..., x D ), bspw. monatl. Einkommen, Höhe Gesamtschulden,... Zielvariable (engl.: response variable) y = f(x, Θ) { Kredit gewährt, Kredit nicht gewährt } Prädiktor (engl.: predictor variable) x R D ( monatl. Einkommen, Familienstand, Gesamtschulden,... ) Parameter des Modells Θ Gewichtung der Prädiktor-Variablen Lernen der Parameter Θ durch Trainingsmenge {(x 1, y 1 ),..., (x N, y N )} Thorsten Holz Predictive Modeling January 21, 2004 4

Grundbegriffe der Klassifikation und Regression Beispiele für Regression: Mobilfunkkonzern möchte anhand von gewonnenen Verbindungsdaten Vorhersage über Kundenverhalten zu bestimmten Uhrzeiten treffen Vorhersage der Energieproduktion eines Windrads anhand von Wetterdaten u.ä. Lineare Modelle: ŷ = a 0 + P D d=1 a d x d ŷ ist durch Modell gewonnener Schätzer und a d sind Gewichtungen Schätzer ist fehlerbehaftet: y = ŷ + ε, Residuum (engl.: residual) ε Minimierung des Residuums angestrebt, least-squares-methode: NX n=1 ε(n) 2 = NX n=1 y(n) a 0 +!! 2 DX a d (n) x d (n) d=1 Thorsten Holz Predictive Modeling January 21, 2004 5

Grundbegriffe der Klassifikation und Regression Gegenüberstellung von Höhe Gesamtschulden und monatl. Einkommen Einkommen Gesamtschulden Drei verschiedene Risikotypen erkennbar Lineare Entscheidungsgrenze (engl.: decision boundary) Einige Werte falsch klassifiziert Thorsten Holz Predictive Modeling January 21, 2004 6

Bias-Varianz-Problem Bias ist Maß für Genauigkeit; Abweichung des Erwartungswerts des Schätzers vom tatsächlichen Wert Varianz ist Maß für die Streuung; erwartete quadrierte Abweichung des Schätzers vom Erwartungswert des Schätzers Erwarteter Fehler einer Klassifikation ˆf(x) bei Prädiktor x Err{x} = E{(y ˆf(x)) 2 x} = σx 2 + [E{ ˆf(x)} f(x)] 2 + E{ ˆf(x) E{ ˆf(x)}} 2 = σx 2 + Bias2 ˆf(x) + V ar ˆf(x) = Minimaler Fehler + Bias 2 + Varianz Beide Terme können nicht gleichzeitig minimiert werden! Thorsten Holz Predictive Modeling January 21, 2004 7

Bias-Varianz-Problem Funktion sin(2x) im Bereich [-2,2] Trainingsdaten mittels Funktion sin(2x) + ε mit ε N (0, 1 9 ) Least-Squares-Methode mit 10 Freiheitsgraden (f 10 (x) = overfitting, hohe Varianz, aber niedriger Bias 1 0.5 P 9 i=0 f(x) "equidist" sin(2*x) a i x i ) 0-0.5-1 -1.5-2 -1.5-1 -0.5 0 0.5 1 1.5 2 Thorsten Holz Predictive Modeling January 21, 2004 8

Bias-Varianz-Problem Least-Squares Methode mit 2 Freiheitsgraden, (f 2 (x) = a 0 + a 1 x) underfitting, niedrige Varianz, hoher Bias Least-Squares Methode mit 4 Freiheitsgraden, P (f 4 (x) = 3 a i x i ) i=0 gute Annäherung an die Daten 1 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6-0.8 f(x) "equidist" sin(2*x) -1-2 -1.5-1 -0.5 0 0.5 1 1.5 2 1 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6-0.8 f(x) "equidist" sin(2*x) -1-2 -1.5-1 -0.5 0 0.5 1 1.5 2 Thorsten Holz Predictive Modeling January 21, 2004 9

Bias-Varianz-Problem Zusammenhang zwischen Modellkomplexität und Vorhersagefehler Trade-Off zwischen Bias und Varianz Oft adaptiver Ansatz nötig High Bias Low Variance Low Bias High Variance Prediction error Test sample Training sample Low Model complexity High Thorsten Holz Predictive Modeling January 21, 2004 10

Logistische Diskriminanzanalyse Verallgemeinerte lineare Modelle: Zielvariable y ist indirekt über Link-Funktion g(y) von Linearkombination der x d abhängig: g(y) = a 0 + DX d=1 a d x d Logistische Diskriminanzanalyse nutzt als Link-Funktion Logarithmus (log-lineares Modell) Einfachster Fall: Vorhersage einer binären Zielvariablen Wahrscheinlichkeit für Klasse c = 1 bei Prädiktor x Gegenereignis: p(c = 1 x) = 1 1+exp(α T x ) p(c = 0 x) = 1 p(c = 1 x) = exp(αt x ) 1+exp(α T x ) odds-ratio: Verhältnis der relativen Häufigkeiten möglicher Ereignisse «p(c = 0 x) log p(c = 1 x) = a 0 + DX d=1 a d x d Thorsten Holz Predictive Modeling January 21, 2004 11

Logistische Diskriminanzanalyse: Analyse des Challenger-Unglücks 28. Januar 1986: Raumfähre Challenger explodiert beim Start Brüchige Gummiringe an Antriebsrakete unmittelbare Ursache Vorhergesagte Temperatur für 28. Januar: 31 Fahrenheit Anwendung der logistischen Diskriminanzanalyse zur Modellbildung f(x, Θ) = exp(α 0+α 1 x) 1+exp(α 0 +α 1 x) = exp(15 0.25x) 1+exp(15 0.25x) Thorsten Holz Predictive Modeling January 21, 2004 12

Logistische Diskriminanzanalyse: Analyse des Challenger-Unglücks 1 f(x) "Messwerte" 0.8 0.6 0.4 0.2 0 30 40 50 60 70 80 Anwendung der logistischen Diskriminanzanalyse zur Modellbildung f(x, Θ) = exp(α 0+α 1 x) 1+exp(α 0 +α 1 x) = exp(15 0.25x) 1+exp(15 0.25x) Thorsten Holz Predictive Modeling January 21, 2004 12

Logistische Diskriminanzanalyse: Analyse des Challenger-Unglücks 1 f(x) "Messwerte" 0.8 0.6 0.4 0.2 0 30 40 50 60 70 80 Wahrscheinlichkeit für Beschädigung der Gummiringe anhand dieses Modells lag nahe bei 1 Start hätte nicht stattfinden dürfen Thorsten Holz Predictive Modeling January 21, 2004 12

Nächste-Nachbarn-Methode Objekt mit Prädiktor x soll einer von c = 1,..., C Klassen zugeordnet werden 1. Festlegung eines Distanzmaßes Minkowski-Distanz: distp(x, x) = Wichtige Spezialfälle: DX d=1 x d x d p! 1 p p = 1 Manhattan-Distanz und p = 2 euklidische Distanz Mahalanobis-Distanz: dist mah (x, x) = (x x) T Σ 1 (x x) Verallgemeinerung der euklidischen Distanz unter Berücksichtung der Korrelationen der x, Parameter ist Kovarianzmatrix Σ Thorsten Holz Predictive Modeling January 21, 2004 13

Nächste-Nachbarn-Methode 2. Überprüfen der k nächsten Nachbarn von x 3. Zuordnung von x zu genau der Klasse c, die bei den k Nachbarn am häufigsten auftritt Doch wie groß soll k gewählt werden? k = 1 liefert unstabilen Klassifikator mit hoher Varianz Erhöhung von k bewirkt Stabilisierung: Varianz nimmt aber, allerdings kann Bias erhöht werden Wahl hängt stark von Daten ab adaptiver Ansatz Thorsten Holz Predictive Modeling January 21, 2004 14

Nächste-Nachbarn-Methode: Klassifikation anhand von Absorption Messung der Absorption bei verschiedenen Stoffen bei verschiedenen Wellenlängen Verwendung zweier Distanzmaße Mittelwert der gemessenen Punkte ist x bzw. y Thorsten Holz Predictive Modeling January 21, 2004 15

Analyse der Nächste-Nachbarn-Methode Vor- und Nachteile der Nächste-Nachbarn-Methode + Einfache Implementierung, intuitive Methode + Einfaches Erkennen von Ausreißern: Distanz zu Nachbarn liegt über definiertem Schwellenwert + Bei fehlenden Prädiktor-Variablen Durchführung im Unterraum Speicherverbrauch hoch, da alle Trainingsdaten gespeichert werden müssen Laufzeit bei komplizierten Nachbarschaften oder großer Anzahl Trainingsdaten schlecht Dünn besetzte Nachbarschaften bei großer Dimension des Prädiktors Thorsten Holz Predictive Modeling January 21, 2004 16

Naives Bayes Modell Satz von Bayes: p(c i x) = p(x c i)p(c i ) p(x) Naives Bayes Modell, da die stochastische Unabhängigkeit der Prädiktor-Variablen angenommen wird p(x c i ) = p(x 1,..., x D c i ) = DQ d=1 p(x d c i ), i = 1,..., C Annahme i.a. falsch, da innerhalb Prädiktor-Variablen Abhängigkeit auftreten kann In vielen praktische Fällen dennoch möglich, starke Vereinfachung des Verfahrens Benutzung der höchsten auftretenden Wahrscheinlichkeit zur Klassifikation (Bayes sche Entscheidungsregel) Thorsten Holz Predictive Modeling January 21, 2004 17

Andere Verfahren: Entscheidungsbäume Spezielle Form der nichtlinearen Diskriminanzanalyse Benutzt Bäume zur Klassifikation: Blätter repräsentieren Klassen, Kanten bilden Entscheidungen Konstruktion per pruning-methode A X <= 100? 1 X > 100? 1 B class 1 X >= 42? 2 X < 42? 2 class 1 class 2 Thorsten Holz Predictive Modeling January 21, 2004 18

Andere Verfahren: Perceptron/Neuronale Netze Idee ähnlich der Neuronen im Gehirn: Ab bestimmtem Schwellenwert wird Signal an Ausgang weitergeleitet Lernen der Kantengewichtungen durch Training c = 1 c = 2 c = 3 X 1 X 2 X 3 X 4 X 5 X 6 X 7 Thorsten Holz Predictive Modeling January 21, 2004 19

Andere Verfahren: Support Vector Maschinen Nichtlineare Transformation in höherdimensionalen Raum Suche nach Hyperebenen mit möglichst guter Trennung der Trainingsdaten Support-Vektoren liegen am nächsten an optimal trennender Hyperebene support vector Thorsten Holz Predictive Modeling January 21, 2004 20

Evaluierung und Vergleich von Klassifikatoren Wie kann man die Leistungsfähigkeit eines Modells abschätzen? Statistische Kennzahlen, beispielsweise Anzahl falsch klassifizierter Testdaten oder Fehlerrate Berücksichtigung der Kosten für falsch klassifizierte Objekte Minimum description length: Modell M mit kürzester Beschreibungslänge (basierend auf Entropie nach Shannon) wird als Bestes angenommen length(m) = log p(y Θ, M, x) log p(θ M) 1. Term: durchschnittliche Länge der Kodierung der Abweichung von ŷ zu y 2. Term: durchschnittliche Länge der Kodierung von Θ Thorsten Holz Predictive Modeling January 21, 2004 21

Kreuzvalidierung Einfachste und am häufigsten benutze Methode zur Schätzung des Fehlers: Kreuzvalidierung (engl.: cross-validation) Zerlegung der Gesamtmenge in N gleich große Mengen N 1 Mengen zum Training, eine Testmenge N-fache Wiederholung, Kombinierung der Ergebnisse Wie groß sollte N gewählt werden? leave-one-out-methode: Aufteilung mit N = Gesamtmenge Größtmögliche Trainingsmenge, hoher Rechenaufwand Bei praktischen Anwendungen oft N = 5 und N = 10 Thorsten Holz Predictive Modeling January 21, 2004 22

Bootstrap-Verfahren Allgemeines Verfahren zur Berechnung von statistischen Schwankungen N zufällige Stichproben (bootstrap-samples) mit Zurücklegen aus Trainingsmenge ziehen ( einige Elemente können mehrfach vorkommen) Generierung weiterer solcher bootstrap-datensätze (beispielsweise 100 Stück) Training und Test mittels dieser bootstrap-datensätze ( Problem des training on the testing data ) Leave-one-out-bootstrap: Vermeidung der zu positiven Fehlerabschätzung Test nur mit denjenigen Datensätzen, bei denen ein bestimmtes (x n, y n ) nicht im bootstrap-datensatz enthalten ist: (1 1 N )N e 1 0, 368 Thorsten Holz Predictive Modeling January 21, 2004 23

Receiver-Operating-Characteristic (ROC) Kurven Visualisierung der Sensitivität und Spezifität von Modellen im Zwei-Klassen-Fall Gegenüberstellung des False und True - Positives Anteils Quelle: http://vision.ai.uiuc.edu/myhang/face-detection-survey.html Thorsten Holz Predictive Modeling January 21, 2004 24

Zusammenfassung Predictive Modeling: Vorhersage zukünftiger Werte von Daten anhand gegebener Datenmenge Vielzahl von Verfahren möglich Logistische Diskriminanzanalyse Nächste-Nachbarn-Methode Naive Bayes Modell... Auswahl des Verfahrens abhängig von Art der Daten Aussagen über Leistungsfähigkeit der Verfahren beispielsweise mittels Kreuzvalidierung / Bootstrap Receiver-Operating-Characteristic Kurven Bias-Varianz-Problem immer beachten Thorsten Holz Predictive Modeling January 21, 2004 25

Predictive Modeling Vielen Dank für ihre Aufmerksamkeit! Thorsten Holz Predictive Modeling January 21, 2004 26

Kovarianzmatrix X = 0 B @ V ar(x 1 ) Cov(x 1, x 2 ) Cov(x 1, x m ) Cov(x 2, x 1 ) V ar(x 2 ) Cov(x 2, x m )........ Cov(x m, x 1 ) Cov(x m, x 2 ) V ar(x m ) 1 C A Cov(x i, x j ) bezeichnet Kovarianz (engl.: covariance) von x i und x j und ist ein Maß für Abhängigkeit von x i und x j : Cov(x i, x j ) = E{(x i E{x i }) (x j E{x j })} V ar(x i ) bezeichnet Varianz (engl.: variance) der i-ten Komponente. Maß für Streuung und gibt erwartete quadrierte Abweichung vom Erwartungswert an: V ar(x i ) = Cov(x i, x i ) = σ 2 i = E{(x i E{x i }) 2 }. Thorsten Holz Predictive Modeling January 21, 2004 27

Beispiel zu minimum description length Einzelner Wert y mit y N (Θ, σ 2 ), Modellparameter Θ N(0, 1) und ohne Prädiktor: length(m) = log p(y Θ, M) log p(θ M) ««««1 = log σ 2π exp (y Θ)2 1 2σ 2 log exp Θ2 2π 2 «««1 (y Θ)2 = log + log(σ) log exp 2π 2σ 2 «««1 log log exp Θ2 2π 2 = const + log(σ) + (y Θ)2 2σ 2 + Θ2 2 Thorsten Holz Predictive Modeling January 21, 2004 28