Wissensentdeckung in Datenbanken

Größe: px

Ab Seite anzeigen:

Download "Wissensentdeckung in Datenbanken"

Maya Schneider
vor 5 Jahren
Abrufe

1 Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges von 15

Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman.

Prediction. 2nd edition. Springer Series in Statistics. Springer. 2009 Im Moodle zum Download verfügbar.

Springer Series in Operations Research and Financial Engineering.

2 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd edition. Springer Series in Statistics. Springer Im Moodle zum Download verfügbar. Jorge Nocedal. Stephen Wright. Numerical Optimization. 2nd edition. Springer Series in Operations Research and Financial Engineering. Springer-Verlag New York In der Zentralbibliothek verfügbar. 2 von 15

3 Daten und dann? Personendaten Medizinische Daten Konto- und Zahlungsdaten Verbindungsdaten Soziale Netzwerke 3 von 15

4 Realisierung von Zufallsvektoren X Alter Geschlecht Krankheitstage Medikation X = Kontostand Kredite Webseiten... 3 von 15

5 Begriffe Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D (x, y) X Y N Messfehler, Rauschen ɛ P Fehlende Werte; x i X i {?}, 1 i n Modell f aus Modellklasse M Funktionen M F Koeffizienten / Parameter M R d Datenpunkte M D, M X Y Verlustfunktion (Güte) l (f; D) R 4 von 15

6 Begriffe Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D (x, y) X Y N Messfehler, Rauschen ɛ P Fehlende Werte; x i X i {?}, 1 i n Modell f aus Modellklasse M Funktionen M F Koeffizienten / Parameter M R d Datenpunkte M D, M X Y Verlustfunktion (Güte) l (f; D) R 4 von 15

7 Begriffe Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D (x, y) X Y N Messfehler, Rauschen ɛ P Fehlende Werte; x i X i {?}, 1 i n Modell f aus Modellklasse M Funktionen M F Koeffizienten / Parameter M R d Datenpunkte M D, M X Y Verlustfunktion (Güte) l (f; D) R 4 von 15

8 Allgemeines Vorgehen Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Datenpunkt x X, Label (Klasse) y Y M Modell lernen, Datenanalyse,.. f = arg min l(f; D) f M Modellanwendung, Vorhersage,.. ŷ = f (x) 5 von 15

9 Allgemeines Vorgehen Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Datenpunkt x X, Label (Klasse) y Y M Modell lernen, Datenanalyse,.. f = arg min l(f; D) f M Modellanwendung, Vorhersage,.. ŷ = f (x) 5 von 15

10 Allgemeines Vorgehen Daten D = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} Datenpunkt x X, Label (Klasse) y Y M Modell lernen, Datenanalyse,.. f = arg min l(f; D) f M Modellanwendung, Vorhersage,.. ŷ = f (x) 5 von 15

11 Modellklassen M f X Y T 0 T 1 T 2 T 3 T 4 1 Linear f(x) = β 0 + β, x Function value Polynom z n f(x) = β 0 + β i x i + β i,j x i x j + i=1 n n i=1 j=1 Trigonometrisch/Periodisch f(x) = k i=0 n n n i=1 j=1 k=1 θ i cos(i arccos( β i, x )) β i,j,k x i x j x k von 15

12 Modellklassen M f X Y T 0 T 1 T 2 T 3 T 4 1 Linear f(x) = β 0 + β, x Function value Polynom z n f(x) = β 0 + β i x i + β i,j x i x j + i=1 n n i=1 j=1 Trigonometrisch/Periodisch f(x) = k i=0 n n n i=1 j=1 k=1 θ i cos(i arccos( β i, x )) β i,j,k x i x j x k von 15

13 Modellklassen M f X Y T 0 T 1 T 2 T 3 T 4 1 Linear f(x) = β 0 + β, x Function value Polynom z n f(x) = β 0 + β i x i + β i,j x i x j + i=1 n n i=1 j=1 Trigonometrisch/Periodisch f(x) = k i=0 n n n i=1 j=1 k=1 θ i cos(i arccos( β i, x )) β i,j,k x i x j x k von 15

14 Modellklassen M (II) Probabilistisch/Exponentialfamilie/Bayesianisch p Gauss (x) = 1 (2π) n det Σ exp ( 1 2 (x µ) Σ 1 (x µ)) p Posterior (x) = p Likelihood (x)p Prior1 (α)p Prior2 (γ)... Unstetig/Piecewise/Thresholding f f v (x) = Left(v) (x) f Right(v) (x) g(x) ρ v g(x) < ρ v 7 von 15

15 Modellklassen M (II) Probabilistisch/Exponentialfamilie/Bayesianisch p Gauss (x) = 1 (2π) n det Σ exp ( 1 2 (x µ) Σ 1 (x µ)) p Posterior (x) = p Likelihood (x)p Prior1 (α)p Prior2 (γ)... Unstetig/Piecewise/Thresholding f f v (x) = Left(v) (x) f Right(v) (x) g(x) ρ v g(x) < ρ v 7 von 15

16 Beispiel: Fehlerwahrscheinlichkeit Y = {c 1, c 2,..., c k }, Modell f Wahrscheinlichkeitsdichte falscher Vorhersagen: p(f(x) /= Y ) = E X,Y [1 {f(x)/=y } ] = E X E Y X [1 {f(x)/=y } ] k = E X [ 1 {f(x)/=ci }P(Y = c i X)] i=1 Wahl von f, so dass innere Summe minimiert wird.. f(x) = = = k arg min j=1 k k 1 {cj /=c i }P(Y = c i X = x) i=1 arg min(1 P(Y = c j X = x)) j=1 k arg max j=1 P(Y = c j X = x) 8 von 15

17 Beispiel: Fehlerwahrscheinlichkeit Y = {c 1, c 2,..., c k }, Modell f Wahrscheinlichkeitsdichte falscher Vorhersagen: p(f(x) /= Y ) = E X,Y [1 {f(x)/=y } ] = E X E Y X [1 {f(x)/=y } ] k = E X [ 1 {f(x)/=ci }P(Y = c i X)] i=1 Wahl von f, so dass innere Summe minimiert wird.. f(x) = = = k arg min j=1 k k 1 {cj /=c i }P(Y = c i X = x) i=1 arg min(1 P(Y = c j X = x)) j=1 k arg max j=1 P(Y = c j X = x) 8 von 15

18 Verlustfunktionen l Absoluter Fehler/SSE/MSE/RMSE Hinge Loss Err(f; D) = RMSE(f; D) = Hinge(f; D) = y f(x) (x,y) D 1 (y f(x)) 2 D (x,y) D max{0, 1 yf(x)} (x,y) D 9 von 15

19 Verlustfunktionen l Absoluter Fehler/SSE/MSE/RMSE Hinge Loss Err(f; D) = RMSE(f; D) = Hinge(f; D) = y f(x) (x,y) D 1 (y f(x)) 2 D (x,y) D max{0, 1 yf(x)} (x,y) D 9 von 15

20 Absoluter Fehler, y f(x) y = +1 y = -1 Err(f;x,y) f(x) 10 von 15

21 Quadratischer Fehler, (y f(x)) y = +1 y = -1 MSE(f;x,y) f(x) 11 von 15

22 Hinge Fehler, max{0, 1 y f(x)} 3 y = +1 y = Hinge(f;x,y) f(x) 12 von 15

23 Verlustfunktionen l (II) - Likelihood Varianten Likelihood L(p; D) = p(x, y) (x,y) D Log-Likelihood log L(p; D) = log p(x, y) (x,y) D Neg. Avg. Log-Likelihood l(p; D) = 1 log p(x, y) D (x,y) D 13 von 15

24 Verlustfunktionen l (II) - Likelihood Varianten Likelihood L(p; D) = p(x, y) (x,y) D Log-Likelihood log L(p; D) = log p(x, y) (x,y) D Neg. Avg. Log-Likelihood l(p; D) = 1 log p(x, y) D (x,y) D 13 von 15

25 Verlustfunktionen l (II) - Likelihood Varianten Likelihood L(p; D) = p(x, y) (x,y) D Log-Likelihood log L(p; D) = log p(x, y) (x,y) D Neg. Avg. Log-Likelihood l(p; D) = 1 log p(x, y) D (x,y) D 13 von 15

26 Verlustfunktionen l (III) - MDL Minimum Description Length (MDL) Formalisierung von Ockhams Rasiermesser min L(C) + L(D C) C M Intuition: Nur wenige Objekte können kurze Codes haben Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = {1, 2,..., m}, Codierung C, Codelängen L C (1), L C (2),..., L C (m) 2 LC(a) 1 a A Kraft, von 15

27 Verlustfunktionen l (III) - MDL Minimum Description Length (MDL) Formalisierung von Ockhams Rasiermesser min L(C) + L(D C) C M Intuition: Nur wenige Objekte können kurze Codes haben Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = {1, 2,..., m}, Codierung C, Codelängen L C (1), L C (2),..., L C (m) 2 LC(a) 1 a A Kraft, von 15

Verlustfunktionen l (III) - MDL Minimum Description Length (MDL) Formalisierung von Ockhams Rasiermesser min L(C) + L(D C) C M Intuition: Nur wenige Objekte können kurze Codes haben

28 Verlustfunktionen l (III) - MDL Minimum Description Length (MDL) Formalisierung von Ockhams Rasiermesser min L(C) + L(D C) C M Intuition: Nur wenige Objekte können kurze Codes haben Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = {1, 2,..., m}, Codierung C, Codelängen L C (1), L C (2),..., L C (m) 2 LC(a) 1 a A Kraft, von 15

29 Verlustfunktionen l (IV) - Clustering Datensatz D = {x 1, x 2,..., x N } ohne Label Modell R n k-means (Intra-Cluster Varianz) ICV(k; D) = min min x C R n, C =k x D c C c 2 2 Mixture (Expectation Maximization) Example: Gaussian min log p Gauss (x i)p(i) {(µ i,σ i )} 1 i k R n S++ n x D i=1 k 15 von 15

30 Verlustfunktionen l (IV) - Clustering Datensatz D = {x 1, x 2,..., x N } ohne Label Modell R n k-means (Intra-Cluster Varianz) ICV(k; D) = min min x C R n, C =k x D c C c 2 2 Mixture (Expectation Maximization) Example: Gaussian min log p Gauss (x i)p(i) {(µ i,σ i )} 1 i k R n S++ n x D i=1 k 15 von 15

Ähnliche Dokumente

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Organisation und Überblick Nico Piatkowski und Uwe Ligges 8.0.07 von Fakten Team Vorlesung: Uwe Ligges, Nico Piatkowski Übung: Sarah Schnackenberg, Sebastian Buschjäger