Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de 1
Entwicklung der Datenanalyse im GALA-Projekt per Hand unvollständig, explorativ SAS langsam, proprietär C-Programm plattformunabhängig, effizient Externe C-Libraries C-Code mit Lib-Fkt. erweiterte Funktionalität 2
Zielsetzung des Programms Paarweise Berechnung aller Modellkorrelationen Ausreißererkennung und -elimination Auffällige Substanzen Beeinflussung der Korrelation Variablenreduktion Hauptkomponentenanalyse Verfahren zur Variablenselektion Reduzierung des Rechenaufwands gegenüber früheren Analysen 3
Implementierte Verfahren 1. Korrelationsberechnung 2. Ausreißererkennung und -elimination 3. Transformation von Variablen 4. Rangkorrelation nach Spearman 5. Hauptkomponentenanalyse 6. Verfahren zur Variablenselektion 4
Korrelationsberechnung Produktmomentkorrelation nach Pearson Kov(X, Y ) = Kov n (X,Y ) = ρ(x,y ) = ρ n (X,Y ) = ((X (X)) (Y (Y ))) 1 n ((x i x n ) (y i ȳ n )) n 1 i=1 Kov(X, Y ) V ar(x) V ar(y ) Kov n (X,Y ) V arn (X) V ar n (Y ) 5
Beispiele für Korrelationen 1. Linearer Zusammenhang Abbildung 1: Körpergröße gegen Körpergewicht ρ n 0.896 6
2. Unabhängigkeit Abbildung 2: Jahre in der major league gegen Treffer im Jahre 1986 ρ n 0.00803 7
3. Nicht-lineare Abhängigkeit Abbildung 3: Menge Schädlingsbekämpfungsmittel gegen Ernteertrag ρ n 0.0249 8
Ausreißererkennung Abbildung 4: Ausreißer induziert signifikante Korrelation ρ n 0.8703 Abbildung 5: Ausreißer verdecken signifikante Korrelation ρ n 0.0560 9
Abstandsmaße Euklidischer Abstand im 2 : d(z i, z n ) = (x i x n ) 2 + (y i ȳ n ) 2 Abbildung 6: Ausreißer trotz geringen euklidischen Abstandes Mahalanobis-Distanz im 2 : 2 (z i, z n ) = ( (xi x n ) (y i ȳ n ) ) t K 1 ( (xi x n ) (y i ȳ n ) ) mit K Varianz- / Kovarianzmatrix. 10
Zwei feste kritische Werte (I) 8 Beobachtungen 7 Beobachtungen Korrelation: -0.70 Korrelation: -0.97 11
Zwei feste kritische Werte (II) 8 Beobachtungen 7 Beobachtungen Mahalanobisdistanz des Ausreißers: 2.473 12
Asymptotische Verteilung von 1. Hauptkomponente C 1 - Richtung der stärksten Streuung 2. Hauptkomponente C 2 - senkrecht zur 1. Hauptkomponente (C, µ) 2 = (C 1 µ 1 ) 2 V ar(c 1 ) + (C 2 µ 2 ) 2 V ar(c 2 ) Summe von Quadraten von zwei Standard-normalverteilten Zufallsgrößen χ 2 2-Verteilung 13
Kritische Mahalanobisdistanz mit asymptotischen Verteilungsquantilen Mittlere Anzahl von Ausreißern bei n Beobachtungen! n 10 = µ(n) P( > krit. )! µ(n) n = α(n) 2 krit. = (1 α(n)) Quantil der χ 2 2 - Verteilung 14
Erkennen von echten Ausreißern Vorgabe: mit Wahrscheinlichkeit (1 α) keine Ausreißer erkennen, wenn keine echten vorliegen Annahme: Normalverteilung der Daten Vorgehensweise: max : maximale Mahalanobis-Distanz krit : P( max > krit. )! = α 15
Mehrstufige Ausreißerbehandlung 109 Beob., Korr.: -0.35 107 Beob., Korr.: -0.81 (bei 105 Beobachtungen: Korrelation -0.88) 16
Transformation von Variablen Ziel: Linearisierung von nicht-linearen Abhängigkeiten Abbildung 7: Menge Schädlingsbekämpfungsmittel gegen Ernteertrag ρ 10 0.0249 17
Modell: Y = a 2 X 2 + a 1 X + a 0 + ε Abbildung 8: Menge Schädlingsbekämpfungsmittel gegen transformierten Ernteertrag ρ 10 (X, Y ) = 0.9952 1 Anwendung: Konzentrationsdaten (Logit-Transformation) 18
Rangkorrelation nach Spearman Problem: Geeignete linearisierende Transformation unbekannt gesucht: universelle Transformation, zumindest für monotone Abhängigkeiten Rangkorrelation nach Spearman: ρ S n(x,y ) Ränge: Positionen in der geordneten Stichprobe In der Formel für die Produktmomentkorrelation Ränge anstelle der Ursprungswerte verwenden dadurch geht nur die Ordnung der Messwerte, nicht deren Größe in die Berechnung ein = ρ S n(x,y ) = 1, falls sich Y über eine monotone Transformation aus X ergibt. 19
Modellbeispiel für die Rangkorrelation Abbildung 9: Y = X 2 + ε ρ 10 (X, Y ) = 0.9723 Abbildung 10: Y = X 3 + ε ρ 10 (X, Y ) = 0.9280 20
Abbildung 11: Y = exp(x) + ε ρ 10 (X, Y ) = 0.7169 Abbildung 12: Ränge zu Abbildungen 9 bis 11 21
Hauptkomponentenanalyse Dimensionalität des Datenraums reduzieren m Variablen (X 1,...,X m ) p neue Variablen (C 1,...,C p ) mit p m C j entstehen durch geeignete Linearkombinationen aus den X i Forderung 1: Informationsverlust soll minimiert werden Forderung 2: Die C j sind voneinander unabhängig C j nach ihrem Informationsgehalt absteigend ordnen (C 1,...,C p ) heißen Hauptkomponenten der Verteilung 22
Mathematische Formulierung P1: v t i v j = δ i,j i,j = 1,...,p P2: (v 1,...,v k ) = arg( max A m k (tr(at K A))) k = 1,..., p mit K m m Varianz- / Kovarianzmatrix der Originalvariablen X 1,...,X m Ergebnisse: 1. v i ist Eigenvektor zum Eigenwert λ i von K mit λ 1 > λ 2 >... > λ p. 2. V ar(c i ) = λ i, i = 1,...,p. 23
Darstellung der Ergebnisse i λ i λ i 1 λ i λ i /m i j=1 λ j/m max V ar Rest,i(X k ) k {1,...,m} 1 λ 1 - λ 1 /m λ 1 /m max V ar Rest,1(X k ) k {1,...,m}...... p λ p λ p 1 λ p λ p /m p j=1 λ j/m max V ar Rest,p(X k ) k {1,...,m}...... m λ m λ m 1 λ m λ m /m 1 0 V ar Rest,i (X k ): Restvarianz der Variablen X k bei i Hauptkomponenten Anteil nicht durch (C 1,...,C i ) erklärter Varianz von X k 24
Variablenselektion Nachteile von Hauptkomponenten: Linearkombinationen schlechter interpretierbar als Ausgangsdaten In Hauptkomponenten gehen in der Regel alle Variablen ein p Originalvariablen zur Dimensionsreduktion wählen Zwei grundlegende Methoden: 1. Auf Ergebnissen der Hauptkomponentenanalyse basierende Verfahren 2. Principal Variables (McCabe) 25
Selektion nach Hauptkomponentenanalyse (PCA) 1. Selektion mit p PCAs Variable X i1 auswählen mit i 1 Maximaleintrag in Eigenvektor v 1 Einfluss von X i1 auf die anderen Variablen herausrechnen neue PCA der verbleibenden Variablen durchführen dieses Vorgehen (p 1) mal iterativ wiederholen 2. Selektion mit genau einer PCA Variable X i1 auswählen mit i 1 Maximaleintrag in Eigenvektor v 1 Variable X i2 auswählen mit i 2 Maximaleintrag in Eigenvektor v 2 und i 2 i 1 Variable X ip auswählen mit i p Maximaleintrag in Eigenvektor v p und Variable X ip bisher nicht ausgewählt 26
3. Elimination mit (m p) PCAs Variable X i1 zur Elimination bestimmen mit i 1 Maximaleintrag in Eigenvektor v m Streichungsmatrix ohne Zeile i 1 und ohne Spalte i 1 bilden neue PCA der verbleibenden Variablen durchführen dieses Vorgehen (m p 1) mal iterativ wiederholen 4. Elimination mit genau einer PCA Variable X i1 eliminieren mit i 1 Maximaleintrag in Eigenvektor v m Variable X i2 eliminieren mit i 2 Maximaleintrag in Eigenvektor v m 1 und i 2 i 1 Variable X im p eliminieren mit i m p Maximaleintrag in Eigenvektor v p+1 und Variable X im p bisher nicht eliminiert 27
Principal Variables nach McCabe Haupt-Variablen : Anlehnung an Hauptkomponenten Optimalitätseigenschaften der Hauptkomponenten auf Originalvariablen übertragen Restvarianzen minimieren erklärte Varianz maximieren durch Variable X j erklärte Varianz von X i ist V ar(x i ) ρ 2 (X i,x j ) = j 1 = arg( max ( m 1 j m i=1 V ar(x i ) ρ 2 (X i, X j ))) 28
Ergebnisse für einen Beispieldatensatz (m = 100 Variablen) Verfahren p η p p k=1 η k/m max k {1,...,m} V ar Rest,p(X k ) PCA 1 22 0.761 0.903 0.638 PCA 1 45 0.085 0.995 0.046 PCA 2 24 0.727 0.905 0.507 PCA 2 66 0.008 0.999 0.049 PCA 3 29 0.881 0.900 0.328 PCA 3 46 0.349 0.991 0.039 PCA 4 25 1.049 0.901 0.694 PCA 4 53 0.110 0.998 0.017 PV 21 0.7963 0.901 0.598 PV 44 0.0993 0.993 0.047 29