Statistische Verfahren für das Data Mining in einem Industrieprojekt



Ähnliche Dokumente
Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Überblick über die Verfahren für Ordinaldaten

Zusammenhänge zwischen metrischen Merkmalen

W-Rechnung und Statistik für Ingenieure Übung 11

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Korrelation - Regression. Berghold, IMI

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Statistik II für Betriebswirte Vorlesung 2

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Statistische Verfahren für das Data Mining in der pharmazeutischen Forschung

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1


Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Taschenbuch Versuchsplanung

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Lineare Algebra und Lösung linearer zeitinvarianter Differentialgleichungssysteme

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Willkommen zur Vorlesung Statistik (Master)

Lineare Gleichungssysteme

Willkommen zur Vorlesung Statistik

Statistik II. Statistik II, SS 2001, Seite 1 von 5

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

Theoretische Grundlagen der Informatik WS 09/10

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Varianzanalyse (ANOVA: analysis of variance)


Kontingenzkoeffizient (nach Pearson)

Tutorial: Homogenitätstest

Inhalt 1 Einführung Ausgewählte Begriffe Vorgehensweise im Überblick... 14

Einführung in statistische Analysen

Grundlagen der Inferenzstatistik

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Aufgabe 1. Sei A Mat(n n, R) mit Eigenwert 3. Dann gilt: Eig(A, 3) = Kern(A + 3E n ).

Statistische Thermodynamik I Lösungen zur Serie 1

Multivariate Statistik

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

QM: Prüfen -1- KN

Data Mining: Einige Grundlagen aus der Stochastik

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Einfache Varianzanalyse für abhängige

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Taschenbuch Versuchsplanung

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Inhalt. Vorwort... 1 Einführung Ausgewählte Begriffe Vorgehensweise im Überblick... 17

9. Schätzen und Testen bei unbekannter Varianz

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Wie Google Webseiten bewertet. François Bry

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Prüfung eines Datenbestandes

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Auslotung der Gefühle & Wünsche von Eltern und SchülerInnen zum Schuljahr 2011/2012

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Zeichen bei Zahlen entschlüsseln

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Statistik I für Betriebswirte Vorlesung 5

ChangePoint-Analysen - ein Überblick

Johann Wolfgang Goethe - Universität Frankfurt am Main

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

einfache Rendite

4 Vorlesung: Matrix und Determinante

6.2 Perfekte Sicherheit

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Lineare Gleichungssysteme I (Matrixgleichungen)

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Tutorials für ACDSee 12: Hochladen von Fotos auf Ihren Account bei ACDSeeOnline.com

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

R ist freie Software und kann von der Website.

Herzlich Willkommen zur Vorlesung Statistik

Primzahlen und RSA-Verschlüsselung

Ersatzteile der Extraklasse Magento-Module der Shopwerft

Mädchen Jungen Smartphone Computer Fernsehgerät feste Spielkonsole 37 62

1. Einfuhrung zur Statistik

Binäre abhängige Variablen

5 Eigenwerte und die Jordansche Normalform

Übungspraktikum 3 Physik II

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

SuperX BW Leitfaden Inhalt Haushalt. 8. Okt. 2007, 16:12

Professionelle Seminare im Bereich MS-Office

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Beispiel Zusammengesetzte Zufallsvariablen

Transkript:

Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de 1

Entwicklung der Datenanalyse im GALA-Projekt per Hand unvollständig, explorativ SAS langsam, proprietär C-Programm plattformunabhängig, effizient Externe C-Libraries C-Code mit Lib-Fkt. erweiterte Funktionalität 2

Zielsetzung des Programms Paarweise Berechnung aller Modellkorrelationen Ausreißererkennung und -elimination Auffällige Substanzen Beeinflussung der Korrelation Variablenreduktion Hauptkomponentenanalyse Verfahren zur Variablenselektion Reduzierung des Rechenaufwands gegenüber früheren Analysen 3

Implementierte Verfahren 1. Korrelationsberechnung 2. Ausreißererkennung und -elimination 3. Transformation von Variablen 4. Rangkorrelation nach Spearman 5. Hauptkomponentenanalyse 6. Verfahren zur Variablenselektion 4

Korrelationsberechnung Produktmomentkorrelation nach Pearson Kov(X, Y ) = Kov n (X,Y ) = ρ(x,y ) = ρ n (X,Y ) = ((X (X)) (Y (Y ))) 1 n ((x i x n ) (y i ȳ n )) n 1 i=1 Kov(X, Y ) V ar(x) V ar(y ) Kov n (X,Y ) V arn (X) V ar n (Y ) 5

Beispiele für Korrelationen 1. Linearer Zusammenhang Abbildung 1: Körpergröße gegen Körpergewicht ρ n 0.896 6

2. Unabhängigkeit Abbildung 2: Jahre in der major league gegen Treffer im Jahre 1986 ρ n 0.00803 7

3. Nicht-lineare Abhängigkeit Abbildung 3: Menge Schädlingsbekämpfungsmittel gegen Ernteertrag ρ n 0.0249 8

Ausreißererkennung Abbildung 4: Ausreißer induziert signifikante Korrelation ρ n 0.8703 Abbildung 5: Ausreißer verdecken signifikante Korrelation ρ n 0.0560 9

Abstandsmaße Euklidischer Abstand im 2 : d(z i, z n ) = (x i x n ) 2 + (y i ȳ n ) 2 Abbildung 6: Ausreißer trotz geringen euklidischen Abstandes Mahalanobis-Distanz im 2 : 2 (z i, z n ) = ( (xi x n ) (y i ȳ n ) ) t K 1 ( (xi x n ) (y i ȳ n ) ) mit K Varianz- / Kovarianzmatrix. 10

Zwei feste kritische Werte (I) 8 Beobachtungen 7 Beobachtungen Korrelation: -0.70 Korrelation: -0.97 11

Zwei feste kritische Werte (II) 8 Beobachtungen 7 Beobachtungen Mahalanobisdistanz des Ausreißers: 2.473 12

Asymptotische Verteilung von 1. Hauptkomponente C 1 - Richtung der stärksten Streuung 2. Hauptkomponente C 2 - senkrecht zur 1. Hauptkomponente (C, µ) 2 = (C 1 µ 1 ) 2 V ar(c 1 ) + (C 2 µ 2 ) 2 V ar(c 2 ) Summe von Quadraten von zwei Standard-normalverteilten Zufallsgrößen χ 2 2-Verteilung 13

Kritische Mahalanobisdistanz mit asymptotischen Verteilungsquantilen Mittlere Anzahl von Ausreißern bei n Beobachtungen! n 10 = µ(n) P( > krit. )! µ(n) n = α(n) 2 krit. = (1 α(n)) Quantil der χ 2 2 - Verteilung 14

Erkennen von echten Ausreißern Vorgabe: mit Wahrscheinlichkeit (1 α) keine Ausreißer erkennen, wenn keine echten vorliegen Annahme: Normalverteilung der Daten Vorgehensweise: max : maximale Mahalanobis-Distanz krit : P( max > krit. )! = α 15

Mehrstufige Ausreißerbehandlung 109 Beob., Korr.: -0.35 107 Beob., Korr.: -0.81 (bei 105 Beobachtungen: Korrelation -0.88) 16

Transformation von Variablen Ziel: Linearisierung von nicht-linearen Abhängigkeiten Abbildung 7: Menge Schädlingsbekämpfungsmittel gegen Ernteertrag ρ 10 0.0249 17

Modell: Y = a 2 X 2 + a 1 X + a 0 + ε Abbildung 8: Menge Schädlingsbekämpfungsmittel gegen transformierten Ernteertrag ρ 10 (X, Y ) = 0.9952 1 Anwendung: Konzentrationsdaten (Logit-Transformation) 18

Rangkorrelation nach Spearman Problem: Geeignete linearisierende Transformation unbekannt gesucht: universelle Transformation, zumindest für monotone Abhängigkeiten Rangkorrelation nach Spearman: ρ S n(x,y ) Ränge: Positionen in der geordneten Stichprobe In der Formel für die Produktmomentkorrelation Ränge anstelle der Ursprungswerte verwenden dadurch geht nur die Ordnung der Messwerte, nicht deren Größe in die Berechnung ein = ρ S n(x,y ) = 1, falls sich Y über eine monotone Transformation aus X ergibt. 19

Modellbeispiel für die Rangkorrelation Abbildung 9: Y = X 2 + ε ρ 10 (X, Y ) = 0.9723 Abbildung 10: Y = X 3 + ε ρ 10 (X, Y ) = 0.9280 20

Abbildung 11: Y = exp(x) + ε ρ 10 (X, Y ) = 0.7169 Abbildung 12: Ränge zu Abbildungen 9 bis 11 21

Hauptkomponentenanalyse Dimensionalität des Datenraums reduzieren m Variablen (X 1,...,X m ) p neue Variablen (C 1,...,C p ) mit p m C j entstehen durch geeignete Linearkombinationen aus den X i Forderung 1: Informationsverlust soll minimiert werden Forderung 2: Die C j sind voneinander unabhängig C j nach ihrem Informationsgehalt absteigend ordnen (C 1,...,C p ) heißen Hauptkomponenten der Verteilung 22

Mathematische Formulierung P1: v t i v j = δ i,j i,j = 1,...,p P2: (v 1,...,v k ) = arg( max A m k (tr(at K A))) k = 1,..., p mit K m m Varianz- / Kovarianzmatrix der Originalvariablen X 1,...,X m Ergebnisse: 1. v i ist Eigenvektor zum Eigenwert λ i von K mit λ 1 > λ 2 >... > λ p. 2. V ar(c i ) = λ i, i = 1,...,p. 23

Darstellung der Ergebnisse i λ i λ i 1 λ i λ i /m i j=1 λ j/m max V ar Rest,i(X k ) k {1,...,m} 1 λ 1 - λ 1 /m λ 1 /m max V ar Rest,1(X k ) k {1,...,m}...... p λ p λ p 1 λ p λ p /m p j=1 λ j/m max V ar Rest,p(X k ) k {1,...,m}...... m λ m λ m 1 λ m λ m /m 1 0 V ar Rest,i (X k ): Restvarianz der Variablen X k bei i Hauptkomponenten Anteil nicht durch (C 1,...,C i ) erklärter Varianz von X k 24

Variablenselektion Nachteile von Hauptkomponenten: Linearkombinationen schlechter interpretierbar als Ausgangsdaten In Hauptkomponenten gehen in der Regel alle Variablen ein p Originalvariablen zur Dimensionsreduktion wählen Zwei grundlegende Methoden: 1. Auf Ergebnissen der Hauptkomponentenanalyse basierende Verfahren 2. Principal Variables (McCabe) 25

Selektion nach Hauptkomponentenanalyse (PCA) 1. Selektion mit p PCAs Variable X i1 auswählen mit i 1 Maximaleintrag in Eigenvektor v 1 Einfluss von X i1 auf die anderen Variablen herausrechnen neue PCA der verbleibenden Variablen durchführen dieses Vorgehen (p 1) mal iterativ wiederholen 2. Selektion mit genau einer PCA Variable X i1 auswählen mit i 1 Maximaleintrag in Eigenvektor v 1 Variable X i2 auswählen mit i 2 Maximaleintrag in Eigenvektor v 2 und i 2 i 1 Variable X ip auswählen mit i p Maximaleintrag in Eigenvektor v p und Variable X ip bisher nicht ausgewählt 26

3. Elimination mit (m p) PCAs Variable X i1 zur Elimination bestimmen mit i 1 Maximaleintrag in Eigenvektor v m Streichungsmatrix ohne Zeile i 1 und ohne Spalte i 1 bilden neue PCA der verbleibenden Variablen durchführen dieses Vorgehen (m p 1) mal iterativ wiederholen 4. Elimination mit genau einer PCA Variable X i1 eliminieren mit i 1 Maximaleintrag in Eigenvektor v m Variable X i2 eliminieren mit i 2 Maximaleintrag in Eigenvektor v m 1 und i 2 i 1 Variable X im p eliminieren mit i m p Maximaleintrag in Eigenvektor v p+1 und Variable X im p bisher nicht eliminiert 27

Principal Variables nach McCabe Haupt-Variablen : Anlehnung an Hauptkomponenten Optimalitätseigenschaften der Hauptkomponenten auf Originalvariablen übertragen Restvarianzen minimieren erklärte Varianz maximieren durch Variable X j erklärte Varianz von X i ist V ar(x i ) ρ 2 (X i,x j ) = j 1 = arg( max ( m 1 j m i=1 V ar(x i ) ρ 2 (X i, X j ))) 28

Ergebnisse für einen Beispieldatensatz (m = 100 Variablen) Verfahren p η p p k=1 η k/m max k {1,...,m} V ar Rest,p(X k ) PCA 1 22 0.761 0.903 0.638 PCA 1 45 0.085 0.995 0.046 PCA 2 24 0.727 0.905 0.507 PCA 2 66 0.008 0.999 0.049 PCA 3 29 0.881 0.900 0.328 PCA 3 46 0.349 0.991 0.039 PCA 4 25 1.049 0.901 0.694 PCA 4 53 0.110 0.998 0.017 PV 21 0.7963 0.901 0.598 PV 44 0.0993 0.993 0.047 29