Charakterisierung von 1D Daten

Größe: px

Ab Seite anzeigen:

Download "Charakterisierung von 1D Daten"

David Zimmermann
vor 5 Jahren
Abrufe

1 Charakterisierung von D Daten Mittelwert: µ, Schätzung m x = x i / n Varianz σ2, Schätzung: s2 = (s: Standardabweichung) Höhere Momente s 2 = ( x i m x ) 2 n ( ) Eine Normalverteilung ist mit Mittelwert und Varianz voll charakterisiert. Die beiden Parameter definieren die Wahrscheinlichkeitdichtefunktion (Gauss Funktion). Die Wahrscheinlichkeit für das Vorkommen von Messwerten innerhalb eines Bereichs ist durch das Integral über diesen Bereich gegeben. Mittelwert und Varianz können für beliebig verteilte Daten berechnet werden, sie haben dann aber nicht die gleiche statistische Bedeutung.

2 Wichtigkeit von Graphiken Mittelwert = 3.6 s = 4.2

3 Wichtigkeit von Graphiken Mittelwert = 3.6 s= 4.2 Anzahl Beobachtungen

4 Varianz s 2 = x n i x _ = 2 z n i 2 z: zentrierte Variablen Mit Vektornotation: s 2 = n zt z zt z 2 = z i

5 Berechnung der Varianz: Matrixnotation Eindimensionale Daten (Datenvektor x) Mittelwert: x _ = n Σ x i = n T x Summe der Fehlerquadrate: Σ (x i -x _ ) 2 = Σ x i 2 - ( Σ x i ) 2 n = x T x - n (xt )( T x) = x T H n x mit H n =I - ( n n T n ) Varianz: s 2 = n- xt H n x H n : Zentrierungsmatrix Da H n symmetrisch und idempotent ist: (H n x)t H n x = xt H n T H n x = xt H n x

6 Varianz und Kovarianz D Daten 2D Daten n% Wahrscheinlichkeit n% Wahrscheinlichkeit

7 Varianz und Kovarianz 2D Daten 2D Daten Kovarianz = 0 Kovarianz 0

8 Varianz und Kovarianz D Wahrscheinlichkeitsdichtefunktion für die Normalverteilung f(x) = 2πσ 2 e 2 x µ σ 2 = 2πσ 2 e 2 ( x µ ) σ ( 2 x µ ) σ 2 : Varianz nd Wahrscheinlichkeitsdichtefunktion für die Normalverteilung f(x) = 2πΣ e 2 ( x µ )Τ Σ ( x µ ) Σ: Varianz-Kovarianzmatrix

9 Berechnung der Varianz: Matrixnotation s 2 = n- y T H n y Für mehrdimensionale Daten erhält man mit der analogen Matrixoperationen die Varianz-Kovarianzmatrix S: S = n- AT A - n (AT )( T A)= A T H n A Die Diagonalelemente sind die Varianzen, die Ausserdiagonalelemente die Kovarianzen der entsprechenden Variablen. H n A= x -x _ y -y _ z -z _ x 2 -x _ y 2 -y _ z 2 -z _ x 3 -x _ y 3 -y _ z 3 -z _ S = n- AT H n A = n- Σ(x i -x _ ) 2 Σ(x i -x _ )(y i -y _ ) Σ(x i -x _ )(z i -z _ ) Σ(x i -x _ )(y i -y _ ) Σ(y i -y _ ) 2 Σ(y i -y _ )(z i -z _ ) Σ(x i -x _ )(z i -z _ ) Σ(y i -y _ )(z i -z _ ) Σ(z i -z _ ) 2 = var(x) cov(x,y) cov(x,z) cov(x,y) var(y) cov(y,z) cov(x,z) cov(y,z) var(z)

10 Teeproben Category Variety Samples Source Green tea Chunmee C, C2, C3, C4, C5, C6, C7 Shanghai Tea Inst. Hyson H, H2, H3, H4, H5 Shanghai Tea Inst. Black tea Keemun K, K2, K3, K4 Shanghai Tea Inst. Feng Quing F, F2, F3, F4, F5, F6, F7 Yunnan Tea Inst. Oolong tea Tikuanyin T, T2, T3, T4 Xia Men Tea Inst. Se Zhong S, S2, S3, S4 Xia Men Tea Inst. High quality Low quality X. Liu, P. van Espen, F. Adams, S.H. Yan, M. Vanbella, Anal.Chim. Acta 987, 200, 42

11 Teeproben: Messdaten Probe Cellulose Hemicellulose Lignin Polyphenols Caffeine AminoAcids c c c c c c c h h h h h k k k k f f f f f f f t t t t s s s s

12 Teeproben: Varianz-Kovarianzmatrix Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids Objekte Variablen Variablen Variablen X T H n X Objekte = Variablen S

13 Korrelationskoeffizient Ein normiertes Mass für den Zusammenhang zwischen zwei Zufallsvariablen ist der Korrelationskoeffizient r mit Werten zwischen - und +. ρ = σ xy σ x σ y ( σ xy ist die Kovarianz) Für eine Abschätzung des Korrelationskoeffizienten gilt: r = cov s x s y xy Aus der Varianz-Kovarianzmatrix S kann man die Korrelationsmatrix wie folgt ableiten. Zuerst erzeugt man eine Diagonalmatrix D, die die jeweiligen reziproken Standardabweichungen enthält (vgl. Anhang 2 des Skripts). Die Korrelationsmatrix ist dann: R = D S D Die Diagonalelemente der Korrelationsmatrix haben den Wert, die Ausserdiagonalelmente sind die Korrelationskoeffizienten der entsprechenden Paare von Variablen.

14 Teeproben: Korrelationsmatrix Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids

15 Winkel zwischen zwei Vektoren Skalarprodukt: x T y = x y cosa x Länge eines Vektors: x = x 2 + x x n 2 = 2 Â x i = x T x a y cos a = x T x x T y y T y

16 Korrelationskoeffizient r = cov(xy) s x s y = ( x x) 2 ( x x) y y ( ) ( y y) 2 Für zentrierte Variablen: r = x T x x T y y T y cos α = x T x x T y y T y Der Korrelationskoeffizient entspricht dem Cosinus des Winkels zwischen den beiden Vektoren

17 Bedeutung des Korrelationskoeffizienten Variablenraum Variablenraum zentriert Objektraum (zentrierte Variablen) y y 3 3 (2,3) (3,2) (,) x x 2 0 (-,0,) α = 60 o ; cos α = 0.5 (-,,0) [- 0 ] 0 [- 0 ] 0 r = = 2 2 = 0.5 [- 0] 0

18 Teeproben: Korrelationsmatrix Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids Cellulose Hemicellulose Lignin Polyphenols Caffeine Amino acids Geometrische Interpretation: Im 3-dimensionalen Objektraum, ist der Winkel zwischen: Cellulose und Amonosäuren: 2o Caffein und Aminosäuren: 28o Caffein und Polyphenole: 4o

19 Distanz zwischen zwei Vektoren 2 x 2 x d 2 x 22 x 2 x x 2 Euklid: d ij = (x ik x jk ) 2 = x i x j k ( ) T ( x i x ) j

20 Distanz zwischen Teeproben c c2 c3 c4 c5 c6 c7 h h2 h3 h4 h5 k k2 k3 k4 c2.35 c c c c c h h h h h k k k k f f f f f f f t t t t s s s s

21 Distanz zwischen Teeproben f f2 f3 f4 f5 f6 f7 t t2 t3 t4 s s2 s3 c2 c3 c4 c5 c6 c7 h h2 h3 h4 h5 k k2 k3 k4 f f f f f f f t t t t s s s s

22 Clusteranalyse Prinzip der hierarchischen Clusteranalyse: Avarage linkage Methode: links: Koordinaten im 2D Raum, rechts: Dendogramm X2 E D Abstand A B C BC DE X A B C D E

23 Teeproben: Clustering 6 S i m i l a ri t y D eg r e e Green Good quality Black Black and green tea Low quality Oolong Green Black 0 C C2 H C3 C4 H2 H3 K K2 F2 F3 F4 F C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T T2 S T3 T4 S3 S4 S2

24 Clusterungsmethoden Single linkage (nächster Nachbar): kann zu elongierten Clustern führen Average linkage (Mitte der Cluster) Complete linkage (am weitesten entfernter Mitglied der Cluster): führt zu kompakten Clustern

25 Distanzmasse Minkowski d ij = x ik x jk k ( ) n / n Euklid d ij = (x ik x jk ) 2 = x i x j k ( ) T ( x i x ) j City block d ij = k x ik x jk

26 Distanzmasse Euklid d ij = (x ik x jk ) 2 = x i x j k ( ) T ( x i x ) j Euklid gewichtet d ij = ( x i x ) T j W( x i x ) j Gewichtsmatrix: I: Euklid diag W: individuell gewichtet, z.b w i = /s i 2 Kolonnenvarianz Mahalanobis Distanz: W = C- (Inverse der Varianz-Kovarianz Matrix) C = (/n) X z T X z, mit X z : zentrierte Daten

27 Gewichtung = Skalierung der Koordinaten Durch die Gewichtung ändern sich die Distanzen und die Winkel (Korrelationskoeffizienten) zwischen den Vektoren ( 0.4) W = W = (.6 )

28 Mahalanobis Distanz Abstand von einem Punkt zu einem Andren, der sich in einer bekannten Verteilung befindet (der Abstandsmass berücksichtigt die Korrelation). G2 C B A G G3 G4 Die Mahalanobis-Distanz von C zu B ist kleiner als von A zu B (die Euklidschen Distanzen sind gleich). Die Mahalanobis-Distanz zwischen den beiden Clustern G und G2 ist keiner als zwischen G3 und G4 (die Euklidschen Distanzen sind gleich).

29 Distanzmasse für binäre Variablen Hamming Distanz: d ij = k XOR( x ik, x ) jk Die Hamming-Distanz ist die City block-distanz für binäre Variablen XOR: Exklusives OR: 0 XOR 0 = 0; XOR = 0 0 XOR = ; XOR 0 = Tanimoto Koeffizient T zwischen zwei binären Vektoren A und B: Anzahl von in A: N A, in B: N B und gleichzeitiges Vorkommen in A und B: N A&B (Tanimoto Abstand: -T) N A&B T = N A + N B - N A&B Beispiel: A: B: A&B T = 6 / ( ) = 0.667; - T = Hamming Distanz: 3

30 Distanzmasse: Abstand und Winkel X2 D 2 v v 2 D 3 Die Abstände D 2 und D 3 sind gleich gross aber bei der Benützung des Winkels zwischen den Vektoren als Distanzmass, ist v 2 viel ähnlicher zu v als v 3. Der Cosinus des Winkels zwischen zwei Datenvektoren entspricht dem Korrelationskoeffizienten. v 3 X

31 Abstand und Winkel: Ein Beispiel Retentionsindizes von fünf Substanzen ( 5) mit drei stationären Phasen (SF SF3) in der Gaschromatographie Stationäre Phase SF SF SF D2 = 43.9 D3 =329.5 r2 = r3 = Interpretation: Die absoluten Retentionsindizes sind für SF und SF2 ähnlich (ähnliche Polarität der Phasen), die relativen für SF und SF3, d.h. diese beiden zeigen ähnliche spezifische Wechselwirkungen mit den Proben. Man würde bei Erhöhung der Temperatur für SF3 ähnliche Werte bekommen wie für SF.

Ähnliche Dokumente

Chemometrie: von Daten zu Information

Chemometrie: von Daten zu Information Chemometrie: Definition Warnungen Daten von Anscombe: numerisch x y x y x y x y 0 8.04 0 9.4 0 7.46 8 6.58 8 6.95 8 8.4 8 6.77 8 5.76 3 7.58 3 8.74 3 2.74 8 7.7 9