Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 326 Tel.: (9) 48 182 E-Mail: Stefan.Hesse@uni-jena.de Grundlagen: Das menschliche Auge ist gut in der Lage in einem Datensatz Strukturen zu erkennen, wenn der Datensatz aus Objekten besteht, an denen maximal drei Variablen gemessen wurden. Um Gruppierungen und Strukturen in höherdimensionalen Datensätzen zu erkennen existieren verschiedene Dimensionsreduzierende Projektionsmethoden (z. B. Hauptkomponentenplots) sowie graphische Verfahren, die von den Originaldaten ausgehen (z.b. Scatterplotmatrix, CHERNOFF-Faces). Eine weitere Möglichkeit die Abstände zwischen den Objekten zu visualisieren bietet die Clusteranalyse Seite 1 von 8
Clusteranalyse Das Ziel der Clusteranalyse besteht in der Einteilung von Objekten in verschiedene (vorher nicht bekannte) Gruppen oder Cluster. Dabei sollen die Objekte einer Gruppe untereinander eine möglichst große Ähnlichkeit (similarity) aufweisen, während die Gruppen voneinander unähnlich sind. Mit der Clusteranalyse können Strukturen in Daten entdeckt werden (Pattern recognition), jedoch keinerlei statistische Aussagen über die Gruppenzugehörigkeiten getroffen werden. Insofern handelt es sich um ein multivariates exploratives Verfahren. Es können sowohl Variablen als auch Fälle einer Clusteranalyse unterzogen werden. Zur Clusteranalyse existiert eine Reihe von verschiedenen Algorithmen. Man unterscheidet zwischen hierarchischen (joining oder tree-clustering) und nichthierarchischen Verfahren. Während man bei der hierarchischen Clusteranalyse ohne Vorinformationen arbeiten kann, sind für die nichthierarchischen Verfahren Annahmen über die Zahl der zu erhaltenden Cluster erforderlich. Neben dem verwendeten Algorithmus wird das Ergebnis der Clusteranalyse entscheidend vom verwendeten (multivariaten) Distanz- bzw. Ähnlichkeitsmaß beeinflußt. Am häufigsten eingesetzt werden die euklidische Distanz (Euclidean distance) und die quadrierte euklidische Distanz (squared Euclidean distance) eingesetzt. Die euklidische Distanz entspricht für 2 und 3 Dimensionen dem geometrischen Abstand, während bei der Verwendung der quadrierten euklidischen Distanz benachbarte Punkte im Vergleich zu weiter entfernten Punkten näher zusammenrücken. Andere Distanzmaße sind die Manhattan-(City-Block-)-Distanz, bei der die Summe der Differenzen der Variablen berechnet wird. Dies führt dazu, dass weit entfernte Objekte (z.b. Ausreißer) im Vergleich zur euklidischen Distanz weniger stark gewichtet werden. Seite 2 von 8
Einige in der Clusteranalyse verwendete Distanzmaße Euklidische Distanz De ( x, y) ( xi yi ) 2 i Quadratische Euklidische Distanz D 2 ( x, y) ( x y ) 2 e i i i Manhattan-(City-Block)-Distanz DM ( x, y) xi yi i 1/ 2 Der Ablauf der hierarchischen Clusteranalyse wird meist in einem Dendrogramm (Tree plot, Baumdiagramm) dargestellt. Beim (meist durchgeführten) agglomerativen Clustern werden die Objekte hierzu schrittweise entsprechend dem jeweils geringsten multivariaten Abstand zu immer größeren Clustern vereinigt, bis hin zur Fusion aller Objekte. 100 80 60 D 40 20 0 GLUCOSE HEPTANON HEPTANOL FORMALDE FURAN ESSIGSÄU GLYCERIN PHENOL ETHAN ETHANOL Häufig verwendete Fusions-Algorithmen für die hierarchische Clusteranalyse sind: Single linkage (nearest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem kleinsten multivariaten Abstand ( nächste Nachbarn ) bestimmt. Dieses Verfahren neigt dazu große Cluster zu bilden, bei denen die Objekte aneinandergereiht sind (Kettenbildung). Einzelne Objekte mit großem Abstand zu den übrigen Clustern werden isoliert. Complete linkage (furthest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem größten multivariaten Abstand bestimmt. Dieses Verfahren tendiert dazu kleinere Cluster zu bilden. Average Linkage (unweighted pair-group average). Die Distanz zwischen zwei Clustern wird durch den Mittelwert der Distanzen zwischen allen Objekten Seite 3 von 8
bestimmt. Neben dem WARD-Verfahren ist dies die am häufigsten genutzte Methode. Es werden homogene Gruppen gebildet, welche die reale Struktur des Datensatzes gut widerspiegeln. Verfahren von WARD. Bei dieser Methode wird für jedes Cluster der Mittelwert aus den Variablen berechnet. Es werden diejenigen Cluster gebildet, bei denen nach der Fusion die Summe der Distanzen der Objekte des Clusters zum Mittelwert minimal ist. Dieses Verfahren spiegelt die reale Struktur des Datensatzes gut wider, wenn die Cluster in etwa gleich groß sind. Neben Average Linkage ist dies die Methode der Wahl und sollte bei vollkommen unbekannter Datenstruktur zuerst angewandt werden. Im Unterschied zu den hierarchischen Verfahren ist bei der nichthierarchischen Clusteranalyse die Zahl der Cluster, in die die Objekte eingeordnet werden sollen, vorzugeben. Dies erfordert gewisse Hypothesen über die Struktur des Datenmaterials. Einschränkungen und Alternativen Mittels clusteranalytischer Verfahren werden interaktiv Hypothesen über die Daten generiert, die anschließend z.b. mit der Diskriminanzanalyse oder der Varianzanalyse statistisch erhärtet werden können. Weitere Verfahren um Strukturen in Daten zu erkennen sind Faktorenanalyse und Multidimensional Scaling. Zur anschaulichen Darstellung hochdimensionaler Datensätze existieren weiterhin graphische Verfahren wie die Scatterplotmatrix sowie weitere spezielle multivariate Darstellungen, z.b. die CHERNOFF-Gesichter. Unten sehen Sie eine CHERNOFF- Gesichter-Darstellung des Wasser-, Fett- und Proteingehalts von Fleischproben, wobei Case 5 der Probe mit dem höchsten Fett- und dem geringsten Proteingehalt entspricht. Seite 4 von 8
Chernoff Faces (T ECAPRED.ST A ) Cas e 1 Cas e 2 Cas e 3 Cas e 4 Cas e 5 Cas e 6 LEGEND: face/w = FET T, mouth/curv = PROT EIN, eyes /slant = W AS Durchführung: Übung: Programm: Datensatz: Beschreibung: Gruppierung verschiedener PNS der Saalenebenflüsse STATISTICA Saale_Ilm_Unstrut In den verschiednen Flüssen wurden die Elemente As, Cd, Co, Cr, Cu, Fe, Mn, Ni, Pb und Zn bestimmt. Kann man anhand der erhalten Elementmuster die Proben den verschiedenen Flüssen zuordnen? Bilden verschiedene Elemente Gruppen? Mit Hilfe clusteranalytischer Methoden kann ein Eindruck von der Struktur des Datensatzes erhalten werden. Als erstes soll der Einfluss der Autoskalierung beurteilt werden. Dazu wird eine Clusteranalyse (nach WARD) mit dem Datensatz Saale_Ilm_Unstrut durchgeführt. Führen Sie die Clusteranalyse für die Variablen und die Fälle durch! Anschließend wird der Datensatz Saale_Ilm_Unstrut standardisiert. ' x ij x ij x s j j Seite 5 von 8
Die Standardisierung der j Variablen ist hier zweckmäßig, da die Gehalte x ij der verschiedenen Elemente um mehrere Größenordnungen voneinander abweichen. Mit diesem standardisierten Datensatz werden erneut 2 Clusteranalysen (nach WARD) durchgeführt. Beurteilen Sie die Auswirkung der Autoskalierung auf die Ergebnisse der Clusteranalyse! Testen Sie den standardisierten Datensatz auf Normalverteilung und vergleichen Sie die Darstellung durch Histogramm und Probability-Probability-Plot für 2 Elemente! Die Auswirkungen der verschiedenen Fusionsalgorithmen und Distanzmaße auf die Clusterbildung soll überprüft werden. Führen Sie dazu die oben genannten Fusionsalgorithmen durch und variieren Sie für eine Methode die Distanzmaße (oben genannt)! Abschließend soll die Gruppierung anhand der verschiedenen Displaymethoden erfolgen. Stellen Sie dazu die Proben durch 4 verschiedene Displaymethoden dar. Vergleichen Sie die Aussagekraft der gewählten Methoden. Variieren Sie die Gesichtszüge der CHERNOFF-Gesichter und diskutieren Sie die Ergebnisse Protokollieren Sie die durchgeführten Schritte. Seite 6 von 8
Arbeitsweise mit Statistika Tabelle Standardisieren der Daten: Daten Standardisieren Histogrammdarstellung Grafik Histogramm Probability-Probability-Plot Grafik 2-D-Grafiken Probability-Probability-Plot Durchführung der Clusteranalyse Statistik multivariate explorative Techniken Clusteranalyse Agglomerativ OK Details Variablen Cluster für Fusionierung wählen Distanzmaß wählen OK Standard Skala dlink/dmax*100 ankreuzen Baumdiagramm Seite 7 von 8
Zur Veränderung der Distanzmaße und Fusionierungsalgorithmen Abbrechen. Darstellung der Displaymethoden Grafik Iconplots Standard Variablen Grafiktyp Option 1 OK Labels für Fälle: Fallnamen Grafik Veränderung der CHERNOFF-Gesichter Format Alle Optionen Muster Definition der CHERNOFF-Gesichter Literatur: Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, 1997 http://www.statsoft.com/textbook/stathome.html Backhaus. K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysenmethoden Eine anwendungsorientierte Einführung, 8. Auflage, Springer Verlag, 1996 Seite 8 von 8