Strukturerkennende Verfahren

Transkript

1 Strukturerkennende Verfahren Viele Verfahren der multivariaten Datenanalyse dienen dazu, die in den Daten vorliegenden Strukturen zu erkennen und zu beschreiben. Dabei kann es sich um Strukturen sehr allgemeiner Natur handeln, zum Beispiel Ähnlichkeiten zwischen Probanden oder Merkmalen Abhängigkeitsstrukturen und damit um Möglichkeiten zur Prognose von Ausprägungen einzelner Merkmale unter Verwendung der Ausprägungen anderer Merkmale 1

2 Wir unterscheiden zwei Situationen: Die Strukturen sind unbekannt, und es erfolgt eine Suche nach evtl. in den Daten vorliegenden Strukturen (non supervised learning). Man hat z.b. Umfragedaten vorliegen und sucht nach Gruppen von Probanden, die sich in der Umfrage ähnlich verhalten haben. Die Strukturen sind für die vorliegenden Daten im Prinzip bekannt, und man sucht nach Regeln zur Vorhersage dieser oder ähnlicher Strukturen in zukünftig anfallenden Daten (supervised learning). Man hat z.b. Daten von erkrankten und gesunden Personen vorliegen und sucht nach Möglichkeiten zur Prognose von Erkrankungen. 2

3 In Abhängigkeit vom Skalenniveau und der Art der Fragestellung kommen sehr unterschiedliche Techniken zum Einsatz, zum Beispiel Clusteranalysen, Diskriminanzanalysen, Klassifikationsbäume und neuronale Netze. Bei großen Datenmengen werden skalierbare Varianten dieser und weitere Verfahren des data mining verwendet. 3

4 Clusteranalyse Unter dem Begriff Clusteranalyse werden verschiedene Verfahren zusammengefasst, die das Ziel haben, relativ beliebige Objekte, die durch Merkmale beschrieben werden, in Teilmengen (Cluster) aufzuteilen bzw. zusammenzufassen. Angestrebt wird dabei eine möglichst große Ähnlichkeit der Objekte innerhalb eines Clusters (Homogenität im Cluster) und eine möglichst gute Trennbarkeit der verschiedenen Cluster (Heterogenität zwischen Clustern). Ein in diesem Sinne durchgeführtes Klassifikationsverfahren führt durch Zusammenfassung ähnlicher (benachbarter) Objekte zu einer Verdichtung der Information über die strukturellen Eigenschaften der zugrunde liegenden Daten. 4

5 Die Clusteranalyse liefert als exploratives, häufig heuristisches Verfahren den Ansatzpunkt für entsprechende konfirmatorische Untersuchungen der schließenden Statistik (z.b. Diskriminanzanalysen, Varianzanalysen). Die Clusteranalyse umfasst ein umfangreiches, vielfältiges Methodenspektrum und besitzt breite Anwendungsmöglichkeiten (z.b. Wahlforschung, Marktforschung, Psychologie, Archäologie, Textanalyse). 5

6 Clusteranalyseverfahren sind in allen größeren Programmen zur Datenanalyse implementiert. Die vorgestellte Auswahl orientiert sich an häufig implementierten Verfahren, die auch in SPSS verfügbar sind. Darüberhinaus gibt es auf Grund der rechen- und speicherintensiven Algorithmen spezielle Programme, die ausschließlich Verfahren der Clusteranalyse realisieren (z.b. CLUSTAN). 6

7 Grobklassifikation von Clusteranalyseverfahren (Präzisierung der Ziele der Clusterbildung) Wir beschränken uns auf Verfahren für Datensätze mit intervallskalierten Merkmalen und verwenden z.b. Euklidische Abstände. Nominal- oder ordinalskalierte Merkmale sowie Datensätze mit gemischtem Skalenniveau erfordern andere Ansätze bei den Distanz- bzw. Ähnlichkeitsmaßen. 7

8 Beispiele: - Länder und ihre volkswirtschaftlichen Kenngrößen vor dem Beitritt zur EURO-Zone; - Echte und falsche Banknoten: Der Datensatz fluryk.sav (aus Flury/Riedwyl (1990)) enthält Längenmaße von 100 echten und 100 falschen alten Schweizer Banknoten. Die Namen der Variablen und ihre Bedeutung können aus der folgenden Abbildung entnommen werden. 8

9 oben links laenge diagonal rechts unten Abbildung 1: Die an den Banknoten erfassten Maße 9

10 Die echten und falschen Banknoten können im Datensatz unterschieden werden. Diese Information wird für die Clusteranalyse allerdings nicht benutzt (keine Lernstichprobe). Ziel der Clusteranalyse ist es, die Struktur der vorliegenden Daten und damit der vorliegenden Banknoten aufzuklären. Diese Struktur kann dann evtl. später zur Unterscheidung von echten und falschen Banknoten Verwendung finden. 10

11 Eine grobe Einteilung von Verfahren der Clusteranalyse ist möglich im Hinblick auf die verwendeten Abstands- bzw. Ähnlichkeitsmaße zwischen den Objekten. die verwendeten Abstands- bzw. Ähnlichkeitsmaße zwischen Clustern (diese Maße bestimmen das Zielkriterium bei der Clusterbildung). die Art, wie eine Clusteranalyse abläuft: iterativ nicht iterativ, agglomerativ divisiv, hierarchisch nicht hierarchisch. die Art der entstehenden Zerlegung: disjunkt nicht disjunkt. 11

12 Daneben können weitere Charakteristika (z.b. statistische Annahmen über das Datenmaterial) eine Rolle spielen. Da Ähnlichkeitsmaße in entsprechende Abstandsmaße (Unähnlichkeiten) umgerechnet werden können, beschränken wir uns auf die Diskussion einiger Abstandsmaße. 12

13 Abstandsmaße zwischen Objekten Objektmengen mit intervallskalierten Merkmalen können als Punktmengen im Euklidischen Raum aufgefasst werden. Jeder Koordinate entspricht ein Merkmal, und Ziel der Clusteranalyse ist es, Punkte, die bezüglich einer vorgegebenen Abstandsfunktion im Raum benachbart liegen, zusammenzufassen. Als Abstandsfunktionen werden häufig bekannte Metriken verwendet. 13

14 Ausgangspunkt: Stichprobe vom Umfang n (untersuchte Objekte, befragte Personen), p erfasste Merkmale Datenmatrix: (x ij ) i=1,...,n j=1,...,p = x 11 x x 1p x 21 x x 2p... x n1 x n2... x np x ij... Merkmalsausprägung des Merkmalsträgers i bezüglich des Merkmals j ( Dateneditor von SPSS) 14

15 Zeilen: p Merkmalsausprägungen des entsprechenden Falles (Merkmalsträger, Proband, Objekt) Bezeichnungen: x, y,... (Vektoren) Spalten: n Werte (Ausprägungen, Realisierungen) des entsprechenden Merkmals (der Variablen) 15

16 Beispiele für Abstandsfunktionen zwischen Objekten Direkte Vorgabe einer problemspezifischen (symmetrischen) Distanzmatrix D = (d ij ) i=1,...,n, die die j=1,...,n Abstände zwischen den Objekten beschreibt (z.b. aus Expertenbefragung). Euklidischer Abstand: d 1 ( x, y) = x y = p (x j y j ) 2 j=1 Quadrierter Euklidischer Abstand: d 2 ( x, y) = (d 1 ( x, y)) 2 = x y 2 16

17 City Block Abstand: d 3 ( x, y) = p x j y j j=1 Maximum Abstand: d 4 ( x, y) = max x j y j j=1,...,p 17

18 Agglomerative Verfahren (hierarchisch, disjunkt) Aufbau einer Folge von Clusterzerlegungen Ausgangspartition: einzelnes Objekt ˆ= Cluster, Agglomeration (Vereinigung) von Clustern zu einem neuen Cluster (Kriterium: Abstand zwischen Clustern), triviale Endposition (alle Objekte in einem Cluster) Probleme: Angemessene Anzahl von Clustern? Zielkriterium bei der Agglomeration? 18

19 Bezeichne C 1,..., C l eine beliebige Zerlegung (Partition) der Objektmenge in l Cluster. Die C i sind also disjunkte Teilmengen von Objekten, die die Gesamtmenge vollständig zerlegen. Sei n k = card(c k ) (Anzahl der Objekte in C k ) und d( x, y) eine (beliebige) Abstandsfunktion zwischen den Objekten. 19

20 Beispiele für Abstandsfunktionen zwischen Clustern (bei agglomerativen Verfahren) Single linkage (nearest neighbor): D 1 (C k, C j ) = min x C k min y C j d( x, y) Complete linkage (furthest neighbor): D 2 (C k, C j ) = max x C k max y C j d( x, y) Average linkage: D 3 (C k, C j ) = 1 n k 1 n j x C k y C j d( x, y) 20

21 Centroid linkage: D 4 (C k, C j ) = s k s j 2, mit s i = 1 n i x C i x (Schwerpunkt von C i ) analog: median linkage WARD s minimum variance linkage: D 5 (C k, C j ) = n kn j n k + n j s k s j 2 (Ergibt sich, falls jeweils die beiden Cluster fusioniert werden, die dabei den geringsten Zuwachs in der Varianz der Clusterzerlegung hervorrufen; vgl. ANOVA) 21

22 Praktisches Vorgehen, falls Zahl der Cluster nicht bekannt ist: Verfolgen des Clusterprozesses mit grafischen Methoden (Dendrogramm, icicle plot) und eines Homogenitätsmaßes; Abbruch, falls dieses Maß sprunghaft ansteigt. Hinweise: Im Zusammenhang mit der Auswahl einer geeigneten Abstandsfunktion ist auch die Frage zu klären, ob bei der Clusteranalyse mit den Originaldaten oder besser mit transformierten (z.b. standardisierten) Werten gearbeitet werden soll (vgl. Faktorenanalyse). 22

23 Große Probleme mit vielen Objekten lassen sich mit diesen (hierarchischen) Verfahren nicht bewältigen (Anzahl der möglichen Unterteilungen einer Menge mit 100 Objekten in 2 Teilmengen 1 2 (2100 2) = ). Hierarchischen Methoden sind für kleinere Probleme bzw. Lernstichproben geeignet. Es gibt schnelle, wenig speicherintensive Verfahren für Probleme mit bekannter Clusteranzahl (partitionierende Verfahren) und es gibt Algorithmen, die Anfangslösung iterativ verbessern können (Austauschverfahren). 23

24 Leader /k means Algorithmus (nichthierarchisch, disjunkt, evtl. iterativ) Vorzugeben: Anzahl der Cluster ggf. je ein typisches Element (Leader) pro Cluster Bestimmung der Cluster erfolgt ausgehend von den Leadern durch Anlagerung der restlichen Elemente (z.b. nearest centroid sorting). Evtl. iteratives Vorgehen (Wiederholung des Prozesses mit den Schwerpunkten der ermittelten Clusterlösung, Austauschschritte) 24

25 Probleme: Abhängigkeit der Lösung von den Startwerten (Leadern), der Abarbeitungsreihenfolge, Auffinden lokaler Extrema,... Auswege: Kombination mit anderen Verfahren, Multistartvarianten,... 25