Numerische Klassifikation (Cluster Analyse) anhand nominaler, ordinaler oder gemischter Merkmale

Ähnliche Dokumente
nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Lineare Regression (1) - Einführung I -

18. Dynamisches Programmieren

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Netzwerkstrukturen. Entfernung in Kilometer:

FORMELSAMMLUNG STATISTIK (I)

Polygonalisierung einer Kugel. Verfahren für die Polygonalisierung einer Kugel. Eldar Sultanow, Universität Potsdam,

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Ionenselektive Elektroden (Potentiometrie)

Methoden der innerbetrieblichen Leistungsverrechnung

2 Zufallsvariable und Verteilungen

Statistik und Wahrscheinlichkeit

Gruppe. Lineare Block-Codes

Auswertung univariater Datenmengen - deskriptiv

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Preise erfassen.

Nernstscher Verteilungssatz

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/ ω Additionstheorem: 2 sin 2 2

2. Nullstellensuche. Eines der ältesten numerischen Probleme stellt die Bestimmung der Nullstellen einer Funktion f(x) = 0 dar.

Einführung in die Finanzmathematik

Praktikum Physikalische Chemie I (C-2) Versuch Nr. 6

Free Riding in Joint Audits A Game-Theoretic Analysis

6. Modelle mit binären abhängigen Variablen

Nomenklatur - Übersicht

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

1 BWL 4 Tutorium V vom

1 Definition und Grundbegriffe

Auswertung univariater Datenmengen - deskriptiv

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Ich habe ein Beispiel ähnlich dem der Ansys-Issue [ansys_advantage_vol2_issue3.pdf] durchgeführt. Es stammt aus dem Dokument Rfatigue.pdf.

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

IT- und Fachwissen: Was zusammengehört, muss wieder zusammenwachsen.

Streuungs-, Schiefe und Wölbungsmaße

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Standortplanung. Positionierung von einem Notfallhubschrauber in Südtirol. Feuerwehrhaus Zentrallagerpositionierung

Für jeden reinen, ideal kristallisierten Stoff ist die Entropie am absoluten Nullpunkt gleich

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Bildverarbeitung Herbstsemester Bildspeicherung

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

Kreditpunkte-Klausur zur Lehrveranstaltung Projektmanagement (inkl. Netzplantechnik)

Einbau-/Betriebsanleitung Stahl-PE-Übergang Typ PESS / Typ PESVS Originalbetriebsanleitung Für künftige Verwendung aufbewahren!

Grundlagen der makroökonomischen Analyse kleiner offener Volkswirtschaften

3.2 Die Kennzeichnung von Partikeln Partikelmerkmale

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

1.1 Grundbegriffe und Grundgesetze 29

Wechselstrom. Dr. F. Raemy Wechselspannung und Wechselstrom können stets wie folgt dargestellt werden : U t. cos (! t + " I ) = 0 $ " I

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Die Ausgangssituation Das Beispiel-Szenario... 14

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct?

Definition des linearen Korrelationskoeffizienten

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Datenträger löschen und einrichten

Konkave und Konvexe Funktionen

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Grundgedanke der Regressionsanalyse

Elemente der Mathematik - Sommer 2016

Facility Location Games

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Wie eröffne ich als Bestandskunde ein Festgeld-Konto bei NIBC Direct?

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

MULTIVAC Kundenportal Ihr Zugang zur MULTIVAC Welt

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Lösungen zum 3. Aufgabenblock

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

3. Lineare Algebra (Teil 2)

Versicherungstechnischer Umgang mit Risiko

Kapitel V. Parameter der Verteilungen

tutorial N o 1a InDesign CS4 Layoutgestaltung Erste Schritte - Anlegen eines Dokumentes I a (Einfache Nutzung) Kompetenzstufe keine Voraussetzung

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

phil omondo phil omondo Skalierung von Organisationen und Innovationen gestalten Sie möchten mehr Preise und Leistungen Workshops und Seminare

Übung zur Vorlesung. Informationstheorie und Codierung

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

Spiele und Codes. Rafael Mechtel

4. Indexzahlen. 5.1 Grundlagen 5.2 Preisindizes 5.3 Indexzahlenumrechnungen. Dr. Rebecca Schmitt, WS 2013/2014

13.Selbstinduktion; Induktivität

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

1 - Prüfungsvorbereitungsseminar

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Erwartungswert, Varianz, Standardabweichung

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

VERGLEICH VON TESTVERFAHREN FÜR DIE DEFORMATIONSANALYSE

Stochastische Prozesse

d da B A Die gesamte Erscheinung der magnetischen Feldlinien bezeichnet man als magnetischen Fluss. = 1 V s = 1 Wb

Beschreibende Statistik Mittelwert

Vorlesung 1. Prof. Dr. Klaus Röder Lehrstuhl für BWL, insb. Finanzdienstleistungen Universität Regensburg. Prof. Dr. Klaus Röder Folie 1

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

"Zukunft der Arbeit" Arbeiten bis 70 - Utopie - oder bald Realität? Die Arbeitnehmer der Zukunft

Lösungen der Aufgaben zu Kapitel 2

Verteilungen eindimensionaler diskreter Zufallsvariablen

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem

Transkript:

2 Schrften aus der Fakultät Sozal- und Wrtschaftswssenschaften der Otto-Fredrch-Unverstät Bamberg Numersche lassfkaton (Cluster Analyse) anhand nomnaler, ordnaler oder gemschter Merkmale Theore und Praxs mt zugehörgem Programm ORMIX auf CD Prof. Dr. Fredrch Vogel und Dr. Rudolf Gardll UNIVERSITY OF BAMBERG PRESS

Schrften aus der Fakultät Sozal- und Wrtschaftswssenschaften der Otto-Fredrch-Unverstät Bamberg 2

Schrften aus der Fakultät Sozal- und Wrtschaftswssenschaften der Otto-Fredrch-Unverstät Bamberg Band 2 Unversty of Bamberg Press 200

Numersche lassfkaton (Cluster Analyse) anhand nomnaler, ordnaler oder gemschter Merkmale Theore und Praxs mt zugehörgem Programm ORMIX auf CD von Prof. Dr. Fredrch Vogel und Dr. Rudolf Gardll Unversty of Bamberg Press 200

Bblographsche Informaton der Deutschen Natonalbblothek De Deutsche Natonalbblothek verzechnet dese Publkaton n der Deutschen Natonalbblographe; detallerte bblographsche Informatonen snd m Internet über http://dnb.ddb.de/ abrufbar Deses Werk st als free Onlneverson über den Hochschulschrften-Server (OPUS; http://www.opus-bayern.de/un-bamberg/) der Unverstätsbblothek Bamberg errechbar. open und Ausdrucke dürfen nur zum prvaten und sonstgen egenen Gebrauch angefertgt werden. Herstellung und Druck: docupont GmbH Magdeburg Umschlaggestaltung: Dezernat ommunkaton und Alumn der Otto- Fredrch-Unverstät Bamberg Unversty of Bamberg Press Bamberg 200 http://www.un-bamberg.de/ubp/ ISSN: 867-697 ISBN: 978-3-923507-80- (Druck-Ausgabe) eisbn: 978-3-923507-8-8 (Onlne-Ausgabe) URN: urn:nbn:de:bvb:473-opus-276

Numersche lassfkaton (Cluster Analyse) anhand nomnaler, ordnaler oder gemschter Merkmale I Theore Enletendes Sete 2 Verfahren zur Bldung dsjunkter lassen Sete 3 2. Vorbemerkung Sete 3 2.2 Das Austauschverfahren Sete 5 2.3 Herarchsch-agglomeratve Verfahren Sete 0 2.4 Maße zur Messung der Güte enes lassfkatonsergebnsses Sete 4 2.4. Vorbemerkung Sete 4 2.4.2 Merkmalstypen Sete 4 2.4.2. Nomnale Merkmale Sete 5 2.4.2.2 Ordnale Merkmale Sete 5 2.4.2.3 Metrsche Merkmale Sete6 2.4.3 Nomnale Merkmale: Streuung und Gütefunkton Sete 8 2.4.4 Ordnale Merkmale: Streuung und Gütefunkton Sete 22 2.4.5 Metrsche Merkmale: Streuung und Gütefunkton Sete 26 3 De Verarbetung gemschter Merkmale Sete 32 3. Gemschte Merkmale Sete 32 3.2 De Ordnalserung metrscher Merkmale Sete 32

3.3 lassfkaton anhand gemschter Merkmale Sete 35 3.3. Enführendes Sete 35 3.3.2 Das Austauschverfahren Sete 36 3.3.3 En herarchsch-agglomeratves Verfahren Sete 36 4 Schlußbemerkung Sete 37 II Praxs. Enletendes Sete 38 2. Installatonsanletung Sete 38 2. Installatonsvoraussetzungen Sete 38 2.2 Zur Installaton von der CD Sete 39 2.3 ORMIX denstalleren Sete 40 3 Datenengabe: De Datenmatrx Sete 40 4 De Erzeugung der lassen Sete 45 4. Datentransformatonen Sete 45 4.2 Herarchsch-agglomeratve lassfkaton Sete 54 4.3 Iteratve lassfkaton Sete 60 Lteraturhnwese Sete 64

I Zusammenfassung Numersche lassfkaton (oder Cluster Analyse) st de Zuordnung ener Menge von Beobachtungen (Objekten) zu Telmengen (lassen oder Cluster), derart dass de Beobachtungen (Objekte), de ener lasse angehören, n enem bestmmten Snne enander ähnlch snd. Dese Arbet besteht aus zwe Telen: Tel I "Theore" und Tel II "Praxs". Der erste Tel behandelt de theoretschen Grundlagen unseres neuen lassfkatonsprogramms ORMIX. Zunächst werden zwe Verfahren zur Bldung dsjunkter lassen erörtert: en Austauschverfahren und en herarchschagglomeratves Verfahren. Dann werden Maße zur Messung der Güte enes lassfkatonsergebnsses m Detal dskutert, nsbesondere m Hnblck auf de Merkmalstypen: nomnal, ordnal und metrsch. De Gütefunkton für nomnale und ordnale Merkmale basert auf enem spezellen Streuungsmaß: der Entrope. De Gütefunkton für metrsche Merkmale basert auf der Varanz. Das grundlegende Prnzp st der Versuch der Mnmerung der Streuung nnerhalb der lassen, so dass de Beobachtungen (Objekte) n derselben lasse enander ähnlcher snd als de Beobachtungen (Objekte) verschedener lassen. Im Zusammenhang mt Problemen der Numerschen lassfkaton gbt es be praktschen Anwendungen häufg gemschte Merkmale. Das heßt, de Objekte snd charaktersert durch nomnale und ordnale und metrsche Merkmale. Um ene Gütefunkton für gemschte Merkmale zu konstrueren, st zu beachten, dass de Gütefunkton für nomnale und ordnale Merkmale auf der Entrope beruht, de Gütefunkton für metrsche Merkmale aber auf der Varanz. Es st ncht zulässg, dese Gütefunktonen zu adderen. Es kommt hnzu, dass de Varanz abhängt von den Skalen, auf denen de Merkmale gemessen werden. Es st ncht möglch, metrsche Merkmale derart zu skaleren, dass alle metrschen Merkmale m Prozess der lassenbldung en gleches numersches Gewcht haben; Standardserung st nur ene von velen Mög-

II lchketen, se lefert aber kene Glechgewchtung. Aber es st zulässg, metrsche Merkmale n ordnale Merkmale zu transformeren. De Ordnalserung metrscher Merkmale wrd detallert erklärt. Es wrd gezegt, dass - nach der Ordnalserung der metrschen Merkmale - alle Merkmale m Prozess der lassenbldung en gleches maxmales numersches Gewcht haben. Der zwete Tel beschäftgt sch mt der Anwendung unseres Programms ORMIX, das nomnale, ordnale, metrsche Merkmale (nach Ordnalserung) und gemschte Merkmale verarbeten kann. Zuerst wrd erklärt, we das Programm von der CD nstallert werden kann. Im aptel "Datenengabe" werden de onstrukton und das Enlesen der Datenmatrx m Detal erläutert. Dann wrd gezegt, we Datentransformatonen (bespelswese metrsche n ordnale Merkmale) durchgeführt werden können. Nach desen Transformatonen kann ene herarchsch-agglomeratve lassfkaton oder ene teratve lassfkaton durch enen lnken Mausklck gestartet werden. Enge Bespeldateen fnden sch auf der CD. De Bedenung des Programms st enfach und mest selbsterklärend. Mt der (lnken) Maustaste werden Berechnungen angestoßen und aus ener knappen Auflstung der Resultate ausführlche Detaldarstellungen ausgewählt. En Mausklck auf den Wert ener Gütefunkton öffnet en Fenster mt dem lassfkatonsergebns für de gewünschte Anzahl von lassen und mt ener detallerten lassendagnose. De lassfkatonsergebnsse werden anschaulch n Tabellen zusammengefasst und als HTML-Seten überschtlch formatert. Für de herarchsch-agglomeratve lassfkaton stehen zusätzlch Dendrogramme und en Struktogramm zur Auswahl. De rechte Maustaste führt zu Hlfenformatonen und ergänzenden auf den ontext bezogenen Funktonen. Über de Zwschenablage von Wndows können Daten mt anderen Programmen ausgetauscht werden.

III Summary Cluster analyss (or clusterng) s the assgnment of a set of observatons (objects) nto subsets (clusters) so that observatons n the same cluster are smlar n some sense. Ths paper has two parts: part I "theory" and part II "practce". The frst part focusses on the theoretcal foundatons of our new clusteranalyss program called ORMIX. Frst two methods to construct dsjont clusters are dscussed: a hll clmbng (teratve parttonng) method and a agglomeratve herarchcal clusterng method. Then clusterng crterons to measure the goodness of the resultng clusters are dscussed n detal, n partcular wth respect to the type of varables: nomnal, ordnal and metrc. The crteron for nomnal and ordnal varables s based on a specal measure of dsperson: the entropy. The crteron for metrc varables s based on the varance. As a basc prncple t s tred to mnmze the dsperson wthn the clusters, so that observatons (objects) n the same cluster are smlar n some sense. In the context wth cluster problems there are n practce often mxed varables. That s the objects are characterzed by nomnal and ordnal and metrc varables. To construct a clusterng crteron for mxed varables st must be notced that the crteron for nomnal and ordnal varables s based on the entropy, the crteron for metrc varables s based on the varance. It s not admssble to summarse these crterons. Moreover the varance depends on the scales on whch the varables are measured. It s not possble to scale metrc varables n such a way that all metrc varables have an equal numercal weght n the process of cluster buldng, standardsaton s only one of many possbltes, t generates none equal weghts for all varables. But t s allowed to transform metrc varables n ordnal varables. The ordnalsaton of metrc varables s explaned n detal. Therewth the procedure of cluster buldng wth mxed varables and an admssble clusterng crteron s explaned n de-

IV tal. It s shown that - after ordnalsaton of the metrc varables - all varables n the process of cluster buldng have an equal maxmum weght. The second part focusses on the use of our program ORMIX whch can work up wth nomnal, ordnal, metrc varables (after ordnalsaton) and mxed varables. Frst of all t s explaned how to nstall the program from the CD. In chapter "data entry" the constructon and the nput of a data matrx, that s the bass of the clusterng algorthm, nto the program s treated n detal. Then t s shown how data transformatons (for example metrc n ordnal varables) can be realzed. After these transformatons a hll clmbng (teratve parttonng) procedure and/or a agglomeratve herarchcal clusterng procedure can be performed wth a left mouse clck. Some examples are on the CD. The handlng of the program s straghtforward. It s steered wth a left mouse clck. A rght mouse clck provdes many useful addtonal nformatons. The results of the analyses are clear llustrated. For the agglomeratve herarchcal clusterng procedure dendrograms and a struktogram can be dsplayed. A left mouse clck on the value of an clusterng crteron shows the cluster soluton n the wshed number of clusters and a detaled cluster dagnoss.

Numersche lassfkaton (Cluster Analyse) anhand nomnaler, ordnaler und gemschter Merkmale I Theore Enletendes De numersche lassfkaton (oder Cluster-Analyse) - Sammelbegrff für ene Velzahl unterschedlchster mathematsch-statstscher und heurstscher Verfahren/Algorthmen zur Bldung "homogener" lassen - gehört zur beschrebenden, mehrdmensonalen Statstk, zur (exploratven) Datenanalyse. Verfahren der numerschen lassfkaton haben de Aufgabe, ene - m Allgemenen große - Menge von n Enheten, de durch m messbare Egenschaften beschreben snd, derart n ene mest klene Anzahl von dsjunkten Telmengen zu zerlegen, dass de Enheten, de derselben Telmenge angehören, enander bezüglch der m Egenschaften n enem bestmmten (numerschen) Snne möglchst ähnlch/glechartg snd, während glechzetg de Enheten, de verschedenen Telmengen angehören, enander möglchst unähnlch/unglechartg snd. De Telmengen heßen lassen oder Cluster. In der Regel snd de zu klassfzerenden Enheten Merkmalsträger, also Personen, Haushalte, Produkte, Unternehmen, Tere, Gemenden, raftfahrzeug- Unfälle, Patenten, Länder, Berufe, Regonen, Zetrehen, Akten und derglechen, de durch de Ausprägungen (mehrerer) bestmmter Merkmale we zum Bespel Alter, Beruf, Geschlecht, Anzahl der nder, Art der rankhet, Haushaltsgröße, Haushaltsenkommen, Prese, Betrebsgröße, Anzahl der Beschäftgten, Ausgaben für Forschung und Entwcklung, Ausmaß der poltschen Frehet der Opposton enes Landes, Art der Regerungsübernahme, Antel der Landbevölkerung, Anzahl der Fernsehgeräte m Haushalt, Proble-

2 me bem Treppenstegen, Bücher lesen und ähnlches beschreben werden. ) Be praktschen Anwendungen snd de Merkmale n aller Regel unterschedlchen Typs, d.h. zur Beschrebung der Merkmalsträger werden nomnale und/oder ordnale und/oder metrsche Merkmale verwendet. Be der numerschen lassfkaton wrd n der Regel von der m Allgemenen ncht überprüfbaren Voraussetzung ausgegangen, dass n der Menge der Merkmalsträger und n Bezug auf de dese beschrebenden Merkmale ene Ordnung, ene Glederung, en Gefüge von Ähnlchketen/Unähnlchketen zwschen Merkmalsträgern exstert; kurz: dass mehr oder mnder wohlseparerte und homogene (d.h. "natürlche") lassen zwar vorhanden, aber ncht ohne weteres dentfzerbar snd. Es exstert ene "Abhänggketsstruktur", de sch (nur) durch lassen beschreben lässt. De gebldeten lassen sollen m Hnblck auf ene bestmmte Zelsetzung brauchbar, nützlch oder zweckdenlch sen. Daher müsste egentlch versucht werden, de Brauchbarket/Nützlchket enes lassfkatonsergebnsses zu optmeren. Nun st aber Brauchbarket/Nützlchket ncht quantfzerbar, so dass an deren Stelle für de Steuerung der lassenbldung numersche Ersatzkrteren verwendet werden müssen. Allerdngs kann en hnschtlch enes solchen Ersatzkrterums "optmales" lassfkatonsergebns auch unbrauchbar sen. Für de onstrukton derartger "Ersatzkrteren" gbt es mehrere onzepte. Gemensam st desen onzepten de Vorstellung, dass en lassfkatonsergebns um so brauchbarer/nützlcher st, je ähnlcher/glechartger de Merkmalsträger nnerhalb der enzelnen lassen, d.h. je homogener de lassen snd und - glechzetg - je unähnlcher de Merkmalsträger snd, de versche- ) Da de lassfkaton von Merkmalen, de hrersets durch bestmmte Egenschaften gekennzechnet snd, von eher untergeordneter Bedeutung st, wrd m folgenden ncht weter darauf engegangen.

3 denen lassen angehören. Ersatzkrterum st somt be zahlrechen lestungsfähgen lassfkatonsverfahren de "Homogentät" der lassen. Da Merkmalsträger, de derselben lasse angehören, enander bezüglch aller lassfkatonsmerkmale n enem bestmmten (numerschen) Snne möglchst ähnlch sen sollen, st es nahe legend und zweckmäßg davon auszugehen, dass de Merkmalsträger ener lasse enander dann ähnlch snd, dass de lasse dann homogen st, wenn de gemensame Streuung der m lassfkatonsmerkmale nnerhalb der lasse klen st. Je größer de gemensame Streuung nnerhalb der lassen st, desto unähnlcher snd de Merkmalsträger deser lassen. Ersatzkrteren zur Steuerung der lassenbldung können somt auf der Grundlage geegneter Streuungsmaße konstruert werden. 2 Verfahren zur Bldung dsjunkter lassen 2. Vorbemerkung Es st nahe legend zu versuchen, de n rgendenem (numerschen) Snne "optmale" Partton enes Datensatzes n lassen - zum Bespel jene Partton, für de en geegnetes Homogentätsmaß den optmalen Wert annmmt - enumeratv zu ermtteln, ndem für den gegebenen Datensatz (de Matrx X ) alle möglchen Parttonen n lassen erzeugt und de hnschtlch der Homogentät der lassen optmale Partton bestmmt wrd. Ene solche Berechnung st jedoch - von "klenen" Datensätzen enmal abgesehen - nahezu unmöglch, wel de Anzahl der möglchen (und verschedenen) Parttonen n lassen mt zunehmender Anzahl von Merkmalsträgern und lassen über alle Grenzen wächst. Daraus ergbt sch für praktsche Anwendungen n aller Regel de Notwendgket, de Anzahl der auf Optmaltät zu überprüfenden Parttonen ganz erheblch zu reduzeren.

4 De Redukton der Menge der möglchen Parttonen auf ene ausrechend klene Menge zu überprüfender Parttonen (und n deser Hnscht unterscheden sch de gebräuchlchen lassfkatonsverfahren zum Tel wesentlch) erfolgt grundsätzlch n der Wese, dass zum enen de große Anzahl von Parttonen, von denen unterstellt werden kann, dass se ncht optmal snd, ncht erzeugt und auf hre Optmaltät überprüft wrd und zum anderen für de "optmale lassenanzahl" n Abhänggket vom Untersuchungszel und der Anzahl der zu klassfzerenden Merkmalsträger N en möglchst klener Berech (bespelswese von = 3 lassen bs = 8 lassen) vorgegeben wrd. Alle (für "größeres" n) gebräuchlchen lassfkatonsverfahren untersuchen nur enen sehr klenen Tel der möglchen Parttonen und können daher - was mehr oder wenger bewusst n auf genommen wrd - das (numersche) Optmum verfehlen, d.h. nur suboptmale oder lokal optmale Parttonen lefern. Anhaltspunkte für den Grad der Annäherung an das Optmum gbt es - m Allgemenen - ncht. Für praktsche Anwendungen snd de daraus resulterenden Probleme m Allgemenen ncht entschedend, denn das numersche Optmum st nur en Ersatzkrterum für de größtmöglche Brauchbarket/Nützlchket ener Partton, und es st keneswegs scher, dass sch durch ene - auch ökonomsch aufwendge - Verbesserung enes lokalen Optmums ene entsprechende Zunahme an Brauchbarket/Nützlchket ergbt. Be praktschen Anwendungen haben sch zwe Verfahren besonders bewährt: en so genanntes Austauschverfahren und en herarchsch-agglomeratves Verfahren. Bede Verfahren steuern de onstrukton der lassen mt Hlfe von Streuungsmaßen.

Wrd de Menge der Merkmalsträger mt N = { N, N,...,N,..., } 2 j N n bezechnet, dann heßt jedes System { G,G,...,G,..., } 2 k G 5 von ncht-leeren und paarwese verschedenen Telmengen (= lassen) G k N mt U G k = N ene "exhaustve" (vollständge) lassfkaton der k= Menge der Merkmalsträger. 2.2 Das Austauschverfahren Snd de lassen paarwese dsjunkt und gehört jeder Merkmalsträger genau ener lasse an, dann heßt de dsjunkte lassfkaton P = { G,G,...,G,..., G } 2 k ene Partton der Menge der Merkmalsträger n lassen. Mt dem (teratven) Austauschverfahren kann ene optmerte Partton P der Menge der Merkmalsträger N n ene vorgegebene Anzahl von lassen we folgt gefunden werden. Zunächst st zur Steuerung der lassenbldung ene der Problemstellung/Zelsetzung und dem Merkmalstyp (gegebenenfalls auch den Merkmalstypen) adäquate Gütefunkton: g ( X,P ) zu bestmmen, de msst, we gut de Partton P de Ähnlchketsstruktur der Daten X repräsentert, oder anders formulert, de angbt, we homogen (m Mttel) de gebldeten lassen snd.

6 Solche Gütefunktonen werden n der Regel mnmert, da se m Allgemenen mt Hlfe von Streuungsmaßen konstruert werden. Im Folgenden wrd nur dese Art von Gütefunkton behandelt. Dann st n enem zweten Schrtt ene so genannte Startpartton n lassen 0 P = 0 0 0 { G, G,..., G } 2 vorzugeben oder zu erzeugen. Be praktschen Anwendungen wrd dese Startpartton (der Enfachhet halber) m Allgemenen zufällg (mt Hlfe von Zufallszahlen) erzeugt, d.h. de Merkmalsträger werden zufällg jewels ener und nur ener der vorgegebenen lassen zugeordnet. 2) De Art der Erzeugung der Startpartton hat kenen drekten Enfluss auf de Güte des lassfkatonsergebnsses. Das bedeutet, ene m Snne der Gütefunkton "gute" Startpartton führt ncht zwangsläufg auch zu enem "guten" lassfkatonsergebns. In enem drtten Schrtt wrd nun versucht, de Startpartton 0 P zu verbessern. Jeder Verbesserungsversuch wrd mt der Gütefunkton g ( X,P ) gemessen. Dabe wrd versucht, den Wert der Gütefunkton zu verrngern, wel de (mttlere) Streuung nnerhalb der lassen sukzessve klener und somt de Partton "besser" werden. Jene Partton P, für de ( ) g X,P en Extremum, m Allgemenen das Mnmum, annmmt, glt als "optmale" Partton von N, beschreben durch X, n lassen und somt als Lösung des lassfkatonsproblems. 0 0 0 0 De Verbesserung der Startpartton { G, G,..., G } P =, d.h. de Suche nach dem Mnmum der Gütefunkton, wrd we folgt teratv durchgeführt. 2 2) Für de Güte enes lassfkatonsergebnsses st es ncht entschedend, we de Startpartton erzeugt wrd. Auch ene m Snne des gewählten Gütekrterums "gute" Startpartton gewährlestet ncht, dass das lassfkatonsergebns besser st, als be "schlechteren" Startparttonen.

0 Begnnend mt ( X, ) ( j =,2,..., n P 7 g und j = wrd für jeden enzelnen Merkmalsträger ) sukzessve geprüft, ob es m Hnblck auf ene Verrngerung (Verbesserung) der Gütefunkton g ( X,P ) von Vortel st, desen Merkmalsträger aus sener lasse zu entfernen und ener anderen lasse zuzuordnen. Wenn ene Verrngerung des Wertes der Gütefunkton möglch st, wrd der Merkmalsträger (der probewese und vorläufg allen anderen lassen zugeordnet wrd) jener lasse zugeordnet, de de größte Verklenerung der Gütefunkton bewrkt. Dann wrd für den Merkmalsträger j = 2 überprüft, ob durch ene Verschebung n ene andere lasse de Gütefunkton verklenert werden kann und so fort. Wenn de Zuordnung aller n Merkmalsträger derart überprüft worden st und wenn - was allerdngs de Regel st - Merkmalsträger anderen lassen zugeordnet wurden, so glt für dese (bessere) Partton 0 ( X,P ) g ( X, P ) g <. P : Deses Vorgehen wrd - begnnend weder mt j = - so lange fortgesetzt, bs ene wetere Verklenerung des Wertes der Gütefunkton - zumndest auf dese Wese - ncht mehr möglch st, d.h. so lange, bs n ener Iteratonsphase ken Merkmalsträger mehr ener anderen lasse zugeordnet wrd oder so lange bs de Verrngerung des Wertes der Gütefunkton m Rahmen der Rechengenaugket ncht mehr berückschtgt werden kann. Es entsteht somt ene Folge von Parttonen: P 0,P,..., P de m Snne der Gütefunkton mmer "besser" snd, für de also glt: 0 ( X,P ) g( X,P ) > > g( X, P ) g L. De Partton >

P = { G,G,..., G } 2 8 glt - relatv zur Startpartton durch X n vorgegebene lassen. 0 P - als "optmale" Partton von N beschreben So enfach und plausbel deser Algorthmus zur Erzeugung ener "optmalen" Partton P auch st, so velfältg snd de Probleme m Detal, de sch mt sener Anwendung ergeben. Das Austauschverfahren lefert ene m (numerschen) Snne der Gütefunkton g ( X,P ) "beste" Partton P. De Frage, ob dese Partton auch de hnschtlch des Untersuchungszels brauchbarste/nützlchste st, st formal (numersch) ncht zu beantworten. Für das Austauschverfahren (und andere parttonerende Verfahren) st de Anzahl der zu bldenden lassen vorzugeben. Da den Daten enersets m Allgemenen kene lassenstruktur n genau lassen aufgedrückt werden soll, anderersets aber Informatonen über de optmale (m Snne von "wahre" oder "natürlche") Anzahl der lassen n aller Regel fehlen, st das Problem ener zweckdenlchen, der Datenstruktur entsprechenden Festsetzung von ncht endeutg lösbar. Es st daher keneswegs auszuschleßen, dass de "optmale" lassenanzahl verfehlt wrd. Be praktschen Anwendungen war häufg ene herarchsch-agglomeratve "Vor-lassfkaton", de nur zu dem Zweck durchgeführt wurde, Informatonen über de Anzahl der zu bldenden (natürlchen) lassen zu gewnnen, besonders hlfrech (vgl. Abbldung : Dendrogramm). Gelegentlch gbt es auch theoretsche Anhaltspunkte für de Festlegung der lassenanzahl. Für de Entelung der Länder der Erde nach hrem "Entwcklungsstand" kann z.b. der Standpunkt vertreten werden, dass es "unterentwckelte" und "hoch entwckelte" Länder sowe zumndest ene lasse von Län-

9 dern (Schwellenländer) gbt, de sch hnschtlch des Entwcklungsstands zwschen desen beden Typen befnden. Somt st mn = 3 ene untere Grenze der lassenanzahl. Wenn man es für möglch und wahrschenlch hält, dass zwschen den beden extremen Typen von Ländern mehr als en Typ von "Schwellenländern", d.h. mehr als ene lasse exstert, dann könnte mt max = 8 (also sechs Typen von Schwellenländern) auch ene obere Grenze für angegeben werden. Auch wenn das Problem der Bestmmung der optmalen lassenanzahl gelöst wäre, so wäre dennoch ncht gewährlestet, dass das Austauschverfahren de m numerschen Snne von g ( X,P ) global optmale Partton opt P fndet, da ja - n der Regel - ncht alle möglchen Parttonen von N n lassen erzeugt und auf hre Optmaltät hn untersucht werden können. Es st davon auszugehen, dass das Austauschverfahren nur ene suboptmale, d.h. "lokal optmale" Partton Ob de Partton P lefert. P (nur) lokal optmal oder global optmal st und - gegebenenfalls - we gut das globale Optmum approxmert wurde, lässt sch m Allgemenen ncht feststellen. De Partton P st (allenfalls) auch nur bezüglch des oben beschrebenen Austauschalgorthmus "optmal". Werden n der Iteratonsphase jewels ncht nur en, sondern zwe oder mehrere Merkmalsträger glechzetg und vorläufg n de anderen lassen transferert, so können sch andere lokal optmale Parttonen ergeben, de das globale Optmum besser, aber auch schlechter approxmeren. Im Übrgen st de Frage nach der "global optmalen" Partton be praktschen Anwendungen ncht von überragender Bedeutung. Wenn de gesuchten lassen "wohlseparert" snd, dann werden se auch von fast jedem Verfahren gefunden (vorausgesetzt, de wahre lassenanzahl legt zwschen mn und max ). Snd se es ncht, berühren sch de lassen oder gbt es Merkmalsträ-

0 ger, de m Anzehungsberech von zwe oder mehreren lassen legen, dann st das onzept "natürlcher" lassen zumndest n Frage gestellt, denn zwschen den beden Extremen "homogene" Gesamthet enersets und natürlche lassenstruktur anderersets st jede Struktur denkbar; und jedes lassfkatonsverfahren wrd den Daten n der Regel ene rgendwe geartete (verfahrensspezfsche) lassenstruktur aufdrücken. 3) Dabe st es praktsch nur von gernger Bedeutung für de Egenschaften der enzelnen lassen ob enzelne Merkmalsträger, de sch m Anzehungsberech mehrerer lassen befnden, der enen oder der anderen lasse zugeordnet werden. Zu bedenken st auch, dass das Austauschverfahren en "globales" Verfahren n dem Snne st, dass ene bestmmte Gütefunkton g ( X,P ) global - über alle lassen glechzetg - optmert wrd, so dass (m Allgemenen) homogene und heterogene lassen n ener Partton P glechzetg vorkommen. "Im Mttel" werden homogene lassen erzeugt! De Frage, we stark de lassenstruktur n ener Partton P ausgeprägt st, kann be der lassendagnose beantwortet werden. 2.3 Herarchsch-agglomeratve Verfahren Es gbt ene ganze Rehe verschedener herarchsch-agglomeratver Verfahren. De mesten haben allerdngs zum Tel erheblche Mängel. Se konstrueren ene Herarche von lassen we folgt. Ausgangspunkt der lassenbldung snd n lassen vom Umfang, also de n enzelnen Merkmalsträger. Auf jeder der nsgesamt r = n Fusonsstufen werden sukzessve jewels jene beden lassen verengt (fusonert), de n enem bestmmten, noch näher zu defnerenden Snne enander am "ähnlchsten" snd, bs auf der ( n )-ten Fusonsstufe alle n Merkmalsträger ener 3) Bespelswese ene herarchsche Struktur.

lasse angehören. De Ähnlchket zweer lassen wrd mt bestmmten Gütefunktonen gemessen. Aus deser Vorgehenswese folgt allerdngs en ncht unwesentlcher Nachtel deses Verfahrenstyps. "Optmert" wrd nämlch sukzessve jede enzelne Fuson, das bedeutet, der Aufbau ener Herarche, ncht jedoch de Partton der r-ten Stufe P n = n r lassen. Optmert wrd auch nur durch sukzessve - n enem bestmmten Snne optmale - Fusonen von genau zwe lassen, ncht jedoch durch sukzessve Fusonen von mehr als zwe lassen, was grundsätzlch möglch st. Hnzu kommt, und das st wesentlch, dass ene Fuson zweer lassen n dem Snne rreversbel st, dass ene auf der r-ten Fusonsstufe fusonerte lasse ncht weder aus der Verengungsklasse entfernt werden kann, auch wenn es sch durch andere Analyseverfahren (z.b. en teratves Verfahren) herausstellen sollte, dass genau dese lasse m Snne des gewählten Gütekrterums besser Tel ener anderen lasse wäre. Aus desen Überlegungen folgt, dass herarchsch-agglomeratve Verfahren sowohl de "optmale" Herarche we auch de optmale Partton der r-ten Stufe verfehlen können, wel auf den unteren Stufen der Herarche en "falscher" Weg engeschlagen werden kann. Das de so entstehende Herarche von lassen repräsenterende Stammbaum- Schema, das Dendrogramm (vgl. Abbldung ), wrd m Allgemenen durch ene Skala ergänzt, auf der de Homogentät oder komplementär de Heterogentät h ( G) r der r-ten Fusonsstufe gebldeten lasse G oder, der auf n bestmmten Fällen de Homogentät der Partton der r-ten Stufe ( r =,2,...,n ) oder

2 der Heterogentätszuwachs h( G ) 0, der aus der Fuson zweer lassen resultert abgetragen wrd. Abbldung : Dendrogramm De lasse G entsteht bespelswese aus der Fuson der lassen G a und G b. De beden zugehörgen Tel-Stammbäume werden auf dem Nveau h ( G ) h( G ) = verbunden. r a Gb Das Dendrogramm st - be ncht allzu großer Anzahl von Merkmalsträgern - en sehr anschaulches Instrument zur Beurtelung von lassfkatonsergebnssen. Es veranschaulcht ncht nur de Herarche der lassen als solche, sondern nformert auch über den Verlauf der lassenbldung und de Daten- /lassenstruktur. So st zunächst enmal abzulesen, welche Merkmalsträger paarwese enander am ähnlchsten snd, welche Merkmalsträger auf welcher Stufe ener bestmmten lasse zugeordnet snd und natürlch auch, welche lassen enander ähnlch und welche enander unähnlch snd. Es st ferner abzulesen, auf

3 welchem "Homogentätsnveau" de ersten "größeren" lassen gebldet werden und we homogen de enzelnen lassen snd. Auf jeder der r =,2,...,n Fusonsstufen ergbt sch ene Partton P n = n r lassen, so dass de zur Datenmatrx X gehörende Herarche ( H ) auch durch de Folge von Parttonen H ( X) = { P } n beschreben werden kann. = ) r De Homogentät der lassen h ( G nmmt mt zunehmendem r, also mt abnehmender Anzahl an lassen, m Allgemenen ab (de Heterogentät nmmt zu), d.h. es glt h ( G ) h ( G) Bespelswese st, falls G G G = G G 2 und. ( G ) = h( G) h( G ) 0 h 2 n 2 n 2 >. Daraus folgt, dass aus der Homogentätsdfferenz ( G ) 0 abgelesen werden kann, ob de lasse h > zweer lassen G stabl, d.h. gut ausgeprägt und von den anderen lassen separert st, dann st h ( G ) groß - vgl. h( G 2 ) - oder ob se nstabl, heterogen, noch ncht abgeschlossen st, dann st h ( G ) klen. Wenn der Datensatz gut - herarchsch - strukturert st, dann gbt es mehrere stable lassen mt (relatv) großer Homogentätsdfferenz. Be velen praktschen Anwendungen 4) st de Herarche der lassen selbst von gerngem Interesse, da es fraglch st, ob en Datensatz durch ene herar- 4) In der Bologe st de herarchsche lassfkaton von Organsmen (bespelswese n Famle, Unterfamle, Gattung, Art) von großer Bedeutung.

4 chsche lassenstruktur gekennzechnet st oder ob dese Struktur durch de Art der lassenbldung nur den Daten aufgedrückt wurde. Wrd ene Partton des Datensatzes mt dsjunkten lassen angestrebt, kann en Dendrogramm Indzen für de optmale lassenanzahl lefern. Im obgen Dendrogramm könnte der Datensatz zum Bespel n = 2 oder auch = 4 lassen (vgl. P 4 ) zerlegt und gegebenenfalls mt dem Austauschverfahren verbessert werden. Außerdem lefern bestmmte herarchsch-agglomeratve Verfahren nützlche Informatonen über de Datenstruktur, bespelswese über mehrdmensonale Ausreßer. De exsterenden herarchsch-agglomeratven Verfahren unterscheden sch nur durch de Vorschrft, durch de Gütefunkton, nach welcher auf jeder Fusonsstufe de Un-/Ähnlchket zweer lassen gemessen wrd. Unterschedlche Vorstellungen von der "Art der Homogentät" der zu bldenden lassen werden durch dese Vorschrft realsert. 2.4 Maße zur Messung der Güte enes lassfkatonsergebnsses 2.4. Vorbemerkung De lestungsfähgsten lassfkatonsverfahren steuern de lassenbldung mt Hlfe von Gütefunktonen, de auf Streuungsmaßen beruhen. Dahnter steht de Vorstellung, dass de Merkmalsträger, de ener lasse angehören, enander dann ähnlch/glechartg snd, wenn de Streuung nnerhalb der lasse klen st. 2.4.2 Merkmalstypen Merkmalsträger werden durch Merkmale beschreben. Merkmale snd messbare Egenschaften enes Merkmalsträgers. Bem Messen der Egenschaften werden den Merkmalsträgern unter Verwendung bestmmter Skalen - d.h. un-