2. Datenvorverarbeitung

Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy c-means behandelt. Bevor man diese Verfahren anwenden kann, müssen die Datensätze, die dafür verwendet werden sollen, einer Datenvorverarbeitung unterzogen werden. Dieser Vorgang ist sehr wichtig, da die meistens Daten ohne diesen Schritt unbrauchbar wären und die Ergebnisse stark verfälscht würden. Zur Datenvorverarbeitung gehören die folgenden drei Schritte: Datenselektion, Datenvorverarbeitung und Datentransformation. Der nächste Schritt wird dann das Data Mining, d.h. es werden die oben genannten Methoden auf die Daten angewandt. Im letzten Schritt werden dann die Ergebnisse evaluiert und interpretiert.

Inhalt 1.Einleitung... 3 2.Datenvorverarbeitung...4 2.1Daten Selektion... 4 2.2Datentransformation...5 3.Data Mining... 7 3.1Ziele des Clustering... 7 3.2k-means... 7 3.3Fuzzy c-means...8 4.Evaluation & Interpretation... 10 4.1Ergebnisse des k-means Clustering...10 4.2Ergebnisse des c-means Clustering...11 5.Anhang... 12

1. Einleitung Als Praktikumsaufgabe wird im Fach Wissensextraktion eine Projektarbeit erstellt, die sich mit einem bestimmten Verfahren des Data Mining beschäftigt. Unter Data Mining versteht man, dass anwenden von statistischen und mathematischen Methoden auf einen Datenbestand, mit dem Ziel der Mustererkennung, um Datensätzen bestimmten Gruppen zu zuordnen oder Vorhersagen für bestimmt Attribute dieser Datensätze treffen zu können. In dieser Projektarbeit wird die Methode des Clustering behandelt. Als Datenbestand wurden 211 Datensätze eines Fragenbogens zu Verfügung gestellt. Der Fragebogen wurde 2006 von Prof. Dr. Eichholz im Rahmen seiner Lehrveranstaltung Marktforschung von Studenten der Hochschule ausgefüllt. Die Studenten sollten ihre Meinung zur Hansestadt Wismar und zur Hochschule Wismar abgeben. Ziel des Clustering ist es, dass 3 bis 5 Cluster entstehen. Die Cluster sollen Aussagen über Studenten treffen, ob sie in Wismar wohnen oder nicht.

2. Datenvorverarbeitung 2.1 Daten Selektion Da nicht alle Datensätze des Datenbestandes für das Clustering geeignet sind, werden im ersten Schritt nicht verwendbare Datensätze entfernt. Dazu wurde mit Hilfe von Excel die Anzahl der fehlenden Attribute bestimmt. Das Ergebnis ergab, dass nur 30 der 211 vollständig ausgefüllt wurden. Der Fragebogen von Prof. Dr. Eichholz hat 82 Angaben die in 7 Kategorien eingeteilt werden. Es muss festgelegt werden, welche Kategorien eine größere Aussagekraft haben. Es gibt die folgenden Kategorien: Organisation Ausstattung/Infrastruktur Verwaltung Freizeit Stadt und Umgebung Gesamturteil Allgemein Kategorien der Wichtigkeit nach aufgezählt: 1. Gesamturteil 2. Allgemein 3. Organisation 4. Ausstattung/Infrastruktur 5. Verwaltung 6. Stadt und Umgebung 7. Freizeit Die wichtigste Kategorie ist das Gesamturteil, da sie alle anderen Angaben zusammenfasst und die Meinung des befragten in eine Note wiedergibt. Da es eingeschriebene Studenten gibt, die in Wismar studieren, aber jeden Tag nach Wismar fahren müssen, kann man von ihnen nicht erwarten, dass sie Angaben zur Aktivitäten machen, die nicht zur Hochschule gehören. Was jeder Student angeben kann, sind Dinge, wie Alter, Studiengang usw. Aus diesem Grund wurden 4 Datensätze entfernt, bei denen kein Alter oder kein Bundesland angegeben wurde. Im Nächsten Schritt wurden die Kategorien Organisation, Ausstattung/Infrastruktur und Verwaltung untersucht und alle Datensätze entfernt, bei denen mehr als 10% der Angaben in diesen Kategorien fehlten. Nach diesem Schritt sind noch 165 Datensätze übrig.

2.2 Datentransformation Der nächste Schritt in der Datenvorverarbeitung ist die Datentransformation. Bei der Datentransformation werden Angaben wie Alter und Bundesland in Gruppen eingeteilt und diese Anstelle der echten Daten verwendet. Begonnen wurde mit der Einführung von Altersgruppen. Die Altersgruppen wurden eingeteilt mit der Vorgabe, dass der Abstand in den Gruppen möglichst identisch ist. Die obere und untere Altersgrenze wurde durch Min-Max Methode bestimmt. 1. Altersgruppe 19-21 2. Altersgruppe 22-24 3. Altersgruppe 25-27 4. Altersgruppe 28-30 5. Altersgruppe 31-34 Abbildung 1: Zeigt die Verteilung der Altergruppen auf den Datenbestand

Danach erfolgte die Gruppierung der Studenten nach der Entfernung ihrer Heimat. 1. Gruppe: Mecklenburg-Vorpommern 2. Gruppe: Brandenburg, Berlin, Hamburg, Bremen, Schleswig-Holstein, Sachsen- Anhalt und Niedersachen 3. Gruppe: Sachsen, Thüringen, Hessen und Nordrhein-Westfalen 4. Gruppe: Saarland, Bayern, Rheinland-Pfalz und Baden-Württemberg 5. Gruppe: Ausland Abbildung 2: Zeigt die Verteilung der Bundesländer der Studenten Der letzte Schritt der Datentransformation ist, die Änderung der Angaben mit - und Leerzeichen, sie werden alle in eine Null verwandelt, damit die Angaben alle einheitlich sind und anschließend von KNIME besser verarbeitet werden können.

3. Data Mining 3.1 Ziele des Clustering Ziel der Projektarbeit ist es am Ende 3-5 differenzbare Gruppen von Studenten zu erhalten. Beim Clustering werden alle Angaben aus dem Fragebogen von Kategorie 1 bis 6 berücksichtigt. 3.2 k-means Die erst Technik die verwendet wurde ist k-means. Bei dieser Technik werden die Datensätze einem Cluster zufällig zugewiesen. Danach wird der Mittelpunkt jedes Clusters bestimmt und die Datensätze werden neu verteilt anhand ihrer Entfernung zu den Mittelpunkten. Dieser Vorgang wird so oft wiederholt bis keine Änderungen in den Clustern mehr stattfinden. Bei der Verwendung von KNIME, kann man die Anzahl der Iterationsschritte festlegen, so dass man mehrere Versuche machen muss, damit man stabile Cluster bekommt. Wie schon in der Einleitung erwähnt, ist es das Ziel drei bis fünf Cluster zu erhalten. Dafür wurden drei Versuchsreihen durchgeführt, je eine für drei, vier oder fünf Cluster. Pro Versuchsreihe wurden neun Versuche mit verschiedenen Anzahlen von Iterationsschritten benutzt. Tabelle 1: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten(5 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 11 11 11 11 11 11 11 Cluster 1 59 61 60 60 60 60 60 60 60 Cluster 2 88 83 78 78 78 78 78 78 78 Cluster 3 3 3 3 3 3 3 3 3 3 Cluster 4 5 8 13 13 13 13 13 13 13 Tabelle 2: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten(4 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 10 10 10 10 10 10 10 Cluster 1 62 67 67 67 67 67 67 67 67 Cluster 2 90 85 85 85 85 85 85 85 85 Cluster 3 3 3 3 3 3 3 3 3 3

Tabelle 3: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten (3 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 10 10 10 10 10 10 10 Cluster 1 65 72 77 77 77 77 77 77 77 Cluster 2 90 83 78 78 78 78 78 78 78 Wie man in den Tabellen erkennen kann, stabilisieren sich die Verteilung der Cluster meist schon nach zwei bzw. fünf Iterationen. 3.3 Fuzzy c-means Die zweite Technik die verwendet wurde ist Fuzzy c-means. Dabei handelt es sich um eine ähnliche Technik wie k-means. Der Unterschied zu k-means ist, dass bei Fuzzy c-means jeder Datensatz zu einer bestimmten Wahrscheinlichkeit jedem Cluster angehört. Dem Cluster mit der größten Wahrscheinlichkeit, wird der Datensatz dann zugeordnet. Anders als bei der k- means Methode, wird bei den drei Versuchsreihen der Fuzzy c-means Methode, ein fester Wert für die Iterationsschritte genommen und stattdessen der Wert des Fuzzifier verändert. Dieser Wert legt fest, wie vielfach die Cluster in einander überlappen dürfen. Alle Versuchsreihen werden, mit 200 Iterationsschritten durchgeführt. Tabelle 4: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 33 18 0 77 18 5 22 55 3 0 Cluster 1 42 31 0 0 0 78 63 5 32 53 Cluster 2 43 38 85 5 74 0 45 75 46 65 Cluster 3 24 37 79 0 0 20 0 5 70 20 Cluster 4 23 41 1 83 73 62 35 25 14 27 Tabelle 5: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 41 52 0 76 0 7 76 76 19 14 Cluster 1 34 40 0 3 80 78 80 80 11 18 Cluster 2 27 31 85 11 80 76 3 3 64 61 Cluster 3 63 42 80 75 5 4 6 6 71 72

Tabelle 6: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 47 51 85 25 76 83 73 75 0 18 Cluster 1 64 53 0 78 80 81 71 7 75 72 Cluster 2 54 61 80 62 9 1 21 83 90 75 Wie man in den drei Tabellen erkennen kann, verändern sich die Cluster Größen mit größer werdenden Fuzzifier. Es muss damit gerechnet werden, dass ab einem Fuzzifier von 1,2 die Cluster nicht länger stabil sind. D.h. wenn man die Berechnung erneut durchführt, verändern sich die Cluster in ihre Größe. Dieser Effekt konnte auch schon bei der ersten Versuchsreihe mit 5 Cluster bei einem Fuzzifier von 1,1 beobachtet werden, was zufolge hat, dass diese Versuchsreihe nicht weiter ausgewertet wird. Es werden also nur die Cluster betrachtet, die bei der Versuchsreihe zwei und drei, bei einem Fuzzifier von 1,1, entstanden sind.

4. Evaluation & Interpretation 4.1 Ergebnisse des k-means Clustering Nachdem die Cluster der einzelnen Versuchsreihen mit einander verglichen worden sind, fällt auf, dass die Cluster eins und zwei aus der fünf Cluster Versuchsreihe, nahezu komplett in den Clustern eins und zwei aus der drei Cluster Versuchsreihen wieder zu finden sind. Die Cluster drei und vier aus der fünf Cluster Versuchsreihe auf die Cluster eins und zwei aufgeteilt wurden. Der Cluster null bleibt fast gleich, nur ein Datensatz ist an den Cluster eins abgewandert. Daraus kann man schließen, dass der Datenbestand am besten in drei Teilmengen untergliedert werden sollte. Diese drei Teilmengen, könnte man wie folgt bezeichnen: 1. Studenten die in Wismar wohnen 2. Studenten die pendeln 3. Datensätze die zu wenig Informationen enthalten, um sie ein zuordnen Cluster null stellt die 3. Gruppe da, weil sich dort die höchste Quote an fehlenden Angaben finden lässt. Cluster eins stellt die 2. Gruppe da, weil sich der Großteil der fehlenden Angaben auf Wismar bezieht. Cluster zwei stellt die 1. Gruppe da, weil diese Datensätze die wenigsten fehlenden Angaben beinhalten.

4.2 Ergebnisse des c-means Clustering Wie in Kapitel 3.3 erwähnt, werden nur 2 Versuchsergebnisse betrachtet und ausgewertet. Nach eingehender Untersuchung der Versuchsergebnisse, musste festgestellt werden, dass die Ergebnisse nicht vergleichbar mit denen des k-means Verfahrens sind. Alle erzeugten Cluster beinhalten sehr unterschiedliche Datensätze, welche nicht äquivalent zu einander innerhalb des Clusters sind. Siehe Excel-Datei Ergebnisc-means. In den beiden Versuchen sind Datensätze mit Null fehlenden Angaben, zusammen mit Datensätzen, bei denen über 10 Angaben fehlen, gruppiert worden. Datensätze mit positiven Bewertungen sind zusammen mit negativen Bewertungen in einem Cluster zusammengefasst. Daraus folgt, dass die Clusterung zu keinen relevanten Ergebnissen führte und daher k-means vor zu ziehen ist.

5. Anhang Alle KNIME Workflows, Excel-Dateien, CSV-Dateien und die Dokumentation als PDF- Datei sind auf der CD.