2. Datenvorverarbeitung

Ähnliche Dokumente
reguläre Ausbildungsdauer verkürzte Ausbildungsdauer Ausbildungsverträge insgesamt Veränderung Zuständigkeitsbereich Veränderung Veränderung

EMAU Greifswald Studierende Köpfe (Deutsche) entsprechend amtl. Statistik WS 05/06

EMAU Greifswald Studierende Köpfe (Deutsche) entsprechend amtl. Statistik WS 15/16

FERIEN IM SCHULJAHR 2012/2013

Spielhallenkonzessionen Spielhallenstandorte Geldspielgeräte in Spielhallen

EMAU Greifswald Studierende Köpfe (Deutsche) entsprechend amtl. Statistik SS 11

623 Mecklenburg-Vorpommern

Impfquoten bei den Schuleingangsuntersuchungen ( 34, Abs. 11 IfSG) Deutschland 2007

Impfquoten bei den Schuleingangsuntersuchungen ( 34, Abs. 11 IfSG) Deutschland 2012

Bund Mitglieder nach KV-Bezirk 1-25 Familienangehörige nach KV-Bezirk Versicherte nach KV-Bezirk 51-75

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektarbeit Wissensextraktion

Thüringer Landesamt für Statistik

Größere Sorgen im Osten Sachsen-Anhalt an der Spitze. Vergleich nach Bundesländern. in Prozent. Ost. West

Bundesland. Bayern 112,3 190,5. Berlin 69,5 89,5. Brandenburg 29,3 40,3. Bremen 14,1 19,6. Hamburg 38,0 57,5. Hessen 79,8 125,3

Wie sehen Natur- und Waldkindergärten aus? Vergleich Kindertageseinrichtungen gesamt zu Natur- und Waldkindergärten

Mobilfunkverträge. Betrachtung nach Ausgaben und Hardware

Zustimmung zu Palliativmedizin und Hospizarbeit wächst

1.493 Spielhallenkonzessionen Spielhallenstandorte Geldspielgeräte in Spielhallen

Dem RKI übermittelte meldepflichtige Infektionskrankheiten bei Asylsuchenden in Deutschland

Basiswissen Hochschulen

Statistik II. Begriff, Begründung: Statistik II, WS 2003/2004, Seite 1 von 7

Factsheet. Kinderarmut. Kinder im SGB-II-Bezug in Deutschland. SGB-II-Bezug in den Jahren 2011 und 2015 im Vergleich 14,3 14,7. Deutschland 19,3 17,0

Entwicklung der Arbeitslosenquote für Deutschland, West- und Ostdeutschland von 1991 bis heute

Bevölkerung und Erwerbstätigkeit

Armutsgefährdungsquoten nach Bundesländern (Teil 1)

0,19% 15% 5% 0,11% 0,09%

Produzierendes Gewerbe

Geburten je Frau im Freistaat Sachsen

Gewerbliche Unternehmensgründungen nach Bundesländern

Gewerbeanmeldungen nach Bundesländern

Sandra Fendrich, Dr. Thomas Mühlmann Arbeitsstelle Kinder- und Jugendhilfestatistik Auftaktveranstaltung des EFZA 02. November 2015, Berlin

(BIAJ) An Interessierte Knochenhauerstraße 20-25

Bevölkerung und Erwerbstätigkeit

DAI Deutsches Aktieninstitut e.v.

CHECK24-Autokreditanalyse

Ergebnisauswertungen zu Die Slogans der Bundesländer

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung in den Bundesländern. Bevölkerung mit MH an der Gesamtbevölkerung 2013

10 Schulzeit und Hausaufgaben

Zahl der Wahlkreise und Mandate in den Ländern der Bundesrepublik Deutschland

Lesekompetenz bei PISA und IGLU

Qualitätssicherungsbericht. Besser-Leben-Programm DMP. Asthma bronchiale. Auswertungszeitraum:

Gewalttaten mit rechtsextremistischem Hintergrund Zahlen des Verfassungsschutzes *

Data Mining Cup deck using PDA or similar devices. Wissensextraktion Multimedia Engineering

Leben in Bayern. II. Bevölkerung: Hohe Attraktivität Bayerns. Grafiken. In Bayern zweitgrößtes Bevölkerungswachstum


Raum) in den alten und neuen Bundesländern sowie Deutschland insgesamt nach Hochbausparten. Entwicklung des Volumens der Baugenehmigungen (umbauter

Delphi-Studie zur Entwicklung eines Studienangebots im Bereich Bildungs- und Medienmanagement Auswertung der zweiten Befragungsrunde Kurzbericht

Ostdeutsche Bundesländer sind führend bei der Frauenquote Hamburg ist Hauptstadt der Chefs

Landeskunde ist ein wichtigster Teil des Fremdsprachenlernens.

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Bewerbungsbogen. Regierungsinspektoranwärter/ - in. Studium Laufbahn des gehobenen nichttechnischen Dienstes - Diplom-Verwaltungswirt/-in

Demographie_Begründungsdokument_ von 5

Arbeitsblatt Bundesrepublik Deutschland Lösungsvorschläge. Fülle die Lücken des Textes mit den unten stehenden Begriffen aus!

Dokumentation der Maßnahmen in der Gruppenprophylaxe

Dekubitusprophylaxe Ergebnisse der Bundes- und Landesebene

14 Toleranz Freundschaft mit Menschen aus anderen Ländern

Qualitätssicherungsbericht. Besser-Leben-Programm DMP. Koronare Herzkrankheit. Auswertungszeitraum:

Ursachen hoher Ausbildungs-Abbrecherquoten. Erfolg und Misserfolg der Berufseinstiegsbegleitung

Schriftliche Kleine Anfrage

Presse-Information. Rahmendaten zur Studie

Auswertung. Fachabteilung Entwicklung 1991 bis 2003 Kinderheilkunde -14,09% Kinderchirurgie -29,29% Kinder- und Jugendpsychiatrie 5,35% Gesamt -13,00%

Bevölkerung nach demografischen Strukturmerkmalen

Dokumentation der Maßnahmen in der Gruppenprophylaxe

Übersicht der Grunddaten zu den Indikatoren C8-C11 (alle Daten mit dem Bezugsjahr 2004) C08 C09* C10 C11. Untersuchte. Proben pro 1.

Dem Robert Koch-Institut übermittelte meldepflichtige Infektionskrankheiten bei Asylsuchenden in Deutschland

Halle (Saale) 17. Februar HERZLICH WILLKOMMEN. Pressefrühstück 2016

1.1.1 Entwicklung der Lebenserwartung in Deutschland

2. Kurzbericht: Pflegestatistik 1999

Deckungsumfänge in der Kfz-Versicherung nach Wohnort und Alter des Versicherungsnehmers. September 2016

Vorbemerkung der Fragesteller ImRahmenderQualifizierungsinitiativeAufstiegdurchBildung (Bundestagsdrucksache16/7750)hatdieBundesregierungdasProgramm

Bewertungsausschuss nach 87 Absatz 1 Satz 1 SGB V in seiner 430. Sitzung am 12. Dezember 2018 Geschäftsführung des Bewertungsausschusses

Forschungsberichte aus dem Institut der deutschen Wirtschaft Köln Nr. 78. Ralph Brügelmann / Thilo Schaefer. Die Schuldenbremse in den Bundesländern

Anhang C2 zu "Das Wahlsystem der Bundesrepublik Deutschland" von Joachim Behnke

WSI. Betreuungsquoten von Kindern. Kinder unter drei Jahren sind mit zunehmendem Alter häufiger in Tagesbetreuung GENDERDATENPORTAL.

Tabelle 1: Assoziation mit dem Datum 9. November 1989 Was von dem Folgenden verbinden Sie mit dem Datum 9. November 1989 am ehesten?

1.4.1 Sterblichkeit in Ost- und Westdeutschland

Tarifentgelte für die chemische Industrie. in den einzelnen Bundesländern

Windenergie und Flugsicherung

STATISTISCHE BUNDESAMT (2017): STATISTIK DER KINDER- UND JUGENDHILFE

Baden-Württemberg. Block 1: Block 2: Block 3: Block 1:

Schuldenbarometer 2012

Tourismusentwicklung Sachsen 2016

Schulsysteme der Länder Berufsschulreife Mittlere Reife Fachhochschulreife Allg. Hochschulreife 1

Dokumentation der Maßnahmen in der Gruppenprophylaxe

mittl. Bild. Absch Volks-/ Hauptschule Jahre Jahre Jahre Jahre Basis (=100%) Befragungszeitraum:

Kreditstudie. Kreditsumme, -zins und -laufzeit betrachtet nach Wohnort und Geschlecht des/r Kreditnehmer/s

Tagesbetreuung für Kinder im Elementarbereich

Die Schulden der Kommunen: Welche Rolle spielen sie bei einer Altschuldenregelung?

Altersgrenzen bei der Feuerwehr

Aktuelle Grundgehaltssätze der Besoldungsordnung A im Bund und in den Ländern

Analysen zur Einkommensarmut mit dem Mikrozensus

Mittelständisches Unternehmertum

Online-Shopping. Beliebteste Produktkategorien, Preise und Kaufzeitpunkte im CHECK24-Marktplatz

Arbeit. Bevölkerugsfortschreibung (Basis: Zensus 2011). Spendenkonto: Bank für Sozialwirtschaft AG BIC: BFSWDE33HAN IBAN: DE

Digitale Entwicklung in Hamburg und Schleswig-Holstein. September 2009

DEUTSCHES SPORTABZEICHEN

Fragebogen für Mädchen

Entwicklung des deutschen PV-Marktes Auswertung und grafische Darstellung der Meldedaten der Bundesnetzagentur nach 16 (2) EEG 2009 Stand 31.3.

Transkript:

Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy c-means behandelt. Bevor man diese Verfahren anwenden kann, müssen die Datensätze, die dafür verwendet werden sollen, einer Datenvorverarbeitung unterzogen werden. Dieser Vorgang ist sehr wichtig, da die meistens Daten ohne diesen Schritt unbrauchbar wären und die Ergebnisse stark verfälscht würden. Zur Datenvorverarbeitung gehören die folgenden drei Schritte: Datenselektion, Datenvorverarbeitung und Datentransformation. Der nächste Schritt wird dann das Data Mining, d.h. es werden die oben genannten Methoden auf die Daten angewandt. Im letzten Schritt werden dann die Ergebnisse evaluiert und interpretiert.

Inhalt 1.Einleitung... 3 2.Datenvorverarbeitung...4 2.1Daten Selektion... 4 2.2Datentransformation...5 3.Data Mining... 7 3.1Ziele des Clustering... 7 3.2k-means... 7 3.3Fuzzy c-means...8 4.Evaluation & Interpretation... 10 4.1Ergebnisse des k-means Clustering...10 4.2Ergebnisse des c-means Clustering...11 5.Anhang... 12

1. Einleitung Als Praktikumsaufgabe wird im Fach Wissensextraktion eine Projektarbeit erstellt, die sich mit einem bestimmten Verfahren des Data Mining beschäftigt. Unter Data Mining versteht man, dass anwenden von statistischen und mathematischen Methoden auf einen Datenbestand, mit dem Ziel der Mustererkennung, um Datensätzen bestimmten Gruppen zu zuordnen oder Vorhersagen für bestimmt Attribute dieser Datensätze treffen zu können. In dieser Projektarbeit wird die Methode des Clustering behandelt. Als Datenbestand wurden 211 Datensätze eines Fragenbogens zu Verfügung gestellt. Der Fragebogen wurde 2006 von Prof. Dr. Eichholz im Rahmen seiner Lehrveranstaltung Marktforschung von Studenten der Hochschule ausgefüllt. Die Studenten sollten ihre Meinung zur Hansestadt Wismar und zur Hochschule Wismar abgeben. Ziel des Clustering ist es, dass 3 bis 5 Cluster entstehen. Die Cluster sollen Aussagen über Studenten treffen, ob sie in Wismar wohnen oder nicht.

2. Datenvorverarbeitung 2.1 Daten Selektion Da nicht alle Datensätze des Datenbestandes für das Clustering geeignet sind, werden im ersten Schritt nicht verwendbare Datensätze entfernt. Dazu wurde mit Hilfe von Excel die Anzahl der fehlenden Attribute bestimmt. Das Ergebnis ergab, dass nur 30 der 211 vollständig ausgefüllt wurden. Der Fragebogen von Prof. Dr. Eichholz hat 82 Angaben die in 7 Kategorien eingeteilt werden. Es muss festgelegt werden, welche Kategorien eine größere Aussagekraft haben. Es gibt die folgenden Kategorien: Organisation Ausstattung/Infrastruktur Verwaltung Freizeit Stadt und Umgebung Gesamturteil Allgemein Kategorien der Wichtigkeit nach aufgezählt: 1. Gesamturteil 2. Allgemein 3. Organisation 4. Ausstattung/Infrastruktur 5. Verwaltung 6. Stadt und Umgebung 7. Freizeit Die wichtigste Kategorie ist das Gesamturteil, da sie alle anderen Angaben zusammenfasst und die Meinung des befragten in eine Note wiedergibt. Da es eingeschriebene Studenten gibt, die in Wismar studieren, aber jeden Tag nach Wismar fahren müssen, kann man von ihnen nicht erwarten, dass sie Angaben zur Aktivitäten machen, die nicht zur Hochschule gehören. Was jeder Student angeben kann, sind Dinge, wie Alter, Studiengang usw. Aus diesem Grund wurden 4 Datensätze entfernt, bei denen kein Alter oder kein Bundesland angegeben wurde. Im Nächsten Schritt wurden die Kategorien Organisation, Ausstattung/Infrastruktur und Verwaltung untersucht und alle Datensätze entfernt, bei denen mehr als 10% der Angaben in diesen Kategorien fehlten. Nach diesem Schritt sind noch 165 Datensätze übrig.

2.2 Datentransformation Der nächste Schritt in der Datenvorverarbeitung ist die Datentransformation. Bei der Datentransformation werden Angaben wie Alter und Bundesland in Gruppen eingeteilt und diese Anstelle der echten Daten verwendet. Begonnen wurde mit der Einführung von Altersgruppen. Die Altersgruppen wurden eingeteilt mit der Vorgabe, dass der Abstand in den Gruppen möglichst identisch ist. Die obere und untere Altersgrenze wurde durch Min-Max Methode bestimmt. 1. Altersgruppe 19-21 2. Altersgruppe 22-24 3. Altersgruppe 25-27 4. Altersgruppe 28-30 5. Altersgruppe 31-34 Abbildung 1: Zeigt die Verteilung der Altergruppen auf den Datenbestand

Danach erfolgte die Gruppierung der Studenten nach der Entfernung ihrer Heimat. 1. Gruppe: Mecklenburg-Vorpommern 2. Gruppe: Brandenburg, Berlin, Hamburg, Bremen, Schleswig-Holstein, Sachsen- Anhalt und Niedersachen 3. Gruppe: Sachsen, Thüringen, Hessen und Nordrhein-Westfalen 4. Gruppe: Saarland, Bayern, Rheinland-Pfalz und Baden-Württemberg 5. Gruppe: Ausland Abbildung 2: Zeigt die Verteilung der Bundesländer der Studenten Der letzte Schritt der Datentransformation ist, die Änderung der Angaben mit - und Leerzeichen, sie werden alle in eine Null verwandelt, damit die Angaben alle einheitlich sind und anschließend von KNIME besser verarbeitet werden können.

3. Data Mining 3.1 Ziele des Clustering Ziel der Projektarbeit ist es am Ende 3-5 differenzbare Gruppen von Studenten zu erhalten. Beim Clustering werden alle Angaben aus dem Fragebogen von Kategorie 1 bis 6 berücksichtigt. 3.2 k-means Die erst Technik die verwendet wurde ist k-means. Bei dieser Technik werden die Datensätze einem Cluster zufällig zugewiesen. Danach wird der Mittelpunkt jedes Clusters bestimmt und die Datensätze werden neu verteilt anhand ihrer Entfernung zu den Mittelpunkten. Dieser Vorgang wird so oft wiederholt bis keine Änderungen in den Clustern mehr stattfinden. Bei der Verwendung von KNIME, kann man die Anzahl der Iterationsschritte festlegen, so dass man mehrere Versuche machen muss, damit man stabile Cluster bekommt. Wie schon in der Einleitung erwähnt, ist es das Ziel drei bis fünf Cluster zu erhalten. Dafür wurden drei Versuchsreihen durchgeführt, je eine für drei, vier oder fünf Cluster. Pro Versuchsreihe wurden neun Versuche mit verschiedenen Anzahlen von Iterationsschritten benutzt. Tabelle 1: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten(5 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 11 11 11 11 11 11 11 Cluster 1 59 61 60 60 60 60 60 60 60 Cluster 2 88 83 78 78 78 78 78 78 78 Cluster 3 3 3 3 3 3 3 3 3 3 Cluster 4 5 8 13 13 13 13 13 13 13 Tabelle 2: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten(4 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 10 10 10 10 10 10 10 Cluster 1 62 67 67 67 67 67 67 67 67 Cluster 2 90 85 85 85 85 85 85 85 85 Cluster 3 3 3 3 3 3 3 3 3 3

Tabelle 3: Cluster Verteilung bei größer werdender Anzahl an Iterationsschritten (3 Cluster) Iterationen 1 2 5 10 20 50 100 200 500 Cluster 0 10 10 10 10 10 10 10 10 10 Cluster 1 65 72 77 77 77 77 77 77 77 Cluster 2 90 83 78 78 78 78 78 78 78 Wie man in den Tabellen erkennen kann, stabilisieren sich die Verteilung der Cluster meist schon nach zwei bzw. fünf Iterationen. 3.3 Fuzzy c-means Die zweite Technik die verwendet wurde ist Fuzzy c-means. Dabei handelt es sich um eine ähnliche Technik wie k-means. Der Unterschied zu k-means ist, dass bei Fuzzy c-means jeder Datensatz zu einer bestimmten Wahrscheinlichkeit jedem Cluster angehört. Dem Cluster mit der größten Wahrscheinlichkeit, wird der Datensatz dann zugeordnet. Anders als bei der k- means Methode, wird bei den drei Versuchsreihen der Fuzzy c-means Methode, ein fester Wert für die Iterationsschritte genommen und stattdessen der Wert des Fuzzifier verändert. Dieser Wert legt fest, wie vielfach die Cluster in einander überlappen dürfen. Alle Versuchsreihen werden, mit 200 Iterationsschritten durchgeführt. Tabelle 4: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 33 18 0 77 18 5 22 55 3 0 Cluster 1 42 31 0 0 0 78 63 5 32 53 Cluster 2 43 38 85 5 74 0 45 75 46 65 Cluster 3 24 37 79 0 0 20 0 5 70 20 Cluster 4 23 41 1 83 73 62 35 25 14 27 Tabelle 5: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 41 52 0 76 0 7 76 76 19 14 Cluster 1 34 40 0 3 80 78 80 80 11 18 Cluster 2 27 31 85 11 80 76 3 3 64 61 Cluster 3 63 42 80 75 5 4 6 6 71 72

Tabelle 6: Cluster Verteilung bei unterschiedlichen Fuzzifier Fuzzifier 1,1 1,2 1,3 1,5 1,7 1,9 2 2,5 3 5 Cluster 0 47 51 85 25 76 83 73 75 0 18 Cluster 1 64 53 0 78 80 81 71 7 75 72 Cluster 2 54 61 80 62 9 1 21 83 90 75 Wie man in den drei Tabellen erkennen kann, verändern sich die Cluster Größen mit größer werdenden Fuzzifier. Es muss damit gerechnet werden, dass ab einem Fuzzifier von 1,2 die Cluster nicht länger stabil sind. D.h. wenn man die Berechnung erneut durchführt, verändern sich die Cluster in ihre Größe. Dieser Effekt konnte auch schon bei der ersten Versuchsreihe mit 5 Cluster bei einem Fuzzifier von 1,1 beobachtet werden, was zufolge hat, dass diese Versuchsreihe nicht weiter ausgewertet wird. Es werden also nur die Cluster betrachtet, die bei der Versuchsreihe zwei und drei, bei einem Fuzzifier von 1,1, entstanden sind.

4. Evaluation & Interpretation 4.1 Ergebnisse des k-means Clustering Nachdem die Cluster der einzelnen Versuchsreihen mit einander verglichen worden sind, fällt auf, dass die Cluster eins und zwei aus der fünf Cluster Versuchsreihe, nahezu komplett in den Clustern eins und zwei aus der drei Cluster Versuchsreihen wieder zu finden sind. Die Cluster drei und vier aus der fünf Cluster Versuchsreihe auf die Cluster eins und zwei aufgeteilt wurden. Der Cluster null bleibt fast gleich, nur ein Datensatz ist an den Cluster eins abgewandert. Daraus kann man schließen, dass der Datenbestand am besten in drei Teilmengen untergliedert werden sollte. Diese drei Teilmengen, könnte man wie folgt bezeichnen: 1. Studenten die in Wismar wohnen 2. Studenten die pendeln 3. Datensätze die zu wenig Informationen enthalten, um sie ein zuordnen Cluster null stellt die 3. Gruppe da, weil sich dort die höchste Quote an fehlenden Angaben finden lässt. Cluster eins stellt die 2. Gruppe da, weil sich der Großteil der fehlenden Angaben auf Wismar bezieht. Cluster zwei stellt die 1. Gruppe da, weil diese Datensätze die wenigsten fehlenden Angaben beinhalten.

4.2 Ergebnisse des c-means Clustering Wie in Kapitel 3.3 erwähnt, werden nur 2 Versuchsergebnisse betrachtet und ausgewertet. Nach eingehender Untersuchung der Versuchsergebnisse, musste festgestellt werden, dass die Ergebnisse nicht vergleichbar mit denen des k-means Verfahrens sind. Alle erzeugten Cluster beinhalten sehr unterschiedliche Datensätze, welche nicht äquivalent zu einander innerhalb des Clusters sind. Siehe Excel-Datei Ergebnisc-means. In den beiden Versuchen sind Datensätze mit Null fehlenden Angaben, zusammen mit Datensätzen, bei denen über 10 Angaben fehlen, gruppiert worden. Datensätze mit positiven Bewertungen sind zusammen mit negativen Bewertungen in einem Cluster zusammengefasst. Daraus folgt, dass die Clusterung zu keinen relevanten Ergebnissen führte und daher k-means vor zu ziehen ist.

5. Anhang Alle KNIME Workflows, Excel-Dateien, CSV-Dateien und die Dokumentation als PDF- Datei sind auf der CD.