FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming.

Größe: px
Ab Seite anzeigen:

Download "FH Aachen. Standort Jülich. Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming."

Transkript

1 FH Aachen Standort Jülich Fachbereich Medizintechnik und Technomathematik Bachelorstudiengang Scientific Programming Seminararbeit Einführung in Data Mining anhand des Modells CRISP-DM Aachen, 14. Dezember 2010 Autorin Linnea Passing Matr.-Nr Betreuer Prof. Dr. Andreas Terstegge Dr. Thomas Eifert

2

3 Eidesstattliche Erklärung Hiermit versichere ich, dass ich die Seminararbeit mit dem Thema Einführung in Data Mining anhand des Modells CRISP-DM selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt habe, alle Ausführungen, die anderen Schriften wörtlich oder sinngemäß entnommen wurden, kenntlich gemacht sind und die Arbeit in gleicher oder ähnlicher Fassung noch nicht Bestandteil einer Studien- oder Prüfungsleistung war. Name: Linnea Passing Aachen, den 14. Dezember 2010 Unterschrift der Studentin

4

5 Seminararbeit: CRISP-DM Linnea Passing Inhaltsverzeichnis 1. Einleitung Vom Umgang mit Daten im Informationszeitalter Motivation Aufbau der Arbeit Data Mining Historie Terminologie Vorgehensweise Anwendungsmöglichkeiten Schnittstellen zu anderen Fachgebieten Datenbanken Terminologie Verwaltung und Abfrage großer Datenmengen Statistik Einige Klassen von Algorithmen Merkmale Beispiel eines Clustering-Algorithmus Algorithmus Anwendung CRISP-DM Terminologie Phasen und Dokumente Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Bewertung Fazit und Ausblick Hinführung zum Bachelorprojekt Thema i

6 Linnea Passing Seminararbeit: CRISP-DM Geplantes Vorgehen Anpassungen Fazit A. Quellcode des Clustering-Programms 31 A.1. Main.java A.2. XYElement.java A.3. ClusteringMaker.java A.4. XYDiagramMaker.java Abbildungsverzeichnis 41 Literaturverzeichnis 42 ii

7 Seminararbeit: CRISP-DM Linnea Passing 1. Einleitung 1.1. Vom Umgang mit Daten im Informationszeitalter Digitaler Speicherplatz steht immer kostengünstiger und in immer größeren Mengen zur Verfügung. Datenspeicherung und -verwaltung ist nicht mehr einigen spezialisierten Organisationen vorbehalten, sondern für jeden möglich. Gleichzeitig werden viele Alltagsangelegenheiten elektronisch abgewickelt, wodurch das Erheben und Speichern von Daten einfach und automatisiert möglich ist. Daten sind nicht an einen Ort gebunden, sondern beliebig kopier- und verteilbar. Diese Datenerhebung geschieht im privaten wie im ökonomischen oder forschenden Umfeld. Daten zur Handynutzung und zur Verwendung von Bonuskarten werden ebenso erzeugt wie große Datenmengen in der Meteorologie oder Astronomie. Die Daten sollten aufgrund ihrer Menge automatisiert ausgewertet werden. Interessant sind dabei Muster, Gruppenzugehörigkeiten oder auch Trends. Die unüberschaubare Datenmenge soll auf einige wenige interessante Fakten zusammengefasst werden, die für den Auftraggeber relevant sein könnten. Data Mining wird unter anderem angewandt, um Kundenabwanderung frühzeitig zu erkennen, Empfehlungen geben zu können ( Personen, die diesen Artikel gekauft haben, kauften auch ) oder die Kreditwürdigkeit von Kunden zu bestimmen Motivation Die vorliegende Seminararbeit ist als Hinführung zu meinem Bachelorprojekt gedacht, in dem ich mittels Data Mining Informationen gewinnen möchte. Auf das Thema und das geplante Vorgehen in meinem Bachelorprojekt gehe ich in Abschnitt 6.1 auf Seite 27 ein. Da ich vor der Erstellung dieser Arbeit noch keine Erfahrung mit Data Mining hatte, benötige ich für das Bachelorprojekt ein anpassbares Vorgehensmodell, mit dem ich das Data-Mining-Projekt erfolgreich durchführen kann. Beim Einarbeiten in die Thematik stieß ich auf den Cross Industry Standard Process for Data Mining (CRISP-DM), das verbreitetste Modell zur Anwendung von Data Mining. Dieses Modell werde ich in der vorliegenden Arbeit vorstellen und bewerten. So laufe ich weniger stark Gefahr, Schritte zu vergessen oder verbreitete Fehler zu begehen. 1

8 Linnea Passing Seminararbeit: CRISP-DM 1.3. Aufbau der Arbeit Die Seminararbeit gliedert sich in sechs Teile. Nach dieser Einleitung werde ich eine Einführung in Data Mining geben und zentrale Begriffe klären sowie das Vorgehen bei Data-Mining-Projekten erläutern. Anschließend stelle ich Schnittstellen zwischen Data Mining und anderen Fachbereichen, namentlich Datenbanken und Stochastik, vor. Ein Algorithmus wird in einem Beispiel genauer erläutert. Im fünften, umfassendsten Teil der Seminararbeit werde ich CRISP-DM einführen. Nach einer Klärung der zentralen Begriffe wird es um die Phasen, Phasenübergänge und Dokumente gehen, die CRISP-DM ausmachen. Zuletzt folgen ein Fazit und der Ausblick auf das Bachelorprojekt. 2

9 Seminararbeit: CRISP-DM Linnea Passing 2. Data Mining Die Begriffe Knowledge Discovery in Databases (KDD) und Data Mining bezeichnen beide den Prozess des Extrahierens von bislang unbekannten Zusammenhängen aus einem großen Datenbestand. Der Prozess KDD wird in Schritte unterteilt, die sich je nach Autor etwas unterscheiden. Ester und Sander [1] (Seite 2) teilen ihn in Anlehnung an Fayyad, Piatetsky-Shapiro und Smyth [2] (Seite 84) wie folgt ein: Fokussieren Vorverarbeitung Transformation Data Mining Evaluation Gemäß dieser Definition wäre Data Mining ein Unterbereich von KDD, wohingegen letzteres auch die Datenvorbereitung und abschließende Auswertung beinhaltet. Ein anderer Ansatz ist der Cross Industry Standard Process for Data Mining (CRISP- DM), auf den in Kapitel 5 auf Seite 19 genauer eingegangen wird. Nach diesem Modell umfasst Data Mining auch die Datenvorbereitung und Auswertung Historie Das erste Auftreten des Begriffes Data Mining ist nicht datiert. Der Begriff Knowledge Discovery in Databases wird zum ersten Mal als Titel eines Workshops auf der International Joint Conference on Artificial Intelligence (IJCAI) 1989 verwendet [3]. Bis zur Mitte der Neunziger Jahre existierten beide Begriffe unabhängig voneinander Data Mining wurde von Statistikern verwendet, Knowledge Discovery in Databases von Fachleuten auf dem Gebiet der künstlichen Intelligenz [2] (Seite 82). Anschließend verbanden Fayyad, Piatetsky-Shapiro und Smyth die Begriffe, indem sie Data Mining als einen Teilschritt von KDD definierten, wie im vorherigen Abschnitt beschrieben. In den folgenden Jahren wurden Prozessmodelle ebenso wie kommerzielle Applikationen zur Durchführung entwickelt. Zuletzt ergaben sich weitere angrenzende Fachgebiete wie Text Mining und Web Mining. Text Mining befasst sich mit der Analyse von Freitexten. Beim Web Mining werden beispielsweise Verlinkungen zwischen Webseiten untersucht. 3

10 Linnea Passing Seminararbeit: CRISP-DM 2.2. Terminologie Wie in jedem Fachgebiet, so haben sich auch beim Data Mining Fachbegriffe gebildet. Knowledge Discovery in Databases (KDD) Fayyad, Piatetsky-Shapiro und Smyth [2] (Seite 83) schreiben 1996: Knowledge Discovery in Databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. KDD bezeichnet den automatisierten Prozess der Informationsgewinnung aus Datenbanken. Dieser Prozess besteht aus mehreren Schritten und wird in mehreren Iterationen durchgeführt. Data Mining Der Begriff Data Mining ( Daten schürfen ) bezeichnet ursprünglich einen Teilschritt im KDD-Prozess: das Anwenden der Algorithmen auf die Daten. Heute meint Data Mining den gesamten KDD-Prozess, insbesondere im englischen Sprachraum. Die Begriffe werden meist synonym verwendet. Datenbank Als Datenbank wird im Data-Mining-Umfeld die automatisiert auswertbare Repräsentation der Daten bezeichnet. Diese Repräsentation muss nicht zwingend ein klassisches DBS sein, die Daten können auch in XML- oder Textdateien abgelegt sein. Wichtig ist die praktische Auswertbarkeit: Durch die Drei-Ebenen-Architektur in Datenbanksystemen ist gewährleistet, dass sich die Abfragebefehle nicht ändern, wenn sich die tatsächliche, physikalische Speicherung der Daten ändert, dadurch sind Datenbanksysteme mit ihrer Abfragesprache SQL gut geeignet Vorgehensweise Das Ziel aller Data-Mining-Definitionen und -Prozesse ist ein definiertes Vorgehen. Standardisierte Prozesse erleichtern die Arbeit, da wiederkehrende Handlungen erkannt und optimiert werden. Definierte Prozesse können leichter in Lehrwerken erläutert und anderen Personen erklärt werden. Ein definiertes Vorgehen erlaubt weiterhin eine genauere Projektplanung, da Ressourcen und Budget kalkulierbarer werden; die Kommunikation zwischen Auftraggebern und Data Minern wird verbessert. Die Data-Mining-Technologien sollen ihre Benutzer dabei unterstützen, Wissen aus Daten zu erhalten. Data Mining ist demnach ein interaktiver Prozess, bei dem Entscheidungen durch die Benutzer nötig sind [2] (Seite 83 f.). Wie eingangs erläutert teilt man die notwendigen Handlungen in Phasen ein, die (generell) nacheinander durchlaufen werden. Wie und wann Wechsel zwischen Phasen erfolgen, ist auf dieser abstrakten Ebene noch nicht definiert. 4

11 Seminararbeit: CRISP-DM Linnea Passing 2.4. Anwendungsmöglichkeiten Als typische KDD-Anwendungen benennen Ester und Sander [1] (Seite 6 ff.) unter anderem Marketing, beispielsweise die Identifizierung verschiedener Kundengruppen. Des Weiteren wird KDD laut Ester und Sander im Finanzwesen verwendet, etwa zur Vorhersage von Aktienkursen. Für einzelne Personen spürbar wird Data Mining bei personalisierter Online-Werbung. Anhand von Fakten wie Geschlecht, Alter und Wohnort, aber auch durch gewonnene Daten wie das Einkaufsverhalten in Online-Shops werden Werbeanzeigen eingeblendet, die den Benutzer wahrscheinlich interessieren. Ein weiteres Anwendungsgebiet ist die Betrugserkennung, bei der abweichendes Verhalten von Personen oder Gruppen gesucht wird. Diese Methode wird beispielsweise zum Aufspüren von Kreditkartenbetrug verwendet. Als letztes Beispiel von Data beziehungsweise Web Mining sei die Analyse der auf Computersystemen anfallenden Logdaten [1] (Seite 50) genannt. Dabei kann zum Beispiel untersucht werden, was für Benutzergruppen es gibt, welche Fehlerarten auftreten und wie sich die Auslastung des Systems steigern lässt. Dies wird das Thema meines Bachelorprojekts sein. 5

12 Linnea Passing Seminararbeit: CRISP-DM 6

13 Seminararbeit: CRISP-DM Linnea Passing 3. Schnittstellen zu anderen Fachgebieten Data Mining bedient sich einiger Methoden aus den Fachgebieten Datenbanken und Statistik. Natürlich gibt es noch weitere Schnittstellen, etwa zum maschinellen Lernen und zur künstlichen Intelligenz, diese Themen werden für die vorliegende grundlegende Betrachtung aber nicht benötigt. Der Datenbestand ist wie erwähnt häufig in Datenbanksystemen abgelegt, darum werden einige Grundbegriffe aus dem Datenbanken-Umfeld eingeführt. Die Algorithmen, der Kern des Data Minings, stammen aus dem Bereich der Statistik. Die drei Merkmalstypen der Statistik sowie einige Klassen von Algorithmen werden deshalb vorgestellt Datenbanken Datenbanksysteme (DBS) arbeiten auf Mengen. Dies könnte ein entscheidender Nachteil sein, da gleiche Datensätze nur einmal in Abfrageergebnisse eingehen und so die Häufigkeitsverteilung bestimmter Daten nicht mehr stimmt. Das in meinem Bachelorprojekt verwendete DBS Oracle Database bietet jedoch die Wahl zwischen einer mengenbasierten Ausgabe sowie einer Ausgabe inklusive Dubletten. Datenbanksysteme bieten einen schnellen und wahlfreien Datenzugriff (Zugriff auf jede Speicherstelle, man muss nicht alles bis zur benötigten Information sequentiell lesen). Mit ihrer Abfragesprache SQL sind ad-hoc-anfragen (vorher ungeplante Anfragen, aus dem Stegreif ) möglich. Dies ist entscheidend, da das Grundmerkmal von Data Mining das Finden von bisher unbekannten Informationen ist Terminologie Grundlegende Datenbankbegriffe sind: Attribut Als Attribut bezeichnet man ein Merkmal, dass in einer Spalte der Tabelle erhoben wird. In einer Tabelle Rechenjobs könnte es die Attribute ID, Name und Startzeit geben. Wie aus dem Beispiel hervorgeht, kann ein Attribut eine Zahl, ein Text, ein Datum oder auch ein anderer Datentyp sein. Tupel Als Tupel bezeichnet man eine Zeile einer Tabelle, einen Datensatz. Ein Tupel ist eine konrete Ausprägung alle möglichen Ausprägungen, die durch die Tabellenstruktur vorgegeben ist. 7

14 Linnea Passing Seminararbeit: CRISP-DM Beziehung Zwischen Daten bestehen Beziehungen, die anhand der Kardinalität unterschieden werden. Bei einer 1-zu-1-Beziehung stehen je zwei Datensätze miteinander in Beziehung. Außerdem gibt es 1-zu-n-Beziehungen (Beispiel: Ein Rechenjob wird von genau einem Benutzer erstellt, ein Benutzer kann mehrere Rechenjobs erstellen) und m-zu-n-beziehungen (Ein Rechenjob läuft auf beliebig vielen Knoten, auf einem Knoten laufen beliebig viele Rechenjobs). Diese Beziehungen werden in Datenbanken über Hilfstabellen, Fremdschlüssel oder das Zusammenlegen von Tabellen dargestellt. Integration Das Integrieren von Daten ist das Zusammenfügen aus mehreren Quellen. In einer Datenbank können Daten aus vielen Quellen gesammelt werden, um dem Data- Mining-Projekt in einheitlicher Form zur Verfügung zu stehen. Beim Integrieren können Probleme anfallen, etwa weil die gleichen Attribute in den Datenquellen unterschiedlich heißen oder Zahlwerte in unterschiedlicher Genauigkeit gespeichert wurden. Fehlwerte Fehlwerte müssen vor Beginn der Informationsgewinnung analysiert werden: Wurden sie nicht erhoben, gab es Fehler bei der Erhebung oder wurden die Daten lediglich nicht in den Datenbestand übernommen? Falschwerte Mit Falschwerten, sei es durch Mess- oder Übertragungsfehler, muss gerechnet werden, sie können nie komplett ausgeschlossen werden. Am Ende des KDD-Prozesses ist eine Plausibilitätskontrolle der Ergebnisse deshalb besonders wichtig Verwaltung und Abfrage großer Datenmengen Im Data-Mining-Umfeld stoßen klassische Datenbanken eventuell an Performance-Grenzen, wenn die Abfragen komplexer und die Datenmengen größer werden. Durch die Verwendung von viel Arbeitsspeicher und CPU-Leistung sowie schnellem Festplattenzugriff kann zwar gegengesteuert werden, ab einer gewissen Datenbankgröße ist dies aber nicht mehr durchführbar. Abhilfe bietet Data Warehousing. Dieser Begriff bezeichnet eine Datensammlung, auf die nur noch lesend zu Auswertungszwecken zugegriffen wird. Da datenändernde Transaktionen fehlen, steigt die Performanz bei Abfragen. Umgesetzt wird dieses Konzept beispielsweise durch Apache Hive [4] und Hadoop [5], das auf mehreren zusammengeschalteten Servern (Knoten) arbeitet. Die Daten werden auf die Knoten verteilt und gesteuert durch einen Masterknoten auf den jeweiligen Knoten berechnet. Hive bietet eine SQL-ähnliche Abfragesprache, die auf Einfügeund Abfrageoperationen beschränkt ist; Hadoop organisiert das verteilte Rechnen. Die Leistung kann durch das Hinzufügen weiterer Knoten verbessert werden (scale out, horizontales Skalieren). 8

15 Seminararbeit: CRISP-DM Linnea Passing 3.2. Statistik Im Fachgebiet Statistik werden Methoden zur Analyse von Daten entwickelt Einige Klassen von Algorithmen Für Data Mining relevant ist zum Beispiel die Methode Clustering, bei der Daten in Gruppen geordnet werden. Dadurch wird die Struktur der Daten sichtbar gemacht. Hierzu werden Merkmale der Daten ausgewählt, sodass die Daten in einem Koordinatensystem darstellbar sind (genauer: Vektoren der Dimension n sind). Um die Häufungspunkte im Koordinatensystem lassen sich dann Gruppen bilden. Bei der Methode Klassifikation werden Daten vorher bekannten Klassen zugeordnet, so können klassierte Häufigkeitsverteilungen erstellt werden. Ein Beispiel ist auch das Erkennen von SPAM-Mails. Durch Regressionsanalyse wird versucht, eine den Daten zugrundeliegende Funktion zu ermitteln, mit der dann mathematisch weitergerechnet werden kann. Die lineare Regressionsanalyse sucht nach einer Ausgleichsgeraden [6] (Seite 186 ff.). Des Weiteren kann man Assoziationsregeln erarbeiten, also Aussagen der Art Wenn A und B, dann (mit großer Wahrscheinlichkeit) C. Diese sind etwa bei der Wahl von Warenplatzierungen in Supermärkten relevant. Je nach Situation eignen sich einige Methoden besser als andere, da sie unterschiedliche Anforderungen an die Daten stellen. Die Methoden müssen derart in Algorithmen umgesetzt werden, dass sie gut skalieren, also bei der Vergrößerung des Problems nicht unangemessen mehr Speicher benötigen Merkmale Wie im Abschnitt 3.1 auf Seite 7 erwähnt, werden die Attribute oder Spalten der Daten als Merkmale bezeichnet, dieser Begriff findet sich auch in der beschreibenden Statistik. Es gibt verschiedene Merkmalstypen, auf die einzugehen sich lohnt, da der Merkmalstyp für die Wahl eines Data-Mining-Algorithmus bekannt sein muss. Deshalb müssen Daten vor der Verarbeitung gegebenenfalls in einen anderen Typ umgewandelt werden, dies geschieht in den KDD-Schritten vor dem Anwenden der Algorihmen. Lehn und Wegmann unterscheiden [6] (Seite 7 f.): qualitative Merkmale Es gibt endlich viele Ausprägungen dieses Merkmalstyp, allerdings ist keine Reihenfolge der Ausprägungen feststellbar. So kann das Merkmal verwendete Software viele Ausprägungen haben, man käme aber nicht auf die Idee, die Antwort Matlab höher zu bewerten als die Antwort Gaussian, geschweige denn einen Mittelwert dieser Antworten bilden zu wollen. Rangmerkmale Rangmerkmale können zusätzlich in eine Reihenfolge gebracht werden, beispielsweise der Grad der Zustimmung zu einer Aussage ( starke Zustimmung, Zustimmung, neutral, Ablehnung, starke Ablehnung ). Der Abstand zwischen zwei 9

16 Linnea Passing Seminararbeit: CRISP-DM Ausprägungen ist jedoch nicht messbar, der Mittelwert ist nicht berechenbar. Außerdem ist kein Nullwert festgelegt, man kann also nicht sagen, eine Ausprägung sei doppelt so stark wie eine andere. Interessant ist hier der Fall der Schulnoten ( sehr gut, gut,...). Diese werden häufig in den Zahlen 1 6 abgebildet, was impliziert, dass der Abstand zwischen den Noten 1 und 2 genauso groß ist wie der Abstand zwischen 4 und 5. Mittelwerte über Noten werden gebildet, auch wenn bei der Wort-Schreibweise niemand auf die Idee käme. quantitative Merkmale Quantitative Daten fallen häufig durch Messungen an. Quantitativ-diskrete Merkmale haben nur eine endliche Anzahl von Ausprägungen (zum Beispiel die Anzahl der Rechenjobs, die von einem Benutzer in Auftrag gegeben wurden), wohingegen bei quantitativ-stetigen Merkmalen jede Ausprägung im Rahmen der Messgenauigkeit möglich ist (Dauer eines Rechenjobs). Bei Data-Mining-Algorithmen mit quantitativen Merkmalen sind die normalen Rechenregeln anwendbar, sie sind deshalb angenehm in der Handhabung. Bei Rangmerkmalen und qualitativen Merkmalen ist der Abstand zwischen zwei Ausprägungen nicht ohne Weiteres berechenbar. Eine Abstandsfunktion wird unter Anderem für den Clustering- Algorithmus benötigt. 10

17 Seminararbeit: CRISP-DM Linnea Passing 4. Beispiel eines Clustering-Algorithmus Das in Abschnitt 3.2 auf Seite 9 eingeführte Data-Mining-Verfahren Clustering ist gut geeignet, um einen Überblick über interessante Untermengen zu erhalten und Datengruppen benennen zu können. Da der Algorithmus leicht zu implementieren ist und die Ergebnisse grafisch gut darstellbar sind, wird dieses Verfahren hier vorgestellt. Das Beispiel verwendet ein hartes Clustering, das bedeutet, dass ein Datensatz nur zu genau einem Cluster gehört, und nicht anteilig/nach Wahrscheinlichkeiten zu mehreren Clustern. Diese Clustering-Verfahren nennt man auch partitionierend, da sie die Daten auf verschiedene Cluster aufteilt [1] (Seite 51). Einen anderen Weg gehen hierarchische Verfahren [1] (Seite 78 ff.), bei denen Datensätze zu mehreren, hierarchisch angeordneten Clustern gehören. Da die graphische Darstellung von partitionierendem Clustering aber verständlicher ist, wird hier ein solches Verfahren verwendet. Die Umsetzung erfolgte in der Programmiersprache Java, verwendet wurde die Version JRE Implementiert wurde das Clustering in Eclipse (Helios), zum Einsatz kamen außerdem die Librarys JFreeChart und JCommon , die beide unter der LGPL (GNU Lesser General Public License) verbreitet werden [7] [8]. Beim hier vorgestellten Clustering durch Varianzminimierung wird eine vorgegebene Anzahl von Clustern gebildet, deren Elemente eine möglichst geringe Abweichung vom Clustermittelpunkt (Centroid) haben [1] (Seite 52). Der Centroid muss keine existierende Ausprägung der untersuchten Merkmale sein, sondern wird berechnet. Das Varianzminimierungs-Verfahren konvergiert schnell, meist in fünf bis zehn Iterationen [1] (Seite 54). Das gefundene Minimum ist eventuell aber nur lokal, nicht global. Das Ergebnis ist abhängig von der Position der Centroide in der Startverteilung, nicht aber von der Reihenfolge, in der die Datenpunkte gespeichert und bearbeitet werden. In der Praxis wirkt man der Abhängigkeit entgegen, indem man den Algorithmus mehrfach auf die selbe Datenmenge anwendet und dabei die Position der Centroide zu Beginn variiert. Ein weiteres Problem ist, dass die Anzahl der Cluster zu Beginn festgelegt werden muss, diese Information ist aber nicht in jedem Fall vorhanden. Auch hier bietet sich das wiederholte Anwenden des Algorithmus mit unterschiedlicher Clusteranzahl an. Als Kriterium für die Sinnhaftigkeit einer gewählten Clusteranzahl kann die Summe der Abweichungen vom Centroid dienen. Trotzdem sind varianzminimierende, partitionierende Verfahren (wie das bekannte Verfahren k-means) stark verbreitet, da der Algorithmus simpel ist und schnell ein relativ gutes Ergebnis bestimmt werden kann. 11

18 Linnea Passing Seminararbeit: CRISP-DM 4.1. Algorithmus Der Clustering-Algorithmus (Abbildung 4.1) erzeugt zunächst n Cluster, die jeweils durch ihren Centroid bestimmt sind. Danach werden alle Datenpunkte dem nächstgelegenen Cluster zugeordnet. Nun kann der Centroid jedes Clusters neu berechnet werden. Diese zwei Schritte werden abwechselnd fortgeführt, bis sich die Zuordnung der Datenpunkte zu den Clustern nicht mehr ändert und sich auch die Centroide nicht mehr verschieben. Input: n Anzahl der Cluster elemente Liste der Elemente Output: elemente Liste der Elemente mit einer Zuordnung zu Clustern centroide Liste von n Centroiden begin ordne die Elemente gleichmäßig den Clustern zu mache die ersten n Elemente zu Centroiden neueelemente kopiere die Elemente neuecentroide [ bestimme die Centroide neu ] while die Verteilung der Elemente auf die Cluster oder die Centroide verändern sich do erstelle eine Grafik elemente neueelemente centroide neuecentroide neuecentroide [ bestimme die Centroide neu ] neueelemente [ verteile die Elemente auf die neuen Cluster ] end gib das Ergebnis auf der Konsole aus erstelle eine Grafik end Abbildung 4.1.: Clustering Bei der Zuordnung von Datenpunkten zu Clustern (Abbildung 4.2 auf Seite 13) muss definiert werden, was nächstgelegen bedeutet, dies geschieht über eine Distanzformel. Dieser kommt eine zentrale Bedeutung im Algorithmus zu. Durch eine veränderte, beispielsweise gewichtete, Distanz werden Datenpunkte anderen Clustern zugeordnet und das Ergebnis verändert sich. In vielen Fällen eignet sich die anschauliche euklidische Distanz: d euklid = (x x centroid ) 2 + (y y centroid ) 2 12

19 Seminararbeit: CRISP-DM Linnea Passing Neben der euklidischen Distanz existieren noch weitere, beispielsweise die Manhattan- Distanz, die den Abstand je Dimension einzeln misst und aufaddiert und somit im Zweidimensionalen die Entfernung zweier Punkte im rasterartigen Straßennetz Manhattans bildet: d manhattan = x x centroid + y y centroid Am häufigsten wird jedoch die euklidische Norm verwendet. Um das angehangene Codebeispiel (Seite 31 ff.) simpel zu halten, wurden Elemente verwendet, die Punkte im Zweidimensionalen darstellen, also X- und Y-Koordinaten haben. Als Distanzfunktion wurde die euklidische Metrik gewählt. Input: n Anzahl der Cluster elemente Liste der Elemente centroide Liste der Centroide Output: neueelemente Liste der Elemente mit einer Zuordnung zu Clustern begin neueelemente kopiere die Elemente foreach element in neueelemente do min = foreach centroid in centroide do if euklidische Distanz des Elementes zum aktuellen Centroiden < min then min Distanz mache das Element dem Cluster des aktuellen Centroiden zugehörig end end end end Abbildung 4.2.: Zuordnung der Elemente zum nächstgelegenen Cluster Beim Algorithmus zur Bestimmung der Centroide (Abbildung 4.3 auf Seite 14) wird für jede Dimension (im Beispiel sind dies X und Y) einzeln der Mittelwert der Elemente im Cluster gebildet. Der aus all diesen Mittelwerten gebildete Punkt ist der Centroid des betrachteten Clusters. Der Centroid wird durch dieses Vorgehen unabhängig von der Distanzformel so gewählt, dass der Abstand aller Datenpunkte im Cluster zu ihm minimiert wird. 13

20 Linnea Passing Seminararbeit: CRISP-DM Input: n Anzahl der Cluster elemente Liste der Elemente centroide Liste der Centroide Output: neuecentroids Liste von n neuen Centroiden begin neuecentroide kopiere die Centroide summiere die X-Werte der Elemente je Cluster auf summiere die Y-Werte der Elemente je Cluster auf zähle die Elemente je Cluster foreach centroid in neuecentroide do setze den X-Wert des Centroids auf die Summe der X-Werte geteilt durch die Anzahl der Elemente im Cluster setze den Y-Wert des Centroids auf die Summe der Y-Werte geteilt durch die Anzahl der Elemente im Cluster // der Centroid ist in jeder Dimension der Mittelwert der Elemente im Cluster end end Abbildung 4.3.: Bestimmung der Centroide 4.2. Anwendung Die im Anhang beschriebene Implementierung des Programms wurde angewendet, um zwei Cluster aus neun Datenpunkten zu errechnnen. Es soll gezeigt werden, dass die anfängliche Position der Centroide entscheidend für das Ergebnis ist. Die sechs Screenshots der Abbildung 4.4 zeigen die Schritte des Clustering-Algorithmus bei Anwendung auf die dargestellten Datenpunkte. Zunächst werden die Datenpunkte gleichmäßig den zwei Clustern zugeteilt (erster Screenshot), anschließend werden die Centroide dieser Verteilung ermittelt (schwarze Kreuze im zweiten Screenshot). Nun wird jeder Datenpunkt dem Cluster des nächstgelegenen Centroiden zugeordnet, wie im dritten und vierten Screenshot sichtbar verschiebt sich dadurch die Zuordnung dreier Punkte, weshalb eine weitere Iteration nötig ist. Im fünften Screenshot ist die Verteilung nach einer weiteren Zuordnung der Datenpunkte auf die nächstgelegene Cluster zu sehen, die Zugehörigkeit zweier weiterer Datenpunkte ändert sich, darum werden für Screenshot Sechs erneut die Centroide berechnet. In der nun folgenden Iteration würde sich die Zuordnung nicht weiter verändern, der Clustering-Algorithmus hat damit ein (lokales) Minimum gefunden. 14

21 Seminararbeit: CRISP-DM Linnea Passing 15

22 Linnea Passing Seminararbeit: CRISP-DM Abbildung 4.4.: Grafische Darstellung des Clustering mit Anfangsverteilung I 16

23 Seminararbeit: CRISP-DM Linnea Passing Mit einer geänderten Anfangsverteilung ergibt sich ein anderes Ergebnis: 17

24 Linnea Passing Seminararbeit: CRISP-DM Abbildung 4.5.: Grafische Darstellung des Clustering mit Anfangsverteilung II Bei der genaueren Betrachtung fällt auf, dass bei der Anfangsverteilung II nur vier Schritte benötigt werden, bei der Anfangsverteilung I hingegen sechs Schritte. Außerdem ist die Summe aller Distanzen der Datenpunkte zu ihren Centroiden bei der Anfangsverteilung I 12, 2991 Einheiten, bei der Abstandsverteilung II jedoch 13, 1400 Einheiten. In diesem Beispiel wurden also unterschiedliche lokale Minima erreicht. Die mehrfache Anwendung des Algorithmus auf unterschiedliche Anfangsverteilungen war hier sinnvoll. 18

25 Seminararbeit: CRISP-DM Linnea Passing 5. CRISP-DM Der Cross Industry Standard Process for Data Mining (CRISP-DM) ist ein Modell, das den gesamten Data-Mining-Prozess umfasst. Das Projekt wurde im Rahmen von ESPRIT (European Strategic Program on Research in Information Technology) in den achtziger und neunziger Jahren durch die Europäische Union gefördert. CRISP-DM 1.0 wurde 1997 von den Firmen DaimlerChrysler, SPSS und NCR vorgestellt. Ziel war, dass der Data-Mining-Prozess dokumentiert und standardisiert wird, um Kunden zufriedenzustellen und Wissen an andere Data Miner weitergeben zu können [9]. CRISP-DM succeeds because it is soundly based on the practical, real-world experience of how people do data mining projects. And in that respect, we are overwhelmingly indebted to the many practitioners who contributed their efforts and their ideas throughout the project. heißt es im Vorwort des CRISP-DM 1.0 Step-by-step data mining guide [10] (Seite 4). Das Selbstverständnis von CRISP-DM beinhaltet die Praxisnähe, die durch die Mitarbeit einer SIG (special interest group) ausgedrückt wird. CRISP-DM ist frei verfügbar, nicht-proprietär und durch die genannte Basislegung in der Praxis weit akzeptiert begann die Arbeit an CRISP-DM 2.0. Ergänzt werden sollen Hilfestellungen für Web Mining und Text Mining. Ein weiterer Schwerpunkt wird das Deployment, hierbei sind die Skalierbarkeit und die Einbettung in die business workflows zu nennen [9]. Für mein Bachelorprojekt passend ist außerdem das Bestreben des CRISP-DM-Teams, Data Mining auf Livedaten zu vereinfachen. Seit 2007 gibt es jedoch keine Fortschrittsberichte mehr auf der Webseite oder Mailingliste. Die Akzeptanz von CRISP-DM zeigt sich in drei Umfragen der Webseite kdnuggets.com/, deren Ergebnisse als Abbildung 5.1 auf Seite 20 eingebunden sind. Bei der Umfrage im Jahr 2002 gaben 51% von 189 Personen an, mit CRISP-DM zu arbeiten [11]. Bei einer Umfrage im Jahr 2004 waren es 42% von 170 Personen [12], % von 150 Personen [13]. Bei allen drei Umfragen liegt CRISP-DM damit weit vor allen anderen Modellen. Die Umfrage nennt neben CRISP-DM unter anderem auch die Modelle SEMMA und KDD Process. Sowohl SEMMA als auch KDD Process und CRISP-DM kennen verschiedene Phasen, die durchlaufen werden: SEMMA wird von der Software SAS Enterprise Miner verwendet und besteht aus den Phasen sampling, exploration, modification, modeling and assessment [14] (Entnahme einer Stichprobe, Erkundung der Daten, Änderung der Daten, Anpassung der Algorithmen, Beurteilung der Ergebnisse). KDD Process ist ein 1996 aufgestelltes, allgemeines Modell [2]. Die Phasen entsprechen den in Kapitel 2 auf Seite 3 genannten. 19

26 Linnea Passing Seminararbeit: CRISP-DM Abbildung 5.1.: Umfrage zur Nutzung von CRISP-DM in Prozent: 2007 hellblau; 2004 mittelblau; 2002 dunkelblau 5.1. Terminologie Der hierarchische Aufbau (siehe Abbildung 5.2 auf Seite 21) wurzelt im Process Model, das die Struktur des CRISP-DM-Projektes festlegt. Das eigene Data-Mining-Projekt heißt Process Instance. Das Prozessmodell besteht aus dem User Guide und dem Reference Model. Der User Guide [10] beinhaltet Tipps und Anregungen zum Durchführen des Data- Mining-Projekts. Das Referenzmodell ist die Gesamtheit der durchzuführenden Aktivitäten und besteht aus sechs Phasen, die in Abschnitt 5.2 auf Seite 21 f. näher erläutert werden. Die Phasen bestehen jeweils aus mehreren Tasks. Tasks können unterteilt werden in Generic Tasks und Specialized Tasks: Generische Aufgabenstellungen können in allen Projekten verwendet werden, beispielsweise muss in jedem Projekt eine Einarbeitung in die Daten des Auftragnehmers erfolgen, dies gilt auch noch, falls in Zukunft neue mathematische Modelle zur Durchführung entwickelt werden. Bei spezialisierten Aufgabenstellungen wurden Annahmen getroffen, sie sind deshalb nicht in allen Data-Mining-Projekten verwendbar. Tasks bestehen aus mehreren Activities, die nacheinander durchlaufen werden und generieren Output in Form von internen oder öffentlichen (= dem Auftraggeber bekannten) Schriftstücken. Die wichtigsten Schriftstücke werden ebenfalls in Abschnitt 5.2 vorgestellt. 20

27 Seminararbeit: CRISP-DM Linnea Passing Abbildung 5.2.: Hierarchischer Aufbau von CRISP-DM 5.2. Phasen und Dokumente CRISP-DM kennt sechs Phasen, die nacheinander durchlaufen werden, wobei Zurückspringen und Wiederholen möglich und nötig ist, da so Verbesserungen erreicht werden [10] (Seite 13). In diesen Phasen entstehen Dokumente, die teilweise intern für die Data Miner sind, teilweise an den Auftraggeber weitergegeben werden Business Understanding In der ersten Phase, dem Business Understanding, werden die Anforderungen des Data Minings aus Sicht des Auftraggebers betrachtet. Der Data Miner extrahiert aus diesen Voraussetzungen einen groben Plan aus der technischen Perspektive. Der ausführende Data Miner soll so einen Einblick in die Branche des Auftraggebers erhalten. Danach können Ziele des Data Minings festgelegt werden. In einem gemeinsam erstellten Dokument werden Kriterien genannt, wann das Data- Mining-Projekt als erfolgreich angesehen wird. Zusätzlich wird sichergestellt, dass die zu analysierenden Daten benutzt werden dürfen, also keine Datenschutzbestimmungen dagegen sprechen. Dieses offizielle Dokument stellt den Vertrag zwischen Auftraggeber und -nehmer dar. 21

28 Linnea Passing Seminararbeit: CRISP-DM In einem internen Dokument werden die verfügbaren Ressourcen auf Auftragnehmerseite gelistet. Das sind zum einen die projektbeteiligten Personen, zum anderen Hardware und Software, die für das Data-Mining-Projekt benötigt werden. In einem Projektplan werden Risiken benannt und wird eine Zeitplanung vorgenommen Data Understanding In der zweiten Phase, dem Data Understanding, arbeitet sich der Data Miner in die zu erwartenden Daten ein. Hierzu werden Testdaten gesammelt und untersucht. Am Ende dieser Phase hat der Data Miner Wissen über die Daten und ihre fachliche Einordnung. Informationen zum Format der Datenquelle, zur Menge und anderen Eigenschaften der Daten werden detailliert in einem internen Dokument festgehalten. Die genaue Bedeutung jedes einzelnen Datenmerkmals muss bekannt sein, hierzu gehören verwendete Abkürzungen sowie mögliche Mehrdeutigkeiten in den Merkmalsausprägungen. Vom Auftraggeber wird der bisherige Umgang mit Fehl- und Falschwerten erfragt; anschließen wird die Qualität der Daten bewertet. Nun können bereits Übersichtsgraphen erstellt und genauer zu betrachtende Teilmengen identifiziert werden Data Preparation Die Datenbereinigung und -reduktion findet in Phase Drei, der Data Preparation, statt. Hierbei wird die genaue Datenmenge ermittelt, die in den weiteren Schritten untersucht werden soll. Im Teilschritt Datenbereinigung werden Fehl- und Falschwerte bearbeitet. Dies ist ein wichtiger Schritt für den Data-Mining-Prozess, da durch ein geringes noise level (Anteil der Falschwerte) die Genauigkeit der Ergebnisse steigt. Fehl- und Falschwerte müssen erkannt und unterschieden werden. Hierzu muss aus dem vorherigen Schritt der Umgang mit solchen Werten bekannt sein, zum Beispiel ob bei nicht erfolgter Messung eines Merkmals immer eine 0 eingetragen wurde. Der Umgang mit Fehl- und Falschwerten im weiteren Projektverlauf kann das Weglassen dieser Datensätze sein. Eine andere Möglichkeit wäre das Ersetzen von Fehlwerten durch den Mittelwert der umgebenden Datensätze oder ähnliches. Aus dem bisherigen Daten können sogenannte abgeleitete Merkmale errechnet werden, indem aus mehreren Merkmalen ein neues errechnet wird (Vorname + + Nachname oder Gesamtdauer / Anzahl). Des Weiteren können Daten verändert werden, indem Werte gerundet oder zusammengefasst werden, dies ändert auch den Merkmalstyp. Meistens liegen die Daten in nichtintegrierter Form vor, das heißt es gibt mehrere Datenquellen, die noch zusammengeführt werden. Im einfachsten Fall ist hierzu nur eine SQL-JOIN-Operation notwendig, es können aber auch komplett verschiedene Datenquellen sein. In diesem Fall können gleiche Merkmale anders benannt sein, oder gleichbenannte Merkmale andere Dinge ausdrücken oder eine andere Menge von möglichen Ergebnissen bieten. Ein Beispiel hierfür wäre, dass die Dienstleistung eines Unternehmens in einer Umfrage mit Schulnoten von 1 bis 6 bewerten werden soll, in einer anderen 22

29 Seminararbeit: CRISP-DM Linnea Passing Umfrage mit den drei Möglichkeiten zufrieden, teilweise zufrieden und nicht zufrieden. Manchmal ist das Datenintegrieren aufgrund dieser Schwierigkeiten nicht oder nur mit großem Informationsverlust möglich. Außerdem können Daten in unterschiedlicher Genauigkeit vorliegen. Dies kann sich auf die Anzahl von Nachkommastellen bei Zahlen beziehen, aber auch auf unterschiedliche Zeiträume bei Aggregierung ( User je Stunde gegenüber User pro Tag ). All diese Fälle nennt man Inkonsistenzen. Im folgenden Teilschritt Datenreduktion werden Datentupel ( Zeilen ) oder Merkmale ( Spalten ) aussortiert, die für die weitere Analyse unpassend sind Modeling In der vierten Phase, dem Modeling, werden verschiedene Verfahren und Algorithmen zur Anwendung auf die Daten diskutiert und ausprobiert. Da diese Verfahren meist einstellbare Parameter mitbringen, müssen durch mehrere Versuche die idealen Parameterwerte für die Daten und die definierten Ziele angenähert werden. Diese Phase hängt eng mit der Phase Data Preparation zusammen, da Verfahren mitunter spezielle Datendarstellungen benötigen. So sind für eine Analyse innerhalb eines Koordinatensystems Merkmale nötig, die sich auf eine Skala abbilden lassen. Insbesondere Freitext-Daten erfordern besondere Behandlung, da sie nicht einfach quantisiert und geordnet werden können. Parameter, ihre Werte und die Begründung dazu werden niedergeschrieben. Die getesteten Modelle werden anhand von Kriterien wie Robustheit und Genauigkeit bewertet und in eine Rangfolge gebracht. Rebustheit bedeutet in diesem Zusammenhang, dass Ausreißer in den Daten sich kaum im Endergebnis wiederspiegeln. In einem internen Dokument wird ein Testplan erarbeitet, der festlegt, wie die Daten in Trainings- und Testdaten eingeteilt werden. Mit den Trainingsdaten werden die Parameter des Modells eingestellt, mit den Testdaten wird dann die Qualität des Modells ermittelt. Aufgrund dieser Einteilung ist auch sichergestellt, dass die Parameter nicht so eingestellt werden, dass bei Anwendung auf die gesamte Datenmenge ein gewünschtes Ergebnis erzielt wird. Dies ist unabdingbar für die Wissenschaftlichkeit des Projektes Evaluation Phase Fünf, die Evaluation, ist zur Überprüfung des für geeignet befundenen Modells aus Phase Vier gedacht. Alle Annahmen und Entscheidungen, die in den vorigen Phasen getroffen wurden, werden noch einmal geprüft und mit den in der ersten Phase definierten Zielen abgeglichen. Außerdem wird überprüft, dass kein Schritt vergessen oder nicht genügend oft wiederholt wurde. Erst wenn das Modell allen festgelegten Anforderungen genügt und die Fragestellungen des Auftragnehmers beantwortet wird es angewandt und seine Ergebnisse ausgewertet. Bei der Auswertung wird insbesondere darauf geachtet, dass die gewonnenen Informationen neu und nützlich für den Auftragnehmer sind. Zu internen Verwendung wird der Projektablauf bewertet, für den Kunden werden mögliche nächste Schritte aufgelistet. Wenn Budget und Zeitplan es erlauben, können 23

30 Linnea Passing Seminararbeit: CRISP-DM weitere Iterationen direkt durchgeführt werden Deployment In der letzten Phase, dem Deployment, werden dem Auftraggeber die gewonnen Ergebnisse mitgeteilt. Dies kann in einer Präsentation geschehen oder durch die Einbindung des implementierten Data-Mining-Modells in eine automatisierte Auswertung der aktuellen Daten des Auftraggebers. Die Erkenntnisse des Projektes können nun durch den Auftragnehmer gegebenenfalls mit Hilfe der Data Miner umgesetzt werden. Dies kann sich in einer veränderten Marketingstrategie oder einem modifizierten Produktionsprozess zeigen. Der Auftragnehmer erstellt hierzu einen deployment plan, in dem auch festgehalten wird, wie das zukünftig automatisch ausgeführte Data Mining auf Korrektheit geprüft wird ( monitoring ). Als interner Abschluss werden die Einhaltung von Budget, Ressourcen und Zeitplan bewertet und Verbesserungen für zukünftige Projekte vorgeschlagen. Fehler, die gemacht wurden, werden festgehalten, um sie bei zukünftigen Projekten zu vermeiden. Die durch das Data Mining gewonnenen Erkenntnisse führen oftmals zu präzisierten Fragestellungen auf Seiten des Auftraggebers und damit zu Folgeaufträgen. Abbildung 5.3.: Phasenübergänge in CRISP-DM 24

31 Seminararbeit: CRISP-DM Linnea Passing In der Abbildung dargestellt sind nur die häufigsten Übergänge, es kann noch andere Phasenwechsel geben. Die dargestellten nicht-regulären Übergänge sind: Data Understanding Business Understanding Die Phasen hängen eng zusammen. Nach einem Einblick in die Daten können weitere Fragen auftreten, die sich auch auf die Branche des Auftraggebers beziehen. Modeling Data Preparation Unterschiedliche Algorithmen benötigen unterschiedliche Darstellungen, so müssen numerische Werte etwa in kategorisierte Werte umgewandelt werden ( diskretisieren ). Erst bei der Wahl der Algorithmen in der vierten Phase fallen diese nötigen Vorarbeiten auf. Evaluation Business Understanding Erkenntnisgewinne führen zu weiteren Fragestellungen: Ein Data-Mining-Projekt könnte die Information gebracht haben, aus welchen Gründen Kunden abwandern. Eine Folge-Fragestellung wäre Was für Einfluss hat ein abgewanderter Kunde auf andere Kunden? Bewertung Der Cross Industry Standard Process for Data Mining (CRISP-DM) ist das einzige Modell, das abstrakt genug bleibt, um selbst Teile implementieren zu können; aber gleichzeitig durch die Standardisierung und die Verankerung in der Praxis die Erfolgschancen des Data-Mining-Projektes maximiert. Es gibt kommerzielle Systeme, beispielsweise der Firmen SAS (arbeitet nach dem SEMMA-Modell) oder Oracle, die umfangreiche Möglichkeiten bieten, aber hohe Kosten mit sich bringen und unflexibel sind. Andere Modelle, wie sie zum Beispiel von Ester und Sander [1] eingeführt werden, beschränken sich meist auf die Nennung von Phasen und Phasenübergängen, CRISP-DM hingegen bietet genaue Aufgabenbeschreibungen und einen umfangreichen User Guide. Das Modell von Ester und Sander [1] legt seinen Schwerpunkt auf die technische Umsetzung des Data Mining. Die Schritte Vorverarbeiten und Transformation gehen stark auf die Datenvorbereitung ein, dieser Schritt ist bei CRISP-DM in einer Phase zusammengefasst. CRISP-DM ist ein umfassenderes Modell, dass auch Wert auf Managementaufgaben und Kundenkontakt legt. Es ist daher eher als komplette Anleitung benutzbar. Diese Schwerpunktsetzung ist dadurch erkennbar, dass die Einarbeitung in Branche und Daten des Arbeitgebers beim Modell Esters und Sanders in nur einem Schritt ( Fokussieren ) zusammengefasst ist, wohingegen bei CRISP-DM zwei der sechs Phasen hierfür zuständig sind. CRISP-DM kennt außerdem die Phase Deployment, in der gemeinsam mit dem Auftraggeber gearbeitet wird. Einige der in CRISP-DM erstellten Dokumente erinnern an die Dokumentation allgemeiner (IT-)Projekte. Die Risikobewertung, die bei CRISP-DM in Phase Eins durchgeführt wird, ist auch bei Projekten der Softwareentwicklung relevant. Die gemeinsam 25

32 Linnea Passing Seminararbeit: CRISP-DM mit dem Kunden beschlossenen Erfolgskriterien (Phase Eins) werden auch bei Projekten anderer Branchen festgelegt. CRISP-DM lässt sich deshalb gut in ein existierendes Projektmanagement einfügen und die aus anderen Projektmanagementsystemen bekannten Dokumente erleichtern den Einstieg. 26

33 Seminararbeit: CRISP-DM Linnea Passing 6. Fazit und Ausblick 6.1. Hinführung zum Bachelorprojekt Wie im ersten Kapitel erwähnt, hat diese Arbeit das Ziel mich mit Data Mining vertraut zu machen sowie die Vorgehensweise in meinem Bachelorprojekt festzulegen. Mein Bachelorprojekt werde ich am Rechen- und Kommunikationszentrum (RZ) der Rheinisch-Westfälischen Technischen Hochschule (RWTH) Aachen erarbeiten, bei der ich seit 2008 als Auszubildende beschäftigt bin. Das RZ ist der zentrale IT- und TK- Dienstleister der Hochschule. Ein Schwerpunkt der Dienstleistungen des RZ ist das Hochleistungsrechnen (HPC von engl. High Performance Computing). Darunter versteht man das Berechnen von komplexen Problemen auf Supercomputern oder einem zusammengeschalteten Rechnerverbund. Die zu lösenden Problemstellungen sind zu umfangreich, um sie auf einem herkömmlichen Arbeitsplatzrechner berechnen zu können. Dies trifft beispielsweise auf das Lösen von großen Gleichungssystemen und auf das Rendern von Grafiken zu. In der Wissenschaft und damit auch an forschenden Bildungseinrichtungen wie der RWTH Aachen besteht Bedarf für dieses computergestützte Rechnen. Zu diesem Zweck unterhält das Rechen- und Kommunikationszentrum einen Rechencluster, der von Mitarbeitern und Studierenden der RWTH genutzt wird. Im Rahmen des Ressourcenverbund NRW nutzen auch Wissenschaftler anderer Universitäten in Nordrhein-Westfalen die Aachener Hochleistungsrechner Thema Über die genaue Nutzung des Rechenclusters im Rechen- und Kommunikationszentrum ist wenig bekannt. Zwar fallen für jede Nutzung Logdaten an, diese werden bisher jedoch nur rudimentär ausgewertet. Das auf diese Seminararbeit aufbauende Bachelorprojekt widmet sich der weitergehenden Analyse der entstehenden Daten, um den Betreibern des Rechenclusters Informationen über die Nutzer, die Art der Nutzung, die Effizienz der Ressourcenverteilung sowie Fehlerarten und Trends geben zu können Geplantes Vorgehen Bei meinem Bachelorprojekt werde ich mich an den CRISP-DM-Phasen orientieren. Als Vorbereitung werde ich zunächst einige Data-Mining-Algorithmen kennenlernen und ausprobieren. Außerdem werde ich mich für eine Programmiersprache entscheiden. 27

34 Linnea Passing Seminararbeit: CRISP-DM In der Phase Business Understanding werde ich gemeinsam mit den Kollegen, die den Hochleistungsrechencluster administrieren, die genaue Aufgabenstellung und Fragen erarbeiten. Anschließend, in der Phase Data Understanding, werde ich mir den Aufbau der in Frage kommenden Datenquellen erklären lassen und einige Datensätze ansehen. Zur Data Preparation werde ich mir eine Teilmenge der Daten kopieren und Verknüpfungen zwischen den verschiedenen Quellen herstellen. Ich werde mich nach möglichen Fehlern in den Daten erkundigen und erfragen, wie bisher mit Fehl- und Falschwerten umgegangen wurde. Anschließend, beim Modeling, werde ich die Data-Mining-Algorithmen auf ihre Eignung in meinem Projekt untersuchen. Falls diese gewählten Algorithmen Parameter haben, werde ich nach optimalen Einstellungen suchen. Nach Abschluss dieses Schrittes werde ich wieder Rücksprache mit den Kollegen aus dem Bereich Hochleistungsrechencluster halten. In der Phase Evaluation werde ich die ausgewählten Algorithmen fest in mein Programm aufnehmen und weitere Programmteile wie das Frontend implementieren. Um nochmal alle bisherigen Schritte zu wiederholen, sollte ich in dieser Phase die Dokumentation der bisherigen Phasen ausarbeiten. Dadurch fallen mir eventuell übersehene Punkte auf. Zuletzt, beim Deployment, werde ich die gewonnenen Erkenntnisse meinen Kollegen vorstellen sowie falls gewünscht die Auswertung mit dem entwickelten Programm automatisieren. Grafiken können die Verständlichkeit der Präsentation unterstützen. Nach dem Projektende werde ich Wartungsarbeiten am System vornehmen sowie gewünschte Erweiterungen implementieren. Außerdem werde ich Reaktionen und Meinungen von Kollegen sammeln Anpassungen Für mein Bachelorprojekt plane ich einige Anpassungen gegenüber dem definierten CRISP-DM-Vorgehen. Data Mining arbeitet für gewöhnlich auf einem festen, eingefrorenen Datenbestand, bei meinem Projekt soll eine kontinuierliche Auswertung stattfinden. Ich plane deshalb, zunächst auf einem eingefrorenen Datenbestand zu arbeiten, um belastbare Ergebnisse bei der Auswahl der Algorithmen zu erhalten. In der Deployment-Phase soll das erarbeitete Programm auf dem Live-Datenbestand operieren. Da mein Auftraggeber aus demselben Unternehmen kommt, können einige Dokumente zusammengefasst werden; statt der Erstellung von Dokumenten können auch Gespräche für den Informationsaustausch genutzt werden. Die Budget- und Personalplanung fällt weitestgehend weg, da das Projekt nicht gewinnorientiert arbeitet und nur ich damit beschäftigt bin. In den Vordergrund rückt stattdessen meine Planung der Ressource Zeit. 28

35 Seminararbeit: CRISP-DM Linnea Passing 6.2. Fazit Vorteil einer definierten Vorgehensweise, zum Beispiel des Cross Industry Standard Process for Data Mining (CRISP-DM), ist die hohe Erfolgschance durch die Nutzung einer bereits erprobten Anleitung. Da schon viele Projekte in diversen Branchen mit diesem Modell durchgeführt wurden und Verbesserungsvorschläge der Anwender in die Anleitung zurückgeflossen sind, ist die Qualität des Modells vermutlich sehr gut. So durchgeführte Projekte bergen allerdings die Gefahr, sich zu nah an die Anleitung zu halten und dadurch einen Verwaltungsoverhead zu erzeugen. Dies ist vor allen Dingen durch die vielen Dokumente bedingt, die angelegt werden sollen. Einige der Dokumente sind bei firmeninternen Data-Mining-Projekten nicht nötig, individuelle Anpassungen wie ich sie für mein Bachelorprojekt vorhabe sind deshalb sinnvoll. Weitere Vorteile sind die einfachere Projektplanung sowie die bessere Kommunikation zwischen technischen und kaufmännischen Projektbeteiligten sowie mit dem Auftraggeber. Meiner Meinung nach überwiegen bei einer überlegten Anwendung von CRISP-DM die in Abschnitt 5.3 auf Seite 25 erwähnten Vorteile, deswegen werde ich es in meinem Bachelorprojekt nutzen. 29

Einführung in Data Mining anhand des Modells CRISP-DM

Einführung in Data Mining anhand des Modells CRISP-DM Einführung in Data Mining anhand des Modells CRISP-DM Seminarvortrag Linnea Passing Seminar, Scientific Programming, FH Aachen Stand: 11.01.2011 Rechen- und Kommunikationszentrum (RZ) Agenda Motivation

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Constraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche

Constraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche Douglas Cunningham,Petra Hofstedt, Klaus Meer, IngoSchmitt (Hrsg.): INFORMATIK 2015 LectureNotes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2015 Constraint-basierte Planung und Optimierung

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Lastenheft (Universität Paderborn, Softwaretechnikpraktikum SS2006)

Lastenheft (Universität Paderborn, Softwaretechnikpraktikum SS2006) Lastenheft (Universität Paderborn, Softwaretechnikpraktikum SS2006) Alles, was in dieser Schriftart gesetzt ist, dient nur zur Erläuterung und sollte im fertigen Lastenheft nicht mehr auftauchen! Der Umfang

Mehr

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10

PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 PROSEMINAR: INFORMATIONSGEWINN DURCH EXPERIMENTE WS 09/10 DATA MINING ALS EXPERIMENT VORTRAG: CHRISTOPH NÖLLENHEIDT 26.01.10 Ablauf Das CRISP-DM-Modell Zwei verschiedene Standpunkte über die Theoriebildung

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Dineso Software - Technische Daten

Dineso Software - Technische Daten Dineso Software - Technische Daten Zahlen, Daten, Fakten zu Software und Anwendung Inhaltsverzeichnis: 1. Allgemeine Informationen zur Dineso Software 2. Technische Voraussetzungen 3. Ablauf eines BI-Projektes

Mehr

Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0. Bachelorarbeit

Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0. Bachelorarbeit Kriterien zur Bewertung von Geschäftsmodellen der Industrie 4.0 Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B. Sc.) im Studiengang Wirtschaftswissenschaft der Wirtschaftswissenschaftlichen

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Virtual Roundtable: Portale: Aktuelle Herausforderungen und Trends

Virtual Roundtable: Portale: Aktuelle Herausforderungen und Trends März 2005 Virtual Roundtable: Portale: Aktuelle Herausforderungen und Trends Teilnehmer: Jens Leyrer, Geschäftsführender Gesellschafter Organisation: Nodevision GmbH Portale werden sehr allgemein gerne

Mehr

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16 Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

1 Grundprinzipien statistischer Schlußweisen

1 Grundprinzipien statistischer Schlußweisen Grundprinzipien statistischer Schlußweisen - - Grundprinzipien statistischer Schlußweisen Für die Analyse zufallsbehafteter Eingabegrößen und Leistungsparameter in diskreten Systemen durch Computersimulation

Mehr

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser

Mehr

Verybench: grafisches Frontend für Testwell CMT++ Code Complexity Measures Tool

Verybench: grafisches Frontend für Testwell CMT++ Code Complexity Measures Tool Verybench: grafisches Frontend für Testwell CMT++ Code Complexity Measures Tool Testwell CMT++ ist ein von der finnischen Firma Testwell Oy (www.testwell.fi) entwickeltes konsolenbasiertes Werkzeug zur

Mehr

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Strukturiertes Vorgehen zur Entwicklung von APEX-Anwendungen

Strukturiertes Vorgehen zur Entwicklung von APEX-Anwendungen Strukturiertes Vorgehen zur Entwicklung von APEX-Anwendungen Dr. Gudrun Pabst Trivadis GmbH München Schlüsselworte: APEX, Projekt, Vorgehensmodell Einleitung Mit APEX können Anwendungen auch ohne Konzeptphase

Mehr

Greedy Algorithms - Gierige Algorithmen

Greedy Algorithms - Gierige Algorithmen Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2

Mehr

Very simple methods for all pairs network flow analysis

Very simple methods for all pairs network flow analysis Very simple methods for all pairs network flow analysis obias Ludes 0.0.0. Einführung Um den maximalen Flusswert zwischen allen Knoten eines ungerichteten Graphen zu berechnen sind nach Gomory und Hu nur

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Probeklausur: Programmierung WS04/05

Probeklausur: Programmierung WS04/05 Probeklausur: Programmierung WS04/05 Name: Hinweise zur Bearbeitung Nimm Dir für diese Klausur ausreichend Zeit, und sorge dafür, dass Du nicht gestört wirst. Die Klausur ist für 90 Minuten angesetzt,

Mehr

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript 3. Deskriptive Statistik Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, [ ] Daten durch Tabellen, Kennzahlen [ ] und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem

Mehr

Muster für eine Masterarbeit

Muster für eine Masterarbeit Masterarbeit in Muster für eine Masterarbeit N.N. Aufgabensteller: Betreuer: Abgabetermin: N.N. N.N. Datum Erklärung Hiermit versichere ich, dass ich diese Masterarbeit selbständig verfasst und keine anderen

Mehr

Da ist zunächst der Begriff der Menge.

Da ist zunächst der Begriff der Menge. 1 In diesem Abschnitt werden wir uns mit den theoretischen Grundlagen der relationalen Datenbanken beschäftigen. Hierzu werden wir uns die wichtigsten Konzepte, Ideen und Begriffe näher ansehen, damit

Mehr

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

Reporting Lösungen für APEX wähle Deine Waffen weise

Reporting Lösungen für APEX wähle Deine Waffen weise Reporting Lösungen für APEX wähle Deine Waffen weise Dietmar Aust Opal-Consulting Köln Schlüsselworte: Oracle APEX, Reporting, JasperReports, PL/PDF, BI Publisher, OPAL:XP, Doxxy, Oracle Rest Data Services

Mehr

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes 1. Einleitung Das aktuelle Jahrzehnt wird als Zeitalter der Daten bezeichnet [Whi09, S. 1]. Die Menge der weltweit existierenden Daten ist in den letzten Jahren stark angewachsen. Eine Studie des amerikanischen

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Einführung 5.4.2011 Gliederung 1 Modellbildung und Evaluation 2 Verlaufsmodell der Wissensentdeckung 3 Einführung in das Werkzeug RapidMiner Problem Wir haben nur eine endliche

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Access 2010. für Windows. Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni 2012. Grundlagen für Anwender

Access 2010. für Windows. Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni 2012. Grundlagen für Anwender Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni 2012 Access 2010 für Windows Grundlagen für Anwender ACC2010 2 Access 2010 - Grundlagen für Anwender 2 Mit Datenbanken arbeiten In diesem Kapitel erfahren

Mehr

4.Tutorium Multivariate Verfahren

4.Tutorium Multivariate Verfahren 4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

Von der UML nach C++

Von der UML nach C++ 22 Von der UML nach C++ Dieses Kapitel behandelt die folgenden Themen: Vererbung Interfaces Assoziationen Multiplizität Aggregation Komposition Die Unified Modeling Language (UML) ist eine weit verbreitete

Mehr

Risk Assessment Tool. kostenlos frei verfügbar Excel mbt. maschinenbautage. mechtersheimer. mbt / 32. MBT GbR. maschinenbautage.

Risk Assessment Tool. kostenlos frei verfügbar Excel mbt. maschinenbautage. mechtersheimer. mbt / 32. MBT GbR. maschinenbautage. Risk Assessment Tool kostenlos frei verfügbar Excel 2010 MBT GbR / 32 Warum? Hersteller müssen Risikobeurteilung durchführen KMU benutzen hauptsächlich Excel- Tabellen Software ist (teilweise) unvollständig

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

Wie Software Roboter Ihre Mitarbeiter unterstützen oder sogar ersetzen können

Wie Software Roboter Ihre Mitarbeiter unterstützen oder sogar ersetzen können Wie Software Roboter Ihre Mitarbeiter unterstützen oder sogar ersetzen können Michael Darnieder TEDEXA GmbH - Mainz Über TEDEXA Gegründet 2015 TEam for DEveloping X(cross)- platform Applications Desktop,

Mehr

Notationen zur Prozessmodellierung

Notationen zur Prozessmodellierung Notationen zur Prozessmodellierung August 2014 Inhalt (erweiterte) ereignisgesteuerte Prozesskette (eepk) 3 Wertschöpfungskettendiagramm (WKD) 5 Business Process Model and Notation (BPMN) 7 Unified Modeling

Mehr

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_20120918_lids7.basisschulung_import_export.

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_20120918_lids7.basisschulung_import_export. LIDS 7 Import/Export Mannheim, 11.02.2013 Autor: Anschrift: Version: Status: Modifiziert von: Ablage: Christine Sickenberger - Asseco BERIT GmbH Asseco BERIT GmbH Mundenheimer Straße 55 68219 Mannheim

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit

Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Musterlösung zu Übungsserie 09

Musterlösung zu Übungsserie 09 Musterlösung zu Übungsserie 09 Prof. Dr. H. Schweppe I. Dageförde M. Waldvogel Aufgabe 9.1 Für diese Aufgabe gibt es nicht genau eine beste Lösung. Zunächst sei bemerkt, dass eine rekursive Lösung möglich

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Vorgaben zur Erstellung eines Businessplans

Vorgaben zur Erstellung eines Businessplans Vorgaben zur Erstellung eines Businessplans 1. Planung Dem tatsächlichen Verfassen des Businessplans sollte eine Phase der Planung vorausgehen. Zur detaillierten Ausarbeitung eines Businessplans werden

Mehr

Inhalt. 1. Einleitung. 2. Interviews 3. Bisher erzielte Ergebnisse. 4. Weiteres Vorgehen. Gegenstand Problemstellung Ziele

Inhalt. 1. Einleitung. 2. Interviews 3. Bisher erzielte Ergebnisse. 4. Weiteres Vorgehen. Gegenstand Problemstellung Ziele Auswahl und prototypische Entwicklung eines integrierten Berichtswerkzeugs für die Planung von Schulungen und Erstellung von Informationsmaterialen am Universitätsklinikum Leipzig Zwischenvortrag Martin

Mehr

BI im Dallmayr Delikatessenhaus

BI im Dallmayr Delikatessenhaus BI im Dallmayr Delikatessenhaus mit QlikView München, 05. Mai 2011 Vortrag Dallmayr Delikatessenhaus geschichtlicher Abriss Aufbau unseres BI-Systems was zeitlich geschah Infrastruktur ein grober Überblick

Mehr

Sprache systematisch verbessern. Eugen Okon

Sprache systematisch verbessern. Eugen Okon Sprache systematisch verbessern Eugen Okon Sprache systematisch verbessern Gliederung Einleitung Die CLEAR Methode CLEAR in einer Fallstudie Ergebnisse und Bewertung Zusammenfassung Sprache systematisch

Mehr

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch Frank Lammers Statistik I: deskriptive und explorative Statistik Lehr- und Übungsbuch 2004 Verlag der Gesellschaft für Unternehmensrechnung und Controlling m.b.h. Vorwort I Vorwort zur zweiten Auflage

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Praxissemesterbericht Studiengang Informatik. Titel der Arbeit. bei. Beispielfirma. von. Jon Doe 12345

Praxissemesterbericht Studiengang Informatik. Titel der Arbeit. bei. Beispielfirma. von. Jon Doe 12345 Praxissemesterbericht Studiengang Informatik Titel der Arbeit bei Beispielfirma von Jon Doe 12345 Betreuender Professor: Prof. Dr. Rainer Werthebach Einreichungsdatum: 01. Dezember 2016 I Angaben zur Praxisstelle

Mehr

D1: Relationale Datenstrukturen (14)

D1: Relationale Datenstrukturen (14) D1: Relationale Datenstrukturen (14) Die Schüler entwickeln ein Verständnis dafür, dass zum Verwalten größerer Datenmengen die bisherigen Werkzeuge nicht ausreichen. Dabei erlernen sie die Grundbegriffe

Mehr

Benutzen Sie nur die für die Antwort vorgesehenen Kästchen und führen Sie Nebenrechnungen auf den Rückseiten der Blätter durch!

Benutzen Sie nur die für die Antwort vorgesehenen Kästchen und führen Sie Nebenrechnungen auf den Rückseiten der Blätter durch! Statistik I, SS 2001, Seite 1 von 8 Statistik I Hinweise zur Bearbeitung Hilfsmittel: - Taschenrechner (ohne Datenbank oder die Möglichkeit diesen zu programmieren) - Formelsammlung im Umfang von einer

Mehr

DWH Automatisierung mit Data Vault 2.0

DWH Automatisierung mit Data Vault 2.0 DWH Automatisierung mit Data Vault 2.0 Andre Dörr Trevisto AG Nürnberg Schlüsselworte Architektur, DWH, Data Vault Einleitung Wenn man die Entwicklung von ETL / ELT Prozessen für eine klassische DWH Architektur

Mehr

Im Kurs wird in der Editoransicht der Kursbaustein Aufgabe ausgewählt und an der gewünschten Stelle in der Navigation eingeordnet.

Im Kurs wird in der Editoransicht der Kursbaustein Aufgabe ausgewählt und an der gewünschten Stelle in der Navigation eingeordnet. KURSBAUSTEIN AUFGABE 1 ALLGEMEINES ZUM KURSBAUSTEIN AUFGABE Der Kursbaustein Aufgabe erlaubt es, Aufgaben an Kursteilnehmer zu verteilen. Diese können Lösungen in den Kurs hochladen, ohne dass andere Kursteilnehmer

Mehr

Pendenzen Management

Pendenzen Management , Stoeckackerstrasse 30, CH-4142 Muenchenstein Ph:++41 (0) 61 413 15 00, Fax:++41 (0) 61 413 15 01 http://www.e-serve.ch, email:crm@e-serve.ch e-serve PendenzenManagement Version 7.1: e-serve UPSM Pendenzen

Mehr

Oracle Fusion Middleware Überwachung mit Oracle BAM

Oracle Fusion Middleware Überwachung mit Oracle BAM Oracle Fusion Middleware Überwachung mit Oracle BAM Schlüsselworte Monitoring, BAM, Fusion Middleware Einleitung Markus Lohn esentri AG Ettlingen Oracle BAM wird vor allem für das fachliche Überwachen

Mehr

Case-Based Reasoning und anderen Inferenzmechanismen

Case-Based Reasoning und anderen Inferenzmechanismen Case-Based Reasoning und anderen Inferenzmechanismen Daniel Müller 21 April 2006 DM () CBR und Inferenz 21 April 2006 1 / 31 Contents 1 Einleitung 2 Inferenzmechanismen Statistische Verfahren Data Mining

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

NetUSE-SSH-Keymanager 2.12

NetUSE-SSH-Keymanager 2.12 Benutzerhandbuch Maksim Kabakou - Fotolia.com Revision: 38 Stand: 10. Januar 2014 NetUSE AG Dr.-Hell-Straße 6 D-24107 Kiel Telefon: +49 431 2390 400 http://netuse.de/ Inhaltsverzeichnis 1. Versionsübersicht...3

Mehr

DIMEX Data Import/Export

DIMEX Data Import/Export DIMEX Data Import/Export PROCOS Professional Controlling Systems AG Gewerbeweg 15 FL- 9490 Vaduz PROCOS Professional Controlling Systems AG Inhaltsverzeichnis 1 ALLGEMEIN...3 2 GRUNDLEGENDE FUNKTIONEN...4

Mehr

Design eines Vorgehensmodells zur Entwicklung komplexer Dashboards

Design eines Vorgehensmodells zur Entwicklung komplexer Dashboards Design eines Vorgehensmodells zur Entwicklung komplexer Dashboards Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B. Sc.) im Studiengang Wirtschaftswissenschaft der Wirtschaftswissenschaftlichen

Mehr

Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden

Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden Eine Initiative zur Verbesserung der Trinkwasserinstallationen in Gebäuden. Dokumentation 4.0 Darstellen, Auswerten, Planen, Entscheiden Ing. Johannes Quicala Fachausschussmitglied, FORUM Wasserhygiene

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

MDRE die nächste Generation des Requirements Engineerings

MDRE die nächste Generation des Requirements Engineerings MDRE die nächste Generation des Requirements Engineerings Tom Krauß, GEBIT Solutions GmbH Copyright 2007 GEBIT Solutions Agenda Requirements Engineering heute eine Bestandsaufnahme Modell-Driven Requirements

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Nach DIN sind Projekte Vorhaben, die durch die Einmaligkeit der Bedingungen in ihrer Gesamtheit gekennzeichnet sind.

Nach DIN sind Projekte Vorhaben, die durch die Einmaligkeit der Bedingungen in ihrer Gesamtheit gekennzeichnet sind. Was ist ein Projekt? Nach DIN 69901 sind Projekte Vorhaben, die durch die Einmaligkeit der Bedingungen in ihrer Gesamtheit gekennzeichnet sind. Aufgabe: Projekt, oder kein Projekt? Entscheide anhand der

Mehr

Enterprise Content Management für Hochschulen

Enterprise Content Management für Hochschulen Enterprise Content Management für Hochschulen Eine Infrastuktur zur Implementierung integrierter Archiv-, Dokumentenund Content-Managementservices für die Hochschulen des Landes Nordrhein Westfalen Management

Mehr

Monte-Carlo Tests. Diplomarbeit. Wiebke Werft. Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf

Monte-Carlo Tests. Diplomarbeit. Wiebke Werft. Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Monte-Carlo Tests Diplomarbeit Wiebke Werft Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2003 Betreuung: Prof. Dr. Arnold Janssen Inhaltsverzeichnis Einleitung

Mehr

Waveletanalyse von EEG-Zeitreihen

Waveletanalyse von EEG-Zeitreihen Naturwissenschaft Heiko Hansen Waveletanalyse von EEG-Zeitreihen Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische Information der Deutschen Nationalbibliothek:

Mehr

Projektmanagement: Werkzeuge und Methoden

Projektmanagement: Werkzeuge und Methoden Projektmanagement: Werkzeuge (Tools and Techniques) Übersicht und Klassifikationen Für Projektmanager und Projektmitarbeiter Stand: 01/2018 Sie finden diese und weitere Präsentationen unter ( Klick): https://www.peterjohannconsulting.de/praesentationen

Mehr

Das V-Modell XT. Ein Standard für die Entwicklung von Systemen.

Das V-Modell XT. Ein Standard für die Entwicklung von Systemen. Das V-Modell XT. Ein Standard für die Entwicklung von Systemen. Wie funktioniert das V-Modell XT? Wie erfolgt das Tailoring, was sind Vorgehensbausteine, Entscheidungspunkte und Projektdurchführungsstrategien?

Mehr

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen

Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen Das diesem Dokument zugrundeliegende Vorhaben wurde mit Mitteln des Bundesministeriums für Bildung und Forschung unter dem Förderkennzeichen 16OH21005 gefördert. Die Verantwortung für den Inhalt dieser

Mehr

Enterprise Portal - Abbildung von Prozessen, SAP-Datenintegration und mobile Apps

Enterprise Portal - Abbildung von Prozessen, SAP-Datenintegration und mobile Apps Beschreibung Die führende Standard-Software, um Menschen und Informationen erfolgreich in Prozesse einzubinden. Intrexx Professional ist eine besonders einfach zu bedienende Software- Suite für die Erstellung

Mehr

Relationale Datenbanken und MySQL

Relationale Datenbanken und MySQL JUSTUS-LIEBIG-UNIVERSITÄT GIESSEN ALLG. BWL UND WIRTSCHAFTSINFORMATIK UNIV.-PROF. DR. AXEL C. SCHWICKERT Informationen zur Lehrveranstaltung Relationale Datenbanken und MySQL Übung im Master-Modul Electronic

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Selbstgesteuertes Lernen bei Studierenden

Selbstgesteuertes Lernen bei Studierenden Pädagogik Tanja Greiner Selbstgesteuertes Lernen bei Studierenden Eine empirische Studie mit qualitativer Inhaltsanalyse von Lerntagebüchern Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek:

Mehr

1 EINLEITUNG MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7

1 EINLEITUNG MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7 Property-Based Measurement Inhaltsverzeichnis 1 EINLEITUNG... 3 2 GRUNDLEGENDE DEFINITIONEN... 4 2.1 SYSTEME UND MODULE... 4 2.2 MODULARE SYSTEME...6 3 MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7 3.1 GRÖSSE...

Mehr

Dokumentenversion Userbezogene Daten

Dokumentenversion Userbezogene Daten Dokumentenversion 1.3 2017 Userbezogene Daten Inhaltsverzeichnis 1 Userbezogene Daten 1.1 Berechnung von Häufigkeiten 1.2 Berechnung von Frequenzen 1.3 Übersicht Dimensionen und Metriken 1.4 Automatische

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

MAS Digitales Bauen CAS Potenziale und Strategien Erweiteter Abstrakt. Modellgliederung nach ebkp-h Ein Ansatz mit ArchiCAD & Solibri

MAS Digitales Bauen CAS Potenziale und Strategien Erweiteter Abstrakt. Modellgliederung nach ebkp-h Ein Ansatz mit ArchiCAD & Solibri MAS Digitales Bauen CAS Potenziale und Strategien Erweiteter Abstrakt Modellgliederung nach ebkp-h Ein Ansatz mit ArchiCAD & Solibri Philipp Escher IDC AG p.escher@idc.ch Zusammenfassung. Um die Kosten

Mehr

Klausur zum BM Einführung in die Wirtschaftsinformatik SS 2014 Schriftlicher Teil

Klausur zum BM Einführung in die Wirtschaftsinformatik SS 2014 Schriftlicher Teil Friedrich-Schiller-Universität Jena Hinweise: Wirtschaftswissenschaftliche Fakultät Lehrstuhl Die Aufgaben für Wirtschaftsinformatik der Altklausur dienen lediglich der Orientierung. Aufgabenstellungen,

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

OpenProject Vorlage für die Planung einer Bachelor-/Masterarbeit

OpenProject Vorlage für die Planung einer Bachelor-/Masterarbeit OpenProject Vorlage für die Planung einer Bachelor-/Masterarbeit Harry Findeis und Felix Quaas 24.1.2017 Inhaltsverzeichnis 1 Einleitung 2 2 Aufruf Bachelor/Mastervorlage 3 3 Personalisieren des Arbeitsplans

Mehr