Untersuchung und Vergleich ausgewählter Open-Source Data Mining-Tools

Größe: px
Ab Seite anzeigen:

Download "Untersuchung und Vergleich ausgewählter Open-Source Data Mining-Tools"

Transkript

1 Hochschule für Technik und Wirtschaft Berlin Freie wissenschaftliche Arbeit zur Erlangung des akademischen Grades Bachelor of Science in Wirtschaftsinformatik Untersuchung und Vergleich ausgewählter Open-Source Data Mining-Tools Bachelorthesis im Fachbereich Wirtschaftswissenschaften II im Studiengang Wirtschaftsinformatik der Hochschule für Technik und Wirtschaft Berlin vorgelegt von: Joschka Jericke Storkower Straße Berlin Matrikel-Nr: s Erstbetreuer: Prof. Dr. Ingo Claßen Zweitbetreuer: Prof. Dr. Martin Kempa Abgabetermin:

2 Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis... II Abbildungsverzeichnis... III Einleitung... 1 CRISP-DM... 2 Phase 1 Business Understanding... 2 Phase 2 Data Understanding... 2 Phase 3 Data Preparation... 3 Phase 4 Data Modelling... 4 Phase 5 Evaluation... 4 Phase 6 Deployment... 5 Präsentation der zu vergleichenden Tools... 6 Rattle-GUI... 6 Scikit-learn... 6 RapidMiner... 7 Orange... 8 Benutzeroberfläche und Funktionsweise... 9 Rattle-GUI... 9 Scikit-learn RapidMiner Orange Evaluation Datenschnittstellen Datenexploration und Visualisierung Data Mining Methoden Abschließendes Fazit Literaturverzeichnis... VI Weblinks... VII Verwendeter Datensatz... VIII II

3 Abbildungsverzeichnis Abbildungsverzeichnis Abbildung 1 Rattle - Benutzeroberfläche... 9 Abbildung 2 RapidMiner Startansicht Abbildung 3 RapidMiner Prozessansicht Abbildung 4 RapidMiner Result Perspektive Abbildung 5 Orange Workflow Abbildung 6 Rattle Daten-Tab Abbildung 7 RapidMiner Repository..23 Abbildung 8 RapidMiner Operatoren Abbildung 9 RapidMiner Model Import/Export Abbildung 10 RapidMiner Meta Data View Abbildung 11 Rattle Datensatz Abbildung 12 Orange Data Table Abbildung 13 Rattle Explorer Abbildung 14 Rattle Beschreiben Abbildung 15 Rattle Fehlende anzeigen Abbildung 16 Rattle Verteilungen Abbildung 17 Rattle Grafiken Abbildung 18 RapidMiner - Iris Abbildung 19 RapidMiner SOM Abbildung 20 Orange Distributions Abbildung 21 Klassifizierung Data Mining Methoden III

4 Abbildungsverzeichnis Tabellenverzeichnis Tabelle 1 Rattle GUI... 6 Tabelle 2 scikit-learn... 6 Tabelle 3 RapidMiner... 7 Tabelle 4 Orange... 8 IV

5 Einleitung Einleitung Die Vorliegende Arbeit befasst sich mit einer Untersuchung von Open-Source Data Mining Tools anhand definierter Kriterien. Eine allgemein anerkannte Definition des Data Mining gibt es zurzeit noch nicht. Jedoch beschreibt eine sehr populäre Definition das Data Mining als einen Prozess zum Auffinden von gültigen, interpretierbaren Mustern in Datenbeständen, welche durch spezielle Analysemethoden gefunden werden. 1 Die neu gewonnen Informationen bzw. Zusammenhänge aus den Unternehmensdatenbeständen können dann als eine Grundlage für strategische Entscheidungen herangezogen werden. Da das Einführen kommerzieller Data Mining Software mit einem hohen Kostenaufwand verbunden ist, stellen entsprechende Tools aus dem Open-Source Bereich eine Alternative dar. Im Rahmen der Arbeit werden die folgenden vier Open-Source Data Mining Tools fokussiert: Rattle GUI Scikit-learn RapidMiner Orange Canvas In einem ersten Teil wird auf ein Vorgehensmodell eingegangen, welches dem Prozess des Data Mining im Unternehmen einen gewissen Rahmen gibt und Gleichzeitig als Fundament für die Vergleichskriterien dient. Anschließend erfolgt eine Präsentation der Tools und nachfolgend die Evaluation. 1 Vgl.(Gabriel, Gluchowski, & Pastwa, 2009, S. 121, zitiert nach: Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.; 1996 S ) 1

6 CRISP-DM CRISP-DM Der Cross Industry Standard Process for Data Mining (CRISP-DM) ist ein aus sechs Phasen bestehendes Vorgehensmodell, welches durch das CRSIP-DM Konsortium geschaffen wurde, um das Durchführen von Data Mining Projekten im Unternehmen zu unterstützen. Die sechs Phasen sehen dabei die Aufgaben des Business Understanding, Data Understanding, Data Preparation, Data Modeling und der Evaluation vor. 2 Im Folgenden werden die einzelnen Phasen genauer beschrieben. Phase 1 Business Understanding Die erste Phase des CRSIP-DM-Modells beinhaltet zusammenfassend das Definieren der Projektziele, die Erstellung eines Projektplans und das Überprüfen bzw. Sicherstellen, der für das Projekt erforderlichen Ressourcen. Die Definition der Projektziele sollte, nach Empfehlung des CRSIP-DM-Konsortiums, in zwei Schritten erfolgen. Als erstes werden die Ziele aus einer betriebswirtschaftlichen Sicht beschrieben. Von dieser betrieblichen Sicht ausgehend, können dann die entsprechenden analytischen Ziele für das Data-Mining abgeleitet und formuliert werden, um so das Erreichen, der aus betrieblicher Sicht, festgelegten Ziele, zu unterstützen. Phase 2 Data Understanding Nachdem in der ersten Phase eine Zielsetzung für das Projekt geschaffen wurde, folgt in der zweiten Phase das Sammeln, Beschreiben und Explorieren von allen Daten, welche für das Projekt benötigt werden oder relevant sein könnten. Dabei können die Daten je nach informationsbedarf aus den verschiedensten Quellen, Unternehmensinternen sowie extern stammen. Als primäre, unternehmensinterne Quelle wird üblicherweise ein Data-Warehouse herangezogen, da hier bereits ein Großteil der unternehmensbezogenen Daten als historische Datensammlung vorliegt. Diese können dann bedarfsgerecht, über das Erstellen von Data-Marts, extrahiert werden und liegen in einer bereits aufbereiteten Form vor. 3 Neben dem Sammeln der Daten, spielt in dieser Phase auch das Beschreiben sowie Explorieren der Daten eine wichtige Rolle. Diese Aktivitäten sollten aus zwei 2 (IBM, 2010) 3 vgl (Grabiel, Gluchowski, & Pastwa, 2009) 2

7 CRISP-DM Gründen durchgeführt werden. Zum einen, um ein besseres Verständnis für die Daten zu erlangen und zum anderem, um die Qualität der Daten einzuschätzen. Eine erste oberflächliche Beschreibung der Daten erfolgt dann in der Regel anhand der Metadaten. Durch diese können erste Informationen über die Struktur der Daten, wie den Datenumfang, den eingesetzten Datentypen und den zulässigen Wertebereichen gewonnen werden. Über die Beschreibung durch Metadaten ist es zudem möglich, erste Aussagen über die Qualität der Daten zu treffen, da beispielsweise fehlende Werte (Missing Values) oder auch falsche Werte, welche für den jeweiligen Datentyp nicht zulässig sind aufgedeckt werden. Die Exploration der Daten beinhaltet hier das erste Anwenden von Methoden der deskriptiven Statistik, durch welche erste, eventuell vorhandene Zusammenhänge bzw. Muster in den Daten entdeckt werden können. 4 Phase 3 Data Preparation Die Data Preparation Phase umfasst sämtliche Aktivitäten, welche erforderlich sind, um den Datenbestand für die nachfolgend einzusetzenden Analysemethoden nutzbar zu machen. Dieser Schritt ist meist sehr ressourcenintensiv und kann bis zu 80% der zeitlichen Ressourcen beanspruchen, insbesondere dann, wenn die Daten aus verschiedenen Quellen stammen und so eine starke Heterogenität aufweisen. 5 Die wesentlichen Aktivitäten dieser Phase sind hier aufgelistet: Select Data: In diesem Schritt wird festgelegt, welche Attribute und Datensätze für die Analysen selektiert bzw. exkludiert werden. Integrate Data: Beinhaltet das Anwenden von Methoden zur Kombination bestimmter Datentabellen, über zum Beispiel Join-Statements, um eine Tabelle so um Informationen zu ergänzen, welche für die Analysen von Relevanz sein könnten. Construct Data: Dieser Schritt bezieht sich auf das Konstruieren sogenannter abgeleiteter Attribute. Abgeleitete Attribute entstehen zum Beispiel aus Rechenoperationen über bereits vorhandene Attribute und ergänzen so die Datentabelle um ein neues Merkmal. 4 Vgl. (Grabiel, Gluchowski, & Pastwa, 2009) 5 Vgl. (Grabiel, Gluchowski, & Pastwa, 2009) 3

8 CRISP-DM Clean Data: Durch diese Teilaktivität, soll eine möglichst hohe Qualität der Daten sichergestellt werden. Hier steht beispielsweise die Behandlung von fehlenden oder fehlerhaften Werten sowie das Auffinden und Eleminieren von Redundanzen in den Daten im Vordergrund. Format Data: Die Datenformatierung befasst sich mit der Frage nach den zu verwendenden bzw. erforderlichen Skalenniveau und Datentypen. Je nachdem welche Data-Mining Methode bzw. Algorithmus zum Einsatz kommen soll, müssen die Attribute in einem hierfür geeignetem Skalenniveau vorliegen und gegeben falls in dieses Überführt werden. Phase 4 Data Modelling Nachdem in der vorangegangenen Phase eine umfangreiche Aufarbeitung der relevanten Daten stattgefunden hat, folgt in dieser 4. Phase des Data Modelling der Einsatz bestimmter Modellierungs- bzw. Analysemethoden. Je nachdem welche konkrete Data-Mining-Fragestellung für das Projekt gesetzt wurde, eignet sich im Allgemeinen immer eine bestimmte Menge verschiedener Analysemethoden, um entsprechende Ergebnisse zu produzieren. Innerhalb dieser Phase muss herausgefunden werden, welches Modell am besten geeignet ist. Aus diesem Grund besteht hier eine starke Rückkopplung zur Data-Preparation Phase, da die Daten für die Modelle entsprechend aufbereitet werden müssen. Für jedes erstellte Modell erfolgt dann jeweils eine Abschätzung der Modellqualität bzw. Genauigkeit, über die Berechnung geeigneter Maßzahlen, wobei für das jeweilige Modell auch entsprechende Methoden existieren, um die Qualität/Gültigkeit zu schätzen. Die Gültigkeit legt nahe, mit welcher Wahrscheinlichkeit die Aussagen des Modells gelten. Phase 5 Evaluation Die Phase der Evaluation sieht sowohl eine Bewertung der Data-Mining Ergebnisse als auch eine Bewertung des gesamten Projektverlaufs vor. In der vorherigen Phase wurden die Modelle anhand ihrer Gültigkeit aus einer technischen Sicht der Daten-Analyse miteinander verglichen und beurteilt, so dass hier eine Vorauswahl getroffen wurde. Nun geht es darum die Modelle aus Sicht der Betriebswirtschaft zu bewerten, um zu sehen welcher Nutzen sich aus den Ergebnissen ziehen lässt 4

9 CRISP-DM und ob die anfangs definierten Ziele auf Grundlage der Analysen erreicht werden können 6. Die rückblickende Bewertung des gesamten Projektverlaufs befasst sich im Wesentlichen mit aufgetretenen Problemen und damit einhergehend wie Data-Mining Projekte zukünftig optimiert werden können. Nach dem Konsortium bestehen die Projektergebnisse nicht nur aus den Analysergebnissen der Modelle an sich, sondern umfassen auch weitere Erkenntnisse, die während der Durchführung des Data-Mining Projektes gemacht wurden. So kann es beispielsweise sein, dass bestimmte Mängel in der Datenqualität zu Tage gebracht werden, welche nach Möglichkeit optimiert werden sollten. Phase 6 Deployment Nachdem die Modelle umfassend aus technischer und betriebswirtschaftlicher Sicht bewertet und im Idealfall für geeignet angesehen werden, geht es in dieser letzten Phase darum, auf welche Art und Weise bzw. durch welche konkreten Maßnahmen das neu gewonnene Wissen genutzt werden kann 7.Zudem werden die Projektergebnisse in einem finalen Report zur Verfügung gestellt. 6 Vgl. (Wirth & Hipp, 2013) 7 Vgl. (Grabiel, Gluchowski, & Pastwa, 2009) 5

10 Präsentation der zu vergleichenden Tools Präsentation der zu vergleichenden Tools Im folgendem werden die untersuchten Data-Mining Tools kurz mit ein paar ergänzenden Hintergrundinformationen vorgestellt. Rattle-GUI Offizielle Website/Herausgeber: Untersuchte Version: Unterstützte Betriebssysteme: Ubuntu und Debian GNU/Linux, MS-Windows, Mac-OS Tabelle 1 Rattle-GUI Rattle ist eine Erweiterung der Statistikprogrammiersprache bzw. Entwicklungsumgebung R und stellt dem Anwender eine grafische Benutzeroberfläche zur Verfügung. Entwickelt wurde Rattle vor dem Hintergrund, um für den Anwender bestimmte Funktionalitäten von R auch ohne nähere Kenntnis der R-Syntax zugänglich zu machen. Die dem Rattle-GUI zugrunde liegende Entwicklungsumgebung R wurde in C geschrieben und gilt als eines der mächtigsten Statistik bzw. Data- Mining-Werkzeuge 9. Eine Installation von R muss als Voraussetzung auf dem System vorhanden sein. Das Rattle-GUI-Package wird dann über eine einfache R- Syntax innerhalb der R-Entwicklungsumgebung mit allen erforderlichen Libraries heruntergeladen. Das Starten von Rattle erfolgt dann ebenfalls über einen einfachen R-Befehl. Scikit-learn Offizielle Website/Herausgeber: Untersuchte Version: Unterstützte Betriebssysteme: Ubuntu,Debian GNU/Linux, MS-Windows, Mac-OS Tabelle 2 scikit-learn 8 stand (Graham, 2011) 10 Stand

11 Präsentation der zu vergleichenden Tools Scikit-learn ist eine Library für die Programmiersprache Python, welche eine Menge von Machine-Learning bzw. Data-Mining Funktionalitäten implementiert. Das Projekt zur Entwicklung von Scikit-learn wurde 2007 gestartet. Einen ersten offiziellen Release gab es im Februar RapidMiner Offizielle Website/Herausgeber: Untersuchte Version: Unterstützte Betriebssysteme: Ubuntu,Debian GNU/Linux, MS-Windows, Mac-OS Tabelle 3 RapidMiner Entwickelt sowie offiziell zur Verfügung gestellt wird der RapidMiner durch das Unternehmen Rapid-I, welches sich auf Softwarelösungen und Dienstleistungen im Bereich Data-Mining spezialisiert hat. Die ursprüngliche Entwicklung des RapidMiner begann 2001 an der Universität Dortmund. Später gründeten die Entwickler das Unternehmen Rapid-I, welches sich mit der Weiterentwicklung sowie Wartung des Rapidminer befasst. 13 Neben der als Community-Edition erhältlichen Open-Source Variante, steht der RapidMiner auch als Lizenzpflichtige Enterprise-, Big-Data- sowie OEM-Edition zur Verfügung, welche sich im Wesentlichen hinsichtlich der Skalierbarkeit und im Support, seitens Rapid-I unterscheiden. 14 Neben Data-Mining stellt der RapidMiner auch ETL Funktionalitäten zur Verfügung. Der RapidMiner wurde in Java geschrieben und erfordert eine installierte Java- Laufzeitumgebung. 11 Vgl. (scikit-learn.org) 12 Stand Vgl (Mierswa) 14 Vgl 7

12 Präsentation der zu vergleichenden Tools Orange Offizielle Website/Herausgeber: Untersuchte Version: Unterstützte Betriebssysteme: Ubuntu,Debian GNU/Linux, MS-Windows, Mac-OS Tabelle 4 Orange Die Data Mining Software Orange basiert auf Python und wurde an der Faculty of Computer and Information Science der Universität Ljubljana Slovenia entwickelt. Orange wird über eine grafische Benutzeroberfläche bedient. 15 Stand

13 Benutzeroberfläche und Funktionsweise Benutzeroberfläche und Funktionsweise Nachdem die einzelnen Data-Mining Tools im vorangegangenen Kapitel kurz vorgestellt wurden, soll innerhalb dieses Kapitels ein erster Eindruck von den Tools vermittelt sowie deren Funktionsweise verdeutlicht werden, welche sich zuweilen grundlegend voneinander unterscheiden. Die Tools werden hierbei jeweils einzeln vorgestellt. Rattle-GUI Abbildung 1 Rattle - Benutzeroberfläche Nach dem Starten von Rattle öffnet sich dem Anwender die in Abbildung 1 dargestellte Benutzeroberfläche. Im oberen Teil des Fensters befindet sich hier die sogenannte Toolbar mit den grundlegenden Funktionen zum Erstellen, Öffnen und Speichern von R- bzw. Rattle-Projekten sowie dem generieren von Reports oder dem Erzeugen von speziellen Datenexporten. Die Kernfunktionen zum Vorbereiten und Durchführen von Data-Mining-Aufgaben in Rattle sind dann nach Kategorien zusammengefasst über die einzelnen Tabs zu 9

14 Benutzeroberfläche und Funktionsweise erreichen, welche unter der Toolbar angeordnet sind. Die Kategorisierung sowie Reihenfolge der hier angeordneten Tabs ist dabei so ausgelegt, dass der Anwender im groben von links nach rechts durch die Tabs navigiert. Innerhalb eines Tabs werden dann die entsprechenden Konfigurationen vorgenommen, welche nach jeder Änderung über den in der Toolbar befindlichen Ausführen - Button, bestätigt werden müssen. Der untere Bereich der Benutzeroberfläche liefert eine entsprechende Ausgabe der Ergebnisse, welche über das jeweilige Tabs generiert wurden. Das Ausgabefeld liefert hier nur Ergebnisse in Textform. Zu erwähnen ist, dass Rattle lediglich eine Teilmenge der Gesamtfunktionalitäten von R verfügbar ist. Da Rattle über einen R Befehl gestartet wird, läuft die R Entwicklungsumgebung stets parallel zu Rattle. In Rattle generierte grafische Darstellungen, werden in der R Umgebung ausgegeben Scikit-learn Im Kontrast zu den anderen, im Rahmen dieser Arbeit untersuchten Data-Mining Tools, gibt es in Scikit-learn kein grafisches Userinterface, sodass das Data- Mining Aufgaben hier direkt über die Programmierung in Python durchgeführt werden. Für die verschiedenen Data-Mining Modelle bzw. Algorithmen implementiert die Scikit-learn Library eine Vielzahl von Klassen, welche wiederum in Packages bzw. Modulen organisiert sind. Je nachdem welches Data-Mining Modell zum Einsatz kommen soll, wird ein sogenanntes Estimator-Objekt der entsprechenden Klasse instanziiert. Als Datengrundlage arbeiten bzw. erwarten Estimator-Objekte 2-dimensionale NumPy-Arrays, welche besonders für die Bearbeitung von umfangreichen, numerischen Daten geeignet sind. Implementiert werden diese durch ein spezielles NumPy Erweiterungs-Modul, welches als Voraussetzung für die Verwendung von Scikit-learn vorhanden sein muss. NumPy-Arrays beinhalten die Daten dann in einer (n_samples, n_features) Form, wobei über den Parameter n_samples die Anzahl der Zeilen und über n_features die Anzahl der Attribute bzw. Spalten repräsentiert wird 16. Ein Datensatz x, bei dem eine Zielvariable durch eine Regressionen oder Klassifikationen geschätzt werden soll, enthält die folgenden zwei Attribute: x.data sowie x.target. Das.target Attribut beinhaltet die Zielvariablen bzw. das label, welches Vorhergesagt werden soll, während das.data Attribut 16 Vgl. (astroml) 10

15 Benutzeroberfläche und Funktionsweise die Input-Datensätze enthält. Beide Attribute basieren auf NumPy-Arrays. Damit Estimator-Objekte mit den Daten arbeiten können, implementieren diese standardisierten Methoden, wobei hier eine Spezifikation zwischen Supervisedund Unsupervised Estimator-Objekten vorgenommen wird. Eine standardisierte Methode, welche durch alle Estimator-Objekte gegeben ist, ist die model.fit() Methode. Als Parameter werden hier entsprechend die.data bzw..target Attribute zum Lernen der Modelle übergeben. Bei supervised Lernalgorithmen beide Attribute, in der Form model.fit(x, y) und bei Unsupervised lediglich das.data Attribut, in der Form model.fit(x). Eine ausschließlich von supervised Estimator-Objekten implementierte Methode ist die model.predict() Methode.Diese wird angewandt nachdem das Model gelernt wurde und erwartet als Übergabeparameter ein neuen Arraydatensatz, um für diesen, auf Grundlage des gelernten Modells, das entsprechende label vorherzusagen. Zur Veranschaulichung der Vorgehensweise wird hier ein Beispiel geliefert, welches in Anlehnung an ein scikit-learn Tutorial entstanden ist 17. Als Datengrundlage kommt hierfür der Iris-Datensatz zum Einsatz. From sklearn.dataset import load_iris Iris = load_iris() X, y = iris.data, iris.target from sklearn.svm import LinearSVC clf = LinearSVC() clf = clf.fit(x, y) X_new = [ [ 5.0, 3.6, 1.3, 0.25] ] clf.predict (X_new) array([0], dtype=int32) list(iris.target_names) ['setosa', 'versicolor', 'virginica'] 17 Vgl. ( learning-and-scikit-learn-syntax) 11

16 Benutzeroberfläche und Funktionsweise Als erstes erfolgt hier ein Import des Iris Beispieldatensatzes aus dem sklearn.datasets Modul. Über eine Hilfsmethode wird der Variablen Iris der importierte Beispieldatensatz als NumPy-Array übergeben. Da der Iris-Datensatz ein typisches Beispiel zur Klassifizierung darstellt, verfügt dieser über ein.data sowie.target -Array. Im Beispiel wird der Variablen y über iris.target das label-array zugewiesen. Die Variable X erhält über das iris.data Attribut die Input- Datensätze. Als Modell soll ein Support Vector Machine Algorithmus (SVC) zum Einsatz kommen. Das sklearn.svm package enthält für diesen verschiedene Implementierungen. Importiert wird in diesem Fall die Klasse für einen linearensvc, welcher anschließend anhand der Variablen clf als Estimator-Objekt instanziiert wird. Wie bereits erwähnt, verfügen sämtliche Estimator-objekte über eine.fit Methode, über welche dem Lernalgorithmus das NumPy Datenarray übergeben wird. Im Beispiel erhält das Estimator-Objekt die Inputdaten X und die Zielvariable y als Übergabeparameter. Nachdem das Modell gelernt wurde, wird ein neuer Array-Datensatz X_new erstellt und dem gelernten Modell zur Klassifizierung, über die clf.predict Methode übergeben. Die Ausgabe liefert dann den Index-Wert des vorhergesagten labels, In diesem Fall 0. Über die iris.traget_names Methode, kann das Array mit den Klassennamen ausgegeben, sodass für den Datensatz x_new das label setosa geschätzt wurde. 12

17 Benutzeroberfläche und Funktionsweise RapidMiner Abbildung 2 RapidMiner - Startansicht Die Benutzeroberfläche des RapidMiner fällt relativ umfangreicher aus und setzt sich in der Standardausführung aus drei verschiedenen, sogenannten Perspektiven zusammen. Das Durchführen von Data-Mining Aktivitäten sowie weitere damit verbundenen Aufgaben, werden im RapidMiner über das Modellieren von Prozessen umgesetzt. Abbildung 2 zeigt die Start-Perspektive des RapidMiner. In dieser ersten Ansicht befinden sich nun zunächst grundlegende Funktionen, zum Anlegen neuer Data- Mining-Prozesse sowie dem Öffnen der zuletzt bearbeiteten Prozesse. Des Weiteren besteht die Möglichkeit zum Zugriff auf ein Online-Tutorial und dem Öffnen vordefinierter Musterprozess, sogenannten Templates. 13

18 Benutzeroberfläche und Funktionsweise Abbildung 3 RapidMiner - Prozessansicht Um die bereits erwähnte Prozessmodellierung vorzunehmen, stellt der RapidMiner dem Anwender, die in Abbildung 3 gezeigte, sogenannte Design-Perspektive zur Verfügung, welche in der Standardkonfiguration aus wiederum sechs verschiedenen Teilbereichen besteht und im folgendem kurz näher beschrieben werden. Im Bereich oben links findet der Anwender die Operatoren, welche nach Kategorien sortiert in einer hierarchischen Ordnerstruktur abgelegt sind. Diese werden zur Modellierung des Prozess per Drag and Drop in den mittleren Bereich, der sogenannten Process-View, gezogen und über einen Datenstrom miteinander verbunden. Jeder Operator erfüllt dabei eine bestimmte Aufgabe, wie das Einlesen von Daten, das Transformieren bestimmter Attributen in eine anderes Skalenbzw. Datenformat oder das Anwenden eines Data Mining Algorithmus. Abbildung 3 zeigt einen bereits fertig modellierten Prozess, welcher in Anlehnung an ein RapidMiner Tutorial entstanden ist Vgl. (North, 2012) 14

19 Benutzeroberfläche und Funktionsweise Im unteren, linken Bereich befindet sich dann das RapidMiner-Repository, also ein Verzeichnis, zur strukturierten Organisation importierter Daten, angelegter Datenbankverbindungen, erstellten Prozessen und anderen Datenobjekten, wie gespeicherten Ergebnissen oder auch Reports. Der Teilbereich direkt unter der Process-View macht den Anwender während der Prozessmodellierung auf eventuell vorhandene Probleme im Prozess aufmerksam und liefert gegebenenfalls Korrektur Vorschläge. Ein Fehler könnte beispielsweise in einem falsch gewähltem Datentyp oder Skalenniveau bestehen, welches zur Weiterverarbeitung durch den nachfolgenden Operator nicht geeignet ist. Im Bereich rechts außen findet der Anwender dann die Parameter-View, über welche die Konfiguration der einzelnen Operatoren erfolgt. Je nachdem welcher Operator selektiert wurde, erhält der Anwender hier die entsprechenden Parameter zur Konfiguration. Der letzte Bereich unter der Parameter-View liefert dann eine Beschreibung zur Funktionsweise des jeweils gewählten Operator und gibt dem Anwender darüber hinaus die Möglichkeit jeden Operator mit eigens angelegten Kommentaren zu versehen. 15

20 Benutzeroberfläche und Funktionsweise Abbildung 4 RapidMiner Result Perspektive Nachdem der fertig modellierte Prozess durch den Anwender manuell ausgeführt wurde, wird die hier in Abbildung 4 dargestellte Result-Perspektive erstellt. Um die Art und Weise der Ergebnissdarstellung durch die Result-Perspektive zu verdeutlichen, wird an dieser Stelle nochmals auf Abb.3 verwiesen. Hier ist im modellierten Prozess zu erkennen, dass jeweils drei separate Datenströme mit dem äußeren rechten Rand der Process-View, den sogenannten Result-Sets, verbunden sind. Jeder dieser Datenstörme generiert jeweils eine Ergebnisausgabe, welche dann nach der Prozessausführung innerhalb der Result-Perspektive, auf jeweils separat angelegten Tab einsehbar sind. Auf diese Art ermöglicht der RapidMiner quasi das gleichzeitige Anzeigen mehrerer Ergebnisse. Abbildung 4 liefert als Beispiel, eine dem Prozess entsprechende, aus drei Tabs bestehende Ausgabe der Ergebnisse mit einer Datentabelle im aktuell selektiertem Tab. Im unteren, linken Bereich wird zudem über die Auslastung des Arbeitsspeichers informiert. Des Weiteren sei an dieser Stelle erwähnt, dass die Erstellung sämtlicher Datenvisualisierungsmöglichkeiten, wie einfachen Plots oder Histogrammen, innerhalb der Result- Perspektive, auf Grundlage der Ergebnis-Tabellen vorgenommen werden. 16

21 Benutzeroberfläche und Funktionsweise Orange Abb. 1 Orange Benutzeroberfläche Ähnlich wie im RapidMiner werden auch in Orange sämtliche Data Mining Aufgaben und damit zusammenhängende Funktionen der Datenexploration sowie Vorbereitung über das Zusammenbauen von Workflows umgesetzt. Die Benutzeroberfläche ist weit weniger komplex als die vom RapidMiner. Nach dem Start von Orange, gelangt der Anwender zur der in Abbildung 5 dargestellten Benutzeroberfläche, in welcher die Modellierung der Workflows vorgenommen wird. Hauptbestandteile der Workflows sind hier die sogenannten Widgets, welche sich kategorisch geordnet auf der linken Seite des User-Interface befinden. Die Übersicht ist hier größer als im RapidMiner, dafür aber ist der Funktionsumfang wesentlich geringer. Die Widgets werden einzeln per Drag and Drop auf der Modellierungsfläche platziert und zum Informationsaustausch über Channels miteinander verbunden, wobei jedes Widget im Prinzip über beliebig viele ein- sowie ausgehende Channels Informationen mit weiteren Widgets austauschen kann. Anders als im RapidMiner erfolgt in Orange keine Prozessausführung. Möchte der Anwender bestimmte Er- 17

22 Benutzeroberfläche und Funktionsweise gebnisse einsehen, so erhält er diese über das direkte Ausführen des entsprechenden Widgets, was zum Öffnen eines extra Fensters führt. Um einen Prozessablauf etwas näher zu veranschaulichen, zeigt die folgende Abbildung einen modellierten Workflow im Detail. Abbildung 5 Orange Workflow Das File -Widget dient zum Einlesen einer Quelldatei und ist mit einer weiteren kleinen Menge Widgets verbunden. Führt der Anwender das Widget Data Table aus, so erhält er eine einfache tabellarische Darstellung, der eingelesenen Quelldatei. Über die Ausführung der farblich in Rot gehaltenen Widgets Attribute Statistics, Distributions sowie Scatter Plot sind für den Anwender die entsprechenden Visualisierungen der Daten jeweils einzeln aufrufbar. Im unteren Teil des Workflows erfolgt, nach einer genaueren Selektierung, der zu verwenden Attribute bzw. Spalten, das Anwenden eines Naive Bayes-Klassifikator. Die vorgenommene Klassifizierung des Naive Bayes Algorithmus ist anschließend über die Ausführung des Nomogram interaktiv einsehbar. Ausgewählte Widgets werden im weiteren Verlauf detaillierter behandelt. 18

23 Evaluation Evaluation Datenschnittstellen Das erste Vergleichskriterium befasst sich mit einer Untersuchung der Datenschnittstellen. Da für Data-Mining Aktivitäten herangezogene Daten aus verschiedenen Quellen stammen und in unterschiedlichen Datenformaten vorliegen können, stehen hier zum einen die Möglichkeiten zum Datenimport sowie die Konnektivität zu Datenbanken Im Fokus. Des Weiteren werden auch Datenschnittstellen nach außen hin untersucht, da durch diese einerseits die Wiederverwendbarkeit von gelernten Modellen gewährleistet wird und andererseits Veränderungen an den Datensätzen, welche im Rahmen der Datenvorbereitung durchgeführt wurden, reproduziert werden können. Wurden am Trainingsdatensatz bestimmte Transformationen vorgenommen, um ein Modell zu Lernen, so müssen die gleichen Transformationen auch am Scoring Datensatz erfolgen. Ein weiteres Kriterium, im Zusammenhang mit dem Austausch von Data-Mining Modellen, ist der auf XML-basierende Predictive Model Markup Language Standard (PMML), dessen Weiterentwicklung von Data Mining Group (DMG) vorangetrieben wird. Entwickelt wurde dieser, um einen einheitlichen Standard zum Austausch von gelernten Data-Mining Modellen zwischen verschiedenen Data-Mining Tools zu schaffen. Ein Vergleich der Datenschnittstellen wird nach den folgenden Kriterien durchgeführt: Datenbankkonnektivität Möglichkeit zur Übergabe von SQL-Abfragen Import Trennzeichenbasierender Datenformate Import von Datenformaten anderer Statistik- bzw. DataMining Software PMML Unterstützung Reproduzierbarkeit durchgeführter Veränderungen am Datenbestand Import sowie Export gelernter Modelle zwischen verschiedenen Instanzen der jeweiligen Tools 19

24 Evaluation In Rattle findet der Nutzer die Optionen zu einem ersten Datenimport im Daten - Tab. Die folgende Abbildung zeigt hierbei den zugehörigen Ausschnitt des aktiven Daten-Tab aus der Benutzeroberfläche: Abbildung 6: Rattle Daten-Tab Die Auswahl der gewünschten Datenquelle erfolgt hier über die Selektion des entsprechenden Radio-Buttons. Die in Abbildung 6 selektierte Option Tabellenblatt, dient zum Import sämtlicher Trennzeichenbasierter Datenformate, wie dem.txt-,.csv- sowie dem MS-Excel.xls(x) -Datenformat. Rechts daneben findet der Anwender die Möglichkeit zum Importieren von Daten in Wekas ARRF-Datenformat. Das Herstellen einer Datenbankverbindung erfolgt in Rattle ausschließlich über den Open Database Connectivity Standard (ODBC), welche entsprechend über den ODBC-Button konfiguriert wird. Hier trägt der Anwender die Datenbank-URL bzw. den Data-Source-Name (DSN) zum Ansteuern der gewünschten Quelldatenbank ein. In der Regel muss vorher eine Konfiguration des DSN im Betriebssystem vorgenommen werden, wobei für MS-Windows so gut wie alle Datenbankanbieter einen entsprechenden ODBC-Treiber zur Verfügung stellen und Rattle somit alle gängigen Datenbanksysteme ansprechen kann. Allerdings ist hier zu erwähnen, dass über diese Methode keine Möglichkeit besteht, Datenbankabfragen per SQL-Syntax zu übergeben. Wurde die Datenbankverbindung hergestellt kann der Anwender lediglich einzelne Tabellen über eine Dropdown-Liste auswählen und unter Angabe einer Zeilenbeschränkung importieren, sodass hier beim Zugriff auf relationale Datenbanken keine eine bedarfsgerechte Informationsbereitstellung per SQL-Abfrage stattfinden kann. Eine weitere Option ist das Importieren von R-Datensätzen. Hierbei referenziert Rattle sämtliche Datensätze, welche per R-Syntax innerhalb der, dem Rattle GUI zugrunde liegenden, R-Entwicklungsumgebung eingelesen wurden. Über eine Dropdown-Liste kann der Anwender diese einsehen und eine Auswahl treffen. Als besonders nützlich erweist sich diese Funktion deshalb, da auf diese Art der Um- 20

25 Evaluation fang der möglichen Datenformate zur Verwendung in Rattle zunimmt. So stellt die R-Umgebung per Syntax beispielsweise Möglichkeiten zum Einlesen von Datenformaten anderer Statistikprogrammen wie SPSS oder SAS zur Verfügung. Darüber hinaus implementiert eine spezielle R-Library den SQL Standard, sodass über diesen Umweg Tabellen per SQL Abfrage aus einer Datenbank nach R als R-Datensatz geladen und in Rattle genutzt werden können. 19 Die nächste Option trägt die Bezeichnung R-Datendatei und ermöglicht dem Anwender das Einlesen von Datensätzen, welche im R eigenen.rdata Datenformat vorliegen. Sämtliche in R eingelesen Datensätze lassen sich in diesem Format speichern, wobei eine R-Datendatei mehrere Tabellen beinhalten kann. Von den zur Verfügung stehenden Tabellen kann in Rattle stets eine Tabelle als Datengrundlage selektiert und geladen werden. Der Radiobutton Bibliothek liefert an sich keine weiteren Funktionen zum Import externer Dateien, sondern stellt dem Anwender eine Auswahl von speziellen R Beispieldatensätzen, welche in den jeweiligen R-Libraries vorliegen, zur Verfügung. Über die nachfolgende Option Korpus lassen sich Daten zum Text-Mining importieren. Der aktuelle Projektfortschritt kann als Rattle-Projektdatei gespeichert werden. Die importierten Datensätze werden hierbei mit sämtlichen Änderungen und den gebauten Modellen als.rattle Datei gespeichert werden. Rattle Projektdateien stellen hier also eine Möglichkeit zum Austausch von Modellen zwischen verschiedenen Rattle Instanzen zur Verfügung. Um Durchgeführte Aktivitäten bzw. Änderungen an den Daten später zu reproduzieren, kann der Anwender auf den R-Code zurückgreifen, welcher stets parallel zu durchgeführten Befehlen in Rattle aufgezeichnet wird. Dieser befindet sich im Log- Tab und kann als R-Skript exportiert werden. Auf die Weise lassen sich die durchgeführten Änderungen am Datenbestand später nachvollziehen bzw. durch einfache Ausführung des R-Codes am scoring Datensatz wiederholen. Ein PMML Export durch Rattle ist gegeben. Importieren lassen sich Modelle via PMML allerdings noch nicht. Ausgeführt werden Datenexporte, über die in Abbildung 5 zu sehende, Exportieren Schaltfläche. Je nachdem auf welchem Tab sich der Anwender beim betätigen dieser Schaltfläche befindet, werden entsprechende Datenexporte ermöglicht. Innerhalb des Modell Tabs, kann so das dort gebaute 19 Vgl. (Graham, 2011) 21

26 Evaluation Modell als PMML exportieren werden, während auf dem Log-Tab ein Export des R-Code möglich ist. Scikit-learn stellt über das sklearn.datasets Package eine Menge von Methoden zum Laden von Daten bereit. Diese sind in der API in zwei Kategorien, den sogenannten Loader- und den Sample-Generator Methoden aufgeteilt. Über die Sample-Generator Methoden kann der Anwender simulierte Zufallsdatensätze generieren, wobei hier für verschiedene Data Mining Problemstellungen aus den Bereichen der Regressionsanalyse oder dem Clustering passende Datensätze erzeugt werden können. Die verfügbaren Sample-Generatoren fallen somit relativ umfangreich aus. Über die Loader Methoden können dann entweder bereits vorhandene Beispieldatensätze oder Daten aus externen Quellen geladen werden. Zum direkten Laden von Daten gibt es neben den mitgelieferten Beispieldatensätzen, wie dem Irisdatensatz, Möglichkeiten zum Zugriff auf Online-Repositories. So kann der Anwender über die datasets.fetch_mldata() Methode direkt auf das online verfügbare, öffentliche Datenarchiv des machine learning data set repository (mldata.org) zugreifen, in dem nach aktuellem Stand 20 über 848 Datensätze zur freien Verwendung verfügbar sind. Das mldata.org Repository wird durch das, von der Europäischen Union gegründete, Pascal-Network unterstützt, welches sich intensiv mit der Weiterentwicklung von Data-Mining bzw. Machine Learning Technologien befasst. Neben dem Zugriff auf Online Repositories, umfassen die Loader Methoden eine weitere Möglichkeit zum Laden extern vorliegender Datensätze. Diese besteht im Laden des speziellen SVMLIGHT/LIBSVM Datenformat, über die dataset.svmlight_file() - Methode. LIBSVM ist ein textbasierendes Datenformat, welches speziell für Aufgaben der Klassifikationen sowie Regression unter Anwendung von Support Vector Machine Lernalgorithmen (SVM) entwickelt wurde. Macht man sich auf die Suche nach online verfügbaren Datensätzen in diesem Format, stellt man fest, dass die Auswahl hier noch eingeschränkt ist. Zum Laden einfacher, textbasierender Datenformate, welche auf lokalen Datenträgern vorliegen, liefert die Scikit-learn Library direkt keine weiteren Möglichkeiten. Da Scikit-learn allerdings auf NumPy Arrays zurückgreift, kann der Anwender die numpy.loadtxt Methode verwenden, um numerische Werte zu importieren, wobei per Parameterübergabe jedes Trennzeichen definiert werden kann. 20 Stand

27 Evaluation numpy.loadtxt (fname, dtype=<type 'float'>, comments='#', delimiter=none, converters=none, skiprows=0, usecols=none, unpack=false, ndmin=0) Um gelernte Modelle in einer anderen scikit-learn Instanz wiederverwenden zu können, ist es möglich Modelle über das Python pickle-modul zu exportieren, durch welches ein gelerntes Modell x über die pickle.dump(x) Methode in einem speziellen pickle-objekt gespeichert werden kann. Der RapidMiner stellt dem Anwender prinzipiell zwei verschiedene Vorgehensweisen zum Datenimport zur Verfügung. Zum einen lassen sich vorliegende Daten direkt in das RapidMiner Repository überführen und zum anderen gibt es im RapidMiner eine hohe Anzahl von Operatoren, mit denen die Daten dann während der Prozessausführung eingelesen werden können. Abbildung 7 RapidMiner - Repository Abbildung 8 RapidMiner - Operatoren Abbildung 6 zeigt für einen Überblick der importierbaren Datenformate einen Ausschnitt der Repository-View, inklusive dem geöffnetem Kontextmenü zum Datenimport. Wie zu sehen lassen sich hier csv-, MS Excel-, XML- sowie das MS- Access.mdb Datenformat einlesen. Die Import Database Table Funktion erlaubt den Einsatz von SQL Abfragen über eine bereits vorkonfigurierte Datenbankverbindung, wobei die Ergebnisstabelle der SQL Abfrage dabei anschließend direkt in das lokale Repository überführt wird. Zusätzlich ist zu sagen, dass sämtliche Da- 23

28 Evaluation ten bei einem Import in das Repository in ein RapidMiner eigenes Datenformat überführt werden. Zur weiteren Verwendung der Daten in der Prozessmodellierung gibt es dann einen speziellen Retrieve Operator. Da der RapidMiner auf Java basiert, erfolgt die Herstellung einer Datenbankverbindung per JDBC. Entsprechende JDBC Treiber sind, mit Ausnahme von Oracle db, für alle gängigen Datenbanksysteme bereits in der Treiber Bibliothek vorhanden. Ein Vorteil durch welchen zuweilen auch die ETL-Funktionalitäten deutlich werden ist, dass der RapidMiner zum Management der Datenbankverbindungen über ein Tool verfügt, durch welches beliebig viele Verbindungen konfiguriert und gespeichert werden können. Beim Bauen der Prozesse kann dann so der Zugriff auf mehrere Datenbanken erfolgen. Innerhalb des Repositories erfolgt dann der Zugriff auf die vordefinierten Datenbankverbindungen, innerhalb des DB Knoten. Über die Baumstruktur lassen sich die verfügbaren Tabellen aus der jeweiligen Datenbank einsehen und in den Prozess importieren. Abbildung 6 liefert hier ein Beispiel für eine aktive Datenbankverbindung mit der Bezeichnung local my sql und einer dort verfügbaren Tabelle rapidminer_testtable. Abbildung 7 zeigt einen Ausschnitt der Operator-View mit den verfügbaren Operatoren zum Datenimport. Der Umfang an möglichen Datenformaten ist hier größer als beim direkten Import via Repository. Wie zu sehen unterstützt auch der RapidMiner neben den Trennzeichenbasierten und Wekas ARFF Format, Datenformate gängiger Statistikprogramme, wie SPSS, Stata und DasyLab. Der Read AML Operator liest das RapidMiner eigene Datenformat ein. Eine Besonderheit ist, dass der Anwender zwei Alternativen zum Lesen aus Datenbanken hat, den Read Database sowie den Stream Database -Operator. Der Read Database Operator liest das Ergebnis der Datenbankabfrage direkt in den Hauptspeicher, während der Stream Database alternativ ein inkrementelles Auslesen der Datenbank ermöglicht. Hierbei erfolgt ein stufenweisen Laden der Daten in sogenannten Batches, was den Zugriff auf sehr umfangreiche Tabellen möglich macht. Zu bemerken ist hier allerdings, dass über diesen Operator keine SQL-Querys übergeben werden können, sondern lediglich einzelne Tabellen selektiert werden. In Bezug auf die PMML Unterstützung lässt sich feststellen, dass hierfür über den Update Assistenten eine spezielle Extension geladen werden muss, die den RapidMiner um einen Write PMML Operator ergänzt. Über diesen können gelernte 24

29 Evaluation Modelle dann als XML im PMML Dialekt exportiert werden. Ein Austausch von gelernten Modellen zwischen verschiedenen RapidMiner Instanzen erfolgt ebenfalls per XML. Durch den Einsatz entsprechender Write Model - bzw. Read Model Operatoren, lassen sich Modelle als XML exportieren und dann in einem neu angelegten Prozess oder einer anderen RapidMiner Installation wiederverwenden. Zur Veranschaulichung zeigt die nachfolgende Abbildung ein kleines Beispiel, wobei zu erwähnen ist, dass hier der Modellimport und Export im gleichen Prozess stattfinden. Abbildung 9 RapidMiner - Model Import/Export Im dargestellten Prozess wird auf Grundlage eines Trainingsdatensatzes ein Decision Tree berechnet und anschließend über den Write Model Operator exportiert. Das berechnete Modell wird dann per Read Model Operator eingelesen und über den Apply Model Operator auf einen neuen Scoring-Datensatz angewandt, um hier dann die Klassifizierung einer Zielvariablen vorzunehmen. Das Einlesen und Anwenden des berechneten Modells auf den Zieldatensatz kann dabei, anders als in diesem Beispiel, in einer anderen RapidMiner Installation stattfinden. Neben dem Austausch RapidMiner eigener Modelle, steht dem Anwender auch eine Extension zur Integration von Modellen bzw. Algorithmen der Weka Data Mining Software zur Verfügung, sodass in Weka gelernte Modelle ebenfalls importiert werden können. Darüber hinaus lässt sich auch die interne XML Beschreibung der gesamten Prozesskonfiguration exportieren, um so den gesamten modellierten Prozessablauf in einer anderen RapidMiner-Instanz zu reproduzieren. Zu den Datenexportmöglichkeiten lässt sich weiterhin sagen, dass der RapidMiner 25

30 Evaluation neben dem csv und xls Format, sämtliche Daten aus dem Repository auch in Wekas ARFF Format schreiben kann. In Orange ist der Umfang an unterstützten Datenformaten im Vergleich zum RapidMiner und Rattle am geringsten. Neben den Trennzeichenbasierenden Formaten werden das ARFF sowie das, aus scikit-learn bekannte, libsvm Datenformat unterstützt. Das Einlesen von Datenformaten anderer Statistikprogramme, wie im RapidMiner, ist hier nicht gegeben. Zur Herstellung einer Datenbankverbindung gibt es in Orange, innerhalb der Kategorie Prototypes, zwei verschiedene Widgets. Eines dient zur Verbindungsherstellung via DSN, bei dem anderen erfolgt der Datenbankzugriff über das Eintragen der Verbindungsdaten, wobei hier zurzeit lediglich MySQL und Postgres Datenbanken unterstützt werden. Beide Widgets bieten die Möglichkeit für SQL Abfragen. Eine PMML Unterstützung ist in der untersuchten Version nicht gegeben. Ein Austausch von gelernten Modellen ist aber, wie auch in Scikit-learn, über das pickle-modul möglich. So können mithilfe des Widgets Save Classifier Modelle als Pickle Datei exportiert werden. 26

31 Evaluation Datenexploration und Visualisierung Wie in der Beschreibung des CRISP-DM Modelles deutlich wurde, erfolgt vor dem eigentlichen Einsatz der Data-Mining Methoden, ein umfassendes Explorieren bzw. Beschreiben der Daten, anhand statistischer Maßzahlen sowie dem Einsatz verschiedener Visualisierungsmöglichkeiten. Innerhalb dieses Kapitels folgt eine Darstellung, welche Möglichkeiten die einzelnen Tools hier bieten und wie diese umgesetzt sind. Ein erstes Vergleichskriterium befasst sich hierbei mit den zur Verfügung stehenden Kenngrößen aus der deskriptiven Statistik, durch welche sich dem Anwender ein erster Eindruck von der Verteilung der Daten erschließt. Das Hauptaugenmerk liegt in diesem Zusammenhang auf den folgenden Kennzahlen der deskriptiven Statistik, welche hier aufgeführt werden: absolute und relative Häufigkeitsverteilung nummerischer sowie kategorischer Merkmale Lagemaße: Modus, Arithmetische Mittel, Median, Quantile Streuungsmaße: Spannweite, Varianz, Schiefe- und Wölbungsmaß Darstellung von Informationen innerhalb der Metadaten-Übersicht Grundsätzlich stellen hinsichtlich der definierten Kennzahlen Orange, Rattle sowie der RapidMiner dem Anwender eine gewisse Auswahl zur Verfügung. Das scikitlearn Package fokussiert sich mehr auf die DataMining Modellierungsmethoden und verzichtet hier auf Implementierungen zur reinen Darstellung statistischer Kennzahlen. In Rattle fallen die Möglichkeiten zur Darstellung der Kennzahlen am umfangreichsten aus und decken die definierten Kennzahlen komplett ab. In Orange und dem RapidMiner fehlen die Maßzahlen für das Schiefe- und Wölbungsmaß. Weiterhin gibt es im RapidMiner keine genaue Darstellung der Merkmalswerte von Quantilen. Zwar liefert der RapidMiner die Möglichkeit zum Generieren von Box Plots, welche das sowie 0.75 Quantil grafisch Kennzeichnen, jedoch werden die zughörigen Merkmalswerte nicht ausgegeben. Zudem ist die Skalierung der Werteskala zu grob und bietet keine weitere Möglichkeit zu einer Interaktiven Bearbeitung, sodass die Quantile bestenfalls geschätzt werden können. In Orange fehlen das Schiefe- und Wölbungsmaß. Generiert werden die Kennzahlen im RapidMiner innerhalb der Metadaten-Übersicht, während Orange eine Darstellung der Kennzahlen über das Attribute Statistics - Widget vornimmt. In Rattle lassen sich Kennzahlen über das Explorer -Tab generieren. 27

32 Evaluation Zur Veranschaulichung der Kennzahlen im RapidMiner stellt die folgende Abbildung die Metadaten-Übersicht des RapidMiner dar. Als Datengrundlage kommt hierbei ein öffentlich verfügbarer Datensatz zum Einsatz, welcher im Rahmen eines RapidMiner Tutorial zur Verfügung steht. 21 Abbildung 10 RapidMiner - Meta Data View Die Metadaten-Übersicht zeigt die Attribute des Datensatzes mit den entsprechenden Datentypen und den Rollen, wobei im RapidMiner eine Festlegung der Rollen sowie Datentypen über den, in Kapitel 4 angesprochenen, Wizard zum Datenimport vorgenommen wird. In den Spalten Statistics sowie Range findet der Anwender hier erste grundlegende Statistiken. Range liefert für numerische Werte die Spannweite und für kategorische die möglichen Ausprägungen zusammen mit den absoluten Häufigkeiten. Über die Spalte Statistics sind dann für numerische Attribute das arithmetische Mittel sowie die Varianz einsehbar. Für kategorische Attribute liefert Statistics den Modus, also die Merkmalsausprägung, welche am häufigsten vorkommt und dazu, die mit least gekennzeichnete Ausprägung mit der geringsten Häufigkeit. Über Fehlende Werte wird in der Anwender in der Spalte rechts außen informiert. In der Standardausführung enthält der RapidMiner keine weiterführenden Möglichkeiten zum Generieren von Kennzahlen bzw. dem Beschreiben von Daten in Textform. Ähnlich wie im RapidMiner gibt es auch in Rattle eine Metadaten-Übersicht in welcher allerdings keine Darstellung von statistischen Kennzahlen stattfindet. Die Metadaten-Übersicht öffnet sich dem Anwender direkt nach dem Einlesen der Quelldatei, innerhalb des Daten-Tabs. Die folgende Abbildung zeigt in diesem Zusammenhang eine Darstellung mit dem RapidMiner Datensatz. 21 URL: https://sites.google.com/site/dataminingforthemasses/ 28

33 Evaluation Abbildung 11 Rattle Datensatz Wie zu erkennen werden auch hier sämtliche Attribute bzw. Variablen des Datensatzes mit dem zugehörigen Datentyp und den jeweiligen Rollen der einzelnen Attribute aufgezeigt, wobei eine Vergabe der Rollen, anders als im RapidMiner, hier in der Metadaten-Übersicht stattfindet. Zusätzlich erhält der Anwender, innerhalb der Kommentarspalte rechts außen, für jedes Attribut Aufschluss darüber wie viele voneinander verschiedene Werteausprägungen auftreten. Das Festlegen der einzelnen Variablenrollen spielt eine wesentliche Rolle bei der späteren Modellierung bzw. Anwendung der Data-Mining Methoden. Die Ziel- Variable, in diesem Fall ist das die Variable ereader_adoption, ist die abhängige Variable, welche auf Grundlage auf des Trainingsdatensatz vorhergesagt werden soll. Innerhalb des Datensatzes kann immer nur eine Ziel-Variable definiert werden. Variablen mit der Rolle Eingabe sind dann die unabhängigen, welche einen gewissen Einfluss auf die Zielvariable nehmen. Die Rolle Ident kann für solche Variablen vergeben werden, welche Datensätze eindeutig identifizierbar werden. Diese muss nicht zwangsläufig für jeden einzelnen Datensatz unique sein. In diesem Beispiel werden durch die User_ID mit Rolle der Ident, Kunden eindeutig identifiziert, wobei ein Kunde aber mehrfach innerhalb des Datensatzes vorhanden sein kann. Da Ident -Variablen zur Identifizierbarkeit gedacht sind und 29

34 Evaluation im Normalfall keinen Einfluss auf die Zielvariable nehmen, werden diese bei der späteren Modellierung in Rattle außer Acht gelassen. Über das Setzen der Ignorieren - Rolle können Variablen ebenfalls aus statistischen Betrachtungen und Data-Mining Modelle herausgenommen werden. Beim Einlesen der Datensätze fällt auf, dass Rattle einerseits den Datentyp automatisch bestimmt und darüber hinaus, eine automatische Schätzung bzw. Vergabe der Variablenrollen vornimmt. Nach dem Laden des oben verwendeten Beispieldatensatzes, wurde das Attribut ereader_adoption automatisch als Zielvariable ermittelt. Diese Schätzung wird in Rattle auf Grundlage bestimmter Entscheidungsregeln getroffen 22. So wird zur automatischen Ermittlung der Zielvariablen, die Anzahl der voneinander verschiedenen Werteausprägungen, der einzelnen Attribute herangezogen. Ist diese Anzahl möglichst gering bzw. kleiner als Fünf, stellt das entsprechende Attribut eine potentielle Zielvariable dar. Hierbei prüft Rattle zuerst das letzte Attribut im Datensatz, da sich in vielen öffentlich verfügbaren Datensätzen der Standard etabliert hat, bei dem die Zielvariable stets als letztes Attribut am Ende des Datensatzes steht. Tritt innerhalb des Datensatzes eine Variable auf, welche für jeden Datensatz einen einmalig vorhandenen Wert annimmt, so wird diese als Ident Rolle definiert. Neben den Entscheidungsregeln über die Anzahl der Werteausprägungen sowie der Reihenfolge der Attribute, erkennt Rattle die Variablenrollen auch anhand bestimmter Strings innerhalb der Attributbezeichnungen. Enthält die Attributbezeichnung den String TARGET zu Beginn, so wird diese als Zielvariable erkannt. Hierbei konnte festgestellt werden, dass diese Methode Vorrang hat gegenüber der Variablenrollen-Ermittlung durch die Entscheidungsregeln. In Bezug auf die Datentypen lässt sich feststellen, dass Rattle hinsichtlich des Skalenniveaus lediglich eine Differenzierung zwischen kategorialen und numerischen Werten vornimmt. Kategoriale mit nur zwei möglichen Merkmalsausprägungen, also dichotome Merkmale bzw. Attribute, werden nicht extra als solche gekennzeichnet. Bei Orange fällt auf, dass eine Meta-Daten-Übersicht mit einer Beschreibung der einzelnen Attribute, wie diese In Rattle und dem RapidMiner gegeben ist, nicht vorhanden ist. Beim Einlesen der Quelldatei erhält der Anwender lediglich einen groben Überblick über die Anzahl der Attribute sowie Datensätze. Dafür sticht hier 22 Vgl. (Graham, 2011 s.96) 30

35 Evaluation die tabellarische Ansicht der Datensätze hervor. Abbildung 12 liefert hier eine Darstellung. Abbildung 12 Orange - Data Table Die obige tabellarische Ansicht wird über das Data Table Widget generiert. Ähnlich wie in Rattle erfolgt auch in Orange ein automatisches Festlegen der Datentypen sowie der Variablenrollen, direkt nach dem Einlesen der Quelldatei über das File Widget. Die Zellen der Zielvariable ereader_adoption sind hier dunkelgrau hinterlegt. In der Abbildung fällt auf, dass die numerischen Attribute User_ID sowie Age mit farblichen Balken versehen sind die Zugehörigkeit der numerischen Merkmalsausprägung zur entsprechenden Klasse der Zielvariablen kennzeichnet. In Abbildung 17 werden die Merkmalswerte innerhalb des Attributes Age immer dann orange markiert, sobald im gleichen Datensatz die Zielvariable ereader_adoption die Ausprägung bzw. Kategorie Late Majority annimmt. Über die Balkenlänge lässt sich Position des Wertes innerhalb der Spannweite ablesen. So kann der Anwender hier beim Betrachten der Datensätze erkennen, ob die Zugehörigkeit zu einer Klasse mit höheren bzw. niedrigeren Merkmalswerten einhergeht. 31

36 Evaluation Wie bereits erwähnt, fallen in Rattle die Möglichkeiten einer statistischen Beschreibung der Daten über das Explorer Tab am umfangreichsten aus. Befindet sich der Anwender im aktiven Explorer Tab, so wird dieses weiterhin in die Unterkategorien Zusammenfassung, Verteilung, Korrelationen, Hauptkomponenten und Interaktiv gegliedert. Über den aktiven Radio-Button Zusammenfassen erreicht der Anwender im Wesentlichen die grundlegenden Lagemaße. Abbildung 13 Rattle - Explorer Über das Zuschalten der einzelnen Checkboxen kann dann definiert werden, welche Maßzahlen bzw. Lagemaße innerhalb des Textfeldes ausgegeben werden sollen. Jede Checkbox liefert immer eine bestimmte Ausgabe an Maßzahlen und stellt diese in einer einheitlichen Art und Weise dar. So liefert eine aktivierte Checkbox Zusammenfassung, in einer ersten tabellarischen Darstellung, die möglichen Merkmalsausprägungen für jedes kategoriale Merkmal. Anschließend werden für jedes numerische Attribut die einfache Maßzahlen der Spannweite, Mittelwerte und Median sowie das erste und dritte Quartil aufgezeigt. Kategoriale Merkmalausprägungen werden zusammen mit den entsprechenden absoluten Häufigkeitsverteilung ausgegeben. Über Kurtosis und Schiefe lassen sich das Schiefe- sowie Wölbungsmaße hinzufügen. Als besonders positiv lässt sich in Rattle die Checkbox Beschreiben herausstellen, welche eine sehr hilfreiche Darstellung zum Erkennen von Ausreißern bei numerischen Werten liefert. Die folgende Abbildung zeigt hierfür ein Beispiel. 32

37 Evaluation Abbildung 14 Rattle - Beschreiben Die aktive Checkbox Beschreiben generiert für numerische als auch kategorische Attribute eine Reihe von Maßzahlen. Betrachtet man hier das numerische Attribut Age, so erhält man zur Beschreibung der Häufigkeitsverteilung, die Merkmalswerte bestimmter Quantile und zusätzlich, im unteren Bereich der Abbildung, die jeweils fünf niedrigsten sowie höchsten Merkmalsausprägungen. Das größte und kleinste Quantil, welche jeweils dargestellt werden, sind das Quantil sowie das 0.5-Quantil. So erkennt man bei dem Quantil, dass 0.95 aller Beobachtungen bzw. Datensätze kleiner sind als der Merkmalswert an diesem Quantil. Zusammen mit fünf höchsten Merkmalswerten kann dann relativ einfach festgestellt werden, ob das Attribut ungewöhnlich hohe Merkmalswerte enthält. Analog kann man ungewöhnlich niedrige über das 0.5-Quantil zusammen mit den fünf niedrigsten Merkmalswerten finden. Des Weiteren liefert Rattle eine sehr sinnvolle Möglichkeit um eventuell vorhandene Strukturen beim Vorkommen von fehlenden Werten zu erkennen. Diese erreicht man über die Checkbox Fehlende anzeigen. Abbildung 12 zeigt hier ein Beispiel, welches in Anlehnung an das Togaware Rattle Tutorial entstanden ist. 33

38 Evaluation Abbildung 15 Rattle - Fehlende anzeigen 23 Wie in der Abbildung zu sehen, führt die aktive Checkbox Fehlende anzeigen zur Ausgabe einer Matrix, welche spaltenweise die Attribute des Datensatzes abbildet. Zu beachten in dieser Abbildung ist, dass nach dem Attribut Occupation ein Zeilenumbruch erfolgt. Die Zeilen stehen nun im Grunde genommen für die Kombinationsmöglichkeiten mit denen fehlende Werte bzw. Missing Values in den Attributen gemeinsam auftreten können. Jede Zeile stellt eine Kombinationsmöglichkeit dar. Die erste Spalte sagt aus wie oft dieses Muster bzw. Kombinationsmöglichkeit auftritt. Befindet sich in der Zelle eines Attributs der Wert 1, so heißt das, dass für das entsprechende Attribut keine Missing Values auftreten, wohingegen der Wert 0 das Vorhandensein von Missing Values aufzeigt. Schaut man sich die erste Zeile an, sieht man, dass in keinem Attribut Missing Values auftreten, wobei dies bei 1899 Datensätzen der Fall ist. Betrachtet man hingegen die dritte Zeile, so erkennt man hier, dass bei hier 100 Datensätzen In den Attributen Employment und Occupation zugleich, fehlende Werte auftauchen. Dies könnte ein Indiz dafür sein, dass zwischen diesen beiden Attributen eine Art Zusammenhang beim Auftreten von Missing Values existiert. Die letzte Zeile liefert immer die Gesamtanzahl an Missing Values in einem Attribut. Zu den Visualisierungsmöglichkeiten lässt sich sagen, dass sich in Rattle auf sehr anwenderfreundliche Art, übersichtliche Darstellungen erzeugen lassen. Zu erreichen sind diese ebenfalls innerhalb des Explorer-Tabs, über den Radio Button Verteilungen. Die nachfolgende Abbildung liefert hierzu eine Übersicht, wobei auch hierfür der RapidMiner Datensatz als Datengrundlage zum Einsatz kommt. 23 Vgl. (http://datamining.togaware.com/survivor/missing.html) 34

39 Evaluation Abbildung 16 - Rattle Verteilungen Zu erkennen ist, dass hier eine Aufteilung sämtlicher Attribute des Datensatzes, in die enthaltenden numerischen sowie kategorischen Attributen stattfindet. Anhand dieser Aufteilung kann der Anwender dann genau sehen, welche Grafiken zur Erstellung entsprechend möglich sind. Über die Checkboxen kann dann definiert werden, welche von den verfügbaren Grafiken für die jeweiligen Attribute generiert werden sollen. Nach getroffener Auswahl und Bestätigung werden die ausgewählten Grafiken in der R-Entwicklungsumgebung erstellt. Der Umfang an Visualisierungsmöglichkeiten in Rattle ist geringer im Vergleich zu den Möglichkeiten der anderen untersuchten Tools. Allerdings punktet Rattle hier durch die sehr einfache Handhabung und das schnelle, übersichtliche zur Verfügung stellen grundlegender Grafiken. Zur Veranschaulichung liefert die folgende Abbildung eine Darstellung, entsprechend der getroffenen Auswahl in Abbildung

40 Evaluation Abbildung 17 - Rattle Grafiken Die erstellten Plots werden, wie Abbildung 17 zeigt, immer zusammen in einer Übersicht dargestellt. Als positiv herauszustellen ist, dass die Grafiken bei einem Vorhandensein einer kategorischen Zielvariablen, stets im Kontext mit den Häufigkeitsverteilungen der möglichen Ausprägungen der Zielvariablen, generiert werden. 24 Die Klassifizierungsmöglichkeiten der Zielvariablen sind hierbei in einer Legende festgehalten. So ist beispielsweise in der Darstellung der Box Plots oben links zu sehen, dass hier für jede mögliche Ausprägung der Zielvariablen ein extra Boxplot generiert wird, welcher die Verteilung des Attributes Age aufzeigt. Jeder Boxplot beinhaltet hierbei immer nur die entsprechenden Datensätze der jeweiligen Merkmalsausprägung der Zielvariablen. In dieser Gegenüberstellung wird erkenntlich, dass das Durchschnittsalter der Early Adopter niedriger ist, als bei den anderen. Weiterhin ist in dem Histogramm oben rechts zu erkennen, dass bei einem Alter von ungefähr 25, die Häufigkeit, der in Gelb gehaltenen Ausprägung 24 Vgl. (Grabiel, Gluchowski, & Pastwa, 2009, S. 109) 36

41 Evaluation Early Adopter, einen kleinen Ausschlag nach oben annimmt, was auf einen eventuellen Zusammenhang zwischen einen niedrigem Alter und dem frühen Erwerb eines E-Books hindeuten könnte. Ein kleiner Negativpunkt der grafischen Darstellung in Rattle ist, dass die Ausgabe der Grafiken immer in einer standardisierten Form erfolgt und keine weitere interaktive Bearbeitung möglich ist. Die Visualisierungsmöglichkeiten im RapidMiner fallen hingegen sehr umfangreich aus und bieten im Vergleich zu den anderen Tools eine größere Auswahl. Erstellt werden diese innerhalb der sogenannten Plot-View der Result-Perspektive. Da der Umfang hier sehr groß ist, werden im Folgenden einzelne Besonderheiten herausgestellt. Eine davon ist, dass der RapidMiner, zusammen mit Scikit-learn, das Bauen von dreidimensionalen Scatter-Plots ermöglicht. Abbildung 16 zeigt einen solchen, mit dem Iris-Datensatz als Datengrundlage. Abbildung 18 RapidMiner - Iris Sämtliche Grafiken werden im RapidMiner dann über das auf der linken Seite befindliche Menü interaktiv gestaltet. Hier in Abbildung 16 ist zu sehen, dass auf jeder Achse ein Attribut des Iris-Datensatzes abgebildet wird und eine Einfärbung der einzelnen Punkte nach dem label, also der Klassenzugehörigkeit der einzelnen Punkte zu der kategorischen Zielvariablen erfolgt. Der 3D Scatter Plot lässt 37

42 Evaluation sich beliebig drehen. Auffällig ist hierbei der große Abstand der Merkmalswerte, der Gattung Iris-setosa (Blau markiert) zu den Merkmalswerten der anderen beiden Gattungen (Grün und Rot markiert), zwischen denen es zum Teil Überschneidungen zwischen den Datenpunkten gibt. Neben einfachen Scatterplots gibt es im RapidMiner auch komplexere Grafiken, durch welche der RapidMiner hervorsticht. Eine davon ist die sogenannte Self-Organizing Map (SOM). Diese sind, so wie Scatter Plots, dafür geeignet, um die Abstände zwischen numerischen Datenpunkten zu visualisieren, wobei in der SOM eine besondere Art und Weise der Veranschaulicht eingesetzt wird. Die folgende Abbildung zeigt eine SOM. Entstanden ist diese in Anlehnung an ein RapidMiner Tutorial. 25 Abbildung 19 - RapidMiner SOM Als Datengrundlage wurde auch hier der Iris-Datensatz verwendet. Anhand der farblichen Markierung lassen sich die zugehörigen label zu den Datenpunkten einsehen. Die Idee hinter der SOM ist es, die Distanzen zwischen den Datenpunkten über eine Art Landschaft mit Gebirgen und Gewässern kenntlich zu machen, wobei Gebirge eine hohe- und Gewässer eine niedrige Distanz implizieren. Analog zum dem 3D Scatter Plot in Abbildung 16 ist auch zu erkennen, dass die Datenpunkte der Gattung Iris-setosa näher zusammen liegen und einen größeren Abstand zu denen aus den anderen Gattungen aufweisen. 25 Vgl. (http://rapidminerresources.com/index.php?page=pre-processing-visualisation) 38

43 Evaluation Zu dem Umfang an Visualisierungsmöglichkeiten in Orange lässt sich sagen, dass diese im Vergleich eher im Mittelfeld anzusiedeln sind und sich in etwa mit denen von Rattle vergleichen lassen. 3-Dimensionale Grafiken, wie im RapidMiner und scikit-learn gibt es nicht. Hierfür punktet Orange allerdings durch die hohe Interaktivität beim Erstellen der Grafiken. Die nachfolgende Abbildung zeigt ein Histogramm in Orange auf Grundlage des RapidMiner ereader_adoption - Datensatzes. Abbildung 20 - Orange Distributions In der Abbildung wird das geöffnete Widget Distributions gezeigt. Auf der X- Achse wird das Alter abgebildet, welches im Dropdown Menü links oben ausgewählt wurde. Numerische Werte werden hierbei in äquidistante Gruppen eingeteilt bzw. diskretisiert. Darunter hat der Anwender die Option, einzelne mögliche Ausprägungen, der Zielvariablen, hinzuzuschalten, welche dann mit den absoluten Häufigkeiten, in Relation zum Alter, dargestellt werden und farblich kenntlich gemacht werden. Betrachtet man nun die Verteilungen, so ist beispielsweise zu erkennen, dass die Häufigkeit der Klasse Late Majority (Orange markiert) mit stei- 39

44 Evaluation gendem Alter zunimmt. Darüber hinaus gibt es hier die zuschaltbare Option Propability Plot. Durch diese wird dem Histogramm eine schwarze Linie hinzugefügt, welche die relative Häufigkeit einer selektierbaren Merkmalsausprägung der Zielvariablen visualisiert. In der Abbildung wird hier sehr schnell der Zusammenhang zwischen dem Alter und einer steigenden Häufigkeit von Late Majority deutlich. 40

45 Evaluation Data Mining Methoden Ein wesentlicher Hauptbestandteil der untersuchten Tools, sind die zur Verfügung stehenden Data Mining-Modellierungsmethoden, welche innerhalb dieses Kapitels einem Vergleich unterzogen werden. Um hierfür eine erste grobe Aussage bezüglich des Umfangs, der jeweils verfügbaren Modellierungsmethoden zu treffen, wird als Grundlage auf eine allgemein anerkannte Kategorisierung von Data Mining Methoden zurückgegriffen. Diese sieht eine grobe Aufgliederung sämtlicher Data Mining Verfahren in die vier verschiedenen Aufgabenbereiche der Assoziation, Klassifikation, Segmentierung und Regression bzw. Prognose vor 26. Die folgende Abbildung liefert in diesem Zusammenhang eine hierarchische Übersicht. Abbildung 21 Klassifizierung Data Mining Methoden 27 Grundsätzlich lässt sich feststellen, dass der RapidMiner, Rattle sowie Orange für sämtliche der vier Aufgabenbereiche des Data Mining entsprechende Algorithmen implementieren. Scikit-learn deckt die Bereiche der Klassifikation, Regression und Segmentierung ab und lässt lediglich Algorithmen für die Assoziations-Analyse vermissen. Innerhalb der Aufgabenbereiche unterscheiden sich die Tools allerdings hinsichtlich der Anzahl an verfügbaren Data Mining-Algorithmen. Abbildung 26 Vgl. (Grabiel, Gluchowski, & Pastwa, 2009, Seite 134, zitiert nach: Bankhofer, U., 2004, Seite ) 27 URL :http://www.dataminingarticles.com/data-mining-introduction/data-mining-techniques/ 41

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Software und Visualisierungen. Erich Schubert, Dr. Arthur Zimek. 2013-0X-XX KDD Übung

Software und Visualisierungen. Erich Schubert, Dr. Arthur Zimek. 2013-0X-XX KDD Übung Software und Visualisierungen Erich Schubert, Dr. Arthur Zimek Ludwig-Maximilians-Universität München 2013-0X-XX KDD Übung Ein recht einfacher Datensatz, online unter: http://aima.cs.berkeley.edu/data/iris.csv

Mehr

TimeSafe Leistungserfassung

TimeSafe Leistungserfassung Keep your time safe. TimeSafe Leistungserfassung Adressimport 1/8 Inhaltsverzeichnis Inhaltsverzeichnis... 2 1 Allgemeines... 3 1.1 Adressen in der TimeSafe Leistungserfassung... 3 1.2 Organisationen und/oder

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Mein erstes Tableau-Dashboard. Tableau Software Schritt für Schritt kennenlernen und ein erstes Dashboard erstellen

Mein erstes Tableau-Dashboard. Tableau Software Schritt für Schritt kennenlernen und ein erstes Dashboard erstellen Tableau Software Schritt für Schritt kennenlernen und ein erstes Dashboard erstellen Vorgehensweise 1) Datenaufbereitung in Microsoft Excel 2) Tableau - Datenimport 3) Erstellung verschiedener Tableau-Arbeitsblätter

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

WufooConnector Handbuch für Daylite 4

WufooConnector Handbuch für Daylite 4 WufooConnector Handbuch für Daylite 4 WufooConnector Handbuch für Daylite 4 1 Allgemeines 1.1 Das WufooConnector Plugin für Daylite 4 4 2 Einrichtung 2.1 2.2 2.3 Installation 6 Lizensierung 8 API Key einrichten

Mehr

Softwaretool Data Delivery Designer

Softwaretool Data Delivery Designer Softwaretool Data Delivery Designer 1. Einführung 1.1 Ausgangslage In Unternehmen existieren verschiedene und häufig sehr heterogene Informationssysteme die durch unterschiedliche Softwarelösungen verwaltet

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

ODBC-Treiber 1. 1.1 Programmübersicht

ODBC-Treiber 1. 1.1 Programmübersicht 1 O D B C - Treiber ODBC-Treiber 1 1.1 Programmübersicht Nach einer ausgiebigen Testphase wurde kürzlich der neue ODBC-Treiber freigegeben. Dieser ist somit ab der 2000-er-Version lizenzpflichtig und kann

Mehr

TYPO3 Redaktoren-Handbuch

TYPO3 Redaktoren-Handbuch TYPO3 Redaktoren-Handbuch Kontakt & Support: rdv interactive ag Arbonerstrasse 6 9300 Wittenbach Tel. 071 / 577 55 55 www.rdvi.ch Seite 1 von 38 Login http://213.196.148.40/typo3 Username: siehe Liste

Mehr

Oracle, Datenbank, PowerPoint, Dokumente, PPTX, Automatisierung, Prozess-Automatisierung, smaxt

Oracle, Datenbank, PowerPoint, Dokumente, PPTX, Automatisierung, Prozess-Automatisierung, smaxt Automatische Generierung serialisierter, individualisierter PowerPoint-Präsentationen aus Oracle Datenbanken Andreas Hansel Symax Business Software AG Parkstrasse 22, D-65189 Wiesbaden Schlüsselworte Oracle,

Mehr

Benutzerhandbuch ABBREV:X. Eine kompakte Anleitung zur effizienten Arbeit mit Abkürzungen

Benutzerhandbuch ABBREV:X. Eine kompakte Anleitung zur effizienten Arbeit mit Abkürzungen Benutzerhandbuch ABBREV:X Eine kompakte Anleitung zur effizienten Arbeit mit Abkürzungen ABBREV:X Effizientes Arbeiten mit Abkürzungen ABBREV:X unterstützt Sie bei der Arbeit mit und der Verwaltungen von

Mehr

Hilfe zur Dokumentenverwaltung

Hilfe zur Dokumentenverwaltung Hilfe zur Dokumentenverwaltung Die Dokumentenverwaltung von Coffee-CRM ist sehr mächtig und umfangreich, aber keine Angst die Bedienung ist kinderleicht. Im Gegensatz zur Foto Galeria können Dokumente

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Schulberichtssystem. Inhaltsverzeichnis

Schulberichtssystem. Inhaltsverzeichnis Schulberichtssystem Inhaltsverzeichnis 1. Erfassen der Schüler im SBS...2 2. Erzeugen der Export-Datei im SBS...3 3. Die SBS-Datei ins FuxMedia-Programm einlesen...4 4. Daten von FuxMedia ins SBS übertragen...6

Mehr

Fortgeschrittene Statistik SPSS Einführung

Fortgeschrittene Statistik SPSS Einführung Fortgeschrittene Statistik SPSS Einführung Q U A N T I T A T I V E M E R K M A L E, Q U A L I T A T I V E M E R K M A L E, A U S P R Ä G U N G E N, C O D I E R U N G E N, S K A L E N N I V E A U, D A T

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Media Wizard. MediaWizard Reporter. Handbuch Version 1.0 AGFS

Media Wizard. MediaWizard Reporter. Handbuch Version 1.0 AGFS Media Wizard MediaWizard Reporter Handbuch Version.0 AGFS Impressum Version.0 Autor AGFS. Ausgabe Januar 05 AGFS Alle Rechte vorbehalten. Kein Teil des Werkes darf in irgendeiner Form ohne schriftliche

Mehr

Sybase Central Dokumentation Aktivierung der Monitoringfunktion

Sybase Central Dokumentation Aktivierung der Monitoringfunktion Sybase Central Dokumentation Aktivierung der Monitoringfunktion Version 1.0 14. Dezember 2012 Inhaltsverzeichnis 1 EINLEITUNG... 3 2 ZIELSETZUNG... 3 3 VORGEHENSWEISE... 3 4 ANHANG... 7 4.1 DOKUMENTHISTORIE...

Mehr

Datenaustausch mit Mac / PC & HeadCook / Ecoshop

Datenaustausch mit Mac / PC & HeadCook / Ecoshop Datenaustausch mit Mac / PC & HeadCook / Ecoshop 2008-2011 InnoBytes, Wolfgang Kohrt 1 Inhalt! Allgemeines! 3 1. Vorbereitungen! 4 1.1 Vorbereitungen für MacOSX 10! 4 1.2 Vorbereitungen für Windows XP/Vista/7!

Mehr

Bedienungsanleitung EasyStechuhr

Bedienungsanleitung EasyStechuhr Thomas Schiffler Langestrasse 4 65366 Geisenheim http://www.thomasschiffler.de info@thomasschiffler.de Version 1.2 Inhaltsverzeichnis Inhaltsverzeichnis... 2 Einleitung... 3 Datenspeicherung... 3 Grundvoraussetzung...

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

Online-Ansichten und Export Statistik

Online-Ansichten und Export Statistik ACS Data Systems AG Online-Ansichten und Export Statistik (Version 10.08.2009) Buchhaltung für Schulen ACS Data Systems AG Bozen / Brixen / Trient Tel +39 0472 27 27 27 obu@acs.it 2 Inhaltsverzeichnis

Mehr

Kapitel 6,»Objektorientierte Programmierung«, widmet sich der objektorientierten Programmierung mit Python.

Kapitel 6,»Objektorientierte Programmierung«, widmet sich der objektorientierten Programmierung mit Python. 1.3 Aufbau des Buchs lichkeiten offen. Auf die Unterschiede der beiden Versionen gehe ich besonders ein, sodass ein späterer Umstieg von der einen zur anderen Version leichtfällt. Erste Zusammenhänge werden

Mehr

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert.

Python ist leicht zu erlernen, unterstützt mehrere Programmierparadigmen und ist klar strukturiert. 1 Einführung In diesem Kapitel wird die moderne Programmiersprache Python vorgestellt. Nach einigen Bemerkungen zur Installation dieser Sprache wird gezeigt, wie Python interaktiv ausgeführt werden kann.

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

3a Open BIM Workflow - Import und Weiterbearbeitung

3a Open BIM Workflow - Import und Weiterbearbeitung 3a Open BIM Workflow - Import und Weiterbearbeitung in ALLPLAN Dieses Handbuch gibt Ihnen einen Überblick, welche Einstellungen Sie tätigen müssen, um die besten Ergebnisse im IFC-Datenaustausch zwischen

Mehr

Einführung in QtiPlot

Einführung in QtiPlot HUWagner und Julia Bek Einführung in QtiPlot 1/11 Einführung in QtiPlot Mit Bezug auf das Liebig-Lab Praktikum an der Ludwig-Maximilians-Universität München Bei Fragen und Fehlern: jubech@cup.lmu.de Inhaltsverzeichnis

Mehr

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3

Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Neuerungen im Enterprise Miner 5.2 & Text Miner 2.3 Copyright 2005, SAS Institute Inc. All rights reserved. Ulrich Reincke, SAS Deutschland Agenda Der Neue Enterprise Miner 5.2 Der Neue Text Miner 2.3

Mehr

Bearbeitung und Download von grossen Datenmengen in STAT-TAB

Bearbeitung und Download von grossen Datenmengen in STAT-TAB Eidgenössisches Departement des Innern EDI Bundesamt für Statistik BFS Publikation und Kommunikation 18. Februar 2014 Bearbeitung und Download von grossen Datenmengen in STAT-TAB Dieses Dokument richtet

Mehr

Auswertung der Workload-Befragung mit MS ACCESS

Auswertung der Workload-Befragung mit MS ACCESS Auswertung der Workload-Befragung mit MS ACCESS Inhaltsverzeichnis 1. Aufbereitung der Daten... 2 1.1. Herstellung der Textfiles... 2 1.2. Import der Textdateien... 3 1.3. Verbindungen erstellen... 8 2.

Mehr

Bedienung von BlueJ. Klassenanzeige

Bedienung von BlueJ. Klassenanzeige Im Folgenden werden wichtige Funktionen für den Einsatz von BlueJ im Unterricht beschrieben. Hierbei wird auf den Umgang mit Projekten, Klassen und Objekten eingegangen. Abgeschlossen wird dieses Dokument

Mehr

personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014

personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014 personal.net Neue Quellensteuertarifcodes ab dem 01.01.2014 Anleitung und Informationzur Handhabung ab personal.net Version 14.0.0 (ab heim.net Version 2.3.0.0) Domis Consulting AG, 6246 Altishofen personal

Mehr

Anleitung zum Import und der Umwandlung von Lastschriftvorlagen in SEPA-Lastschriftvorlagen

Anleitung zum Import und der Umwandlung von Lastschriftvorlagen in SEPA-Lastschriftvorlagen Seite 1 von 5 Anleitung zum Import und der Umwandlung von Lastschriftvorlagen in SEPA-Lastschriftvorlagen Mit dieser Anleitung möchten wir Ihnen Schritt für Schritt bei der Umstellung Ihrer bereits vorhandenen

Mehr

Betriebshandbuch. MyInTouch Import Tool

Betriebshandbuch. MyInTouch Import Tool Betriebshandbuch MyInTouch Import Tool Version 2.0.5, 17.08.2004 2 MyInTouch Installationshandbuch Inhaltsverzeichnis Inhaltsverzeichnis... 2 Bevor Sie beginnen... 3 Einleitung...3 Benötigte Daten...3

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Tutorial. Tutorial. Microsoft Office 2010 Standard Edition verteilen. 2011 DeskCenter Solutions AG

Tutorial. Tutorial. Microsoft Office 2010 Standard Edition verteilen. 2011 DeskCenter Solutions AG Tutorial Microsoft Office 2010 Standard Edition verteilen 2011 DeskCenter Solutions AG Inhaltsverzeichnis 1. Einführung...3 2. Office 2010 Ressourcen bereitstellen...3 3. Anpassung der Office Installation...4

Mehr

32.4 Anpassen von Menüs und Symbolleisten 795i

32.4 Anpassen von Menüs und Symbolleisten 795i 32.4 Anpassen von Menüs und Symbolleisten 795i Fortsetzung der Seiten in der 8. Auflage 32.4 Anpassen von Menüs und Symbolleisten 32.4.1 Anpassen von Menüs Die Menüs können um folgende Typen von Optionen

Mehr

Datenübernahme easyjob 3.0 zu easyjob 4.0

Datenübernahme easyjob 3.0 zu easyjob 4.0 Datenübernahme easyjob 3.0 zu easyjob 4.0 Einführung...3 Systemanforderung easyjob 4.0...3 Vorgehensweise zur Umstellung zu easyjob 4.0...4 Installation easyjob 4.0 auf dem Server und Arbeitsstationen...4

Mehr

Einführung in QtiPlot

Einführung in QtiPlot HUWagner und Julia Bek Einführung in QtiPlot 30. Juni 2011 1/13 Einführung in QtiPlot Mit Bezug auf das Liebig-Lab Praktikum an der Ludwig-Maximilians-Universität München Inhaltsverzeichnis 1 Programmeinführung

Mehr

Alle Steuerelemente des Formulars Menü sind in der Abbildung beschrieben.

Alle Steuerelemente des Formulars Menü sind in der Abbildung beschrieben. Kegelverein 1.0 Programmbeschreibung Dieses Programm ist für die Erfassung und Auswertung von Ergebnissen in kleinen Kegelsportgruppen oder Vereinen von bis zu 16 Mitgliedern geeignet. Die Ergebnisse werden

Mehr

ACHTUNG: Diese Anleitung gilt für die VR-NetWorld Software ab der Version 5.0. Stammdaten Zahlungsempfänger / Zahler Eigenschaften

ACHTUNG: Diese Anleitung gilt für die VR-NetWorld Software ab der Version 5.0. Stammdaten Zahlungsempfänger / Zahler Eigenschaften ACHTUNG: Diese Anleitung gilt für die VR-NetWorld Software ab der Version 5.0. Die VR-NetWorld Software bietet eine umfangreiche Mandatsverwaltung, mit der u.a. Mandate oder Anschreiben zur Umdeutung von

Mehr

Kurze Einführung in IBM SPSS für Windows

Kurze Einführung in IBM SPSS für Windows Kurze Einführung in IBM SPSS für Windows SPSS Inc. Chicago (1968) SPSS GmbH Software München (1986) 1984: Datenanalyse Software für den PC 1992: Datenanalyse Software unter Windows 1993: Datenanalyse Software

Mehr

CARM-Server. Users Guide. Version 4.65. APIS Informationstechnologien GmbH

CARM-Server. Users Guide. Version 4.65. APIS Informationstechnologien GmbH CARM-Server Version 4.65 Users Guide APIS Informationstechnologien GmbH Einleitung... 1 Zugriff mit APIS IQ-Software... 1 Zugang konfigurieren... 1 Das CARM-Server-Menü... 1 Administration... 1 Remote-Konfiguration...

Mehr

Handbuch TweetMeetsMage

Handbuch TweetMeetsMage Handbuch TweetMeetsMage für Version 0.1.0 Handbuch Version 0.1 Zuletzt geändert 21.01.2012 Inhaltsverzeichnis 1 Einleitung... 3 1.1 Voraussetzungen... 3 1.2 Funktionsübersicht... 3 2 Installation... 4

Mehr

Technische Mitteilung. Nutzung von Oracle für die VIP CM Suite 8 Offene Cursor

Technische Mitteilung. Nutzung von Oracle für die VIP CM Suite 8 Offene Cursor Technische Mitteilung Nutzung von Oracle für die VIP CM Suite 8 Offene Cursor Informationen zum Dokument Kurzbeschreibung Dieses Dokument gibt Hinweise zur Konfiguration des RDBMS Oracle und von VIP ContentManager

Mehr

S Sparkasse Aichach-Schrobenhausen. SEPA: Account Converter

S Sparkasse Aichach-Schrobenhausen. SEPA: Account Converter S Sparkasse Aichach-Schrobenhausen SEPA: Account Converter Automatische Umrechnung von vorhandenen Kontonummern und Bankleitzahlen in IBAN und BIC Abschaltung der bisherigen, nationalen Überweisungen und

Mehr

Geschäftsführer Martin Ritter Tel: 0351-44 00 44 22 info@webneo.de. Sitz der Gesellschaft Dresden. WEBneo GmbH Breitscheidstr.

Geschäftsführer Martin Ritter Tel: 0351-44 00 44 22 info@webneo.de. Sitz der Gesellschaft Dresden. WEBneo GmbH Breitscheidstr. 1 01237 1 Dokumentation DHL Versandtool Easy Log 1. Installation / Einrichtung 1.1 Installieren des Versandtools 1. Als erstes installieren Sie das Versandtool-Plugin in Ihrem Shop und aktivieren dieses.

Mehr

Kurzpräsentation Fiat Export Programm

Kurzpräsentation Fiat Export Programm Kurzpräsentation Fiat Export Programm 1. Allgemein 2. Fiat Export Das Importieren der Tempariodaten in ein Autohaus- Terminverwaltungsprogramm (z.bsp. TKP) 3. Fiat Export Das Importieren der Tempariodaten

Mehr

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_20120918_lids7.basisschulung_import_export.

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_20120918_lids7.basisschulung_import_export. LIDS 7 Import/Export Mannheim, 11.02.2013 Autor: Anschrift: Version: Status: Modifiziert von: Ablage: Christine Sickenberger - Asseco BERIT GmbH Asseco BERIT GmbH Mundenheimer Straße 55 68219 Mannheim

Mehr

Installation/Update und Konfiguration des Renderservice (v1.7.0)

Installation/Update und Konfiguration des Renderservice (v1.7.0) Installation/Update und Konfiguration des Renderservice (v1.7.0) [edu- sharing Team] [Dieses Dokument beschreibt die Installation und Konfiguration des Renderservice.] edu- sharing / metaventis GmbH Postfach

Mehr

Verbinden von IBM Informix mit Openoffice mittels JDBC

Verbinden von IBM Informix mit Openoffice mittels JDBC Verbinden von IBM Informix mit Openoffice mittels JDBC Voraussetzungen Installierte und laufende IBM Informixdatenbank. Getestet wurde mit IDS 9.40 und 10.00. Sollte aber auch mit älteren Versionen funktionieren.

Mehr

Tutorial für die Installation des Eclipse- PlugIns "SQLExplorer"

Tutorial für die Installation des Eclipse- PlugIns SQLExplorer Tutorial für die Installation des Eclipse- PlugIns "SQLExplorer" Inhaltsverzeichnis 1. Besorgen der benötigten Software und Tools 2. Installation 3. Einrichtung des SQLExplorers für Eclipse 4. Nutzung

Mehr

Software für den Kurs

Software für den Kurs Software für den Kurs das Korpus wird auf der Kurshomepage zur Verfügung gestellt Emu Speech Database System erhältlich unter http://emu.sourceforge.net/index.shtml Ausgangsmaterial: Sprachdatenbank, die

Mehr

Fachhochschule Kaiserslautern Labor Datenbanken mit MySQL SS2006 Versuch 1

Fachhochschule Kaiserslautern Labor Datenbanken mit MySQL SS2006 Versuch 1 Fachhochschule Kaiserslautern Fachbereiche Elektrotechnik/Informationstechnik und Maschinenbau Labor Datenbanken Versuch 1 : Die Grundlagen von MySQL ------------------------------------------------------------------------------------------------------------

Mehr

HR Campus AG Bannweg 13 CH-8322 Madetswil

HR Campus AG Bannweg 13 CH-8322 Madetswil HR Campus AG Bannweg 13 CH-8322 Madetswil 1 Übersicht... 3 1.1 Kurzbeschreibung... 3 1.2 Kurzübersicht der Elemente... 3 2 Export der Mitarbeiterstammdaten (PA-Export)... 4 2.1 PA-Export Selektionsmaske...

Mehr

Datenbanken für Online Untersuchungen

Datenbanken für Online Untersuchungen Datenbanken für Online Untersuchungen Im vorliegenden Text wird die Verwendung einer MySQL Datenbank für Online Untersuchungen beschrieben. Es wird davon ausgegangen, dass die Untersuchung aus mehreren

Mehr

Optionale Umstellung der Intranet-Version von Perinorm auf wöchentliche Aktualisierung

Optionale Umstellung der Intranet-Version von Perinorm auf wöchentliche Aktualisierung Optionale Umstellung der Intranet-Version von Perinorm auf wöchentliche Aktualisierung Perinorm Online wurde im Dezember 2013 auf eine wöchentliche Aktualisierung umgestellt. Ab April 2014 können auch

Mehr

Anleitung FlexNow als Prüfer / Stellvertreter nutzen

Anleitung FlexNow als Prüfer / Stellvertreter nutzen Anleitung FlexNow als Prüfer / Stellvertreter nutzen Autor: Max Schultheis Version: 1.2 Stand: 2014.04.04 Inhalt 1. Beantragung der benötigten Berechtigung... 1 2. Installation... 1 3. Login... 1 4. Noteneintragung...

Mehr

Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten

Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten Der Konfigurations-Assistent wurde entwickelt, um die unterschiedlichen ANTLOG-Anwendungen auf den verschiedensten Umgebungen automatisiert

Mehr

Um einen neuen Konnektor anzulegen klicken sie in der Liste der Konnektoren auf die Schaltfläche Neue Konfiguration.

Um einen neuen Konnektor anzulegen klicken sie in der Liste der Konnektoren auf die Schaltfläche Neue Konfiguration. Konnektoren Allgemeines zu Konnektoren Die Konnektoren stellen ein Rahmengerüst für den Import und Export von Daten in den Webdesk (bzw. aus dem Webdesk) zur Verfügung. Die Definition von Quellkonnektoren

Mehr

1. Einführung. 2. Vorbereitung. 3. Import von Firmenkunden

1. Einführung. 2. Vorbereitung. 3. Import von Firmenkunden 1. Einführung Über den Kundenimport können Sie Kundendaten aus vielen gängigen Formaten bequem in orgamax importieren, ohne diese einzeln eingeben zu müssen. In dieser Dokumentation sind verschiedene Szenarien,

Mehr

Access und OpenOffice.org

Access und OpenOffice.org Access-Datenbanken in OpenOffice.org 1.1 einbinden Herausgegeben durch das OpenOffice.org Germanophone-Projekt Autoren Autoren vorhergehender Versionen Timo Kozlowski Alle in diesem Dokument erwähnten

Mehr

Cubeware Connectivity for SAP Solutions

Cubeware Connectivity for SAP Solutions Cubeware Connectivity for SAP Solutions Beispiele und Anwendungsfälle 1. Modellierung, Extraction, Transformation und Loading mit Datenquelle SAP R/3 und mysap ERP Mit Hilfe des Cubeware Importers und

Mehr

Erweiterung Bilderstammdaten und bis zu fünf Artikelbilder

Erweiterung Bilderstammdaten und bis zu fünf Artikelbilder Erweiterung Bilderstammdaten und bis zu fünf Artikelbilder Mit Hilfe dieser Erweiterung können Sie bis zu vier zusätzliche Artikelbilder in den Stammdaten eines Artikels verwalten. Diese stehen Ihnen dann

Mehr

Versand von Einladungen zur Teilnahme an der Umfrage mit Seriendruck Funktion von Microsoft Office 2007

Versand von Einladungen zur Teilnahme an der Umfrage mit Seriendruck Funktion von Microsoft Office 2007 Versand von Einladungen zur Teilnahme an der Umfrage mit Seriendruck Funktion von Microsoft Office 2007 [Eine Schritt für Schritt Anleitung] Inhalt 1. Erstellen einer Liste mit Probandendaten... 2 2. Erstellung

Mehr

Das beantragte persönliche Zertifikat wird standardmäßig in den Zertifikatspeicher des Browsers abgelegt, mit dem es beantragt wurde.

Das beantragte persönliche Zertifikat wird standardmäßig in den Zertifikatspeicher des Browsers abgelegt, mit dem es beantragt wurde. 1. Zertifikatsinstallation und Anbindung an das Mailkonto Das beantragte persönliche Zertifikat wird standardmäßig in den Zertifikatspeicher des Browsers abgelegt, mit dem es beantragt wurde. Hinweis:

Mehr

ARAkoll 2013 Dokumentation. Datum: 21.11.2012

ARAkoll 2013 Dokumentation. Datum: 21.11.2012 ARAkoll 2013 Dokumentation Datum: 21.11.2012 INHALT Allgemeines... 3 Funktionsübersicht... 3 Allgemeine Funktionen... 3 ARAmatic Symbolleiste... 3 Monatsprotokoll erzeugen... 4 Jahresprotokoll erzeugen

Mehr

Connecting Content. User Manual. Version: 1.2

Connecting Content. User Manual. Version: 1.2 Connecting Content User Manual Version: 1.2 09.09.2015 Inhaltsverzeichnis Inhaltsverzeichnis 1 Einleitung 3 2 Installation 4 3 Konfiguration 5 3.1 Allgemeine Einstellungen 6 3.2 Jobs anlegen 6 3.3 Tasks

Mehr

Word-CRM-Upload-Button. Handbuch

Word-CRM-Upload-Button. Handbuch Word-CRM-Upload-Button Handbuch Word-CRM-Upload für MS CRM 2011 Inhaltsverzeichnis 1. Vorwort... 3 2. Installation... 4 2.1. Voraussetzungen... 4 2.1.1. Clients... 4 2.2. Installations-Anleitung... 5 2.2.1.

Mehr

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8.

Tutorial Excel Übung 8 Datenbanken II -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. Tutorial Excel Übung 8 Datenbanken II -1-1 Aufgabenstellung Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung 8. 2 Abfragen auf Muster und nach Listenelementen Zur Formulierung von Abfragen

Mehr

DHL-Connector. für JTL-WAWI. Anleitung. 0.1 Änderungsverzeichnis. Versionsnummer. Datum Änderung Autor

DHL-Connector. für JTL-WAWI. Anleitung. 0.1 Änderungsverzeichnis. Versionsnummer. Datum Änderung Autor DHL-Connector für JTL-WAWI Anleitung 0.1 Änderungsverzeichnis Versionsnummer Datum Änderung Autor 1.0 03.04.2015 Erstellung des Dokumentes Thomas Kehl Datum 04.04.2015 Seite 1 von 13 0.3 Inhaltsverzeichnis

Mehr

DDBAC-SDK unter Linux (mit Wine) Installationsanleitung

DDBAC-SDK unter Linux (mit Wine) Installationsanleitung DDBAC-SDK unter Linux (mit Wine) Installationsanleitung Installation von Wine Einleitung Übersicht Titel Thema Datei DDBAC-SDK unter Linux (mit Wine) Installationsanleitung DDBAC_Wine_Installation.doc

Mehr

Vector Software. Verwendung des VectorCAST/Requirement Gateways mit DOORS > > >

Vector Software. Verwendung des VectorCAST/Requirement Gateways mit DOORS > > > Vector Software W H I T E P A P E R Verwendung des VectorCAST/Requirement Gateways mit DOORS Einleitung VectorCAST/Requirements Gateway ist ein an Add-on Modul für VectorCAST/C++ und VectorCAST/Ada Modul

Mehr

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner

Oberseminar Data Mining. Systeme und Tools zum Data Mining: RapidMiner Folie 2 von 56 Motivation Folie 3 von 56 Inhalt 1 Das Projekt RapidMiner 2 Funktionen 3 KDD-Prozess 4 Weitere Werkzeuge von Rapid-I 5 Zusammenfassung Folie 4 von 56 Das Projekt RapidMiner Entwicklung Entwicklung

Mehr

1. Einführung. 2. Vorbereiten der Excel-Datei

1. Einführung. 2. Vorbereiten der Excel-Datei 1. Einführung Über den Datenimport-Assistenten im Bereich Verkauf -> E-Commerce-Bestellungen -> Webshop können Sie nicht nur Ihre Webshop-Bestellungen, sondern allgemein Vorgänge (sprich Aufträge, Lieferscheine

Mehr

Release Notes für die Online-Version der Perinorm - September 2014

Release Notes für die Online-Version der Perinorm - September 2014 Release Notes für die Online-Version der Perinorm - September 2014 Mit der Ausgabe September 2014 wird die Software für die Online-Version von Perinorm aktualisiert. Einige Verbesserungen, die mit diesem

Mehr

P8 1.9.9.3668 Ostasiatische Übersetzungen - v1.0.docx

P8 1.9.9.3668 Ostasiatische Übersetzungen - v1.0.docx Inhaltsverzeichnis 1 Einleitung.... 2 2 Fehlwortliste erstellen.... 2 2.1 Fehlwortliste Artikelverwaltung exportieren.... 2 2.2 Fehlwortliste Projektdaten exportieren.... 3 3 Fehlwortliste in Excel importieren,

Mehr

Handbuch B4000+ Preset Manager

Handbuch B4000+ Preset Manager Handbuch B4000+ Preset Manager B4000+ authentic organ modeller Version 0.6 FERROFISH advanced audio applications Einleitung Mit der Software B4000+ Preset Manager können Sie Ihre in der B4000+ erstellten

Mehr

Daten-Ex- und Import mit Oracle und PostgreSQL

Daten-Ex- und Import mit Oracle und PostgreSQL Daten-Ex- und Import mit Oracle und PostgreSQL Holger Jakobs bibjah@bg.bib.de 2004-09-07 Inhaltsverzeichnis 1 Grund für Daten-Im- und -Exporte 1 2 Werkzeuge 1 2.1 Export mit pg_dump von PostgreSQL.....................

Mehr

Handbuch Datenpunktliste - Auswerte - Tools

Handbuch Datenpunktliste - Auswerte - Tools Handbuch Datenpunktliste - Auswerte - Tools zur Bearbeitung von Excel Datenpunktlisten nach VDI Norm 3814 für Saia PCD Systeme alle Rechte bei: SBC Deutschland GmbH Siemensstr. 3, 63263 Neu-Isenburg nachfolgend

Mehr

Anleitung zum Importieren, Durchführen und Auswerten von Umfragen in Blackboard

Anleitung zum Importieren, Durchführen und Auswerten von Umfragen in Blackboard Center für Digitale Systeme Kompetenzzentrum e-learning / Multimedia Arbeitsbereich e-learning: Qualitätsförderung und Schulung evaluation@cedis.fu-berlin.de April 2010 Anleitung zum Importieren, Durchführen

Mehr

IBM SPSS Data Access Pack Installationsanweisung für Windows

IBM SPSS Data Access Pack Installationsanweisung für Windows IBM SPSS Data Access Pack Installationsanweisung für Windows Inhaltsverzeichnis Kapitel 1. Übersicht.......... 1 Einführung............... 1 Bereitstellen einer Datenzugriffstechnologie.... 1 ODBC-Datenquellen...........

Mehr

Bestandsabgleich mit einem Onlineshop einrichten

Bestandsabgleich mit einem Onlineshop einrichten Bestandsabgleich mit einem Onlineshop einrichten Mit unserem Tool rlonlineshopabgleich können die Warenbestände zwischen unserem Programm raum level und einem Onlineshop abgeglichen werden. Einleitend

Mehr

Übung: Verwendung von Java-Threads

Übung: Verwendung von Java-Threads Übung: Verwendung von Java-Threads Ziel der Übung: Diese Übung dient dazu, den Umgang mit Threads in der Programmiersprache Java kennenzulernen. Ein einfaches Java-Programm, das Threads nutzt, soll zum

Mehr

Allgemeine Eigenschaften von SESAM Rechnung Professional

Allgemeine Eigenschaften von SESAM Rechnung Professional SESAM-Rechnung - die ersten Schritte Seite 1 Allgemeine Eigenschaften von SESAM Rechnung Professional SESAM - Rechnung Professional ist ein einfach zu bedienendes Programm zur schnellen Rechnungserfassung.

Mehr

i i apitel apitel K K Inhalt Inhalt

i i apitel apitel K K Inhalt Inhalt Seite iv 0 Einleitung........................................... 1 Kombination der Leistungsbereiche.............. 3 Über dieses Buch.................................. 3 Arbeiten mit den Beispielanwendungen..........

Mehr

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor: Ergebnisreport: mehrere Lehrveranstaltungen zusammenfassen 1 1. Ordner anlegen In der Rolle des Berichterstellers (siehe EvaSys-Editor links oben) können zusammenfassende Ergebnisberichte über mehrere

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

Whitepaper. Produkt: combit Relationship Manager 6. Import von Adressen nach Firmen und Kontakte. combit GmbH Untere Laube 30 78462 Konstanz

Whitepaper. Produkt: combit Relationship Manager 6. Import von Adressen nach Firmen und Kontakte. combit GmbH Untere Laube 30 78462 Konstanz combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: combit Relationship Manager 6 Import von Adressen nach Firmen und Kontakte Import von Adressen nach Firmen und Kontakte - 2 - Inhalt Ausgangssituation

Mehr

FSC Storagebird Tivoli Edition Handbuch

FSC Storagebird Tivoli Edition Handbuch FSC Storagebird Tivoli Edition Handbuch Stand: 26.02.2009 Copyright BYTEC GmbH 2009 Seite 1 von 19 /ofc/lcl/usr/lbrecht/slssrv/bytec_unterlagen/tivoli/tivoli-anleitung-final.odt FSC Storagebird Tivoli

Mehr

Datenexport mit orgamax

Datenexport mit orgamax Datenexport mit orgamax Diese Dokumentation beschäftigt sich mit den gängigsten Formen des Datenexports unter orgamax. Die hier vorgestellten Exporte beziehen sich auf orgamax 13. Arbeiten Sie mit einer

Mehr

KompetenzManager http://www.kompetenzmanager.ch/mah Manual für die Benutzung der Website

KompetenzManager http://www.kompetenzmanager.ch/mah Manual für die Benutzung der Website KompetenzManager http://www.kompetenzmanager.ch/mah Manual für die Benutzung der Website Inhalt Inhalt... 1 1. Anmelden beim Kompetenzmanager... 3 2. Erstellen eines neuen Kompetenzprofils... 4 2.1. Wizard

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Kurzanleitung Unterrichtsplaner und Schulinformations- und Planungssystem (SIP)

Kurzanleitung Unterrichtsplaner und Schulinformations- und Planungssystem (SIP) Kurzanleitung Unterrichtsplaner und Schulinformations- und Planungssystem (SIP) Stand: 24.09.2013 Kannenberg Software GmbH Nonnenbergstraße 23 99974 Mühlhausen Telefon: 03601/426121 Fax: 03601/426122 www.indiware.de

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr