Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme

Größe: px
Ab Seite anzeigen:

Download "Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme"

Transkript

1 Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme Bachelorarbeit Einbindung des Mahout-Frameworks in das KNIME-Workflowsystem zwecks Analyse großer Datenmenge Name: Max Ernst Matrikelnummer: Betreuer: Prof. Dr. Artur Andrzejak, Dipl.-Math. Lutz Büch Datum der Abgabe:

2 Ich versichere, dass ich diese Bachelor-Arbeit selbstständig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe. Heidelberg,

3 Zusammenfassung In der heutigen Zeit gewinnt Data-Mining immer mehr an Bedeutung. Dabei wird versucht, aus einem Datenbestand neue Muster zu erkennen. Data-Mining Tools wie KNIME (Konstanz Information Miner) bieten dem Benutzer eine grafische Oberfläche für die Verarbeitung der Daten mit Hilfe des maschinellen Lernens an. Aus Speicherplatzgründen ist es jedoch nur möglich relativ kleine Datenmengen zu verarbeiten. Auf der anderen Seite benutzt die neue Generation der parallelen Algorithmen für maschinelles Lernen das Map-Reduce Paradigma, um eine hohe Skalierbarkeit, insbesondere für große Daten, zu erlangen. So wurden, zum Beispiel, in dem Projekt Apache Mahout (http://mahout.apache.org/) eine Vielzahl von Algorithmen implementiert, die das Framework Hadoop benutzen. Schwierigkeiten, die sich dabei ergeben, sind zum Einen, dass viel Zeit sowohl für die Einrichtung und Konfiguration als auch in die Einarbeitung von Mahout investiert werden soll, bevor damit angefangen zu arbeiten werden kann und zum Anderen, dass der Output nicht so einfach in ein KNIME Workflow übernommen werden kann. In dieser Arbeit werden für die freie Software KNIME (Konstanz Information Miner) Knoten mit einer Anbindung an Mahout implementiert, um die Datenanalyse von großen Datenmengen dem Benutzer zu ermöglichen. Mit dem Einsatz von Mahout werden große Daten außerhalb von KNIME verarbeitet und nur eine kleine Datenmenge als Output dem nächsten Knoten übergeben. Die Verwendung von Mahout innerhalb eines KNIME-Knotens bietet den Vorteil, dass die Verarbeitung der Daten über Mahout in ein KNIME-Workflow eingebunden werden kann. Das Ganze wird in Form einer virtuellen Maschine dem Benutzer zur Verfügung stehen. Abstract Today data mining is becoming increasingly important. It attempts to identify new patterns from a data sets. Data mining tools such as KNIME (Konstanz Information Miner) provide the user with a graphical interface for processing the data with the help of machine learning. Space reasons, however, it is only possible to process relatively small amounts of data. On the other hand, the new generation of parallel algorithms for machine learning uses the Map-Rreduce paradigm to achieve high scability. Variety of algorithms in Apache Mahout Project, for example, were implemented using the Hadoop framework. One problem is that a lot of time both should be invested for the installation and configuration as well as the incorporation of Mahout, before it can be started to work and secondly, that the output can not be iii

4 used so easily in a KNIME workflow. In this work nodes for the free software KNIME (Konstanz Information Miner) with a connection to Mahout to simplify the data analysis of large data sets will be implemented. With the use of Mahout large data are processed outside of KNIME and only a small amount of data passed as output to the next node. Using Mahout within KNIME node has the advantage that the processing of data on Mahout can be integrated in a KNIME workflow. The whole work will be available within a virtual machine. iv

5 Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis vii viii 1 Einleitung Motivation Ziele der Arbeit Aufbau der Arbeit Grundlagen Related Works Parallele Algorithmen Map-Reduce Vorgehensweise Beispiel Apache Hadoop Framework Job- und TaskTracker Hadoop Distributed File System KNIME Clustering Recommender Mahout Implementierung und Ausführung Mahout-Knoten Mahout-Knoten Aufbau Oracle VM VirtualBox Einrichtung Mahout-KMeans-Knoten Ausführung Ausführung innerhalb eines Hadoop-Clusters Beispiel v

6 Inhaltsverzeichnis 3.6 Fehlerbehebung Workflow aus Mahout-Knoten Beschreibung Mahout-Knoten Szenario und Evaluation Szenario KNIME K-Means Mahout K-Means Evaluation Einzelinstanz Cluster Schlussbetrachtung Ergebnisse dieser Arbeit Ausblick Anhang 39 Literaturverzeichnis 40 vi

7 Abbildungsverzeichnis 2.1 Pervasive Big Data & Analytics TM Datenfluss beim Map-Reduce Verfahren KNIME Workflow (http://www.knime.org/screenshots) Mahout-Knoten Dialog Mahout-KMeans-Knoten Beispiel CSV Writer Ausgabe Mahout Workflow Konfiguration Start-Knoten Konfiguration Input-Knoten Konfiguration Clustering-Knoten Konfiguration Fetch-Knoten Konfiguration Stop-Knoten Konfiguration Recommender-Knoten KNIME K-Means vor der Ausführung KNIME K-Means nach der Ausführung Mahout K-Means vor der Ausführung Mahout K-Means nach der Ausführung K-Means Java heap space overflow Verarbeitungsgeschwindigkeit Einzelinstanz und Hadoop Cluster vii

8 Tabellenverzeichnis 5.1 Vergleich K-Means KNIME und Mahout (Laufzeiten) Vergleich K-Means Mahout und Mahout Workflow (Laufzeiten) Vergleich K-Means Mahout Einzelinstanz und Cluster viii

9 1 Einleitung 1.1 Motivation In der heutigen Zeit werden immer schnellere Rechenleistungen verlangt und vorausgesetzt. In den letzten Jahrzehnten sind Prozessoren und Arbeitsspeicher um Vielfaches schneller geworden, Festplatten besitzen Kapazitäten, die man vor einiger Zeit noch für unmöglich gehalten hat, was wiederum dazu führt, dass schnellere Prozessoren mit mehr Daten belastet werden. Die Datenmengen werden tendenziell immer größer und sind leichter verfügbar (Stichwort "Big Data") und wegen des begrenzten Hauptspeichers muss auf verteilte Systeme ausgewichen werden. Bei sehr großen Datenmengen findet häufig das von Google eingeführte Framework Map- Reduce den Einsatz. Dabei werden die Daten auf mehrere Rechner innerhalb eines Rechnerverbands (Computercluster) verteilt, separat verarbeitet und die Ergebnisse dann zusammengefügt. Innerhalb eines Rechners werden die Daten z.b. auf mehrere Kerne verteilt. Das Problem mit den großen Datenmengen und Verarbeitungszeit stellt sich auch bei der Clusteranalyse, Klassifikationsverfahren und allgemein im Bereich des maschinellen Lernens. Die Apache Mahout Sammlung bietet eine Menge von skalierbaren Algorithmen, um Klassifikatoren zu trainieren / testen, aber auch um Cluster zu bilden. Durch das Hinzufügen weiterer Knoten / Rechnern steigt auch proportional die Leistung. Bei einer Verteilung von Daten bringt uns Map-Reduce nicht nur schnellere Verarbeitung mit sich, sondern auch die Sicherheit, dass alle Daten verarbeitet werden. Beim Ausfall eines Knotens muss sichergestellt werden, dass Daten, die diesem Rechner zugewiesen wurden, nicht ins Leere gehen, sondern einem anderen Knoten zugewiesen und über diesen zum Output weitergeleitet werden. Wäre dies nicht der Fall, so könnten manche Daten verloren gehen und das Ergebnis letztendlich verfälscht werden. Alle diese Eigenschaften machen Mahout zu einem mächtigen und ziemlich stabilen Werkzeug. Jedoch bietet Mahout keine grafische Benutzeroberfläche. Für eine Datenanalyse mit grafischer Oberfläche wird oft das Werkzeug KNIME eingesetzt. Dem Benutzer ist es möglich, mit Hilfe unterschiedlicher Knoten, Workflows zu bilden. Jeder 1

10 1 Einleitung Knoten verarbeitet die Daten auf seine vordefinierte Art und Weise. Sind die Daten klein, können sie innerhalb eines Knotens erfolgreich verarbeitet werden, bei etwas größeren (dabei handelt es sich um Daten, die wesentlich kleiner als 1 GB groß sind) oder ganz großen Daten (Tera-, Petabyte...) wird der Knoten die Ausführung einfach abbrechen, da der Speicher für die Verarbeitung nicht ausreichend vorhanden ist. In dieser Arbeit werden neue KNIME-Knoten für das Clustern großer Datenmengen implementiert, die die Verarbeitung nicht intern ausführen, sondern einen Mahout Prozess starten, der die Daten verarbeitet, und das Ergebnis an den nächsten Knoten übergibt. Somit wird die Vorteile von Mahout (Verarbeitung großer Datenmengen) und KNIME (Datenanalyse über grafische Benutzeroberfläche) miteinander kombiniert. 1.2 Ziele der Arbeit In dieser Arbeit wird eine Schnittstelle zwischen KNIME und Mahout gebildet, um parallele Mahout-Algorithmen von KNIME aus starten zu können. Mahout enthält Algorithmen, die auf Hadoop Plattform ausgeführt werden und somit Verteilung der Daten und ihre Verarbeitung auf mehrere Rechner erlaubt. Aber auch wenn die Daten auf einem Rechner verarbeitet werden, ist es möglich viel größere Datensätze zu übergeben als es von KNIME standardmäßig vorgesehen ist. Dafür muss Hadoop und Mahout konfiguriert werden. Für die Mahout Einrichtung muss der Benutzer viel Zeit aufwenden. Das erste Ziel ist also, die Einrichtung und Arbeit mit Mahout zu vereinfachen, so dass sich der Benutzer nur mit der Verarbeitung seiner Daten beschäftigen muss. KNIME bietet die Möglichkeit, verschiedene Algorithmen über grafische Knoten auszuführen. D.h. der Benutzer kann alle Einstellungen über die grafische Benutzeroberfläche vornehmen, ohne tiefe Kenntnisse in den Terminalbefehlen zu haben. Es fehlt jedoch die Schnittstelle zwischen Mahout und KNIME, es ist also nicht möglich einen Mahout-Befehl in einem KNIME-Knoten und somit in einem Workflow auszuführen. Ein weiteres Ziel ist somit einen Mahout-Knoten für KNIME zu erstellen, welcher nur die Eingangsdaten benötigt und die Ausgabe innerhalb eines Workflows weiterleitet oder in ein vom Benutzer eingegebenes Verzeichnis schreibt. Der Mahout-Knoten soll Mahout und KNIME vereinigen. Beispielhaft wurde der K-Means Algorithmus integriert, bei dem der Benutzer als Eingabedaten die Vektoren, die Anzahl der Cluster und ggf. maximale Anzahl der Iterationen übergibt. Es wird als gewöhnlicher KNIME- Knoten ausgeführt und die Ausgabe kann wiederum als Eingabe in weiteren Knoten verwendet werden. 2

11 1.3 Aufbau der Arbeit 1.3 Aufbau der Arbeit In Kapitel 2 werden grundlegende Methoden und Konzepte für diese Arbeit vorgestellt. Diese Grundlagen sollen dem Verständnis über eingesetzte Frameworks und damit verbundenen Themen helfen und sich dahinter befindliche Abläufe kurz vorstellen. Kapitel 3 beschreibt die Umsetzung der Anforderungen und Einsatzmöglichkeiten der entwickelten Knotenen. Ebenfalls wird auf die Konfiguration der Knoten, mögliche Fehler und dazugehörige Lösungen eingegangen. Diese Knoten dienen als Prototypen und werden im nächsten Schritt in weitere Knoten zerteilt. 4 Kapitel beschreibt weitere Entwicklung der Knoten, die den Aufbau der Workflows, durch das Trennen der Ausführungen einzelner Aufgaben, flexibler macht. Im Kapitel 5 wird ein mögliches Szenario für den Einsatz des Mahout Knotens präsentiert. Zusätzlich findet noch ein Vergleich zwischen dem standardmäßigen K-Means Knoten aus KNIME und dem Mahout K-Means Knoten statt. 3

12 2 Grundlagen Die in diesem Kapitel vorgestellte Bereiche sollen das Verständnis über Technologien, die in dieser Arbeit eingesetzt werden, erweitern und letztendlich den Sinn und den Zweck dieser Arbeit erläutern. Eingesetzte Verfahren aus der Mahout-Sammlung zur Datenanalyse wie Clustering und Recommender werden beschrieben. 2.1 Related Works Das Problem mit der Verarbeitung großer Datenmengen bei KNIME ist nicht neu, deswegen werden KNIME Erweiterungen von Pervasive Big Data & Analytics TM für verteilte Frameworks wie Hadoop entwickelt. Pervasive RushAnalytics for KNIME wurde mit dem Ziel entwickelt, den maximalen Vorteil aus der Infrastruktur der parallelen Verarbeitung zu erzielen und damit eine höhere Verarbeitungsgeschwindigkeit zu erreichen. [3] Abbildung 2.1 zeigt, dass RushAccelerator for KNIME 2 bis 10 und RushAnalytics 10 bis 100 Mal schneller als KNIME sind. Im Download Center werden unterschiedliche Versionen zur Verfügung gestellt und können nach einer Anmeldung als virtuelle Maschinen heruntergeladen werden. 2.2 Parallele Algorithmen Ein Algorithmus heißt parallel, wenn er erstens so in Einzelschritte zerlegt werden kann, dass diese auf verschieden Prozessoren (Rechner) verteilt werden können, und wenn zweitens diese Prozessoren unabhängig und gleichzeitig arbeiten. [10] Diese Vorgehensweise wird z.b. von Google zum Einsatz gebracht, um extrem große Datenmengen verarbeiten zu können, bräuchte eine einzelne Maschine mehrere Jahre, um Suchindexe zu erstellen. So eine lange Verarbeitungszeit würde dazu führen, dass Google die Daten niemals aktuell halten könnte, deswegen wird mit parallelen Algorithmen gearbeitet, die es möglich machen, große Datenmenge auf viele Maschinen zu verteilen. Parallele Algorithmen werden auch bei Mahout (Abschnitt 2.8) eingesetzt. 4

13 2.3 Map-Reduce Abbildung 2.1: Pervasive Big Data & Analytics TM Bei parallelen Algorithmen werden die Daten zerlegt und getrennt voneinander verarbeitet, was uns zum nächsten Begriff führt - Map-Reduce. 2.3 Map-Reduce Map-Reduce ist ein Framework für nebenläufige Berechnungen über große Datenmengen. Es wurde von Jeffrey Dean und Sanjay Ghemawa im Jahr 2004 bei Google entwickelt. Dadurch, dass die Daten auf mehrere Rechner verteilt werden, ist es möglich große Datenmengen in kurzer Zeit zu bearbeiten. Ein weiterer Vorteil ist, dass man keine spezielle High-End Server bereitstellen muss, sondern auf handelsüblichen Computern die Verarbeitung durchführen kann. Wie der Name schon sagt, besteht Map-Reduce aus zwei Phasen: Map und Reduce, genau so heißen die Funktionen, die nebenläufig verwendet werden. Die map() Funktion berechnet die Werte für alle Eingabeelemente und stellt sie in modifizierter Form wieder dar. Die reduce() Funktion fasst die Ergebnisse zusammen und reduziert sie auf eine Ausgabedatei(-wert). 5

14 2 Grundlagen Abbildung 2.2: Datenfluss beim Map-Reduce Verfahren Vorgehensweise Abbildung 2.2 stellt Map- und Reducephasen mit jeweiligen Ergebnissen dar, einzelne Schritte sind im Folgenden erklärt: Daten werden auf unterschiedliche Map-Prozesse verteilt und parallel berechnet Berechnungen werden als Zwischenergebnisse gespeichert, wobei jede Map-Funktion ihre Ergebnisse auf jedes Zwischenergebnis verteilen kann sind alle Map-Prozesse fertig, ist die Map-Phase zu Ende nun beginnt die Reduce-Phase, die aus jedem Zwischenergebnis ein Endergebnis berechnet, Reduce-Prozesse laufen ebenfalls parallel ab Die Map-Phase stellt Zwischenergebnisse als Schlüssel-Wert-Paare dar und die Reduce-Phase fasst diese zusammen und gibt auch Schlüssel-Wert-Paare aus. Formal gesehen ist Map- Reduce-Framework eine Abbildung: (K V) (L W) [(k 1, v 1 ),..., (k n, v n )] [(l 1, w 1 ),..., (l m, w m )], wobei K und L Schlüssel, V und W Werte enthalten. 6

15 2.4 Apache Hadoop Framework Beispiel Man kann sich viele Anwendungen für das parallele Berechnen vorstellen, an dieser Stelle wird das gängigste Einführungsbeispiel vorgestellt. Das Hello World! Beispiel aus der Programmierung ist in Map-Reduce das Beispiel Wörter in einem Text zu zählen, d.h. es wird gezählt wie oft jedes Wort in einem Text vorkommt. In der Map-Phase wird der Text geteilt und verschiedenen Rechnern zugeteilt, jeder Rechner berechnet Anzahl Wörter, die in seinem Teil vorkommen und legt sie als Zwischenergebnisse im Speicher ab. So kann es vorkommen, dass das Wort ich vom ersten Map-Prozess 5 mal gezählt wurde und vom zweiten Map-Prozess 7 mal, d.h. es sind 2 Ergebnisse, die aber zusammengefasst werden sollen, was auch die einzelnen Reduce-Phasen machen und als Ergebnis eine Liste aus Wörtern (Schlüsseln) und der jeweiligen Anzahl (Werte) ausgeben. Pseudo-Code: map(string key, String value): // key: document name // value: document contents for each word w in value: EmitIntermediate(w, "1"); reduce(string key, Iterator values): // key: a word // values: a list of counts int result = 0; for each v in values: result += ParseInt(v); Emit(AsString(result)); 2.4 Apache Hadoop Framework Map-Reduce Framework nimmt dem Entwickler viel Arbeit ab, so müssen nur die Map- und Reducefunktionen implementiert werden, alles andere, wie Fehlerbehandlungen, Scheduling Verfahren für die Jobverteilung und Koordination, d.h. technische Details werden vom System erledigt. Ein konkretes Framework wird in diesem Abschnitt vorgestellt. Das von Google entwickelte Map-Reduce Framework ist kostenpflichtig und urheberrechtlich geschützt, deswegen wird an dieser Stelle das Open-Source, in Java entwickeltes Framework der Apache Foundation verwendet. 7

16 2 Grundlagen Es stehen 3 Modi zur Verfügung, in denen Hadoop-Framework gestartet werden kann: Standalone mode: Programm startet in einem einzigen Prozess Pseudo-distributed mode: Programm startet auf einem Rechner, wird jedoch in mehrere Java Prozesse gesplittet Cluster mode oder Fully distributed: läuft auf einem Cluster aus mehreren Rechnern Hadoop ist offen für alle Entwickler, bietet eine sehr hohe Fehlertoleranz und eignet sich damit bestens für diese Arbeit Job- und TaskTracker In einem Framework gibt es zwei Arten von Prozessen, die für die Verarbeitung der Daten zuständig sind - der eine wird als JobTracker-Prozess bezeichnet, alle andere Prozesse werden TaskTracker-Prozesse genannt (Google verwendet dazu die Begriffe Master und Worker.). Der JobTracker-Prozess weist den einzelnen Rechnern im Cluster Jobs zu, welche wiederum Map- oder Reducefunktionen sind. Nach der Zuweisung werden die Daten mit Hilfe von Remote Method Invocation (RMI) aus dem Speicher gelesen und verarbeitet. Nachdem alle Map- und Reduceprozesse beendet sind, weckt der JobTracker ein Benutzerprogramm auf, dass alle Daten berechnet wurden und weitergeleitet werden können. Es gibt also genau einen JobTracker und mehrere TaskTracker; JobTracker bekommt Mapund Reducefunktionen, die er an einzelne Knoten (TaskTracker) verteilt. Dem JobTracker ist bekannt, an welchem Knoten welche Daten zu finden sind, dies wird bei der Arbeitszuweisung berücksichtigt, wodurch das Verschicken der Daten über das Netzwerk vermieden und Zeit gespart wird. Daten werden nur in dem Fall zum nächsten Rechner im Cluster geschickt, falls auf einem anderen momentan keine Funktion ausgeführt werden kann Hadoop Distributed File System Hadoop Distributed File System (HDFS) ist von Apache entwickeltes Dateisystem. Es wird eigenes Dateisystem verwendet, da es speziell für große Datenmengen auf verteilten Rechnern erstellt wurde. Die Verteilung auf die Cluster wird möglichst optimal durchgeführt und die Zugriffszeiten sind sehr kurz. In einem Cluster gibt es unterschiedliche Typen von Knoten mit jeweiligen Aufgaben, auf die sie spezialisiert sind. Der sogenannte NameNode ist für die Steuerung des Namespaces, Metadaten des Dateisystems und Rechenzugriffe zuständig. Auf den DataNodes 8

17 2.5 KNIME werden tatsächliche Daten, die bearbeitet werden, gespeichert. Als letztes existiert noch ein SecondaryNameNode, der die Änderungen des ursprünglichen Dateisystems als Log-Files speichert. 2.5 KNIME KNIME ist eine freie Software, die in solchen Bereichen wie Mathematik, Bioinformatik, Statistik usw. für die Datenanalyse eingesetzt wird. Dabei bietet es zahlreiche Verfahren des maschinellen Lernens und Data-Mining an. Ein Workflow in KNIME besteht aus Knoten, die Daten verarbeiten, und Kanten, die einen Datenfluss darstellen. Ein Knoten kann sowohl eine als auch mehrere Eingangskanten als Input haben, genauso ist es aber möglich zu verarbeitende Daten von der Festplatte zu laden (zumindest der erste Knoten bekommt seine Daten nicht von einem anderen Knoten). Abbildung 2.2 zeigt die Arbeitsfläche von KNIME. Auf der linken Seite werden unterschied- Abbildung 2.3: KNIME Workflow (http://www.knime.org/screenshots) liche Knoten kategorisiert aufgelistet, die je nach Art der Analyse und den Eingangsdaten ausgewählt werden können. Im mittleren Bereich wird der ganze Workflow dargestellt. Die Knoten können unterschiedliche Status besitzen, dies sieht man an der Farbe, die sich unter dem Knoten befindet: gelb 9

18 2 Grundlagen bedeutet, dass der Knoten notwendige Daten enthält und bereit für die Ausführung ist; bei rot müssen noch Daten angegeben werden; grün - der Knoten wurde bereits ausgeführt. 2.6 Clustering Clustering - Datensätze werden nach ihrer Ähnlichkeit dermaßen in Cluster unterteilt, dass ein Cluster Datensätze enthält, die zueinander ähnlich und möglichst unterschiedlich zu den Datensätzen aus anderen Clustern sind. Wie ähnlich die Datensätze zueinander sind wird durch eine Distanzfunktion bestimmt, z.b. durch die Euklidische Distanzfunktion. Im Gegensatz zur Klassifikation sind die Cluster am Anfang unbekannt, es findet also kein Lernvorgang mit Trainingsdaten statt. Es ist jedoch möglich die Anzahl der Cluster und die Distanzfunktion innerhalb dieser Cluster zu bestimmen. Als ein Beispiel, wird an der Stelle ein einfaches Clusteringverfahren K-Means vorgestellt. K-Means ist ein einfaches und das meistverbreitete Clusteringverfahren. Jeder Cluster bei K-Means besitzt seinen eigenen Schwerpunkt, den sogenannten Centroid. Anzahl der Cluster wird vor der Ausführung angegeben, die Schwerpunkte werden dann zufällig verteilt. Das Ziel dabei ist es, den durchschnittlichen quadratischen Abstand vom Schwerpunkt zu minimieren, indem iterativ jeder Datensatz einem Cluster zugewiesen wird und anschließend die Schwerpunkte neuberechnet werden. Der letzte Schritt wird solange ausgeführt, bis eine bestimmte Anzahl von Iterationen erreicht ist oder bis die Schwerpunkte sich nicht mehr bewegen. Einsatzgebiet von K-Means ist oft in der Computergraphik die Bildsegmentierung. Das Bild wird in bestimmte Bereiche (Segmente) unterteilt, in welchen die Bildpunkte gemeinsame Eigenschaften besitzen. Welche Eigenschaften es sind, hängt vom Kontext ab; auf den Röntgenbildern z.b. werden zusammengehörende Elemente über Farbintensität den Clustern zugeordnet. Es existieren unterschiedliche Variationen von K-Means wie z.b. K-Means++, bei dem versucht wird bessere Startpunkte zu finden, oder Fuzzy K-Means, wo jeder Datensatz nicht einem bestimmten Cluster, sondern ein Satz Gewichte zugeordnet wird, die angeben wie stark die Zugehörigkeit zu einem bestimmen Cluster ist. 10

19 2.7 Recommender 2.7 Recommender Recommender System (Empfehlungsdienst) ist ein Verfahren, welches dazu benutzt wird, ähnliche Objekte zu ermitteln und Empfehlungen zu erstellen. Anhand bestehender Daten (Kontext) kann bestimmt werden welche weitere Daten als Empfehlung verwendet werden können. Eine Recommender Engine kann beispielsweise bei Videofilmen oder Büchern eingesetzt werden. Bereits ausgeliehene Bücher stellen die Vorlieben eines Benutzers dar. Darüber kann erfahren werden, welche Autoren oder Genre der Benutzer bevorzugt; ebenso können das Alter, das Geschlecht und die Herkunft der Person eingesetzt werden, um passende Vorschlage machen zu können. Die Eingabe enthält somit eine Liste der gelesenen Büchern und einer Liste noch zusätzlich vorhandener Bücher. Daraus wird eine Rankingliste erstellt. 2.8 Mahout Mahout ist ein Apache Projekt, welches sich mit der skalierbaren Implementierung von maschinenlernenden Algorithmen auf der Hadoop Plattform befasst. Es enthält einige Algorithmen für z.b. Clustering und Klassifikation. So ist auch im Abschnitt 2.6 vorgestelltes K- Means Clusteringverfahren in der Mahout Sammlung vorhanden. Mahout modifiziert die Inputdaten nicht, somit bleibt der Benutzer flexibel und kann Algorithmen mit verschiedenen Parametern ausführen, um diese auszuprobieren, zu testen und zum bestmöglichen Ergebnis zu kommen. Die Daten werden jedoch zwischen verschiedenen Ausführungen nicht im Speicher gehalten, sondern müssen immer wieder neu geladen werden. 11

20 3 Implementierung und Ausführung Mahout-Knoten In diesem Kapitel werden zu implementierende Methoden und Algorithmen und jeweilige Entscheidungen gezeigt und vorgestellt. Als Einstieg in die KNIME-Implementierung wird zuerst ein KMeans-Knoten implementiert und die Ausführung mit den jeweiligen Konfigurationen gezeigt. Wie der Name bereits verrät, ist dieser Knoten nur auf K-Means beschränkt und sogar bei diesem Verfahren können nur wichtigste Konfigurationen vorgenommen werden. Ein weiterer wichtiger Teil dieses Kapitels ist die Vorstellung und der Umgang mit der virtuellen Maschine. Da man diese Mahout-Knoten nicht in jede beliebige KNIME Umgebung einbinden kann, werden die Knoten zusammen mit dem Betriebssystem (mit installiertem Hadoop Framework etc.) als virtuelle Maschine herausgegeben. Somit müssen zumindest Grundlegende Bereiche der virtuellen Maschine, aber auch, falls es zu Problemen kommen sollte, Schritte, die bei Fehlerbehebungen durchzuführen sind, erwähnt werden. 3.1 Mahout-Knoten Aufbau Um einen Mahout-Knoten implementieren zu können, werden einige Klassen von KNIME tech zur Verfügung gestellt, die auf eigene Anforderungen vervollständigt und angepasst werden können. Im folgenden werden diese Klassen vorgestellt. NodeModel - diese Klasse ist für die allgemeine Beschreibung des Knotens verantwortlich. Der Konstruktor definiert die Anzahl der Ein- und Ausgangsports. Da die Eingangsdaten von unserem Knoten sehr groß sein und auch meistens von außen hinzugefügt werden, besitzt der Mahout-Knoten keinen Eingangsport. Die Ausgabe wird jedoch so klein sein, dass sie als Eingabe für den nächsten Knoten genommen werden kann und auch soll. Weiterhin werden alle Dialog-Komponenten angegeben, welche der Benutzer bei der Konfiguration des Knotens angezeigt bekommt. Im Falle des Mahout-Knotens handelt es sich um 12

21 3.2 Oracle VM VirtualBox Einrichtung solche Komponenten wie Ein- und Ausgabepfade, Anzahl der Cluster und maximale Anzahl der Iterationen. Diese werden mit Default-Werten erzeugt, die dann später vom Benutzer geändert werden können / müssen. Wichtige Methoden aus dieser Klasse sind validatesettings(), savesettingsto() und loadvalidatedsettingsfrom(), um die Einstellungen zu prüfen, ob erforderliche Daten angegeben wurden; Einstellungen zu speichern und diese zu laden. execute() enthält Anweisungen für die Ausführung des Knotens. NodeDialog - platziert die in der NodeModel definierte Komponente auf das Fenster (panel) bzw. Dialog, den der Benutzer angezeigt bekommt. Dabei geht es im Wesentlichen um die Positionen der einzelnen Komponente und ihrem Verhalten wie beispielsweise Verschwinden einzelner Einstellungen beim Setzen eines Hakens. NodeView - zeigt die Ausgabe graphisch an. 3.2 Oracle VM VirtualBox Einrichtung Das Endergebnis dieser Arbeit wird in Form einer virtuellen Maschine allen Benutzern zur Verfügung gestellt. Eine ganze Maschine deswegen, weil es nicht nur der implementierte Knoten als Plugin in KNIME eingebunden werden muss (was auch möglich wäre, nur den Knoten in KNIME zu importieren), sondern auch Hadoop und Mahout eingerichtet und lauffähig sein müssen. Es existiert eine Reihe von virtuellen Maschinen, solche wie Windows Virtual PC, VMware Workstation, Parallels Workstation usw. Da nicht alle Maschinen kostenlos sind und auch die Einrichtung bei manchen viel Aufwand erfordert, fiel die Entscheidung auf die eine der bekanntesten und zugleich kostenlose virtuelle Maschine Oracle VM Virtual Box. Obwohl die Maschine lauffähig zur Verfügung gestellt wird, müssen vom Benutzer dennoch einige Einstellungen, Änderungen oder Anpassungen vorgenommen werden. Dieser Abschnitt beschreibt grundlegende Operation, die notwendig oder sinnvoll für die Ausführung der VirtualBox sein können. Maschine Einbinden: Um eine neue Maschine in die Virtual Box aufzunehmen, wird im Menü Maschine > Hinzufügen entsprechende Maschine ausgewählt. Damit wird die neue Maschine eingebunden und kann bereits gestartet werden. Administrator VM mit dem Passwort admin ist angelegt. 13

22 3 Implementierung und Ausführung Mahout-Knoten Gemeinsamen Ordner definieren: Es muss evtl. eine Schnittstelle zwischen dem echten Betriebssystem und der virtuellen Maschine geschaffen werden, nämlich ein gemeinsamer Ordner (oder mehrere) den die beiden Systeme nutzen. Dazu wird in der Virtual Box die entsprechende Maschine markiert und Menüpunkt Ändern ausgewählt. Daraufhin erscheint ein Fenster mit dem Unterpunkt Gemeinsame Ordner. Hier kann ein gemeinsamer Ordner definiert werden, als Beispiel wird ein der Stelle Verzeichnis C:\Gemeinsamer Ordner verwendet. Dieses Verzeichnis muss auch in der virtuellen Maschine eingebunden werden, dies geschieht im Terminal mit der Ausführung des Befehls: sudo mount -t vboxsf Gemeinsamer_Ordner /home/vm/desktop/shared/, wobei Gemeinsamer_Ordner der Ordner-Name ist, der beim Hinzufügen in die Virtual Box angezeigt wurde und /home/vm/desktop/shared/ das Verzeichnis, in welchem der Inhalt des gemeinsames Ordners unter Linux angezeigt werden soll. Nach der Eingabe des Passworts sollen beide Systeme auf den gemeinsamen Ordner zugreifen können. Netzwerk einrichten: Die Maschine besitzt 2 Netzwerkadapter, einen, um Zugang ins Internet zu bekommen und einen zweiten, um sich mit dem echten Betriebssystem in einem Netzwerk befinden zu können. Dies ist z.b. für einen Cluster notwendig. Werden mehrere virtuelle Maschinen eingebunden muss evtl. die Mac-Adresse unter Ändern > Netzwerk > Adapter 2 > MAC- Adresse: > aktualisieren geändert werden. Auch sonstige Einstellungen bzgl. des Netzwerkes und Adapter können hier angepasst werden. 3.3 Mahout-KMeans-Knoten Ausführung Dieser Abschnitt beschreibt Einzelschritte, die bei der Ausführung des ersten Knotens passiert werden. Im Kapitel 2 wurde ein Clustering-Verfahren K-Means vorgestellt. Dieses Verfahren führt der erste Knoten aus. Der Vorteil dieses Knotens ist, dass der Benutzer alle Einstellungen über grafische Oberfläche vornehmen kann. Es ist ein reiner K-Means Knoten, der nur K-Means ausführt und keine Kenntnisse über Terminal-Befehle von Mahout erfordert. Das ganze Projekt wird nicht auf einem normalen Betriebssystem, sondern auf einer virtuellen Maschine 14

23 3.3 Mahout-KMeans-Knoten Ausführung durchgeführt. Als Betriebssystem wurde Linux-Distribution Ubuntu verwendet. Dieses beinhaltet alle notwendigen Pakete, um darauf Hadoop und Mahout ausführen zu können. Bevor dieser Knoten näher erläutert wird, wird an dieser Stelle genauer auf den Umgang mit Mahout eingegangen. Um einen Mahout-Befehl in der Kommandozeile auszuführen, muss der Benutzer in den Systemeinstellungen den Pfad zu der Ausführungsdatei von Mahout angeben und damit Mahout aus jedem beliebigen Verzeichnis starten können oder zum Unterverzeichnis bin/mahout von Mahout navigieren und von dort aus Befehle an Mahout übergeben. Eine Eingabe hat etwa folgende Gestalt: bin/mahout kmeans \ i < input vectors directory > \ c < input clusters directory > \ o < output working directory > \ k < optional number o f initial clusters to sample f rom input vectors > \ dm < DistanceMeasure > \ x < maximum number o f iterations > \ cd < optional convergence delta. De f ault is 0.5 > \ ow < overwrite output directory i f present > \ cl < run input vector clustering a f ter computing Canopies > \ xm < execution method : sequential or mapreduce > [6] Das Beispiel listet 10 Eingabeparameter auf. Der K-Means Knoten kann diese Anzahl von Argumenten natürlich nicht aufnehmen, über den Dialog können lediglich: -i, -o, -k, -x Parameter konfiguriert werden. Notwendige Benutzereingaben für den Knoten sind: 1. Pfad zu Vektoren (-i) 2. Anzahl der Cluster (-k) Als optionale Parameter können Ausgabeverzeichnis (-o) Maximale Anzahl Iterationen (-x) Hadoop auf einem Cluster laufen lassen 15

24 3 Implementierung und Ausführung Mahout-Knoten (a) Max. Anzahl Iterationen wird gesetzt (b) Standartwert für Max. Anzahl der Iterationen verwenden Abbildung 3.1: Mahout-Knoten Dialog angegeben werden. Wird der Haken jedoch nicht gesetzt, wird die Anzahl der Iterationen standardmäßig auf 10 gesetzt. Beide Darstellungen werden in der Abbildung 3.1 gezeigt. Wie in Kapitel 2 bereits erwähnt, muss auf der Maschine Hadoop laufen, um einen Mahout- Job ausführen zu können. D.h. vor einem Mahout-Algorithmus muss Hadoop konfiguriert und gestartet werden. Der Knoten führt folgende Schritte durch: Hadoop stoppen HDFS formatieren Hadoop starten 30 Sekunden Pause, damit Hadoop vollständig hochfährt Mahout-Algorithmus ausführen Als Erstes wird Hadoop gestoppt, da es vorkommen kann, dass Hadoop bereits auf der Maschine läuft und sowohl der dritte Schritt (Starten) fehlschlagen als auch der Rest nicht ausgeführt wird. Ohne Formatierung könnte es vorkommen, dass sich fälschlicherweise alte Daten auf dem Dateisystem befinden und diese der Ausführung Probleme bereiten. Mit der Formatierung 16

25 3.4 Ausführung innerhalb eines Hadoop-Clusters wird sichergestellt, dass nur die zu verarbeitende Daten sich auf dem Dateisystem befinden. Für die korrekte Ausführung braucht Hadoop für das Starten eine gewisse Zeit, 30 Sekunden sollten im Normalfall ausreichen, so dass die Ausführung eines Algorithmus nicht zu schnell kommt. Diese einzelne Befehle werden an ein Terminal übergeben und als Kommandozeilen ausgeführt. Um den Verlauf beobachten zu können, wird die Ausgabe in der unteren KNIME- Konsole als Info ausgegeben. So ist es für den Benutzer möglich einzelne Befehle, Fortschritt oder Fehler dort auszulesen. 3.4 Ausführung innerhalb eines Hadoop-Clusters Abschnitt 3.3 beschreibt den Ablauf auf einem einzelnen Rechner. Es ist aber genauso möglich die Ausführung auf mehrere Rechner, sprich Cluster, zu verteilen. Die Vorgehensweise und dafür notwendige Konfigurationen werden in diesem Abschnitt beschrieben. Es gibt eine Reihe von Konfigurationen, die nur ein Mal eingetragen werden müssen und keine Änderung mehr benötigen, falls man die virtuelle Maschine mehrmals klont. Werden jedoch andere Maschinen verwendet, müssen diese Konfigurationen auf allen Maschinen durchgeführt werden, damit Hadoop auf einem Cluster laufen kann. In einem Cluster muss eine Maschine existieren, von der aus alle Befehle gestartet werden, diese Maschine wird im Folgenden master genannt. Andere Maschinen, die die Aufgaben nur durchführen werden als slave bezeichnet. Auf welcher Maschine welche Änderungen vorgenommen werden müssen, werden mit dem jeweiligen Namen gekennzeichnet. Für die Ausführung auf einem Rechner wird /home/vm/local/hadoop Verzeichnis verwendet, für die Ausführung auf einem Cluster - /home/vm/local/hadoop-cluster. D.h. alle Änderungen, die jetzt folgen werden, werden auf das letzte Verzeichnis angewendet. Als Erstes müssen alle IP-Adressen unter /etc/hosts eingetragen werden, z.b.: master slave slave2 Diesen Eintrag kann nur der Administrator durchführen: mit sudo vim /etc/hosts gelangt mant zum Vim-Fenster mit I (insert) kann man den Inhalt editieren nach dem die Änderung vorgenommen wurde: Esc > :wq (write + quit) > Enter 17

26 3 Implementierung und Ausführung Mahout-Knoten Dateien, die im Verzeichnis /home/vm/local/hadoop-cluster angepasst werden: conf/masters (master): master conf/slaves (master): master slave slave2 conf/core-site.xml (alle Maschinen): <property> <name>fs.default.name</name> <value>hdfs://master:54310</value> <description> The name of the default file system </description> </property> conf/mapred-site.xml (alle Maschinen): <property> <name>mapred.job.tracker</name> <value>master:54311</value> <description> The host and port that the MapReduce jobtracker runs </description> </property> conf/hdfs-site.xml (alle Maschinen): <property> <name>dfs.replication</name> <value>2</value> <description> Default block replication </description> </property> 18

27 3.5 Beispiel Auf allen Maschinen kann unter /home/vm/local/hadoop-cluster mit jps geschaut werden, welche Java-Prozesse laufen. Beim slave könnten die Ausgaben beispielsweise so aussehen: Nach dem HDFS deamons gestartet wurden: DataNode Jps Nach dem MapReduce deamons gestartet wurden: DataNode TaskTracker Jps HDFS und MapReduce daemons werden von dem Mahout-Knoten bei der Ausführung automatisch gestartet. Wie man an der letzten Ausgabe erkennen kann, müssen DataNode und TaskTracker laufen, dies bedeutet, dass alles korrekt läuft. Ist die Ausgabe anders, wurde etwas falsch konfiguriert. Die einzelnen Prozess-ID s werden sich von dem Beispiel höchstwahrscheinlich unterscheiden und ihr Wert spielt an dieser Stelle selbstverständlich keine Rolle. 3.5 Beispiel Dieser Abschnitt beschreibt die Ausführung des Knotens anhand von synthetic_control.data. Die Datei befindet sich unter Home > Mahout Example. Schritt 1 KNIME starten, Doppelklick auf den MahoutKMeans-Knoten. Schritt 2 Knoten Konfigurieren: entweder über Doppelklick auf den Knoten oder rechter Mausklick auf den Knoten und Configure.... Schritt 3 Als Input file den Pfad /home/vm/mahout Example/synthetic_control.data wählen. Schritt 4 Für Output working directory kann beliebiges Verzeichnis gewählt werden, z.b. /home/vm/mahout Example/output. Schritt 5 Number of clusters auf 10 setzen (kann auch beliebig sein). Schritt 6 CSV Writer Knoten hinzufügen und Ausgabedatei setzen. Schritt 7 Beide Knoten verbinden. Schritt 8 Ok & rechter Mausklick auf den Knoten > Execute. 19

28 3 Implementierung und Ausführung Mahout-Knoten Abbildung 3.2 stellt den fertigen Workflow dar. Abbildung 3.2: Mahout-KMeans-Knoten Beispiel Nach einer erfolgreichen Ausführung wird eine Ausgabedatei im Ordner output von Mahout angelegt. Diese beinhaltet gelabelte Vektoren. Die Struktur der Daten, wie sie an weitere Knoten von K-Means Knoten übergeben wird, sieht man in der von CVS Writer Knoten erstellten Datei (Abbildung 3.3). Die Zeilen in der CSV- Datei stellen je einen Vektor dar, die letzte Zelle beinhaltet das Label. Die Labels werden von Mahout vergeben und gelangen unverändert in den Output vom K-Means Knoten. Somit werden 10 Vektoren der Länge 60 und eine Spalte fürs Label erstellt. Abbildung 3.3: CSV Writer Ausgabe 3.6 Fehlerbehebung Dieses Kapitel beschreibt mögliche Fehler, die bei der Konfiguration auftauchen können und Lösungen, die zur Behebung weiterhelfen sollen. Hauptsächlich handelt es sich um die Einrichtung der virtuellen Maschine, da diese als Voraussetzung (für die korrekte Ausführung der Knoten) richtig konfiguriert werden soll und um Fehlermeldungen, die während der Ausführung der Knoten auftauchen können. Einbinden der Platte Falls das Hinzufügen der Platte einen Fehler derart virtual box could 20

29 3.6 Fehlerbehebung not find an open hard disk with uuid... auftaucht, kann man mit folgenden Schritten die Maschine auf andere Art und Weise hinzufügen: 1. Neue Maschine erstellen. 2. Z.B. Ubuntu benennen, Arbeitsspeichergröße wählen. 3. Vorhandene Festplatte verwenden. 4. Gewünschte virtuelle Maschine auswählen. 5. Maschine starten. IP-Adresse vergeben Bekommen mehrere virtuelle Maschinen die gleiche IP-Adresse, muss die MAC-Adresse geändert werden. Dies ist unter Ändern > Netzwerk > Adapter 2 > MAC-Adresse: > aktualisieren möglich. Grafikkartenanzeige verbessern Wird die Anzeige etwas verlangsamt, d.h. Fenster werden mit Zeitverzögerung aufgemacht, kann unter Ändern > Anzeige Grafikspeicher erhöht und 3-D Beschleunigung aktiviert werden. Dies wird die Reaktionszeit der Anzeige verbessern. DiskErrorException Bei einer Exception: org.apache.hadoop.util.diskchecker$diskerrorexception: Could not find output/spill0.out in any of the configured local directories führen Sie den Knoten erneut aus oder starten Sie die ganze Maschine neu. 21

30 4 Workflow aus Mahout-Knoten Im Kapitel 3 beschriebene Knoten sind einzelne Knoten, die die ganze Mahout Aufgabe in einem einzelnen Knoten ausführen. Angefangen mit dem Kopieren von Daten ins HDFS bis hin zur Verarbeitung der Daten lokal oder auf einem Cluster. Auf der einen Seite bieten solche Knoten die Möglichkeit, gewünschte Einstellungen schnell in einem Knoten vorzunehmen und nur diesen einen Knoten auszuführen, auf der anderen Seite kann es aufgrund großer Datenmenge, die verarbeitet wird, ziemlich lästig werden z.b. einzelne Parameter zu ändern und den Algorithmus erneut auszuführen. Denn dadurch werden die Daten wieder ins HDFS kopiert, obwohl sie schon ohnehin auf dem HDFS vorhanden waren. Damit ist die Ausführung in einem einzelnen Knoten nicht immer sinnvoll, da man den ganzen Ablauf neustarten muss und nicht erst ab dem Punkt, an dem sich die Einstellungen geändert haben. Um diese Einschränkung zu beseitigen wird der ganze Ablauf in mehrere Knoten gesplittet. 4.1 Beschreibung Mahout-Knoten Die Ausführung beinhaltet 5 Schritte. Diese 5 Schritte entsprechen auch den einzelnen Knoten: 1. Starten von Hadoop 2. Kopieren der Daten ins HDFS 3. Verarbeitung der Daten (z.b. Clustering) 4. Holen der Daten aus HDFS und Übergabe an den nächsten Knoten 5. Stoppen von Hadoop Durch so eine Aufteilung kann der Ablauf ab einem beliebigen Knoten neugestartet werden, ohne, dass vorherige Knoten ausgeführt werden. Möchte man beispielsweise die Anzahl der 22

31 4.1 Beschreibung Mahout-Knoten Abbildung 4.1: Mahout Workflow Abbildung 4.2: Konfiguration Start-Knoten Cluster ändern, so muss eine Änderung beim dritten Knoten vorgenommen werden, damit werden Knoten 1 und 2 nicht mehr wiederholt ausgeführt, es werden die selben Daten aus HDFS verwendet, die zuvor übertragen wurden. Knotenübersicht: Start (Abbildung 4.2): Der Benutzer kann Hadoop lokal oder auf einem Cluster starten. Falls Hadoop bereits läuft, kann angegeben werden, dass dieser Knoten nur als Startknoten verwendet wird, ohne Hadoop zu starten. Input (Abbildung 4.3): Beim Input muss eine Datei ausgewählt werden, die ins HDFS übertragen wird. Dieser Kno- 23

32 4 Workflow aus Mahout-Knoten Abbildung 4.3: Konfiguration Input-Knoten ten übergibt dann dem nächsten Knoten die Referenz auf die Daten, so dass die Verarbeitung im nächsten Knoten stattfinden kann. Clustering (Abbildung 4.4): In diesem Knoten kann der Algorithmus ausgewählt und dazu notwenige Parameter wie Anzahl der Cluster, maximale Anzahl der Iterationen gesetzt werden. Fetch (Abbildung 4.5): Fetch-Knoten bietet die Möglichkeit, Daten von HDFS auf lokalem Rechner zu speichern oder die Daten an den nächsten Knoten zu übergeben. Stop (Abbildung 4.6): Dieser Knoten kann ausgeführt werden, um Hadoop zu stoppen. Recommender (Abbildung 4.7): Bei einem Recommender-Knoten kann die Anzahl der Empfehlungen gesetzt werden. 24

33 4.1 Beschreibung Mahout-Knoten Abbildung 4.4: Konfiguration Clustering-Knoten Abbildung 4.5: Konfiguration Fetch-Knoten 25

34 4 Workflow aus Mahout-Knoten Abbildung 4.6: Konfiguration Stop-Knoten Abbildung 4.7: Konfiguration Recommender-Knoten 26

35 5 Szenario und Evaluation In diesem Kapitel wird ein mögliches Szenario vorgestellt, wie der Mahout Knoten in Einsatz gebracht werden kann. In diesem Szenario wird der Mahout Knoten in ein KNIME Workflow eingebunden. Für die Evaluation wird der standardmäßige Knoten aus KNIME mit dem Mahout Knoten verglichen. 5.1 Szenario Es wird ein einfaches Szenario mit einem Clustering Verfahren und einem Klassifikator betrachtet. Ein Klassifikator benötigt 2 Eingangsquellen. Beim ersten Input handelt es sich um Trainingsdaten, d.h. Daten die bereits klassifiziert wurden, anhand dieser Daten wird der zweite Input, den sogenannten Testdaten, analysiert und klassifiziert. Als letzter Schritt wird das Ergebnis in einem Diagramm grafisch dargestellt. Als Clustering Verfahren wird K-Means gewählt, für den Klassifikator empfiehlt sich an dieser Stelle der K Nearest Neighbor Klassifikator. Warum die Entscheidung auf K Nearest Neighbor fiel, wird im Abschnitt erläutert KNIME K-Means KNIME besitzt bereits einen Knoten für das Clustern der Daten nach dem K-Means Algorithmus. Abbildungen 5.1 und 5.2 zeigen je den Workflow vor und nach der Ausführung. Die Trainingsdaten werden über den File Reader Knoten eingelesen und dem K-Means Knoten übergeben. Dieser clustert alle Eingangsvektoren und übergibt gelabelte Vektoren dem K Nearest Neighbor Knoten. Ein zweiter File Reader Knoten liest die Testdaten ein und leitet sie ebenfalls an den K Nearest Neighbor Knoten als zweiter Input. Nach einer erfolgreichen Klassifikation werden die Testdaten über den Bar Chart Knoten im Diagramm angezeigt. 27

36 5 Szenario und Evaluation Abbildung 5.1: KNIME K-Means vor der Ausführung Abbildung 5.2: KNIME K-Means nach der Ausführung 28

Aufbau einer Testumgebung mit VMware Server

Aufbau einer Testumgebung mit VMware Server Aufbau einer Testumgebung mit VMware Server 1. Download des kostenlosen VMware Servers / Registrierung... 2 2. Installation der Software... 2 2.1 VMware Server Windows client package... 3 3. Einrichten

Mehr

Securepoint Security Systems

Securepoint Security Systems HowTo: Virtuelle Maschine in VMware für eine Securepoint Firewall einrichten Securepoint Security Systems Version 2007nx Release 3 Inhalt 1 VMware Server Console installieren... 4 2 VMware Server Console

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Installieren und Einrichten von VirtualBox für TAPPS (V1.0)

Installieren und Einrichten von VirtualBox für TAPPS (V1.0) Installieren und Einrichten von VirtualBox für TAPPS (V1.0) 1 Einleitung... 2 2 Download und Installation... 2 3 Einrichten von VirtualBox am Beispiel Windows XP... 7 4 Einrichten von Windows XP... 26

Mehr

time project Die clevere Zeitbuchhaltung

time project Die clevere Zeitbuchhaltung time project Die clevere Zeitbuchhaltung Anleitung Installation Inhalt 1 Einleitung... 3 2 Die Komponenten von time project... 3 2.1 Der time project Server... 3 2.2 Der time project Client... 3 3 Systemvoraussetzungen...

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29)

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der

Mehr

Leitfaden für die Installation der Videoüberwachung C-MOR

Leitfaden für die Installation der Videoüberwachung C-MOR Dieser Leitfaden zeigt die Installation der C-MOR Videoüberwachung als VM mit der freien Software VirtualBox von Oracle. Die freie VM Version von C-MOR gibt es hier: http://www.c-mor.de/download-vm.php

Mehr

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH Java Einleitung - Handout Kurzbeschreibung: Eine kleine Einführung in die Programmierung mit Java. Dokument: Autor: Michael Spahn Version 1.0 Status: Final Datum: 23.10.2012 Vertraulichkeit: öffentlich

Mehr

webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25

webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25 webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25 E-Mail: sales@softvision.de Web: www.softvision.de Inhaltsverzeichnis

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460)

Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460) Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460) Schritt 1: Erstellen der virtuellen Maschinen 1. Menü File, New, New Virtual Machine... wählen. 2. Auf Weiter > klicken. 3. Die Option

Mehr

Der Task-Manager von Windows 7

Der Task-Manager von Windows 7 Der von Windows 7 Der kann mehr als nur Programme abschießen: Er hilft beim Konfigurieren der Windows-Dienste und beim Lösen von Problemen. Der Windows wird oft nur dazu benutzt, um hängende Anwendungen

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Bedienungsanleitung zur Inbetriebnahme des Funkempfänger EFB-EXP-72a mit Ethernet-Schnittstelle

Bedienungsanleitung zur Inbetriebnahme des Funkempfänger EFB-EXP-72a mit Ethernet-Schnittstelle zur Inbetriebnahme des Funkempfänger EFB-EXP-72a mit Ethernet-Schnittstelle 1. Funktion und Voreinstellung Der EFB-EXP-72a basiert auf der Funktionsweise des Funkempfängers EFB-RS232 mit dem Unterschied,

Mehr

TimePunch. TimePunch Command. Benutzerhandbuch 14.08.2013. TimePunch KG, Wormser Str. 37, 68642 Bürstadt

TimePunch. TimePunch Command. Benutzerhandbuch 14.08.2013. TimePunch KG, Wormser Str. 37, 68642 Bürstadt TimePunch TimePunch Command Benutzerhandbuch 14.08.2013 TimePunch KG, Wormser Str. 37, 68642 Bürstadt Dokumenten Information: Dokumenten-Name Benutzerhandbuch, TimePunch Command Revisions-Nummer 37 Gespeichert

Mehr

Bedienungsanleitung Modbus-LAN Gateway

Bedienungsanleitung Modbus-LAN Gateway Bedienungsanleitung Modbus-LAN Gateway Bedienungsanleitung Modbus-LAN Gateway Inhalt 1. Starten der Konfigurationsoberfläche des MLG... 3 2. Konfiguration MLG... 4 2.1. Network Settings... 4 2.1.1 Statische

Mehr

EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop

EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop Grundinstallation EasyDIS-base-44-v1.0 Eine korrekte Installation von Vmware sollte wie rechts abgebildet

Mehr

Inhaltsverzeichnis. I. Einrichtungassistent 3

Inhaltsverzeichnis. I. Einrichtungassistent 3 Inhaltsverzeichnis I. Einrichtungassistent 3 II. Aufbau & Ersteinrichtung Assistent 3 Möglichkeit 1 - Netzwerk Verbindung mit Ihrem Computer 3 Möglichkeit 2 - Die Monitor Konsole 4 III. Der Kamera Konfigurator

Mehr

Online Help StruxureWare Data Center Expert

Online Help StruxureWare Data Center Expert Online Help StruxureWare Data Center Expert Version 7.2.7 Virtuelle StruxureWare Data Center Expert-Appliance Der StruxureWare Data Center Expert-7.2-Server ist als virtuelle Appliance verfügbar, die auf

Mehr

Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern. Dazu klicken Sie bitte auf Ihren Namen.

Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern. Dazu klicken Sie bitte auf Ihren Namen. 1 Passwort ändern Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern Dazu klicken Sie bitte auf Ihren Namen Abb 1-1 Erstmaliger Anmeldung Danach erscheint ein PopUp indem Sie Ihr Passwort

Mehr

Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012

Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012 Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012 Pervasive Server Engine Checkliste für die Neuinstallation in einem Windows-Netzwerk Bitte prüfen Sie auf unseren Webseiten

Mehr

http://bcloud.brennercom.it/de/brennercom-b-cloud/applikationen/26-0.html

http://bcloud.brennercom.it/de/brennercom-b-cloud/applikationen/26-0.html b.backup Handbuch Windows Dieser Abschnitt beschreibt die grundlegenden Funktionen des Backup Client und die Vorgehensweise für die Installation und Aktivierung. Außerdem wird erläutert, wie man eine Datensicherung

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

OpenVPN unter Linux mit KVpnc Stand: 16. Mai 2013

OpenVPN unter Linux mit KVpnc Stand: 16. Mai 2013 1 Vorwort OpenVPN unter Linux mit KVpnc Stand: 16. Mai 2013 Folgende Beschreibung wurde mit einem Ubuntu 7.10 mit Kernel 2.6.22-14, OpenVPN 2.0.9 und KVpnc 0.9.1-rc1 getestet. Ein weiterer erfolgreicher

Mehr

Whitepaper. Produkt: combit Relationship Manager / address manager. Einrichtung für Remotedesktopdienste (Windows Server 2012 R2)

Whitepaper. Produkt: combit Relationship Manager / address manager. Einrichtung für Remotedesktopdienste (Windows Server 2012 R2) combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: combit Relationship Manager / address manager Einrichtung für Remotedesktopdienste (Windows Server 2012 R2) Einrichtung für Remotedesktopdienste

Mehr

Python Installation. 1 Vorbereitung. 1.1 Download. Diese Anleitung ist für Windows ausgelegt.

Python Installation. 1 Vorbereitung. 1.1 Download. Diese Anleitung ist für Windows ausgelegt. Python Installation 1 Vorbereitung Diese Anleitung ist für Windows ausgelegt. 1.1 Download Python kann online unter https://www.python.org/downloads/ heruntergeladen werden. Hinweis: Im CoderDojo verwenden

Mehr

Inhaltsverzeichnis Abbildungsverzeichnis

Inhaltsverzeichnis Abbildungsverzeichnis Inhaltsverzeichnis Abbildungsverzeichnis... 1 1 Eigener lokaler Webserver... 2 1.1 Download der Installationsdatei... 2 1.2 Installation auf externer Festplatte... 2 1.3 Dienste starten... 5 1.4 Webserver

Mehr

Leitfaden für die Installation der freien Virtual Machine C-MOR Videoüberwachung auf XenServer ab Version 6.2

Leitfaden für die Installation der freien Virtual Machine C-MOR Videoüberwachung auf XenServer ab Version 6.2 Dieser Leitfaden zeigt die Installation der C-MOR Videoüberwachung auf einem Citrix XenServer ab Version 6.2. XenServer kann unter http://www.xenserver.org runtergeladen werden. Die C-MOR-ISO-Datei, die

Mehr

Acronis TrueImage (Version 7.0) Benutzerführung. genutzte Quelle: http://www.acronis.de / Hilfedatei zum Programm Acronis TrueImage Version 7.

Acronis TrueImage (Version 7.0) Benutzerführung. genutzte Quelle: http://www.acronis.de / Hilfedatei zum Programm Acronis TrueImage Version 7. Hier finden Sie von der Firma GriCom Wilhelmshaven eine, um ein Backup Ihres Computers / Ihrer Festplatten zu erstellen und dieses Backup bei Bedarf zur Wiederherstellung zu nutzen. Diese Bedienerführung

Mehr

Auf der Homepage steht

Auf der Homepage steht Auf der Homepage steht VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is VirtualBox an extremely feature rich, high performance product

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks

Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks -1- Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks -2- Wozu dient der USB Recovery Stick? Mit dem USB Recovery Stick können Sie die Software (Firmware) Ihrer Dreambox aktualisieren.

Mehr

Installation und Aktualisierung der VMware-Tools

Installation und Aktualisierung der VMware-Tools Installation und Aktualisierung der VMware-Tools [Bei weiteren Fragen wenden Sie sich bitte per Mail an vmwareadmin@uni-trier.de] Inhalt Installation von VMware-Tools... 2 Ubuntu-Linux... 2 Installation

Mehr

IKONIZER II Installation im Netzwerk

IKONIZER II Installation im Netzwerk Der IKONIZER II ist netzwerkfähig in allen bekannten Netzwerken. Da jedoch etwa 95% der Installationen lokal betrieben werden, erfolgt diese grundsätzlich sowohl für das Programm wie auch für den lizenzfreien

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Workshop: Eigenes Image ohne VMware-Programme erstellen

Workshop: Eigenes Image ohne VMware-Programme erstellen Workshop: Eigenes Image ohne VMware-Programme erstellen Normalerweise sind zum Erstellen neuer, kompatibler Images VMware-Programme wie die Workstation, der ESX-Server oder VMware ACE notwendig. Die Community

Mehr

Hyper-V Grundlagen der Virtualisierung

Hyper-V Grundlagen der Virtualisierung Grundlagen der Virtualisierung Was ist Virtualisierung? Eine Software-Technik, die mehrere Betriebssysteme gleichzeitig auf dem Rechner unabhängig voneinander betreibt. Eine Software-Technik, die Software

Mehr

Bedienungsanleitung EasyStechuhr

Bedienungsanleitung EasyStechuhr Thomas Schiffler Langestrasse 4 65366 Geisenheim http://www.thomasschiffler.de info@thomasschiffler.de Version 1.2 Inhaltsverzeichnis Inhaltsverzeichnis... 2 Einleitung... 3 Datenspeicherung... 3 Grundvoraussetzung...

Mehr

Anwenderdokumentation PersoSim

Anwenderdokumentation PersoSim Anwenderdokumentation PersoSim Die nachfolgende Anwenderdokumentation soll dem Anwender bei der Installation und den ersten Schritten im Umgang mit PersoSim helfen. Installation Grundvoraussetzung für

Mehr

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Verwendung der bereitgestellten Virtuellen Maschinen»Einrichten einer Virtuellen Maschine mittels VirtualBox sowie Zugriff auf

Mehr

AccountPlus Systemkonfiguration

AccountPlus Systemkonfiguration Anwenderhandbuch AccountPlus Systemkonfiguration Version 1.10 Inhalt: 1 ANWENDUNG... 3 2 DAS PROGRAMM... 3 2.1 Startparameter...5 2.2 Die Karteikarte ACCTPLUS.INI...5 2.3 Die Karteikarte Datenbanken...5

Mehr

Handbuch NOXON Favourites Commander

Handbuch NOXON Favourites Commander Handbuch NOXON Favourites Commander TerraTec Electronic GmbH Copyright (c) 2008 TerraTec Electronic GmbH. Permission is granted to copy, distribute and/or modify this document under

Mehr

Wissenswertes über LiveUpdate

Wissenswertes über LiveUpdate Wissenswertes über LiveUpdate 1.1 LiveUpdate «LiveUpdate» ermöglicht den einfachen und sicheren Download der neuesten Hotfixes und Patches auf Ihren PC. Bei einer Netzinstallation muss das LiveUpdate immer

Mehr

ODD-TV². ... die zukunftssichere Lösung für den modernen Wettanbieter! www.bookmaker5.com

ODD-TV². ... die zukunftssichere Lösung für den modernen Wettanbieter! www.bookmaker5.com ODD-TV²... die zukunftssichere Lösung für den modernen Wettanbieter! Arland Gesellschaft für Informationstechnologie mbh - Irrtümer und Änderungen vorbehalten. Version 5.7.6 - /05/2010 Handbuch ODD-TV

Mehr

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 11 und VMware Player

In 15 Schritten zum mobilen PC mit Paragon Drive Copy 11 und VMware Player PARAGON Technologie GmbH, Systemprogrammierung Heinrich-von-Schritthan-Str. 5c 79100 Freiburg, Germany Tel. +49 (0) 761 59018201 Fax +49 (0) 761 59018130 Internet www.paragon-software.com Email sales@paragon-software.com

Mehr

Installationsanleitung für R

Installationsanleitung für R Installationsanleitung für R R ist eine Programmiersprache und Statistiksoftware zur Analyse von Daten und deren graphischer Darstellung. Um in R zu programmieren, ist zunächst die R- Basissoftware zu

Mehr

Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis

Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis Installationsanleitung für DoRIS unter Linux Seite 1 Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis Installationsanleitung für DoRIS unter Linux... 1 Vorbemerkungen... 1 Benötigte Komponenten

Mehr

Anleitung zum Prüfen von WebDAV

Anleitung zum Prüfen von WebDAV Anleitung zum Prüfen von WebDAV (BDRS Version 8.010.006 oder höher) Dieses Merkblatt beschreibt, wie Sie Ihr System auf die Verwendung von WebDAV überprüfen können. 1. Was ist WebDAV? Bei der Nutzung des

Mehr

IBM SPSS Modeler Entity Analytics - Erweiterte Konfiguration

IBM SPSS Modeler Entity Analytics - Erweiterte Konfiguration IBM SPSS Entity Analytics - Erweiterte Konfiguration Einführung Die vorgesehene Zielgruppe für dieses Handbuch sind Systemadministratoren, die IBM SPSS Entity Analytics (EA) für die Ausführung in einer

Mehr

IBM SPSS Collaboration and Deployment Services (C&DS) version 7

IBM SPSS Collaboration and Deployment Services (C&DS) version 7 Dieses Handbuch richtet sich an Systemadministratoren, die IBM SPSS Modeler Entity Analytics (EA) für die Ausführung mit einem der folgenden Produkte konfigurieren: IBM SPSS Collaboration and Deployment

Mehr

Update Messerli MySQL auf Linux

Update Messerli MySQL auf Linux Update Messerli MySQL auf Linux Einleitung Grundsätzlich wird beim Update der Messerli Software auf einem Linux-Server wie folgt vorgegangen: 1. Vorhandener RMI-MySQL Server wird auf Linux aktualisiert

Mehr

VMware Installation der bestmeetingroom TRIALVersion. PreVersion built 1.01 Stand: 21.11.2006

VMware Installation der bestmeetingroom TRIALVersion. PreVersion built 1.01 Stand: 21.11.2006 VMware Installation der bestmeetingroom TRIALVersion PreVersion built 1.01 Stand: 21.11.2006 bestmeetingroom VMware Install Seite 2 Voraussetzungen: Bitte beachten Sie, dass Sie für die Installation des

Mehr

SchlieSSen Sie Ihren Lemur an

SchlieSSen Sie Ihren Lemur an 1 SchlieSSen Sie Ihren Lemur an Der Lemur ist nicht irgendein durchschnittlicher MIDI-Controller. Er spricht 1000 Mal schneller und mit der 4-fachen Auflösung. Also finden Sie auf der Rückseite auch nicht

Mehr

Rembo/mySHN. Version 2.0 Kurzanleitung. das selbstheilende Netzwerk. Stand: 01.05.2006. my selfhealing network

Rembo/mySHN. Version 2.0 Kurzanleitung. das selbstheilende Netzwerk. Stand: 01.05.2006. my selfhealing network Rembo/mySHN Version 2.0 Kurzanleitung das selbstheilende Netzwerk my selfhealing network Stand: 01.05.2006 Postanschrift: SBE network solutions GmbH Edisonstrasse 21 74076 Heilbronn IV Inhalt Kurzanleitung...i

Mehr

Software-Installation

Software-Installation Software-Installation Hardware und Betriebssystemanforderungen Mindestens Pentium CPU mit 166 MHz und 32 MB RAM, CD-Rom Laufwerk, COM Anschluss Microsoft Windows 95/98, NT 4, 2000 Professional, XP Microsoft

Mehr

MySQL Community Server 5.1 Installationsbeispiel

MySQL Community Server 5.1 Installationsbeispiel MySQL Community Server 5.1 Installationsbeispiel Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der untermstrich-datenbank

Mehr

LaFonera Erweiterung - Erstinstallation -

LaFonera Erweiterung - Erstinstallation - LaFonera Erweiterung - Erstinstallation - Inhaltsverzeichnis Benötigte Software SSH-Client z.b. Putty SFTP-Client z.b. WinSCP Vorraussetzungen Firmwareversion SSH Zugriff WinSCP3 Zugriff Installation der

Mehr

Talk2M Konfiguration für ewon DSL/LAN - Modelle

Talk2M Konfiguration für ewon DSL/LAN - Modelle Talk2M Konfiguration für ewon DSL/LAN - Modelle Seite 1 von 17 ewon - Technical Note Nr. 016 Version 1.0 Talk2M Konfiguration für ewon DSL/LAN - Modelle Einrichtung des Talk2M Services für die Verbindung

Mehr

PADS 3.0 Viewer - Konfigurationen

PADS 3.0 Viewer - Konfigurationen PADS 3.0 Viewer - Konfigurationen Net Display Systems (Deutschland) GmbH - Am Neuenhof 4-40629 Düsseldorf Telefon: +49 211 9293915 - Telefax: +49 211 9293916 www.fids.de - email: info@fids.de Übersicht

Mehr

SX3 PC Software rev. 0.99c

SX3 PC Software rev. 0.99c SX3 PC Software rev. 0.99c SX3 ist ein Programm zur Steuerung einer Selectrix Digitalzentrale unter Linux bzw. Windows. Mit SX3 haben Sie die Möglichkeit Selectrix -Loks zu fahren, Weichen zu Schalten

Mehr

Hilfen & Dokumentationen

Hilfen & Dokumentationen Hilfen & Dokumentationen 1. WibuKey Konfiguration für camquix In dieser Anleitung erfahren Sie wie Sie Ihren WibuKey updaten und konfigurieren. 1.1. Was ist ein Wibu-Key und wozu wird er verwendet? WibuKey

Mehr

TIKOS Leitfaden. TIKOS Update

TIKOS Leitfaden. TIKOS Update TIKOS Leitfaden TIKOS Update Copyright 2015, Alle Rechte vorbehalten support@socom.de 06.05.2015 Inhalt 1. Allgemeine Hinweise... 3 2. Ausführen des Updates... 3 3. Mögliche Meldungen beim Update... 9

Mehr

Leitfaden für die Installation der freien Virtual Machine. C-MOR Videoüberwachung auf einem VMware ESX Server

Leitfaden für die Installation der freien Virtual Machine. C-MOR Videoüberwachung auf einem VMware ESX Server Diese Anleitung illustriert die Installation der Videoüberwachung C-MOR Virtuelle Maschine auf VMware ESX Server. Diese Anleitung bezieht sich auf die Version 4 mit 64-Bit C-MOR- Betriebssystem. Bitte

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Anwenderhandbuch. xdomea-viewer

Anwenderhandbuch. xdomea-viewer Anwenderhandbuch xdomea-viewer Version Version 1.0, 03.12..2009 Inhalt Anwenderhandbuch: xdomea-viewer... 1 Inhalt... 2 Einführung... 3 System-Voraussetzungen... 4 Installation... 5 Starten der Anwendung...

Mehr

Ogre Einführung Teil 1

Ogre Einführung Teil 1 Inhalt -Einleitung -Installieren und Einrichten von Ogre -Die erste Anwendung Ogre Einführung Teil 1 Einleitung Eine 3D Engine ist eine sehr komplexe Software und besteht aus mehreren tausend Zeilen Programmcode.

Mehr

Hinweis: Der Zugriff ist von intern per Browser über die gleiche URL möglich.

Hinweis: Der Zugriff ist von intern per Browser über die gleiche URL möglich. Was ist das DDX Portal Das DDX Portal stellt zwei Funktionen zur Verfügung: Zum Ersten stellt es für den externen Partner Daten bereit, die über einen Internetzugang ähnlich wie von einem FTP-Server abgerufen

Mehr

Installation des VMware Players

Installation des VMware Players Installation des VMware Players Die folgende Internetadresse für den Download VMware Player kann markiert, kopiert (Strg+C), im Internet-Browser eingefügt (Strg+V) und aufgerufen oder hier direkt angeklickt

Mehr

25. Februar 2009, Version 1.0. Installationsanleitung Tivoli Storage Manager für Windows. Verwaltungsdirektion. Informatikdienste

25. Februar 2009, Version 1.0. Installationsanleitung Tivoli Storage Manager für Windows. Verwaltungsdirektion. Informatikdienste 25. Februar 2009, Version 1.0 Installationsanleitung für Windows Verwaltungsdirektion Informatikdienste Installationsanleitung für Windows Inhaltsverzeichnis...1 Installation... 1 Voraussetzungen...1 Ablauf

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Installationsanleitung. Novaline Finanzbuchhaltung Fibu.One

Installationsanleitung. Novaline Finanzbuchhaltung Fibu.One Installationsanleitung Novaline Finanzbuchhaltung Fibu.One Mai 2013 Inhaltsverzeichnis Systemvoraussetzungen...3 Installation der Programme...5 1. Überprüfen / Installieren von erforderlichen Software-Komponenten...5

Mehr

Betriebshandbuch. MyInTouch Import Tool

Betriebshandbuch. MyInTouch Import Tool Betriebshandbuch MyInTouch Import Tool Version 2.0.5, 17.08.2004 2 MyInTouch Installationshandbuch Inhaltsverzeichnis Inhaltsverzeichnis... 2 Bevor Sie beginnen... 3 Einleitung...3 Benötigte Daten...3

Mehr

CINEMA 4D RELEASE 10. Installationsanleitung 3D FOR THE REAL WORLD

CINEMA 4D RELEASE 10. Installationsanleitung 3D FOR THE REAL WORLD CINEMA 4D RELEASE 10 3D FOR THE REAL WORLD Installationsanleitung 1 Die Installation von CINEMA 4D Release 10 1. Vor der Installation Bevor Sie das Programm installieren, beachten Sie bitte folgendes:

Mehr

How to install freesshd

How to install freesshd Enthaltene Funktionen - Installation - Benutzer anlegen - Verbindung testen How to install freesshd 1. Installation von freesshd - Falls noch nicht vorhanden, können Sie das Freeware Programm unter folgendem

Mehr

Ausarbeitung Diplomarbeit Teil1

Ausarbeitung Diplomarbeit Teil1 Ausarbeitung Diplomarbeit Teil1 20. November 2010 Verwendung des Admin Tools der Tornado Lizenzverwaltung und Verwendung und Auswirkung der Lizenzen im Tornado System 1 Inhalt 2 Einleitung... 3 3 Allgemeines...

Mehr

SSH-Zugang zu Datenbanken beim DIMDI

SSH-Zugang zu Datenbanken beim DIMDI SSH-Zugang zu Datenbanken beim DIMDI Ab November 2013 entsprechen wir dem Wunsch vieler Nutzer nach mehr Sicherheit bei der Recherche. Dazu ermöglichen wir Ihnen eine bessere Alternative zum bisherigen

Mehr

VPN-System Benutzerhandbuch

VPN-System Benutzerhandbuch VPN-System Benutzerhandbuch Inhalt Einleitung Antiviren-Software 5 Einsatzgebiete 6 Web Connect Navigationsleiste 8 Sitzungsdauer 9 Weblesezeichen 9 Junos Pulse VPN-Client Download Bereich 9 Navigationshilfe

Mehr

Windows Deployment Services 2003 Grundinstallation

Windows Deployment Services 2003 Grundinstallation Windows Deployment Services 2003 Grundinstallation Inhalthaltsverzeichnis Windows Deployment Services - Installation... 2 Windows Deployment Services Grundkonfiguration Schritt 1... 2 Windows Deployment

Mehr

FastViewer Remote Edition 2.X

FastViewer Remote Edition 2.X FastViewer Remote Edition 2.X Mit der FastViewer Remote Edition ist es möglich beliebige Rechner, unabhängig vom Standort, fernzusteuern. Die Eingabe einer Sessionnummer entfällt. Dazu muß auf dem zu steuernden

Mehr

Anleitung zur Webservice Entwicklung unter Eclipse

Anleitung zur Webservice Entwicklung unter Eclipse Entwicklungsumgebung installieren Sofern Sie nicht an einem Praktikumsrechner arbeiten, müssen Sie ihre Eclipse-Umgebung Webservice-fähig machen. Dazu benötigen Sie die Entwicklungsumgebung Eclipse for

Mehr

unter http://www.microsoft.com/de-de/download/details.aspx?id=3512 runtergeladen werden.

unter http://www.microsoft.com/de-de/download/details.aspx?id=3512 runtergeladen werden. Dieser Leitfaden zeigt die Installation der C-MOR Videoüberwachung auf einem Microsoft Hyper-V-Server. Microsoft Hyper-V 2012 kann unter http://www.microsoft.com/enus/server-cloud/hyper-v-server/ runtergeladen

Mehr

Konfiguration von Clients zur Kommunikation mit einem SUS-Server

Konfiguration von Clients zur Kommunikation mit einem SUS-Server Konfiguration von Clients zur Kommunikation mit einem SUS-Server Allgemeine Informationen Damit sich der Autoupdate-Client die Updates vom lokalen SUS-Server abholt, muss in seiner Registry die korrekten

Mehr

Virtualisierung mit Virtualbox

Virtualisierung mit Virtualbox Virtualisierung mit Virtualbox Dies ist kein Howto im herkömmlichen Sinne. Genaue Anleitungen für Virtualbox gibt es im Intenet genug. Zu empfehlen ist auch das jeweils aktuelle Handbuch von Virtualbox

Mehr

Installation von AmigaOS 3.9 unter WinUAE

Installation von AmigaOS 3.9 unter WinUAE Seite 1 von 22 Installation von AmigaOS 3.9 unter WinUAE Inhalt Einleitung Vorbereitung Konfiguration Installation Installation der BoingBags Installation von Picasso96 Installation von AHI Einleitung

Mehr

Installation Messerli MySQL auf MAC OS X

Installation Messerli MySQL auf MAC OS X Installation Messerli MySQL auf MAC OS X Einleitung Grundsätzlich wird bei der Installation der Messerli Software auf einem Mac-Server wie folgt vorgegangen: 1. Angepasster RMI-MySQL Server wird auf Mac

Mehr

Softwareschnittstellen

Softwareschnittstellen P4.1. Gliederung Rechnerpraktikum zu Kapitel 4 Softwareschnittstellen Einleitung, Component Object Model (COM) Zugriff auf Microsoft Excel Zugriff auf MATLAB Zugriff auf CATIA Folie 1 P4.2. Einleitung

Mehr

[Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten

[Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten [Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten ISCSI Targets mit der Software FreeNAS einrichten Inhalt FreeNAS Server Vorbereitung... 2 Virtuelle Maschine einrichten... 3 FreeNAS

Mehr

NetMan Desktop Manager Quick-Start-Guide

NetMan Desktop Manager Quick-Start-Guide NetMan Desktop Manager Quick-Start-Guide In diesem Dokument wird die Installation von NetMan Desktop Manager beschrieben. Beachten Sie, dass hier nur ein Standard-Installationsszenario beschrieben wird.

Mehr

Anleitung zur Installation von SFirm 3.1 inklusive Datenübernahme

Anleitung zur Installation von SFirm 3.1 inklusive Datenübernahme Anleitung zur Installation von SFirm 3.1 inklusive Datenübernahme Stand: 01.06.2015 SFirm 3.1 wird als separates Programm in eigene Ordner installiert. Ihre Daten können Sie nach der Installation bequem

Mehr

2. Sie sind der Administrator Ihres Netzwerks, das den SBS 2011 Standard ausführt.

2. Sie sind der Administrator Ihres Netzwerks, das den SBS 2011 Standard ausführt. Arbeitsblätter Der Windows Small Business Server 2011 MCTS Trainer Vorbereitung zur MCTS Prüfung 70 169 Aufgaben Kapitel 1 1. Sie sind der Administrator Ihres Netzwerks, das den SBS 2011 Standard ausführt.

Mehr

SFKV MAP Offline-Erfassungstool. Installationsanleitung

SFKV MAP Offline-Erfassungstool. Installationsanleitung SFKV MAP Offline-Erfassungstool Autor(en): Martin Schumacher Ausgabe: 16.02.2010 1. Allgemein Damit das Offlinetool von MAP ohne Internetverbindung betrieben werden kann, muss auf jedem Arbeitsplatz eine

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Edix-parts.net Automatischer Upload 2.0

Edix-parts.net Automatischer Upload 2.0 EFDS European Ford Dealer Systems 50667 Köln, UnterSachenhausen 29-31 Edix-parts.net Automatischer Upload 2004 1 of 11 1. Allgemein 1.0 Einführung Das Automatische Upload Tool ist ein Programm mit dem

Mehr

PLI Tutorial 01 Inbetriebnahme von RDZ Version 7.5

PLI Tutorial 01 Inbetriebnahme von RDZ Version 7.5 PLI Tutorial 01 Inbetriebnahme von RDZ Version 7.5 Inhalt 1. Vorbereitung: Kopieren der DVD auf Festplatte 2. Inbetriebnahme von RDZ 3. Zugriff auf den Remote z/os Host 4. Herunterfahren RDz ist ein Integrated

Mehr

1. Einführung. 2. Vorbereitung zur Installation. 1.1 Eclipse

1. Einführung. 2. Vorbereitung zur Installation. 1.1 Eclipse 1. Einführung 1.1 Eclipse Die Eclipse ist eine kostenlose integrierte Entwicklungsumgebung oder auch IDE genannt, (Abkürzung IDE, engl. Integrated development enviroment). Sie ist eine grafische Benutzeroberfläche

Mehr