Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme

Größe: px
Ab Seite anzeigen:

Download "Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme"

Transkript

1 Ruprecht-Karls-Universität Heidelberg Institut für Informatik Lehrstuhl für Parallele und Verteilte Systeme Bachelorarbeit Einbindung des Mahout-Frameworks in das KNIME-Workflowsystem zwecks Analyse großer Datenmenge Name: Max Ernst Matrikelnummer: Betreuer: Prof. Dr. Artur Andrzejak, Dipl.-Math. Lutz Büch Datum der Abgabe:

2 Ich versichere, dass ich diese Bachelor-Arbeit selbstständig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe. Heidelberg,

3 Zusammenfassung In der heutigen Zeit gewinnt Data-Mining immer mehr an Bedeutung. Dabei wird versucht, aus einem Datenbestand neue Muster zu erkennen. Data-Mining Tools wie KNIME (Konstanz Information Miner) bieten dem Benutzer eine grafische Oberfläche für die Verarbeitung der Daten mit Hilfe des maschinellen Lernens an. Aus Speicherplatzgründen ist es jedoch nur möglich relativ kleine Datenmengen zu verarbeiten. Auf der anderen Seite benutzt die neue Generation der parallelen Algorithmen für maschinelles Lernen das Map-Reduce Paradigma, um eine hohe Skalierbarkeit, insbesondere für große Daten, zu erlangen. So wurden, zum Beispiel, in dem Projekt Apache Mahout (http://mahout.apache.org/) eine Vielzahl von Algorithmen implementiert, die das Framework Hadoop benutzen. Schwierigkeiten, die sich dabei ergeben, sind zum Einen, dass viel Zeit sowohl für die Einrichtung und Konfiguration als auch in die Einarbeitung von Mahout investiert werden soll, bevor damit angefangen zu arbeiten werden kann und zum Anderen, dass der Output nicht so einfach in ein KNIME Workflow übernommen werden kann. In dieser Arbeit werden für die freie Software KNIME (Konstanz Information Miner) Knoten mit einer Anbindung an Mahout implementiert, um die Datenanalyse von großen Datenmengen dem Benutzer zu ermöglichen. Mit dem Einsatz von Mahout werden große Daten außerhalb von KNIME verarbeitet und nur eine kleine Datenmenge als Output dem nächsten Knoten übergeben. Die Verwendung von Mahout innerhalb eines KNIME-Knotens bietet den Vorteil, dass die Verarbeitung der Daten über Mahout in ein KNIME-Workflow eingebunden werden kann. Das Ganze wird in Form einer virtuellen Maschine dem Benutzer zur Verfügung stehen. Abstract Today data mining is becoming increasingly important. It attempts to identify new patterns from a data sets. Data mining tools such as KNIME (Konstanz Information Miner) provide the user with a graphical interface for processing the data with the help of machine learning. Space reasons, however, it is only possible to process relatively small amounts of data. On the other hand, the new generation of parallel algorithms for machine learning uses the Map-Rreduce paradigm to achieve high scability. Variety of algorithms in Apache Mahout Project, for example, were implemented using the Hadoop framework. One problem is that a lot of time both should be invested for the installation and configuration as well as the incorporation of Mahout, before it can be started to work and secondly, that the output can not be iii

4 used so easily in a KNIME workflow. In this work nodes for the free software KNIME (Konstanz Information Miner) with a connection to Mahout to simplify the data analysis of large data sets will be implemented. With the use of Mahout large data are processed outside of KNIME and only a small amount of data passed as output to the next node. Using Mahout within KNIME node has the advantage that the processing of data on Mahout can be integrated in a KNIME workflow. The whole work will be available within a virtual machine. iv

5 Inhaltsverzeichnis Abbildungsverzeichnis Tabellenverzeichnis vii viii 1 Einleitung Motivation Ziele der Arbeit Aufbau der Arbeit Grundlagen Related Works Parallele Algorithmen Map-Reduce Vorgehensweise Beispiel Apache Hadoop Framework Job- und TaskTracker Hadoop Distributed File System KNIME Clustering Recommender Mahout Implementierung und Ausführung Mahout-Knoten Mahout-Knoten Aufbau Oracle VM VirtualBox Einrichtung Mahout-KMeans-Knoten Ausführung Ausführung innerhalb eines Hadoop-Clusters Beispiel v

6 Inhaltsverzeichnis 3.6 Fehlerbehebung Workflow aus Mahout-Knoten Beschreibung Mahout-Knoten Szenario und Evaluation Szenario KNIME K-Means Mahout K-Means Evaluation Einzelinstanz Cluster Schlussbetrachtung Ergebnisse dieser Arbeit Ausblick Anhang 39 Literaturverzeichnis 40 vi

7 Abbildungsverzeichnis 2.1 Pervasive Big Data & Analytics TM Datenfluss beim Map-Reduce Verfahren KNIME Workflow (http://www.knime.org/screenshots) Mahout-Knoten Dialog Mahout-KMeans-Knoten Beispiel CSV Writer Ausgabe Mahout Workflow Konfiguration Start-Knoten Konfiguration Input-Knoten Konfiguration Clustering-Knoten Konfiguration Fetch-Knoten Konfiguration Stop-Knoten Konfiguration Recommender-Knoten KNIME K-Means vor der Ausführung KNIME K-Means nach der Ausführung Mahout K-Means vor der Ausführung Mahout K-Means nach der Ausführung K-Means Java heap space overflow Verarbeitungsgeschwindigkeit Einzelinstanz und Hadoop Cluster vii

8 Tabellenverzeichnis 5.1 Vergleich K-Means KNIME und Mahout (Laufzeiten) Vergleich K-Means Mahout und Mahout Workflow (Laufzeiten) Vergleich K-Means Mahout Einzelinstanz und Cluster viii

9 1 Einleitung 1.1 Motivation In der heutigen Zeit werden immer schnellere Rechenleistungen verlangt und vorausgesetzt. In den letzten Jahrzehnten sind Prozessoren und Arbeitsspeicher um Vielfaches schneller geworden, Festplatten besitzen Kapazitäten, die man vor einiger Zeit noch für unmöglich gehalten hat, was wiederum dazu führt, dass schnellere Prozessoren mit mehr Daten belastet werden. Die Datenmengen werden tendenziell immer größer und sind leichter verfügbar (Stichwort "Big Data") und wegen des begrenzten Hauptspeichers muss auf verteilte Systeme ausgewichen werden. Bei sehr großen Datenmengen findet häufig das von Google eingeführte Framework Map- Reduce den Einsatz. Dabei werden die Daten auf mehrere Rechner innerhalb eines Rechnerverbands (Computercluster) verteilt, separat verarbeitet und die Ergebnisse dann zusammengefügt. Innerhalb eines Rechners werden die Daten z.b. auf mehrere Kerne verteilt. Das Problem mit den großen Datenmengen und Verarbeitungszeit stellt sich auch bei der Clusteranalyse, Klassifikationsverfahren und allgemein im Bereich des maschinellen Lernens. Die Apache Mahout Sammlung bietet eine Menge von skalierbaren Algorithmen, um Klassifikatoren zu trainieren / testen, aber auch um Cluster zu bilden. Durch das Hinzufügen weiterer Knoten / Rechnern steigt auch proportional die Leistung. Bei einer Verteilung von Daten bringt uns Map-Reduce nicht nur schnellere Verarbeitung mit sich, sondern auch die Sicherheit, dass alle Daten verarbeitet werden. Beim Ausfall eines Knotens muss sichergestellt werden, dass Daten, die diesem Rechner zugewiesen wurden, nicht ins Leere gehen, sondern einem anderen Knoten zugewiesen und über diesen zum Output weitergeleitet werden. Wäre dies nicht der Fall, so könnten manche Daten verloren gehen und das Ergebnis letztendlich verfälscht werden. Alle diese Eigenschaften machen Mahout zu einem mächtigen und ziemlich stabilen Werkzeug. Jedoch bietet Mahout keine grafische Benutzeroberfläche. Für eine Datenanalyse mit grafischer Oberfläche wird oft das Werkzeug KNIME eingesetzt. Dem Benutzer ist es möglich, mit Hilfe unterschiedlicher Knoten, Workflows zu bilden. Jeder 1

10 1 Einleitung Knoten verarbeitet die Daten auf seine vordefinierte Art und Weise. Sind die Daten klein, können sie innerhalb eines Knotens erfolgreich verarbeitet werden, bei etwas größeren (dabei handelt es sich um Daten, die wesentlich kleiner als 1 GB groß sind) oder ganz großen Daten (Tera-, Petabyte...) wird der Knoten die Ausführung einfach abbrechen, da der Speicher für die Verarbeitung nicht ausreichend vorhanden ist. In dieser Arbeit werden neue KNIME-Knoten für das Clustern großer Datenmengen implementiert, die die Verarbeitung nicht intern ausführen, sondern einen Mahout Prozess starten, der die Daten verarbeitet, und das Ergebnis an den nächsten Knoten übergibt. Somit wird die Vorteile von Mahout (Verarbeitung großer Datenmengen) und KNIME (Datenanalyse über grafische Benutzeroberfläche) miteinander kombiniert. 1.2 Ziele der Arbeit In dieser Arbeit wird eine Schnittstelle zwischen KNIME und Mahout gebildet, um parallele Mahout-Algorithmen von KNIME aus starten zu können. Mahout enthält Algorithmen, die auf Hadoop Plattform ausgeführt werden und somit Verteilung der Daten und ihre Verarbeitung auf mehrere Rechner erlaubt. Aber auch wenn die Daten auf einem Rechner verarbeitet werden, ist es möglich viel größere Datensätze zu übergeben als es von KNIME standardmäßig vorgesehen ist. Dafür muss Hadoop und Mahout konfiguriert werden. Für die Mahout Einrichtung muss der Benutzer viel Zeit aufwenden. Das erste Ziel ist also, die Einrichtung und Arbeit mit Mahout zu vereinfachen, so dass sich der Benutzer nur mit der Verarbeitung seiner Daten beschäftigen muss. KNIME bietet die Möglichkeit, verschiedene Algorithmen über grafische Knoten auszuführen. D.h. der Benutzer kann alle Einstellungen über die grafische Benutzeroberfläche vornehmen, ohne tiefe Kenntnisse in den Terminalbefehlen zu haben. Es fehlt jedoch die Schnittstelle zwischen Mahout und KNIME, es ist also nicht möglich einen Mahout-Befehl in einem KNIME-Knoten und somit in einem Workflow auszuführen. Ein weiteres Ziel ist somit einen Mahout-Knoten für KNIME zu erstellen, welcher nur die Eingangsdaten benötigt und die Ausgabe innerhalb eines Workflows weiterleitet oder in ein vom Benutzer eingegebenes Verzeichnis schreibt. Der Mahout-Knoten soll Mahout und KNIME vereinigen. Beispielhaft wurde der K-Means Algorithmus integriert, bei dem der Benutzer als Eingabedaten die Vektoren, die Anzahl der Cluster und ggf. maximale Anzahl der Iterationen übergibt. Es wird als gewöhnlicher KNIME- Knoten ausgeführt und die Ausgabe kann wiederum als Eingabe in weiteren Knoten verwendet werden. 2

11 1.3 Aufbau der Arbeit 1.3 Aufbau der Arbeit In Kapitel 2 werden grundlegende Methoden und Konzepte für diese Arbeit vorgestellt. Diese Grundlagen sollen dem Verständnis über eingesetzte Frameworks und damit verbundenen Themen helfen und sich dahinter befindliche Abläufe kurz vorstellen. Kapitel 3 beschreibt die Umsetzung der Anforderungen und Einsatzmöglichkeiten der entwickelten Knotenen. Ebenfalls wird auf die Konfiguration der Knoten, mögliche Fehler und dazugehörige Lösungen eingegangen. Diese Knoten dienen als Prototypen und werden im nächsten Schritt in weitere Knoten zerteilt. 4 Kapitel beschreibt weitere Entwicklung der Knoten, die den Aufbau der Workflows, durch das Trennen der Ausführungen einzelner Aufgaben, flexibler macht. Im Kapitel 5 wird ein mögliches Szenario für den Einsatz des Mahout Knotens präsentiert. Zusätzlich findet noch ein Vergleich zwischen dem standardmäßigen K-Means Knoten aus KNIME und dem Mahout K-Means Knoten statt. 3

12 2 Grundlagen Die in diesem Kapitel vorgestellte Bereiche sollen das Verständnis über Technologien, die in dieser Arbeit eingesetzt werden, erweitern und letztendlich den Sinn und den Zweck dieser Arbeit erläutern. Eingesetzte Verfahren aus der Mahout-Sammlung zur Datenanalyse wie Clustering und Recommender werden beschrieben. 2.1 Related Works Das Problem mit der Verarbeitung großer Datenmengen bei KNIME ist nicht neu, deswegen werden KNIME Erweiterungen von Pervasive Big Data & Analytics TM für verteilte Frameworks wie Hadoop entwickelt. Pervasive RushAnalytics for KNIME wurde mit dem Ziel entwickelt, den maximalen Vorteil aus der Infrastruktur der parallelen Verarbeitung zu erzielen und damit eine höhere Verarbeitungsgeschwindigkeit zu erreichen. [3] Abbildung 2.1 zeigt, dass RushAccelerator for KNIME 2 bis 10 und RushAnalytics 10 bis 100 Mal schneller als KNIME sind. Im Download Center werden unterschiedliche Versionen zur Verfügung gestellt und können nach einer Anmeldung als virtuelle Maschinen heruntergeladen werden. 2.2 Parallele Algorithmen Ein Algorithmus heißt parallel, wenn er erstens so in Einzelschritte zerlegt werden kann, dass diese auf verschieden Prozessoren (Rechner) verteilt werden können, und wenn zweitens diese Prozessoren unabhängig und gleichzeitig arbeiten. [10] Diese Vorgehensweise wird z.b. von Google zum Einsatz gebracht, um extrem große Datenmengen verarbeiten zu können, bräuchte eine einzelne Maschine mehrere Jahre, um Suchindexe zu erstellen. So eine lange Verarbeitungszeit würde dazu führen, dass Google die Daten niemals aktuell halten könnte, deswegen wird mit parallelen Algorithmen gearbeitet, die es möglich machen, große Datenmenge auf viele Maschinen zu verteilen. Parallele Algorithmen werden auch bei Mahout (Abschnitt 2.8) eingesetzt. 4

13 2.3 Map-Reduce Abbildung 2.1: Pervasive Big Data & Analytics TM Bei parallelen Algorithmen werden die Daten zerlegt und getrennt voneinander verarbeitet, was uns zum nächsten Begriff führt - Map-Reduce. 2.3 Map-Reduce Map-Reduce ist ein Framework für nebenläufige Berechnungen über große Datenmengen. Es wurde von Jeffrey Dean und Sanjay Ghemawa im Jahr 2004 bei Google entwickelt. Dadurch, dass die Daten auf mehrere Rechner verteilt werden, ist es möglich große Datenmengen in kurzer Zeit zu bearbeiten. Ein weiterer Vorteil ist, dass man keine spezielle High-End Server bereitstellen muss, sondern auf handelsüblichen Computern die Verarbeitung durchführen kann. Wie der Name schon sagt, besteht Map-Reduce aus zwei Phasen: Map und Reduce, genau so heißen die Funktionen, die nebenläufig verwendet werden. Die map() Funktion berechnet die Werte für alle Eingabeelemente und stellt sie in modifizierter Form wieder dar. Die reduce() Funktion fasst die Ergebnisse zusammen und reduziert sie auf eine Ausgabedatei(-wert). 5

14 2 Grundlagen Abbildung 2.2: Datenfluss beim Map-Reduce Verfahren Vorgehensweise Abbildung 2.2 stellt Map- und Reducephasen mit jeweiligen Ergebnissen dar, einzelne Schritte sind im Folgenden erklärt: Daten werden auf unterschiedliche Map-Prozesse verteilt und parallel berechnet Berechnungen werden als Zwischenergebnisse gespeichert, wobei jede Map-Funktion ihre Ergebnisse auf jedes Zwischenergebnis verteilen kann sind alle Map-Prozesse fertig, ist die Map-Phase zu Ende nun beginnt die Reduce-Phase, die aus jedem Zwischenergebnis ein Endergebnis berechnet, Reduce-Prozesse laufen ebenfalls parallel ab Die Map-Phase stellt Zwischenergebnisse als Schlüssel-Wert-Paare dar und die Reduce-Phase fasst diese zusammen und gibt auch Schlüssel-Wert-Paare aus. Formal gesehen ist Map- Reduce-Framework eine Abbildung: (K V) (L W) [(k 1, v 1 ),..., (k n, v n )] [(l 1, w 1 ),..., (l m, w m )], wobei K und L Schlüssel, V und W Werte enthalten. 6

15 2.4 Apache Hadoop Framework Beispiel Man kann sich viele Anwendungen für das parallele Berechnen vorstellen, an dieser Stelle wird das gängigste Einführungsbeispiel vorgestellt. Das Hello World! Beispiel aus der Programmierung ist in Map-Reduce das Beispiel Wörter in einem Text zu zählen, d.h. es wird gezählt wie oft jedes Wort in einem Text vorkommt. In der Map-Phase wird der Text geteilt und verschiedenen Rechnern zugeteilt, jeder Rechner berechnet Anzahl Wörter, die in seinem Teil vorkommen und legt sie als Zwischenergebnisse im Speicher ab. So kann es vorkommen, dass das Wort ich vom ersten Map-Prozess 5 mal gezählt wurde und vom zweiten Map-Prozess 7 mal, d.h. es sind 2 Ergebnisse, die aber zusammengefasst werden sollen, was auch die einzelnen Reduce-Phasen machen und als Ergebnis eine Liste aus Wörtern (Schlüsseln) und der jeweiligen Anzahl (Werte) ausgeben. Pseudo-Code: map(string key, String value): // key: document name // value: document contents for each word w in value: EmitIntermediate(w, "1"); reduce(string key, Iterator values): // key: a word // values: a list of counts int result = 0; for each v in values: result += ParseInt(v); Emit(AsString(result)); 2.4 Apache Hadoop Framework Map-Reduce Framework nimmt dem Entwickler viel Arbeit ab, so müssen nur die Map- und Reducefunktionen implementiert werden, alles andere, wie Fehlerbehandlungen, Scheduling Verfahren für die Jobverteilung und Koordination, d.h. technische Details werden vom System erledigt. Ein konkretes Framework wird in diesem Abschnitt vorgestellt. Das von Google entwickelte Map-Reduce Framework ist kostenpflichtig und urheberrechtlich geschützt, deswegen wird an dieser Stelle das Open-Source, in Java entwickeltes Framework der Apache Foundation verwendet. 7

16 2 Grundlagen Es stehen 3 Modi zur Verfügung, in denen Hadoop-Framework gestartet werden kann: Standalone mode: Programm startet in einem einzigen Prozess Pseudo-distributed mode: Programm startet auf einem Rechner, wird jedoch in mehrere Java Prozesse gesplittet Cluster mode oder Fully distributed: läuft auf einem Cluster aus mehreren Rechnern Hadoop ist offen für alle Entwickler, bietet eine sehr hohe Fehlertoleranz und eignet sich damit bestens für diese Arbeit Job- und TaskTracker In einem Framework gibt es zwei Arten von Prozessen, die für die Verarbeitung der Daten zuständig sind - der eine wird als JobTracker-Prozess bezeichnet, alle andere Prozesse werden TaskTracker-Prozesse genannt (Google verwendet dazu die Begriffe Master und Worker.). Der JobTracker-Prozess weist den einzelnen Rechnern im Cluster Jobs zu, welche wiederum Map- oder Reducefunktionen sind. Nach der Zuweisung werden die Daten mit Hilfe von Remote Method Invocation (RMI) aus dem Speicher gelesen und verarbeitet. Nachdem alle Map- und Reduceprozesse beendet sind, weckt der JobTracker ein Benutzerprogramm auf, dass alle Daten berechnet wurden und weitergeleitet werden können. Es gibt also genau einen JobTracker und mehrere TaskTracker; JobTracker bekommt Mapund Reducefunktionen, die er an einzelne Knoten (TaskTracker) verteilt. Dem JobTracker ist bekannt, an welchem Knoten welche Daten zu finden sind, dies wird bei der Arbeitszuweisung berücksichtigt, wodurch das Verschicken der Daten über das Netzwerk vermieden und Zeit gespart wird. Daten werden nur in dem Fall zum nächsten Rechner im Cluster geschickt, falls auf einem anderen momentan keine Funktion ausgeführt werden kann Hadoop Distributed File System Hadoop Distributed File System (HDFS) ist von Apache entwickeltes Dateisystem. Es wird eigenes Dateisystem verwendet, da es speziell für große Datenmengen auf verteilten Rechnern erstellt wurde. Die Verteilung auf die Cluster wird möglichst optimal durchgeführt und die Zugriffszeiten sind sehr kurz. In einem Cluster gibt es unterschiedliche Typen von Knoten mit jeweiligen Aufgaben, auf die sie spezialisiert sind. Der sogenannte NameNode ist für die Steuerung des Namespaces, Metadaten des Dateisystems und Rechenzugriffe zuständig. Auf den DataNodes 8

17 2.5 KNIME werden tatsächliche Daten, die bearbeitet werden, gespeichert. Als letztes existiert noch ein SecondaryNameNode, der die Änderungen des ursprünglichen Dateisystems als Log-Files speichert. 2.5 KNIME KNIME ist eine freie Software, die in solchen Bereichen wie Mathematik, Bioinformatik, Statistik usw. für die Datenanalyse eingesetzt wird. Dabei bietet es zahlreiche Verfahren des maschinellen Lernens und Data-Mining an. Ein Workflow in KNIME besteht aus Knoten, die Daten verarbeiten, und Kanten, die einen Datenfluss darstellen. Ein Knoten kann sowohl eine als auch mehrere Eingangskanten als Input haben, genauso ist es aber möglich zu verarbeitende Daten von der Festplatte zu laden (zumindest der erste Knoten bekommt seine Daten nicht von einem anderen Knoten). Abbildung 2.2 zeigt die Arbeitsfläche von KNIME. Auf der linken Seite werden unterschied- Abbildung 2.3: KNIME Workflow (http://www.knime.org/screenshots) liche Knoten kategorisiert aufgelistet, die je nach Art der Analyse und den Eingangsdaten ausgewählt werden können. Im mittleren Bereich wird der ganze Workflow dargestellt. Die Knoten können unterschiedliche Status besitzen, dies sieht man an der Farbe, die sich unter dem Knoten befindet: gelb 9

18 2 Grundlagen bedeutet, dass der Knoten notwendige Daten enthält und bereit für die Ausführung ist; bei rot müssen noch Daten angegeben werden; grün - der Knoten wurde bereits ausgeführt. 2.6 Clustering Clustering - Datensätze werden nach ihrer Ähnlichkeit dermaßen in Cluster unterteilt, dass ein Cluster Datensätze enthält, die zueinander ähnlich und möglichst unterschiedlich zu den Datensätzen aus anderen Clustern sind. Wie ähnlich die Datensätze zueinander sind wird durch eine Distanzfunktion bestimmt, z.b. durch die Euklidische Distanzfunktion. Im Gegensatz zur Klassifikation sind die Cluster am Anfang unbekannt, es findet also kein Lernvorgang mit Trainingsdaten statt. Es ist jedoch möglich die Anzahl der Cluster und die Distanzfunktion innerhalb dieser Cluster zu bestimmen. Als ein Beispiel, wird an der Stelle ein einfaches Clusteringverfahren K-Means vorgestellt. K-Means ist ein einfaches und das meistverbreitete Clusteringverfahren. Jeder Cluster bei K-Means besitzt seinen eigenen Schwerpunkt, den sogenannten Centroid. Anzahl der Cluster wird vor der Ausführung angegeben, die Schwerpunkte werden dann zufällig verteilt. Das Ziel dabei ist es, den durchschnittlichen quadratischen Abstand vom Schwerpunkt zu minimieren, indem iterativ jeder Datensatz einem Cluster zugewiesen wird und anschließend die Schwerpunkte neuberechnet werden. Der letzte Schritt wird solange ausgeführt, bis eine bestimmte Anzahl von Iterationen erreicht ist oder bis die Schwerpunkte sich nicht mehr bewegen. Einsatzgebiet von K-Means ist oft in der Computergraphik die Bildsegmentierung. Das Bild wird in bestimmte Bereiche (Segmente) unterteilt, in welchen die Bildpunkte gemeinsame Eigenschaften besitzen. Welche Eigenschaften es sind, hängt vom Kontext ab; auf den Röntgenbildern z.b. werden zusammengehörende Elemente über Farbintensität den Clustern zugeordnet. Es existieren unterschiedliche Variationen von K-Means wie z.b. K-Means++, bei dem versucht wird bessere Startpunkte zu finden, oder Fuzzy K-Means, wo jeder Datensatz nicht einem bestimmten Cluster, sondern ein Satz Gewichte zugeordnet wird, die angeben wie stark die Zugehörigkeit zu einem bestimmen Cluster ist. 10

19 2.7 Recommender 2.7 Recommender Recommender System (Empfehlungsdienst) ist ein Verfahren, welches dazu benutzt wird, ähnliche Objekte zu ermitteln und Empfehlungen zu erstellen. Anhand bestehender Daten (Kontext) kann bestimmt werden welche weitere Daten als Empfehlung verwendet werden können. Eine Recommender Engine kann beispielsweise bei Videofilmen oder Büchern eingesetzt werden. Bereits ausgeliehene Bücher stellen die Vorlieben eines Benutzers dar. Darüber kann erfahren werden, welche Autoren oder Genre der Benutzer bevorzugt; ebenso können das Alter, das Geschlecht und die Herkunft der Person eingesetzt werden, um passende Vorschlage machen zu können. Die Eingabe enthält somit eine Liste der gelesenen Büchern und einer Liste noch zusätzlich vorhandener Bücher. Daraus wird eine Rankingliste erstellt. 2.8 Mahout Mahout ist ein Apache Projekt, welches sich mit der skalierbaren Implementierung von maschinenlernenden Algorithmen auf der Hadoop Plattform befasst. Es enthält einige Algorithmen für z.b. Clustering und Klassifikation. So ist auch im Abschnitt 2.6 vorgestelltes K- Means Clusteringverfahren in der Mahout Sammlung vorhanden. Mahout modifiziert die Inputdaten nicht, somit bleibt der Benutzer flexibel und kann Algorithmen mit verschiedenen Parametern ausführen, um diese auszuprobieren, zu testen und zum bestmöglichen Ergebnis zu kommen. Die Daten werden jedoch zwischen verschiedenen Ausführungen nicht im Speicher gehalten, sondern müssen immer wieder neu geladen werden. 11

20 3 Implementierung und Ausführung Mahout-Knoten In diesem Kapitel werden zu implementierende Methoden und Algorithmen und jeweilige Entscheidungen gezeigt und vorgestellt. Als Einstieg in die KNIME-Implementierung wird zuerst ein KMeans-Knoten implementiert und die Ausführung mit den jeweiligen Konfigurationen gezeigt. Wie der Name bereits verrät, ist dieser Knoten nur auf K-Means beschränkt und sogar bei diesem Verfahren können nur wichtigste Konfigurationen vorgenommen werden. Ein weiterer wichtiger Teil dieses Kapitels ist die Vorstellung und der Umgang mit der virtuellen Maschine. Da man diese Mahout-Knoten nicht in jede beliebige KNIME Umgebung einbinden kann, werden die Knoten zusammen mit dem Betriebssystem (mit installiertem Hadoop Framework etc.) als virtuelle Maschine herausgegeben. Somit müssen zumindest Grundlegende Bereiche der virtuellen Maschine, aber auch, falls es zu Problemen kommen sollte, Schritte, die bei Fehlerbehebungen durchzuführen sind, erwähnt werden. 3.1 Mahout-Knoten Aufbau Um einen Mahout-Knoten implementieren zu können, werden einige Klassen von KNIME tech zur Verfügung gestellt, die auf eigene Anforderungen vervollständigt und angepasst werden können. Im folgenden werden diese Klassen vorgestellt. NodeModel - diese Klasse ist für die allgemeine Beschreibung des Knotens verantwortlich. Der Konstruktor definiert die Anzahl der Ein- und Ausgangsports. Da die Eingangsdaten von unserem Knoten sehr groß sein und auch meistens von außen hinzugefügt werden, besitzt der Mahout-Knoten keinen Eingangsport. Die Ausgabe wird jedoch so klein sein, dass sie als Eingabe für den nächsten Knoten genommen werden kann und auch soll. Weiterhin werden alle Dialog-Komponenten angegeben, welche der Benutzer bei der Konfiguration des Knotens angezeigt bekommt. Im Falle des Mahout-Knotens handelt es sich um 12

21 3.2 Oracle VM VirtualBox Einrichtung solche Komponenten wie Ein- und Ausgabepfade, Anzahl der Cluster und maximale Anzahl der Iterationen. Diese werden mit Default-Werten erzeugt, die dann später vom Benutzer geändert werden können / müssen. Wichtige Methoden aus dieser Klasse sind validatesettings(), savesettingsto() und loadvalidatedsettingsfrom(), um die Einstellungen zu prüfen, ob erforderliche Daten angegeben wurden; Einstellungen zu speichern und diese zu laden. execute() enthält Anweisungen für die Ausführung des Knotens. NodeDialog - platziert die in der NodeModel definierte Komponente auf das Fenster (panel) bzw. Dialog, den der Benutzer angezeigt bekommt. Dabei geht es im Wesentlichen um die Positionen der einzelnen Komponente und ihrem Verhalten wie beispielsweise Verschwinden einzelner Einstellungen beim Setzen eines Hakens. NodeView - zeigt die Ausgabe graphisch an. 3.2 Oracle VM VirtualBox Einrichtung Das Endergebnis dieser Arbeit wird in Form einer virtuellen Maschine allen Benutzern zur Verfügung gestellt. Eine ganze Maschine deswegen, weil es nicht nur der implementierte Knoten als Plugin in KNIME eingebunden werden muss (was auch möglich wäre, nur den Knoten in KNIME zu importieren), sondern auch Hadoop und Mahout eingerichtet und lauffähig sein müssen. Es existiert eine Reihe von virtuellen Maschinen, solche wie Windows Virtual PC, VMware Workstation, Parallels Workstation usw. Da nicht alle Maschinen kostenlos sind und auch die Einrichtung bei manchen viel Aufwand erfordert, fiel die Entscheidung auf die eine der bekanntesten und zugleich kostenlose virtuelle Maschine Oracle VM Virtual Box. Obwohl die Maschine lauffähig zur Verfügung gestellt wird, müssen vom Benutzer dennoch einige Einstellungen, Änderungen oder Anpassungen vorgenommen werden. Dieser Abschnitt beschreibt grundlegende Operation, die notwendig oder sinnvoll für die Ausführung der VirtualBox sein können. Maschine Einbinden: Um eine neue Maschine in die Virtual Box aufzunehmen, wird im Menü Maschine > Hinzufügen entsprechende Maschine ausgewählt. Damit wird die neue Maschine eingebunden und kann bereits gestartet werden. Administrator VM mit dem Passwort admin ist angelegt. 13

22 3 Implementierung und Ausführung Mahout-Knoten Gemeinsamen Ordner definieren: Es muss evtl. eine Schnittstelle zwischen dem echten Betriebssystem und der virtuellen Maschine geschaffen werden, nämlich ein gemeinsamer Ordner (oder mehrere) den die beiden Systeme nutzen. Dazu wird in der Virtual Box die entsprechende Maschine markiert und Menüpunkt Ändern ausgewählt. Daraufhin erscheint ein Fenster mit dem Unterpunkt Gemeinsame Ordner. Hier kann ein gemeinsamer Ordner definiert werden, als Beispiel wird ein der Stelle Verzeichnis C:\Gemeinsamer Ordner verwendet. Dieses Verzeichnis muss auch in der virtuellen Maschine eingebunden werden, dies geschieht im Terminal mit der Ausführung des Befehls: sudo mount -t vboxsf Gemeinsamer_Ordner /home/vm/desktop/shared/, wobei Gemeinsamer_Ordner der Ordner-Name ist, der beim Hinzufügen in die Virtual Box angezeigt wurde und /home/vm/desktop/shared/ das Verzeichnis, in welchem der Inhalt des gemeinsames Ordners unter Linux angezeigt werden soll. Nach der Eingabe des Passworts sollen beide Systeme auf den gemeinsamen Ordner zugreifen können. Netzwerk einrichten: Die Maschine besitzt 2 Netzwerkadapter, einen, um Zugang ins Internet zu bekommen und einen zweiten, um sich mit dem echten Betriebssystem in einem Netzwerk befinden zu können. Dies ist z.b. für einen Cluster notwendig. Werden mehrere virtuelle Maschinen eingebunden muss evtl. die Mac-Adresse unter Ändern > Netzwerk > Adapter 2 > MAC- Adresse: > aktualisieren geändert werden. Auch sonstige Einstellungen bzgl. des Netzwerkes und Adapter können hier angepasst werden. 3.3 Mahout-KMeans-Knoten Ausführung Dieser Abschnitt beschreibt Einzelschritte, die bei der Ausführung des ersten Knotens passiert werden. Im Kapitel 2 wurde ein Clustering-Verfahren K-Means vorgestellt. Dieses Verfahren führt der erste Knoten aus. Der Vorteil dieses Knotens ist, dass der Benutzer alle Einstellungen über grafische Oberfläche vornehmen kann. Es ist ein reiner K-Means Knoten, der nur K-Means ausführt und keine Kenntnisse über Terminal-Befehle von Mahout erfordert. Das ganze Projekt wird nicht auf einem normalen Betriebssystem, sondern auf einer virtuellen Maschine 14

23 3.3 Mahout-KMeans-Knoten Ausführung durchgeführt. Als Betriebssystem wurde Linux-Distribution Ubuntu verwendet. Dieses beinhaltet alle notwendigen Pakete, um darauf Hadoop und Mahout ausführen zu können. Bevor dieser Knoten näher erläutert wird, wird an dieser Stelle genauer auf den Umgang mit Mahout eingegangen. Um einen Mahout-Befehl in der Kommandozeile auszuführen, muss der Benutzer in den Systemeinstellungen den Pfad zu der Ausführungsdatei von Mahout angeben und damit Mahout aus jedem beliebigen Verzeichnis starten können oder zum Unterverzeichnis bin/mahout von Mahout navigieren und von dort aus Befehle an Mahout übergeben. Eine Eingabe hat etwa folgende Gestalt: bin/mahout kmeans \ i < input vectors directory > \ c < input clusters directory > \ o < output working directory > \ k < optional number o f initial clusters to sample f rom input vectors > \ dm < DistanceMeasure > \ x < maximum number o f iterations > \ cd < optional convergence delta. De f ault is 0.5 > \ ow < overwrite output directory i f present > \ cl < run input vector clustering a f ter computing Canopies > \ xm < execution method : sequential or mapreduce > [6] Das Beispiel listet 10 Eingabeparameter auf. Der K-Means Knoten kann diese Anzahl von Argumenten natürlich nicht aufnehmen, über den Dialog können lediglich: -i, -o, -k, -x Parameter konfiguriert werden. Notwendige Benutzereingaben für den Knoten sind: 1. Pfad zu Vektoren (-i) 2. Anzahl der Cluster (-k) Als optionale Parameter können Ausgabeverzeichnis (-o) Maximale Anzahl Iterationen (-x) Hadoop auf einem Cluster laufen lassen 15

24 3 Implementierung und Ausführung Mahout-Knoten (a) Max. Anzahl Iterationen wird gesetzt (b) Standartwert für Max. Anzahl der Iterationen verwenden Abbildung 3.1: Mahout-Knoten Dialog angegeben werden. Wird der Haken jedoch nicht gesetzt, wird die Anzahl der Iterationen standardmäßig auf 10 gesetzt. Beide Darstellungen werden in der Abbildung 3.1 gezeigt. Wie in Kapitel 2 bereits erwähnt, muss auf der Maschine Hadoop laufen, um einen Mahout- Job ausführen zu können. D.h. vor einem Mahout-Algorithmus muss Hadoop konfiguriert und gestartet werden. Der Knoten führt folgende Schritte durch: Hadoop stoppen HDFS formatieren Hadoop starten 30 Sekunden Pause, damit Hadoop vollständig hochfährt Mahout-Algorithmus ausführen Als Erstes wird Hadoop gestoppt, da es vorkommen kann, dass Hadoop bereits auf der Maschine läuft und sowohl der dritte Schritt (Starten) fehlschlagen als auch der Rest nicht ausgeführt wird. Ohne Formatierung könnte es vorkommen, dass sich fälschlicherweise alte Daten auf dem Dateisystem befinden und diese der Ausführung Probleme bereiten. Mit der Formatierung 16

25 3.4 Ausführung innerhalb eines Hadoop-Clusters wird sichergestellt, dass nur die zu verarbeitende Daten sich auf dem Dateisystem befinden. Für die korrekte Ausführung braucht Hadoop für das Starten eine gewisse Zeit, 30 Sekunden sollten im Normalfall ausreichen, so dass die Ausführung eines Algorithmus nicht zu schnell kommt. Diese einzelne Befehle werden an ein Terminal übergeben und als Kommandozeilen ausgeführt. Um den Verlauf beobachten zu können, wird die Ausgabe in der unteren KNIME- Konsole als Info ausgegeben. So ist es für den Benutzer möglich einzelne Befehle, Fortschritt oder Fehler dort auszulesen. 3.4 Ausführung innerhalb eines Hadoop-Clusters Abschnitt 3.3 beschreibt den Ablauf auf einem einzelnen Rechner. Es ist aber genauso möglich die Ausführung auf mehrere Rechner, sprich Cluster, zu verteilen. Die Vorgehensweise und dafür notwendige Konfigurationen werden in diesem Abschnitt beschrieben. Es gibt eine Reihe von Konfigurationen, die nur ein Mal eingetragen werden müssen und keine Änderung mehr benötigen, falls man die virtuelle Maschine mehrmals klont. Werden jedoch andere Maschinen verwendet, müssen diese Konfigurationen auf allen Maschinen durchgeführt werden, damit Hadoop auf einem Cluster laufen kann. In einem Cluster muss eine Maschine existieren, von der aus alle Befehle gestartet werden, diese Maschine wird im Folgenden master genannt. Andere Maschinen, die die Aufgaben nur durchführen werden als slave bezeichnet. Auf welcher Maschine welche Änderungen vorgenommen werden müssen, werden mit dem jeweiligen Namen gekennzeichnet. Für die Ausführung auf einem Rechner wird /home/vm/local/hadoop Verzeichnis verwendet, für die Ausführung auf einem Cluster - /home/vm/local/hadoop-cluster. D.h. alle Änderungen, die jetzt folgen werden, werden auf das letzte Verzeichnis angewendet. Als Erstes müssen alle IP-Adressen unter /etc/hosts eingetragen werden, z.b.: master slave slave2 Diesen Eintrag kann nur der Administrator durchführen: mit sudo vim /etc/hosts gelangt mant zum Vim-Fenster mit I (insert) kann man den Inhalt editieren nach dem die Änderung vorgenommen wurde: Esc > :wq (write + quit) > Enter 17

26 3 Implementierung und Ausführung Mahout-Knoten Dateien, die im Verzeichnis /home/vm/local/hadoop-cluster angepasst werden: conf/masters (master): master conf/slaves (master): master slave slave2 conf/core-site.xml (alle Maschinen): <property> <name>fs.default.name</name> <value>hdfs://master:54310</value> <description> The name of the default file system </description> </property> conf/mapred-site.xml (alle Maschinen): <property> <name>mapred.job.tracker</name> <value>master:54311</value> <description> The host and port that the MapReduce jobtracker runs </description> </property> conf/hdfs-site.xml (alle Maschinen): <property> <name>dfs.replication</name> <value>2</value> <description> Default block replication </description> </property> 18

27 3.5 Beispiel Auf allen Maschinen kann unter /home/vm/local/hadoop-cluster mit jps geschaut werden, welche Java-Prozesse laufen. Beim slave könnten die Ausgaben beispielsweise so aussehen: Nach dem HDFS deamons gestartet wurden: DataNode Jps Nach dem MapReduce deamons gestartet wurden: DataNode TaskTracker Jps HDFS und MapReduce daemons werden von dem Mahout-Knoten bei der Ausführung automatisch gestartet. Wie man an der letzten Ausgabe erkennen kann, müssen DataNode und TaskTracker laufen, dies bedeutet, dass alles korrekt läuft. Ist die Ausgabe anders, wurde etwas falsch konfiguriert. Die einzelnen Prozess-ID s werden sich von dem Beispiel höchstwahrscheinlich unterscheiden und ihr Wert spielt an dieser Stelle selbstverständlich keine Rolle. 3.5 Beispiel Dieser Abschnitt beschreibt die Ausführung des Knotens anhand von synthetic_control.data. Die Datei befindet sich unter Home > Mahout Example. Schritt 1 KNIME starten, Doppelklick auf den MahoutKMeans-Knoten. Schritt 2 Knoten Konfigurieren: entweder über Doppelklick auf den Knoten oder rechter Mausklick auf den Knoten und Configure.... Schritt 3 Als Input file den Pfad /home/vm/mahout Example/synthetic_control.data wählen. Schritt 4 Für Output working directory kann beliebiges Verzeichnis gewählt werden, z.b. /home/vm/mahout Example/output. Schritt 5 Number of clusters auf 10 setzen (kann auch beliebig sein). Schritt 6 CSV Writer Knoten hinzufügen und Ausgabedatei setzen. Schritt 7 Beide Knoten verbinden. Schritt 8 Ok & rechter Mausklick auf den Knoten > Execute. 19

28 3 Implementierung und Ausführung Mahout-Knoten Abbildung 3.2 stellt den fertigen Workflow dar. Abbildung 3.2: Mahout-KMeans-Knoten Beispiel Nach einer erfolgreichen Ausführung wird eine Ausgabedatei im Ordner output von Mahout angelegt. Diese beinhaltet gelabelte Vektoren. Die Struktur der Daten, wie sie an weitere Knoten von K-Means Knoten übergeben wird, sieht man in der von CVS Writer Knoten erstellten Datei (Abbildung 3.3). Die Zeilen in der CSV- Datei stellen je einen Vektor dar, die letzte Zelle beinhaltet das Label. Die Labels werden von Mahout vergeben und gelangen unverändert in den Output vom K-Means Knoten. Somit werden 10 Vektoren der Länge 60 und eine Spalte fürs Label erstellt. Abbildung 3.3: CSV Writer Ausgabe 3.6 Fehlerbehebung Dieses Kapitel beschreibt mögliche Fehler, die bei der Konfiguration auftauchen können und Lösungen, die zur Behebung weiterhelfen sollen. Hauptsächlich handelt es sich um die Einrichtung der virtuellen Maschine, da diese als Voraussetzung (für die korrekte Ausführung der Knoten) richtig konfiguriert werden soll und um Fehlermeldungen, die während der Ausführung der Knoten auftauchen können. Einbinden der Platte Falls das Hinzufügen der Platte einen Fehler derart virtual box could 20

29 3.6 Fehlerbehebung not find an open hard disk with uuid... auftaucht, kann man mit folgenden Schritten die Maschine auf andere Art und Weise hinzufügen: 1. Neue Maschine erstellen. 2. Z.B. Ubuntu benennen, Arbeitsspeichergröße wählen. 3. Vorhandene Festplatte verwenden. 4. Gewünschte virtuelle Maschine auswählen. 5. Maschine starten. IP-Adresse vergeben Bekommen mehrere virtuelle Maschinen die gleiche IP-Adresse, muss die MAC-Adresse geändert werden. Dies ist unter Ändern > Netzwerk > Adapter 2 > MAC-Adresse: > aktualisieren möglich. Grafikkartenanzeige verbessern Wird die Anzeige etwas verlangsamt, d.h. Fenster werden mit Zeitverzögerung aufgemacht, kann unter Ändern > Anzeige Grafikspeicher erhöht und 3-D Beschleunigung aktiviert werden. Dies wird die Reaktionszeit der Anzeige verbessern. DiskErrorException Bei einer Exception: org.apache.hadoop.util.diskchecker$diskerrorexception: Could not find output/spill0.out in any of the configured local directories führen Sie den Knoten erneut aus oder starten Sie die ganze Maschine neu. 21

30 4 Workflow aus Mahout-Knoten Im Kapitel 3 beschriebene Knoten sind einzelne Knoten, die die ganze Mahout Aufgabe in einem einzelnen Knoten ausführen. Angefangen mit dem Kopieren von Daten ins HDFS bis hin zur Verarbeitung der Daten lokal oder auf einem Cluster. Auf der einen Seite bieten solche Knoten die Möglichkeit, gewünschte Einstellungen schnell in einem Knoten vorzunehmen und nur diesen einen Knoten auszuführen, auf der anderen Seite kann es aufgrund großer Datenmenge, die verarbeitet wird, ziemlich lästig werden z.b. einzelne Parameter zu ändern und den Algorithmus erneut auszuführen. Denn dadurch werden die Daten wieder ins HDFS kopiert, obwohl sie schon ohnehin auf dem HDFS vorhanden waren. Damit ist die Ausführung in einem einzelnen Knoten nicht immer sinnvoll, da man den ganzen Ablauf neustarten muss und nicht erst ab dem Punkt, an dem sich die Einstellungen geändert haben. Um diese Einschränkung zu beseitigen wird der ganze Ablauf in mehrere Knoten gesplittet. 4.1 Beschreibung Mahout-Knoten Die Ausführung beinhaltet 5 Schritte. Diese 5 Schritte entsprechen auch den einzelnen Knoten: 1. Starten von Hadoop 2. Kopieren der Daten ins HDFS 3. Verarbeitung der Daten (z.b. Clustering) 4. Holen der Daten aus HDFS und Übergabe an den nächsten Knoten 5. Stoppen von Hadoop Durch so eine Aufteilung kann der Ablauf ab einem beliebigen Knoten neugestartet werden, ohne, dass vorherige Knoten ausgeführt werden. Möchte man beispielsweise die Anzahl der 22

31 4.1 Beschreibung Mahout-Knoten Abbildung 4.1: Mahout Workflow Abbildung 4.2: Konfiguration Start-Knoten Cluster ändern, so muss eine Änderung beim dritten Knoten vorgenommen werden, damit werden Knoten 1 und 2 nicht mehr wiederholt ausgeführt, es werden die selben Daten aus HDFS verwendet, die zuvor übertragen wurden. Knotenübersicht: Start (Abbildung 4.2): Der Benutzer kann Hadoop lokal oder auf einem Cluster starten. Falls Hadoop bereits läuft, kann angegeben werden, dass dieser Knoten nur als Startknoten verwendet wird, ohne Hadoop zu starten. Input (Abbildung 4.3): Beim Input muss eine Datei ausgewählt werden, die ins HDFS übertragen wird. Dieser Kno- 23

32 4 Workflow aus Mahout-Knoten Abbildung 4.3: Konfiguration Input-Knoten ten übergibt dann dem nächsten Knoten die Referenz auf die Daten, so dass die Verarbeitung im nächsten Knoten stattfinden kann. Clustering (Abbildung 4.4): In diesem Knoten kann der Algorithmus ausgewählt und dazu notwenige Parameter wie Anzahl der Cluster, maximale Anzahl der Iterationen gesetzt werden. Fetch (Abbildung 4.5): Fetch-Knoten bietet die Möglichkeit, Daten von HDFS auf lokalem Rechner zu speichern oder die Daten an den nächsten Knoten zu übergeben. Stop (Abbildung 4.6): Dieser Knoten kann ausgeführt werden, um Hadoop zu stoppen. Recommender (Abbildung 4.7): Bei einem Recommender-Knoten kann die Anzahl der Empfehlungen gesetzt werden. 24

33 4.1 Beschreibung Mahout-Knoten Abbildung 4.4: Konfiguration Clustering-Knoten Abbildung 4.5: Konfiguration Fetch-Knoten 25

34 4 Workflow aus Mahout-Knoten Abbildung 4.6: Konfiguration Stop-Knoten Abbildung 4.7: Konfiguration Recommender-Knoten 26

35 5 Szenario und Evaluation In diesem Kapitel wird ein mögliches Szenario vorgestellt, wie der Mahout Knoten in Einsatz gebracht werden kann. In diesem Szenario wird der Mahout Knoten in ein KNIME Workflow eingebunden. Für die Evaluation wird der standardmäßige Knoten aus KNIME mit dem Mahout Knoten verglichen. 5.1 Szenario Es wird ein einfaches Szenario mit einem Clustering Verfahren und einem Klassifikator betrachtet. Ein Klassifikator benötigt 2 Eingangsquellen. Beim ersten Input handelt es sich um Trainingsdaten, d.h. Daten die bereits klassifiziert wurden, anhand dieser Daten wird der zweite Input, den sogenannten Testdaten, analysiert und klassifiziert. Als letzter Schritt wird das Ergebnis in einem Diagramm grafisch dargestellt. Als Clustering Verfahren wird K-Means gewählt, für den Klassifikator empfiehlt sich an dieser Stelle der K Nearest Neighbor Klassifikator. Warum die Entscheidung auf K Nearest Neighbor fiel, wird im Abschnitt erläutert KNIME K-Means KNIME besitzt bereits einen Knoten für das Clustern der Daten nach dem K-Means Algorithmus. Abbildungen 5.1 und 5.2 zeigen je den Workflow vor und nach der Ausführung. Die Trainingsdaten werden über den File Reader Knoten eingelesen und dem K-Means Knoten übergeben. Dieser clustert alle Eingangsvektoren und übergibt gelabelte Vektoren dem K Nearest Neighbor Knoten. Ein zweiter File Reader Knoten liest die Testdaten ein und leitet sie ebenfalls an den K Nearest Neighbor Knoten als zweiter Input. Nach einer erfolgreichen Klassifikation werden die Testdaten über den Bar Chart Knoten im Diagramm angezeigt. 27

36 5 Szenario und Evaluation Abbildung 5.1: KNIME K-Means vor der Ausführung Abbildung 5.2: KNIME K-Means nach der Ausführung 28

Aufbau einer Testumgebung mit VMware Server

Aufbau einer Testumgebung mit VMware Server Aufbau einer Testumgebung mit VMware Server 1. Download des kostenlosen VMware Servers / Registrierung... 2 2. Installation der Software... 2 2.1 VMware Server Windows client package... 3 3. Einrichten

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop

EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop EasyDIS-base-44-v1.0.nrg GT1_v44_programs.iso (falls vorhanden) K+DCAN Interface von MY-OBD2.COM Shop Grundinstallation EasyDIS-base-44-v1.0 Eine korrekte Installation von Vmware sollte wie rechts abgebildet

Mehr

Securepoint Security Systems

Securepoint Security Systems HowTo: Virtuelle Maschine in VMware für eine Securepoint Firewall einrichten Securepoint Security Systems Version 2007nx Release 3 Inhalt 1 VMware Server Console installieren... 4 2 VMware Server Console

Mehr

Online Help StruxureWare Data Center Expert

Online Help StruxureWare Data Center Expert Online Help StruxureWare Data Center Expert Version 7.2.7 Virtuelle StruxureWare Data Center Expert-Appliance Der StruxureWare Data Center Expert-7.2-Server ist als virtuelle Appliance verfügbar, die auf

Mehr

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH

Autor: Michael Spahn Version: 1.0 1/10 Vertraulichkeit: öffentlich Status: Final Metaways Infosystems GmbH Java Einleitung - Handout Kurzbeschreibung: Eine kleine Einführung in die Programmierung mit Java. Dokument: Autor: Michael Spahn Version 1.0 Status: Final Datum: 23.10.2012 Vertraulichkeit: öffentlich

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Installieren und Einrichten von VirtualBox für TAPPS (V1.0)

Installieren und Einrichten von VirtualBox für TAPPS (V1.0) Installieren und Einrichten von VirtualBox für TAPPS (V1.0) 1 Einleitung... 2 2 Download und Installation... 2 3 Einrichten von VirtualBox am Beispiel Windows XP... 7 4 Einrichten von Windows XP... 26

Mehr

webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25

webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25 webpdf für VMware SoftVision Development GmbH Kurfürstenstraße 15 36037 Fulda, Deutschland Tel.: +49 (0)661 25100-0 Fax: +49 (0)661 25100-25 E-Mail: sales@softvision.de Web: www.softvision.de Inhaltsverzeichnis

Mehr

TimePunch. TimePunch Command. Benutzerhandbuch 14.08.2013. TimePunch KG, Wormser Str. 37, 68642 Bürstadt

TimePunch. TimePunch Command. Benutzerhandbuch 14.08.2013. TimePunch KG, Wormser Str. 37, 68642 Bürstadt TimePunch TimePunch Command Benutzerhandbuch 14.08.2013 TimePunch KG, Wormser Str. 37, 68642 Bürstadt Dokumenten Information: Dokumenten-Name Benutzerhandbuch, TimePunch Command Revisions-Nummer 37 Gespeichert

Mehr

Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460)

Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460) Anleitung zur Installation eines Clusters unter VMWare 4.0 (Built 4460) Schritt 1: Erstellen der virtuellen Maschinen 1. Menü File, New, New Virtual Machine... wählen. 2. Auf Weiter > klicken. 3. Die Option

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Leitfaden für die Installation der Videoüberwachung C-MOR

Leitfaden für die Installation der Videoüberwachung C-MOR Dieser Leitfaden zeigt die Installation der C-MOR Videoüberwachung als VM mit der freien Software VirtualBox von Oracle. Die freie VM Version von C-MOR gibt es hier: http://www.c-mor.de/download-vm.php

Mehr

KURZANLEITUNG CLOUD BLOCK STORAGE

KURZANLEITUNG CLOUD BLOCK STORAGE KURZANLEITUNG CLOUD BLOCK STORAGE Version 1.12 01.07.2014 SEITE _ 2 INHALTSVERZEICHNIS 1. Einleitung......Seite 03 2. Anlegen eines dauerhaften Block Storage...Seite 04 3. Hinzufügen von Block Storage

Mehr

SSH-Zugang zu Datenbanken beim DIMDI

SSH-Zugang zu Datenbanken beim DIMDI SSH-Zugang zu Datenbanken beim DIMDI Ab November 2013 entsprechen wir dem Wunsch vieler Nutzer nach mehr Sicherheit bei der Recherche. Dazu ermöglichen wir Ihnen eine bessere Alternative zum bisherigen

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

StickSecurity Home Edition 2006

StickSecurity Home Edition 2006 StickSecurity Home Edition 2006 Inhalt: 1. Konfiguration Sprache wählen Wechseldatenträger wählen 1. 1 Allgemein Bedienung Hotkey 2. Menü Aktionen Passwort Sonstige USB Stick Info USB Explorer USB Backup

Mehr

Revolver Server Handbuch

Revolver Server Handbuch Revolver Server Handbuch 2011 Revolver Software GmbH 1 Schneller Start 1.1 Einführung 4 1.2 Installation 5 1.3 Server hinzufügen 9 1.4 Freischalt-Code eingeben 13 1.5 Server starten 16 1.6 Mit dem Client

Mehr

OPC-Server VM OPC. Anleitung. Installation, Konfiguration, Verwendung. Version 1.01

OPC-Server VM OPC. Anleitung. Installation, Konfiguration, Verwendung. Version 1.01 Installation, Konfiguration, Verwendung Version 1.01 Seite 2 von 20 OPC-Server VM OPC Revision Version Erstellt am Versionsnummer Bemerkung 1.00 26.07.2013 Erstellung 1.01 05.11.2013 2.14 - Reiter der

Mehr

flexx-gui SDK Anleitung Installations- und Bedienungsanleitung

flexx-gui SDK Anleitung Installations- und Bedienungsanleitung flexx-gui SDK Anleitung Installations- und Bedienungsanleitung www.tastatur.de Vorwort Dieses Dokument wurde mit Sorgfalt erstellt, mit notwendigen Anweisungen für eine sichere Inbetriebnahme und Bedienung

Mehr

MySQL Community Server 5.1 Installationsbeispiel

MySQL Community Server 5.1 Installationsbeispiel MySQL Community Server 5.1 Installationsbeispiel Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der untermstrich-datenbank

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Bedienungsanleitung Modbus-LAN Gateway

Bedienungsanleitung Modbus-LAN Gateway Bedienungsanleitung Modbus-LAN Gateway Bedienungsanleitung Modbus-LAN Gateway Inhalt 1. Starten der Konfigurationsoberfläche des MLG... 3 2. Konfiguration MLG... 4 2.1. Network Settings... 4 2.1.1 Statische

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks

Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks -1- Dream NFI-Flash Anleitung für die Verwendung des USB Recovery Sticks -2- Wozu dient der USB Recovery Stick? Mit dem USB Recovery Stick können Sie die Software (Firmware) Ihrer Dreambox aktualisieren.

Mehr

Anwenderdokumentation PersoSim

Anwenderdokumentation PersoSim Anwenderdokumentation PersoSim Die nachfolgende Anwenderdokumentation soll dem Anwender bei der Installation und den ersten Schritten im Umgang mit PersoSim helfen. Installation Grundvoraussetzung für

Mehr

Hyper-V Grundlagen der Virtualisierung

Hyper-V Grundlagen der Virtualisierung Grundlagen der Virtualisierung Was ist Virtualisierung? Eine Software-Technik, die mehrere Betriebssysteme gleichzeitig auf dem Rechner unabhängig voneinander betreibt. Eine Software-Technik, die Software

Mehr

Installation Anleitung für JTheseus und MS SQL Server 2000

Installation Anleitung für JTheseus und MS SQL Server 2000 Installation Anleitung für JTheseus und MS SQL Server 2000 Inhaltsverzeichnis 1 Installation der Datenbank 3 1.1 Erstellen der Datenbank 3 1.2 Tabellen und Minimal Daten einlesen 4 1.3 Benutzer JTheseus

Mehr

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches

Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Hochschule Darmstadt - Fachbereich Informatik - Fachschaft des Fachbereiches Verwendung der bereitgestellten Virtuellen Maschinen»Einrichten einer Virtuellen Maschine mittels VirtualBox sowie Zugriff auf

Mehr

Auf der Homepage steht

Auf der Homepage steht Auf der Homepage steht VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is VirtualBox an extremely feature rich, high performance product

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

How to install freesshd

How to install freesshd Enthaltene Funktionen - Installation - Benutzer anlegen - Verbindung testen How to install freesshd 1. Installation von freesshd - Falls noch nicht vorhanden, können Sie das Freeware Programm unter folgendem

Mehr

Installation von Typo3 CMS

Installation von Typo3 CMS Installation von Typo3 CMS TYPO3 Version 6.2.x unter Windows Eigenen lokalen Webserver mit XAMPP installieren Für die Installation von Typo3 wird eine passende Systemumgebung benötig. Diese besteht aus

Mehr

MGE Datenanbindung in GeoMedia

MGE Datenanbindung in GeoMedia TIPPS & TRICKS MGE Datenanbindung in GeoMedia 10. September 2002 / AHU INTERGRAPH (Schweiz) AG Neumattstrasse 24, CH 8953 Dietikon Tel: 043 322 46 46 Fax: 043 322 46 10 HOTLINE: Telefon: 043 322 46 00

Mehr

Anleitung Gen2VDR Installationsanleitung für REYCOM. Gen2VDR Installationsanleitung für REYCOM

Anleitung Gen2VDR Installationsanleitung für REYCOM. Gen2VDR Installationsanleitung für REYCOM 1 Gen2VDR Installationsanleitung für REYCOM 2 Anleitung Gen2VDR Installationsanleitung für REYCOM Inhaltsverzeichnis 1 Allgemein... 3 1.1 Systemvoraussetzungen... 3 2 Installation... 4 2.1 Download der

Mehr

Firmware. Dokument-Version 1

Firmware. Dokument-Version 1 Fortinet TFTP Prozess Datum 02/12/2011 11:01:00 Hersteller Modell Type(n) Fortinet Fortigate Firmware Copyright Autor Boll Engineering AG, Wettingen mp Dokument-Version 1 Fortinet TFTP Prozess Dieser Artikel

Mehr

Smartcard Management System

Smartcard Management System Smartcard Management System Benutzerhandbuch Zertifiziert vom Nationalinstitut für Standardisierung und Technologie der Vereinigten Staaten von Amerika. Certified by the National Institute of Standards

Mehr

Debian Installer Basics

Debian Installer Basics Debian Installer Basics Zinching Dang 09. Mai 2014 1 Debian Installer Debian Installer Installationsmedium für Debian verschiedene Typen: CD- und DVD-Installer: für Installation ohne oder mit langsamen

Mehr

http://bcloud.brennercom.it/de/brennercom-b-cloud/applikationen/26-0.html

http://bcloud.brennercom.it/de/brennercom-b-cloud/applikationen/26-0.html b.backup Handbuch Windows Dieser Abschnitt beschreibt die grundlegenden Funktionen des Backup Client und die Vorgehensweise für die Installation und Aktivierung. Außerdem wird erläutert, wie man eine Datensicherung

Mehr

25. Februar 2009, Version 1.0. Installationsanleitung Tivoli Storage Manager für Windows. Verwaltungsdirektion. Informatikdienste

25. Februar 2009, Version 1.0. Installationsanleitung Tivoli Storage Manager für Windows. Verwaltungsdirektion. Informatikdienste 25. Februar 2009, Version 1.0 Installationsanleitung für Windows Verwaltungsdirektion Informatikdienste Installationsanleitung für Windows Inhaltsverzeichnis...1 Installation... 1 Voraussetzungen...1 Ablauf

Mehr

Leitfaden für die Installation der freien Virtual Machine C-MOR Videoüberwachung auf XenServer ab Version 6.2

Leitfaden für die Installation der freien Virtual Machine C-MOR Videoüberwachung auf XenServer ab Version 6.2 Dieser Leitfaden zeigt die Installation der C-MOR Videoüberwachung auf einem Citrix XenServer ab Version 6.2. XenServer kann unter http://www.xenserver.org runtergeladen werden. Die C-MOR-ISO-Datei, die

Mehr

Anleitung zur Webservice Entwicklung unter Eclipse

Anleitung zur Webservice Entwicklung unter Eclipse Entwicklungsumgebung installieren Sofern Sie nicht an einem Praktikumsrechner arbeiten, müssen Sie ihre Eclipse-Umgebung Webservice-fähig machen. Dazu benötigen Sie die Entwicklungsumgebung Eclipse for

Mehr

Leitfaden für die Installation der freien Virtual Machine. C-MOR Videoüberwachung auf einem VMware ESX Server

Leitfaden für die Installation der freien Virtual Machine. C-MOR Videoüberwachung auf einem VMware ESX Server Diese Anleitung illustriert die Installation der Videoüberwachung C-MOR Virtuelle Maschine auf VMware ESX Server. Diese Anleitung bezieht sich auf die Version 4 mit 64-Bit C-MOR- Betriebssystem. Bitte

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Kapitel 4: Installieren und Konfigurieren von IBM Cognos Express

Kapitel 4: Installieren und Konfigurieren von IBM Cognos Express Kapitel 4: Installieren und Konfigurieren von IBM Cognos Express Beim Installieren und Konfigurieren von IBM (R) Cognos (R) Express (R) führen Sie folgende Vorgänge aus: Sie kopieren die Dateien für alle

Mehr

SchlieSSen Sie Ihren Lemur an

SchlieSSen Sie Ihren Lemur an 1 SchlieSSen Sie Ihren Lemur an Der Lemur ist nicht irgendein durchschnittlicher MIDI-Controller. Er spricht 1000 Mal schneller und mit der 4-fachen Auflösung. Also finden Sie auf der Rückseite auch nicht

Mehr

Es ist ratsam vor den ersten Versuchen mit der Extension stets eine Sicherungskopie des Projekts anzulegen.

Es ist ratsam vor den ersten Versuchen mit der Extension stets eine Sicherungskopie des Projekts anzulegen. GB2UTM Tools Einführung Die ArcView 3-Extension GB2UTM Tools soll im Rahmen des Projekts GB2UTM dem GIS- Anwender bei der Umstellung seiner ArcView 3-Projekte ein Hilfsmittel darstellen. Es ist ratsam

Mehr

[Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten

[Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten [Geben Sie Text ein] ISCSI Targets mit der Software FreeNAS einrichten ISCSI Targets mit der Software FreeNAS einrichten Inhalt FreeNAS Server Vorbereitung... 2 Virtuelle Maschine einrichten... 3 FreeNAS

Mehr

1 Hochverfügbarkeit. 1.1 Einführung. 1.2 Network Load Balancing (NLB) Quelle: Microsoft. Hochverfügbarkeit

1 Hochverfügbarkeit. 1.1 Einführung. 1.2 Network Load Balancing (NLB) Quelle: Microsoft. Hochverfügbarkeit 1 Hochverfügbarkeit Lernziele: Network Load Balancing (NLB) Failover-Servercluster Verwalten der Failover Cluster Rolle Arbeiten mit virtuellen Maschinen Prüfungsanforderungen von Microsoft: Configure

Mehr

Userhandbuch. Version B-1-0-2 M

Userhandbuch. Version B-1-0-2 M Userhandbuch Version B-1-0-2 M Inhaltsverzeichnis 1.0 Was bietet mir SERVRACK?... 3 1.1 Anmeldung... 3 1.2 Passwort vergessen?... 3 1.3 Einstellungen werden in Realtime übernommen... 4 2.0 Die SERVRACK

Mehr

Inhaltsverzeichnis Abbildungsverzeichnis

Inhaltsverzeichnis Abbildungsverzeichnis Inhaltsverzeichnis Abbildungsverzeichnis... 1 1 Eigener lokaler Webserver... 2 1.1 Download der Installationsdatei... 2 1.2 Installation auf externer Festplatte... 2 1.3 Dienste starten... 5 1.4 Webserver

Mehr

1 Installationen. 1.1 Installationen unter Windows

1 Installationen. 1.1 Installationen unter Windows 1 Installationen Dieses Kapitel beschreibt die Installationen, die für die Nutzung von PHP und MySQL unter Windows, unter Ubuntu Linux und auf einem Mac mit OS X notwendig sind. 1.1 Installationen unter

Mehr

Virtualisierung mit Virtualbox

Virtualisierung mit Virtualbox Virtualisierung mit Virtualbox Dies ist kein Howto im herkömmlichen Sinne. Genaue Anleitungen für Virtualbox gibt es im Intenet genug. Zu empfehlen ist auch das jeweils aktuelle Handbuch von Virtualbox

Mehr

Installation in Novell NetWare 3 Netzwerken High Speed Connectivity for all Printers and Networks

Installation in Novell NetWare 3 Netzwerken High Speed Connectivity for all Printers and Networks Installation in Novell NetWare 3 Netzwerken High Speed Connectivity for all Printers and Networks High speed data transfer Built-in web server for system-independent management Models for all printers

Mehr

So bringst du Prolog zum Laufen...

So bringst du Prolog zum Laufen... Diese Anleitung soll dir dabei helfen den freien Prolog-Interpreter SWI-Prolog zu installieren einen geeigneten Texteditor auszuwählen, mit dem du Prolog-Programme schreiben kannst das erste kleine Programm

Mehr

Documentation. OTRS Appliance Installationshandbuch. Build Date:

Documentation. OTRS Appliance Installationshandbuch. Build Date: Documentation OTRS Appliance Installationshandbuch Build Date: 10.12.2014 OTRS Appliance Installationshandbuch Copyright 2001-2014 OTRS AG Dieses Werk ist geistiges Eigentum der OTRS AG. Es darf als Ganzes

Mehr

IBM SPSS Collaboration and Deployment Services (C&DS) version 7

IBM SPSS Collaboration and Deployment Services (C&DS) version 7 Dieses Handbuch richtet sich an Systemadministratoren, die IBM SPSS Modeler Entity Analytics (EA) für die Ausführung mit einem der folgenden Produkte konfigurieren: IBM SPSS Collaboration and Deployment

Mehr

Update Messerli MySQL auf Linux

Update Messerli MySQL auf Linux Update Messerli MySQL auf Linux Einleitung Grundsätzlich wird beim Update der Messerli Software auf einem Linux-Server wie folgt vorgegangen: 1. Vorhandener RMI-MySQL Server wird auf Linux aktualisiert

Mehr

Manuelle Installation des SQL Servers:

Manuelle Installation des SQL Servers: Manuelle Installation des SQL Servers: Die Installation des SQL Servers ist auf jedem Windows kompatiblen Computer ab Betriebssystem Windows 7 und.net Framework - Version 4.0 möglich. Die Installation

Mehr

Fedora 14 Linux. Microsoft Windows

Fedora 14 Linux. Microsoft Windows Fedora 14 Linux als virtuelle Maschine in Microsoft Windows installieren und betreiben Ersteller: Jürgen Neubert E Mail: juergen@ntnb.eu Hinweise Die von der Fachgruppe Spektroskopie bereitgestellte virtuelle

Mehr

FastViewer Remote Edition 2.X

FastViewer Remote Edition 2.X FastViewer Remote Edition 2.X Mit der FastViewer Remote Edition ist es möglich beliebige Rechner, unabhängig vom Standort, fernzusteuern. Die Eingabe einer Sessionnummer entfällt. Dazu muß auf dem zu steuernden

Mehr

Installationsanleitung Tivoli Storage Manager für Mac OS

Installationsanleitung Tivoli Storage Manager für Mac OS 11. März 2009, Version 1.0 Installationsanleitung für Mac OS X Verwaltungsdirektion Informatikdienste Installationsanleitung für Mac OS Inhaltsverzeichnis...1 Installation... 1 Voraussetzungen...1 Version

Mehr

PIWIN 1 Übung Blatt 5

PIWIN 1 Übung Blatt 5 Fakultät für Informatik Wintersemester 2008 André Gronemeier, LS 2, OH 14 Raum 307, andre.gronemeier@cs.uni-dortmund.de PIWIN 1 Übung Blatt 5 Ausgabedatum: 19.12.2008 Übungen: 12.1.2009-22.1.2009 Abgabe:

Mehr

Installation Guide. Installation Guide. Installationsanleitung für die anaptecs JEAF Plattform. Version 1.2 Letzte Änderung 05.

Installation Guide. Installation Guide. Installationsanleitung für die anaptecs JEAF Plattform. Version 1.2 Letzte Änderung 05. Installation Guide Thema Version 1.2 Letzte Änderung 05. Dezember 2011 Status Installationsanleitung für die anaptecs JEAF Plattform Freigegeben Inhaltsverzeichnis 1 Motivation... 4 1.1 Abgrenzungen...

Mehr

Anleitung für zwei C++ - Openmp - Beispiele auf der NWZSuperdome

Anleitung für zwei C++ - Openmp - Beispiele auf der NWZSuperdome Anleitung für zwei C++ - Openmp - Beispiele auf der NWZSuperdome (Timo Heinrich, t_hein03@uni-muenster.de) Inhaltsverzeichnis: 0.Einleitung 1.Teil: Helloworldprogramm 1.1 Quellcode: Helloworld.cpp 1.2

Mehr

IP-Adressen Hyper-V Cluster

IP-Adressen Hyper-V Cluster Hyper-V 2.0 Live Migration Voraussetzungen Netzwerkadapter: 1 Live Migration 1 LAN 1 Cluster Heartbeat 1 SAN (FC) 1 Hyper-V Management IP-Adressdiagramm IP-Adressen Hyper-V Cluster XXX.YYYY.LOCAL Netzwerkname

Mehr

Um IPSec zu konfigurieren, müssen Sie im Folgenden Menü Einstellungen vornehmen:

Um IPSec zu konfigurieren, müssen Sie im Folgenden Menü Einstellungen vornehmen: 1. IPSec Verbindung zwischen IPSec Client und Gateway 1.1 Einleitung Im Folgenden wird die Konfiguration einer IPSec Verbindung vom Bintec IPSec Client zum Gateway gezeigt. Dabei spielt es keine Rolle,

Mehr

DSLinux Skriptbasierte Inventarisierung für Linux

DSLinux Skriptbasierte Inventarisierung für Linux DSLinux Skriptbasierte Inventarisierung für Linux www.docusnap.com TITEL DSLinux AUTOR Docusnap Consulting DATUM 21.04.2015 Die Weitergabe, sowie Vervielfältigung dieser Unterlage, auch von Teilen, Verwertung

Mehr

EINRICHTUNG DER PORTMAPPERDIENSTE VON WWW.FESTE-IP.NET!

EINRICHTUNG DER PORTMAPPERDIENSTE VON WWW.FESTE-IP.NET! EINRICHTUNG DER PORTMAPPERDIENSTE VON WWW.FESTE-IP.NET! Auf den folgenden Seiten haben wir verschiedene Anwendungsfälle für unseren IPv6 Portmapper dokumentiert. Bitte bearbeiten Sie immer nur einen Anwendungsfall.

Mehr

Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012

Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012 Installationscheckliste Pervasive Server Engine Version 7.94, Stand 16.10.2012 Pervasive Server Engine Checkliste für die Neuinstallation in einem Windows-Netzwerk Bitte prüfen Sie auf unseren Webseiten

Mehr

GSM ONE: Setup Guide

GSM ONE: Setup Guide GSM ONE +++ Setup Guide +++ Über dieses Dokument: Diese Anleitung beschreibt die Inbetriebnahme eines Greenbone Security Manager ONE (GSM ONE), einem Produkt der Greenbone Networks GmbH (http://www.greenbone.net).

Mehr

KNX BAOS Gadget. Installations- und Bedienanleitung. WEINZIERL ENGINEERING GmbH. DE-84508 Burgkirchen E-Mail: info@weinzierl.de Web: www.weinzierl.

KNX BAOS Gadget. Installations- und Bedienanleitung. WEINZIERL ENGINEERING GmbH. DE-84508 Burgkirchen E-Mail: info@weinzierl.de Web: www.weinzierl. Installations- und Bedienanleitung DE-84508 Burgkirchen E-Mail: info@weinzierl.de Web: www.weinzierl.de 2013-08-12 Seite 1/6 Inhaltsverzeichnis 1. BESCHREIBUNG... 3 2. SYSTEMVORAUSSETZUNGEN... 3 3. INSTALLATION...

Mehr

IKONIZER II Installation im Netzwerk

IKONIZER II Installation im Netzwerk Der IKONIZER II ist netzwerkfähig in allen bekannten Netzwerken. Da jedoch etwa 95% der Installationen lokal betrieben werden, erfolgt diese grundsätzlich sowohl für das Programm wie auch für den lizenzfreien

Mehr

WINDOWS 95 FÜR VIRTUAL BOX

WINDOWS 95 FÜR VIRTUAL BOX WINDOWS 95 FÜR VIRTUAL BOX Um Windows 95 auf Virtual Box vollständig zum Laufen zu bringen, werden folgende Daten benötigt: Windows 95 Image Windows 95 Bootdiskette Gültiger Windows 95 Schlüssel Universeller

Mehr

Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis

Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis Installationsanleitung für DoRIS unter Linux Seite 1 Installationsanleitung für DoRIS unter Linux Inhaltsverzeichnis Installationsanleitung für DoRIS unter Linux... 1 Vorbemerkungen... 1 Benötigte Komponenten

Mehr

Dateisysteme mit Plugin-Funktion

Dateisysteme mit Plugin-Funktion Dateisysteme mit Plugin-Funktion Basierend auf Reiser 4 unter Linux http://llugb.amsee.de/logo.gif Ausgearbeitet und vorgetragen von Michael Berger 1/23 Agenda Die Idee Dateisysteme mit Plugin-Funktion

Mehr

SFKV MAP Offline-Erfassungstool. Installationsanleitung

SFKV MAP Offline-Erfassungstool. Installationsanleitung SFKV MAP Offline-Erfassungstool Autor(en): Martin Schumacher Ausgabe: 16.02.2010 1. Allgemein Damit das Offlinetool von MAP ohne Internetverbindung betrieben werden kann, muss auf jedem Arbeitsplatz eine

Mehr

RÖK Typo3 Dokumentation

RÖK Typo3 Dokumentation 2012 RÖK Typo3 Dokumentation Redakteur Sparten Eine Hilfe für den Einstieg in Typo3. Innpuls Werbeagentur GmbH 01.01.2012 2 RÖK Typo3 Dokumentation Inhalt 1) Was ist Typo3... 3 2) Typo3 aufrufen und Anmelden...

Mehr

Benutzerhandbuch für FaxClient für HylaFAX

Benutzerhandbuch für FaxClient für HylaFAX Benutzerhandbuch für FaxClient für HylaFAX Vielen Dank, daß Sie entschlossen haben, dieses kleine Handbuch zu lesen. Es wird Sie bei der Installation und Benutzung des FaxClients für HylaFAX unterstützen.

Mehr

Howto. Konfiguration eines Adobe Document Services

Howto. Konfiguration eines Adobe Document Services Howto Konfiguration eines Adobe Document Services (ADS) Inhaltsverzeichnis: 1 SYSTEMUMGEBUNG... 3 2 TECHNISCHE VERBINDUNGEN ZWISCHEN DEN SYSTEMEN... 3 2.1 PDF BASIERENDE FORMULARE IN DER ABAP UMGEBUNG...

Mehr

JBuilderX: Installation und Kurzanleitung (Windows)

JBuilderX: Installation und Kurzanleitung (Windows) JBuilder X Seite 1 JBuilderX: Installation und Kurzanleitung (Windows) 1. JBuilder installieren Eine Gratis-Version kann von der Webseite www.borland.de heruntergeladen werden. Systemvoraussetzungen: 256

Mehr

Anleitung zur Erstellung einer Batchdatei. - für das automatisierte Verbinden mit Netzlaufwerken beim Systemstart -

Anleitung zur Erstellung einer Batchdatei. - für das automatisierte Verbinden mit Netzlaufwerken beim Systemstart - Anleitung zur Erstellung einer Batchdatei - für das automatisierte Verbinden mit Netzlaufwerken beim Systemstart - Mögliche Anwendungen für Batchdateien: - Mit jedem Systemstart vordefinierte Netzlaufwerke

Mehr

FilePanther Dokumentation. FilePanther. Benutzerhandbuch. Version 1.1 vom 14.02.2012 Marcel Scheitza

FilePanther Dokumentation. FilePanther. Benutzerhandbuch. Version 1.1 vom 14.02.2012 Marcel Scheitza FilePanther Dokumentation FilePanther Version 1.1 vom 14.02.2012 Marcel Scheitza Inhaltsverzeichnis 1 Verwaltung Ihrer Websites... 3 1.1 Verwaltung von Websites... 3 1.2 Verwaltung von Gruppen... 4 1.3

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

HowTo. Konfiguration VSA unter SAP NetWeaver 2004(s) Java

HowTo. Konfiguration VSA unter SAP NetWeaver 2004(s) Java HowTo Konfiguration VSA unter SAP NetWeaver 2004(s) Java Avira Support Juni 2009 Inhaltsverzeichnis SAP Systemvoraussetzungen... 2 SAP Plattformen... 2 OS Systemvoraussetzungen... 2 Java-spezifische Konfiguration

Mehr

BLECHCENTER Plus. Installationsanweisung. Hilfe für Anwender

BLECHCENTER Plus. Installationsanweisung. Hilfe für Anwender Hilfe für Anwender IBE Software GmbH; Friedrich-Paffrath-Straße 41; 26389 Wilhelmshaven Fon: 04421-994357; Fax: 04421-994371; www.ibe-software.de; Info@ibe-software.de Vorwort Installationen von Programmen

Mehr

TecGo Online Local. Ihr Einstieg bei TecCom. Installation und Einrichtung der Besteller Software Release 3.0 INHALT. I. Art der Installation

TecGo Online Local. Ihr Einstieg bei TecCom. Installation und Einrichtung der Besteller Software Release 3.0 INHALT. I. Art der Installation TecGo Online Local Ihr Einstieg bei TecCom Installation und Einrichtung der Besteller Software Release 3.0 INHALT I. Art der Installation II. III. Installation des TecLocal Einrichten der Online-Verbindung

Mehr

How-To-Anleitung. paedml Windows. How-To opsi Migration Stand 13.08.2015 / V 1.0.12. Version: 3.0. paedml stabil und zuverlässig vernetzen

How-To-Anleitung. paedml Windows. How-To opsi Migration Stand 13.08.2015 / V 1.0.12. Version: 3.0. paedml stabil und zuverlässig vernetzen Beratung und Support Technische Plattform Support-Netz-Portal paedml stabil und zuverlässig vernetzen How-To-Anleitung How-To opsi Migration Stand 13.08.2015 / V 1.0.12 paedml Windows Version: 3.0 Impressum

Mehr

Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern. Dazu klicken Sie bitte auf Ihren Namen.

Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern. Dazu klicken Sie bitte auf Ihren Namen. 1 Passwort ändern Nach Ihrer erstmaligen Anmeldung sollten Sie Ihr Passwort ändern Dazu klicken Sie bitte auf Ihren Namen Abb 1-1 Erstmaliger Anmeldung Danach erscheint ein PopUp indem Sie Ihr Passwort

Mehr

1. Vorbemerkungen. Inhaltsverzeichnis

1. Vorbemerkungen. Inhaltsverzeichnis Inhaltsverzeichnis 1. Vorbemerkungen.... Vorarbeiten... 3. Download und Installation... 4. Den verschlüsselten Container erstellen... 5. Alltagsbetrieb... 6. Das Passwort ändern... 1 3 4 5 1. Vorbemerkungen

Mehr

Ein Word-Dokument anlegen

Ein Word-Dokument anlegen 34 Word 2013 Schritt für Schritt erklärt Ein Word-Dokument anlegen evor Sie einen Text in Word erzeugen können, müssen Sie zunächst einmal ein neues Dokument anlegen. Die nwendung stellt zu diesem Zweck

Mehr

Literatur und Links. Webtechnologien SS 2015 Teil 1/Entwicklung

Literatur und Links. Webtechnologien SS 2015 Teil 1/Entwicklung Literatur und Links [1-1] Seidler, Kai; Vogelsang, Kay: Das XAMPP Handbuch. Addison-Wesley, 2006 [1-2] http://www.apachefriends.org/download.html http://sourceforge.net/projects/xampp/files/ [1-3] http://aktuell.de.selfhtml.org/extras/download.shtml

Mehr

TimeMachine. Installation und Konfiguration. Version 1.4. Stand 21.11.2013. Dokument: install.odt. Berger EDV Service Tulbeckstr.

TimeMachine. Installation und Konfiguration. Version 1.4. Stand 21.11.2013. Dokument: install.odt. Berger EDV Service Tulbeckstr. Installation und Konfiguration Version 1.4 Stand 21.11.2013 TimeMachine Dokument: install.odt Berger EDV Service Tulbeckstr. 33 80339 München Fon +49 89 13945642 Mail rb@bergertime.de Versionsangaben Autor

Mehr

A-Plan 12.0. Zeiterfassung 2.0. Ausgabe 1.1. Copyright. Warenzeichenhinweise

A-Plan 12.0. Zeiterfassung 2.0. Ausgabe 1.1. Copyright. Warenzeichenhinweise A-Plan 12.0 Zeiterfassung 2.0 Ausgabe 1.1 Copyright Copyright 1996-2014 braintool software gmbh Kein Teil dieses Handbuches darf ohne ausdrückliche Genehmigung von braintool software gmbh auf mechanischem

Mehr