Google Prediction API

Größe: px
Ab Seite anzeigen:

Download "Google Prediction API"

Transkript

1 Google Prediction API Proseminar Data Mining Simon Fakir Fakultät für Informatik Technische Universität München Kurzfassung Ziel dieses Dokuments ist es, eine Übersicht über die Funktionalität, Anwendungen und Risiken der Google Prediction API zu geben und anhand von Beispielen verständlich zu machen. Zusätzlich werden relevante Empfehlungen und Risiken vorgestellt, die gerade vor dem ersten Einsatz der API wertvoll sind. Schluesselworte Google Prediction API, Data-Mining, Maschine Learning I. EINLEITUNG Das Thema maschinelles Lernen genießt in zahlreichen Veröffentlichungen, besonders aktuell im Zusammenhang mit Big Data, große Aufmerksamkeit. Das liegt besonders daran, dass es eine der Schlüsseltechnologien ist, um aus den verfügbaren Daten wertvolle Informationen zu gewinnen [1]. Das es in diesem Bereich noch sehr viel Potential gibt, zeigen uns moderne Anwendungen wie Apples digitaler Assistent und Spracherkennung Siri [2]. Weitere Beispiele sind Rechtschreibkorrekturen [3] oder Amazons Produktvorschlagssystem [4]. Bei diesen Anbietern ist das maschinelle Lernen weit mehr als ein Zusatzservice, es ist zu echten Wettbewerbsvorteil geworden. Dabei kommt natürlich die Frage auf, unter welchen Umständen maschinelles Lernen sinnvoll eingesetzt werden kann. Dies wurde bereits an der California State University festgestellt [5]: 1) Sobald ein themen-spezifisches Problem besteht, für das zu wenig Wissen zur Verfügung steht, um einen passenden Algorithmus zu entwerfen. 2) Wenn ein großer Datenbestand vorliegt, aus dem eine interne Ordnung extrahiert und weiterverarbeitet werden soll. 3) Wenn Programme mit externen Veränderungen umgehen sollen. In vielen Unternehmen sind die notwendigen Daten in den Datenbanken vorhanden, werden aber zu wenig genutzt. Zu diesem Ergebnis kam eine Studie zum Thema Big Data Analytics von McKinsey [6]. Eine Ursache dafür ist der Mangel an qualifizierten Spezialisten im Analyse und Data- Mining-Bereich und der hohe Einarbeitungs- und Entwicklungsaufwand für lernende Software. Geht man von einer weiteren McKinsey Studie aus, werden im Jahr % - 60 % aller Deep Analytical stellen unbesetzt sein. Ebenso wird verdeutlicht, dass an diesen komplexen Problemen in der Regel interdisziplinär gearbeitet wird, von Ökonomen, Informatiker, angewandten Mathematiker und Statistiker [7]. Es lässt sich also davon ausgehen, dass die personellen als auch finanziellen Ressourcen in vielen Fällen nicht vorhanden sind. Die Google Prediction API adressiert genau dieses Problem, indem Google einen Webservice bereitstellt, der die mathematischen Algorithmen im Hintergrund automatisch einsetzt, dem Entwickler aber lediglich die notwendigen Schnittstellen bereitstellt. Dadurch ist es mit geringem Aufwand möglich, Datenspeicherung, maschinelles Lernen und Vorhersagen in die eigene Software zu integrieren [8]. Dazu kommt, dass innovative Themen oft zunächst in Pilotprojekten mit entsprechend kleinen Nutzerzahlen entwickelt werden. Gerade für Start-ups, die expandieren möchten müsste im Normalfall die leistungsstarke Hardware und komplexe Algorithmen eingekauft werden, weiter müssen die eigenen Algorithmen mit dem Geschäftsmodell skalieren können. Um dieses Problem zu vereinfachen, ist die Google Prediction API auf Skalierbarkeit ausgelegt, indem die Algorithmen auf verteilten Systemen arbeiten. Die Hypothese die der API vorausgeht ist, dass sie kosteneffizienter implementiert werden kann als eigene Spezialisten mit der Entwicklung zu beauftragen. Betrachtet man die oben genannten Gründe und stellt sie den niedrigen Kosten gegenüber, überwiegen in den meisten Szenarien die Vorteile. Die Prediction API nimmt beliebige Textdaten im CSV- Format entgegen und wertet diese mit automatischen Algorithmen aus. Da so geringe Vorgaben für die Eingabedaten existieren lässt sich die API in Einsatzgebieten verwenden, die weder Google noch die heutigen Entwickler absehen können. Beispiele für die Anwendung ist die automatische Erkennung von Sprachen, Spam-Erkennung, Betrugserkennung oder Kundenanalysen [9]. Sieht man sich Diskussionen von Entwicklern an, findet man auch konkretere Beispiele, darunter die automatische Prioritätsbewertung von Fehlerberichten oder vorgeschlagene Suchbegriffe für Forenbeiträge [10]. Nachdem die Motivation für die API erläutert wurde, werden im Folgenden Erfahrungswerte und Herangehensweisen eines realitätsnahen Anwendungsfalls vorgestellt werden. Dazu gliedert sich diese Arbeit in vier weitere Kapiel. Das Kapitel II zur Begriffsklärung und die folgenden drei: 1) Im Kapitel III wird ein realistscher Anwendungsfall mit entsprechender Vorgehensweise vorgestellt. 2) Das Kapitel IV behandelt die praktische Umsetzung und reale Rahmenbedingungen. 3) Im Kapitel V werden abschließend Risiken und Alternativen diskutiert.

2 II. BEGRIFFSKLÄRUNG A. Abhängige und unabhängige Variablen Die abhängigen Variablen (AV) und unabhängigen Variablen (UV) sind Begriffe, die im Rahmen der empirischen Forschung verwendet werden. Sie wiederum ist eine wichtige Grundlage für die Anwendung von maschinellem Lernen. Man geht davon aus, dass die unabhängigen Variablen die abhängigen Variablen beeinflussen, daher kommt auch die Namensgebung. Ein Teilgebiet der empirischen Wissenschaft beschäftigt sich damit, die Zusammenhänge tatsächlich nachzuweisen [11]. Ein praktisches Beispiel dafür ist das Wetter und der Wochentag als UV und die Anzahl der Menschen im Park als AV. Im Beispiel muss die Google Predicition API muss mit korrekten Zusammenhängen von Wochentagen (UVs) und Menschen im Park trainiert werden, wodurch das System selbstständig Zusammenhänge findet. Die gefunden Abhängigkeiten soll die Prediction API nutzen, um die abhängigen Variablen vorherzusagen. In diesem Beispiel also die Vorhersage, wie viele Menschen im Park zu erwarten wären, bei einem von uns gewähltem Wetter und Wochentag. B. Regression und Klassifikation Die Prediction API bietet, in der zum Zeitpunkt der Veröffentlichung aktuellen Version 1.5.1, zwei Modeltypen an, aus denen zur Modellierung gewählt werden muss: Die Regression und die Klassifikation. Die Wahl des Modeltyps hängt von dem Datentyp der abhängige Variable ab. Im Hintergrund wird dadurch die Wahl der Algorithmen beeinflusst. Die Klassifikation, wie der Name schon sagt, setzt voraus, dass ein Datensatz algorithmisch einer von mehreren Klassen zugeordnet werden soll. Im einfachsten Fall in ein binäres Ergebnis zum Beispiel 1 und 0, True und False oder positiv und negativ. Die Prediction API akzeptiert auch mehrere hundert Klassen, zum Beispiel verschiedene Kundengruppen. Ein Unterproblem davon könnte es ein, Texte zu segmentierten, so dass unstrukturierte Texte in ähnliche Gruppen klassifiziert werden [12]. Die Regression sagt numerische Werte vorher, die in der Regel kontinuierlich-skaliert sind. Zum Beispiel die Verkaufszahlen eines Onlineshops. Im Gegensatz zur Klassifikation ist das Regressionsmodell dafür geeignet Werte vorherzusagen. Im Allgemeinen unterscheiden sich die Datentypen darin, ob eine natürlich Ordnung mit messbarer Distanz zwischen den Werten besteht. Schulnoten haben einen gleichmäßigen Abstand zwischen den einzelnen Werten, die Nationalität dagegen folgt keiner natürlichen Reihenfolge. Da Google keine offiziellen Aussagen darüber trifft, welche Algorithmen verwendet werden, um die oben genannten Methoden auszuführen, können dazu keine weiteren Angaben gemacht werden. Der Entwickler muss sich mit dem Ergebnis zufrieden geben. C. Predictive Model Markup Language (PMML) Im Zusammenhang mit Data Mining und Vorhersagen darf die freie Modelsprache PMML nicht unerwähnt bleiben. Die XML-basierende Auszeichnungssprache ist eine der Industriestandards im Data-Mining-Bereich. Der besondere Vorteil liegt darin, dass es programmiersprachen- und plattformunabhängig ist und daher von verschiedenen Softwareanbietern unterstützt wird. Ein Beispiel wäre, dass ein Vorhersagemodell auf einer Testumgebung entwickelt werde, um es später auf eine Business Intelligence-Software zu übertragen. Dabei spielt es keine Rolle von welchem Softwarehersteller die Zielsoftware ist, solange sie den PMML Standard unterstützt [13]. Im Mai 2009 wurde PMML 4 veröffentlicht, dass auch von der Google Prediction API unterstützt wird [14]. III. ANWENDUNGSFALL Zur Veranschaulichung betrachten wir die Beispielfirma ACME Petrol AG und deren Anforderungen an eine neue Softwarekomponente. Die Firma ACME Petrol AG möchte in Zukunft die Benzinpreise deren Tankstellen langsam erhöhen und zwar immer so lange, bis sich die Kunden über die Benzinpreise negativ äußern. Die Idee entstand auf Basis einer Veröffentlichung, die besagt, dass Menschen langsame Änderungen nicht so stark wahrnehmen wie schnelle Veränderungen [15]. Um die Geschwindigkeit der Veränderungen festzulegen, sollen Twitterbeiträge in der Nähe der jeweiligen Tankstelle ausgewertet werden. Schwenkt die Stimmung um, sollen vorübergehend keine weiteren Preiserhöhung stattfinden. Die Prediction API soll in diesem Projekt die Twitterbeiträge automatisiert auf positiv, neutral oder negativ bewerten. Das Ergebnis könnte dann wie in Abbildung 1 aufbereitet werden. Abbildung 1. Beispieldarstellung der Anwendung [16] Die Karte der Vereinigtenden Staaten in Abbildung 1 zeigt dabei, die ausgewerteten Twitternachrichten mit einer Einfärbung abhängig von den inhaltlichen Reaktionen. Die Größe der Punkte soll dabei die Anzahl der einfließenden Nachrichten darstellen. Auf Basis dieser Visualisierung könnte ein Mitarbeiter die Benzinpreise in den jeweiligen Regionen anpassen. Zunächst soll die Vorgehensweise und das grundsätzliche Verständnis für die API erläutert werden. Auf Befehle wurde explizit verzichtet, da sie im Kapitel IV erläutert werden. Das Vorgehen gliedert sich in 4 Schritte, die in den folgenden Kapiteln genauer erläutert werden:

3 1) Vorbereitung der Trainingsdaten 2) Upload der Trainingsdaten 3) Modellierung und Training des Datenmodells 4) Verwendung der Vorhersagen (engl. Prediction) A. Vorbereitung der Trainingsdaten Zur Vorbereitung müssen sogenannte Trainingsdaten bereitgestellt werden, mit Hilfe derer wir das Datenmodell und Vorhersagemodell trainieren. Die Trainingsdaten erhalten korrekte Zuordnungen und zwar genau von dem Zusammenhang, der später unter anderen Umständen vorhergesagt werden soll. Die Prediction API benötigt diese Daten, um mit Hilfe von Algorithmen Zusammenhänge zu finden und daraus später Vorhersagen abzuleiten. Je größer die Menge der Daten und je deutlicher die Zusammenhänge sind, desto Zuverlässiger wird die Vorhersage. Die Trainingsdaten liegen oft bereits in Unternehmen vor, zum Beispiel im Datawarehouse, Protokolldateien oder Exceldateien. Im Regelfall handelt es sich hierbei um die historischen Daten, zum Beispiel die vergangenen Verkaufszahlen oder Wetterinformationen aus der zukünftige Werte abgeleitet werden sollen. Wie in folgender Tabelle ersichtlich, besteht ein Datensatz aus einer abhängigen Variablen und mindestens einer unabhängigen Variablen. Die abhängige Variable wäre in diesem Fall die richtige Klassifikation auf positiv, neutral oder negativ. In dem abgebildeten Fall gibt es dagegen nur eine unabhängige Variable, nämlich die Twitternachricht. Tabelle I BEISPIELHAFTER AUSZUG AUS DEN TRAININGSDATEN Richtiges Ergebnis (AV) Eingabedaten (UVs) Negativ Benzinpreise bei ACME sind unverschämt... Neutral Heute wieder bei ACME getankt... Positiv Ab zur Tankstelle, sau günstig #acme.. Negativ ACME, diese Benzinpreismafia (?) Zur Erhöhung der Zuverlässigkeit könnten hier noch weitere Daten hinzukommen, zum Beispiel die Anzahl verwendeter positiver Smileys und negativer Smileys. Die Wahl und Qualität der unabhängigen Variablen hat einen besonders großen Einfluss auf die Zuverlässigkeit der Vorhersage, worauf im Kapitel IV-C noch detailliert eingegangen wird. B. Upload der Trainingsdaten Stehen die Trainingsdaten bereit, bietet es sich an sie in einer üblichen Komma-separierten-Werte Datei (CSV) zu speichern. Zum Upload der Trainingsdaten ist zunächst die Aktivierung des Dienstes auf Googles Speicherdienst Google Storage notwendig. Die Registrierung erfordert eine Freischaltung über eine Kreditkarte (Stand 04/2013) und eine Aktivierung des Storage- und Google-Prediction-Dienstes. Daraufhin können die Trainingsdaten in den Google Storage übertragen werden. C. Modellierung des Datenmodells Sind die Daten im Cloud-Speicher abgelegt, wird das Datenmodell über einen API-Befehl erstellt. Dafür muss von uns die Datenquelle, der Modeltyp und optional ein PMML- Modell angegeben werden. Daneben sind noch einige weitere Angaben möglich, auf die in diesem Fall nicht eingegangen wird. Bei unserem Beispiel handelt es sich um eine Sentiment Analyse, die mit Hilfe der Klassifikationsalgorithmen durchgeführt wird. Entsprechend entscheiden wir uns beim Anlegen unseres Models für den Type Klassifikation. Nach der Erstellung des Modells beginnt ein Trainingsprozess der von wenigen Minuten bis zu einigen Stunden dauern kann. D. Verwendung der Vorhersage (Prediction) Nachdem die Vorbereitung, der Upload und der Trainingsprozess abgeschlossen ist, kann die Anwendung zur Vorhersage verwendet werden. Dafür wird ein Datensatz mit unabhängigen Variablen (UVs) benötigt. In unserem Beispiel senden wir Tweets an die API und erwarten, ob positiv, negativ oder neutral als Ergebnis geliefert wird. Zusätzlich erhält das Ergebnis einen Zuverlässigkeitswert (engl. confidence value) mit den Namen Score. Dazu ein Beispiel: Senden wir der Prediction API eine Anfragen mit den unabhängigen Variablen, in unserem Fall eine Twitternachricht, erhalten wir die folgenden Werte als Rückantwort: 1) outputlabel: Vorhergesagter Wert (z.b. positiv), also der Wert mit der höchsten Score. 2) outputmulti: Für jede mögliche Klassifikation die jeweilige erreichte Score als Fließkommazahl zwischen 0 und 1. Zum Beispiel: {negative:0,3 positive:0,4 neutral:0,3} Addiert man alle Scores zusammen erhält man 1, somit kann man die Score auch als Prozentwert sehen. Wie die Befehle und Rückantworten genau aussehen finden im folgenden Kapitel IV. IV. UMSETZUNG UND ERGEBNISSE In diesem Abschnitt werden reale Rahmenbedingungen und die praktische Umsetzung erläutert. Als Ausgangspunkt wird dafür der im letzten Abschnitt erläuterte Anwendungsfall herangezogen und nach dem beschriebenen Vorgehen umgesetzt. A. Anlegen des Models Zur Vorbereitung sind zunächst Trainingsdaten erforderlich. Die passenden Daten wurden von der Firma Sanders Analytics, Seattle bereitgestellt. Weitere Informationen und die Daten stehen unter folgender Adresse zur Verfügung: Der Datensatz besteht aus ca ausgewerteten Twitternachrichten mit jeweiligem Ergebnis. Im ersten Schritt nehmen wir uns der Vorbereitung der Trainingsdaten an. In unserem Fall liegen die Trainingsdaten als Komma-separierte-Werte-Datei (CSV) mit den Spalten Bewertung, Twitternachricht vor. Für den Upload kleinerer Daten ist das Webinterface ausreichend, wir nutzen allerdings das Kommandozeilenprogramm gsutil für die Übertragung.

4 Google Storage organisiert sich in buckets (dt. Eimer). Vereinfacht ausgedrückt kann man sich unter einem bucket einen Ordner vorstellen, der auf dem Google Servern weltweit eindeutig ist. Später lassen sich die Daten wieder mit diesem Bucketnamen identifizieren. Mit folgendem Befehl mb ( make bucket ) wird das Bucket mit dem Namen twitter-training angelegt. Der zweite Befehl cp kopiert die lokale CSV Datei dort hin. gsutil mb gs://twitter-training gsutil cp sentiment-training.csv gs:// training-twitter Mit der Bestätigung des Werkzeugs ist die CSV-Datei übertragen und bereit, um von der Prediction API eingelesen zu werden. Zur Erläuterung und Testen der API wird Google API Explorer empfohlen. Wir beginnen also mit dem Anlegen des Modells wofür der Befehl prediction.trainedmodels.insert bereit steht. Die wichtigsten Parameter sind 1) id: Ein eindeutiger Name für das Modell, in unserem Fall zum Beispiel twitter-sentiment-en 2) storagedatalocation: Pfad zu den Lerndaten in unserem Fall gs://training-twitter/training-twitter.csv 3) Modeltype: Handelt es sich um ein Regressions oder Klassifikationsmodel? Der Standardwert ist Klassifikation. In diesem Schritt gibt es noch weitere Parameter, die für das Praxisbeispiel nicht relevant sind, in der praktischen Anwendung jedoch sehr wohl, zum Beispiel der Import von PMML- Modellen. Eine ausführlich Erklärung ist auf der Website der Google Prediction API zu finden. Mit der Bestätigung beginnt der Server mit der Verarbeitung der bereitgestellten Daten. Die Dauer hängt von der Auslastung der Server und von der Größe des Datensatzes ab. Um den Zustand des Modells festzustellen steht Operation prediction.trainedmodels.get bereit. Als id Parameter muss nun die oben festgelegte id verwendet werden, hier twittersentiment-en. Das verkürzte Ergebnis sieht wie folgt aus: { "id": "twitter-sentiment-en", [..] "modelinfo": { "modeltype": "classification", [..] }, "trainingstatus": "DONE" Wie dem Parameter trainingstatus zu entnehmen ist, ist das Modell bereit zur Verwendung. Im folgenden nun noch ein Beispiel wie die Vorhersage mittels einer REST-POST-Anfrage im JSON-Format angesprochen wird: { "input": { "csvinstance": [ } } "The petrol prices today are very high! It s ACME Petrols fault!" ] Die Werte innerhalb der Variable csvinstance sind die unabhängigen Variablen, hier eine Twitternachricht, die bewertet werden soll. Passend dazu die verkürzte Antwort: { [..] "outputlabel": "Negative", "outputmulti": [ { "label": "Neutral", "score": }, { "label": "Negative", "score": }, { "label": "Positive", "score": } ] } Das outputlabel gibt wie erwartet den Wert Negative an - damit ist das Modell bereit zur Verwendung innerhalb einer Softwarekomponente. B. Kosten Die Nutzung der Google Prediction API, sowie der Storage API ist für kleinere Projekte kostenlos. Die Kriterien sind die Anzahl der Vorhersagen pro Monat und die Dateigröße der Trainingsdaten. Die Folgende Tabelle gibt einen groben Überblick über die konkret anfallenden Kosten. Ressource Kostenlos pro weitere Vorhersagen pro Monat 0,50 $ Training-Data Updates pro Monat 0,05 $ Speicherplatz* (in MB) dauerhaft max. 0,085 $ pro Monat Tabelle II KOSTEN DER PREDICTION API [17] [18] Die Angaben wurden von der Google Prediction API Website und Google Cloud Storage Webseite übernommen [17] [18]. Anhand der Angaben in Tabelle II wird deutlich, dass die Kosten sich im Cent-Bereich bewegen. Gerade bei kleinen bis mittleren Projekten bewegen sie sich damit in einem Rahmen, der sogar günstiger ist als die reinen Serverkosten einer selbst installierten Lösung. C. Qualität Um einen tatsächlichen Eindruck über die Qualität der Sentimentanalyse aufzuzeigen, wird auf ein Beispiel zurückgegriffen, das unserem Anwendungsfall nahe kommt. Es geht darum Twitternachrichten auszuwerten, um das reale Wetterempfinden festzustellen. Die Twitternachrichten wurden mit der Google Prediction API auf positiv, neutral und negativ kategorisiert. Alle Zahlwerte stammen, falls nicht anders gekennzeichnet, aus diesem Beispiel [16]. Ausgeführt wurde der Versuch von Dialog Earth, einem Zusammenschluss des Institute on the Environment (IonE) an der Universität Minnesota und dem Foundation for Environmental Research [19]. Der logische erste Schritt, um die Zuverlässigkeit der Ergebnisse zu verbessern, ist es die Anzahl der Trainingsdatensätze

5 zu erhöhen. So haben die Algorithmen ein höheres Vergleichsmaterial und es sind bessere Ergebnisse zu erwarten. Die folgenden Ergebnisse soll einen Eindruck über den Zusammenhang zwischen der Modellgröße und der Modellgenauigkeit geben. Verständnis des jeweiligen Anwendungsfalls erreicht werden. Als Beispiel zur Optimierung der Eingabedaten könnten hier Smileys in ein natürliches Wort umgewandelt werden - so können die Textanalyse-Algorithmen mit Happy mehr anfangen als mit :-). Ausgehend von einem festen Ziel, das mit der API erreicht werden soll, ist die Qualität der Vorhersagen von drei Einflussfaktoren abhängig: 1) Anzahl und Aufbereitung der Trainingsdaten 2) Die Auswahl der unabhängigen Variablen 3) Die Stärke des Zusammenhangs zwischen AV und UVs Dies geht unmittelbar daraus hervor, dass dies die einzigen Daten sind, die ein Entwickler der API bereitstellen kann. Abbildung 2. Modellgenauigkeit im Verhältnis zur Modellgröße V. DISKUSSION UND ALTERNATIVEN Um zu beantworten, auf welche Rahmenbedingungen zu achten ist, werden in diesem Abschnitt noch Risiken, Einschränkungen und Bedingungen diskutiert, über die man sich vor der Verwendung der API vertraut sein sollte. In dem oben genannten Beispiel wurde die Prediction API mit unterschiedlichen Mengen an Trainingsdaten trainiert. Um die Zuverlässigkeit der Antworten zu prüfen, wurden noch Testdatensätze zurückgehalten, die die Prediction API nicht kannte. Der Zuverlässigkeitswert gibt an, in wie viel Prozent der Fälle die API eine richtige Bewertung durchgeführt hat. Selbstverständlich ist eine Qualitätssteigerung mit höheren Datensätzen zu erkennen. Bei drei möglichen Ergebnissen wäre die Baseline 33,33% Zuverlässigkeit, im Vergleich dazu liefert die API bereits bei Sätzen ein wesentlich besseres Ergebnis. Interessanter ist der Vergleich zwischen Datensätzen ganz links und ganz rechts. Eine Erhöhung der Datensätze um den Faktor 20 wirkt sich mit ca. 7 % Verbesserung auf die Zuverlässigkeit aus. Außerdem zeigt die abflachende Kurve nach oben hin an, dass die Verbesserung abnimmt. Zwischen und Datensätzen ist lediglich noch eine Verbesserung des Ergebnisses um ca. 1% erreicht worden, obwohl die Anzahl sich fast verdoppelt hat. Die Verbesserung nimmt folglich proportional zu den eingesetzten Datensätzen stark ab. Vermuten lässt sich ein asympotisches Verhalten zwischen 71% und 80% Zuverlässigkeit. Betrachtet man die Daten noch einmal aus einem Schritt entfernt, stellt man fest, dass es natürliche Sprachelemente gibt, die algorithmisch nur schwer zu erfassen sind. Ein Beispiel dafür sind Ironie und Sarkasmus in den Nachrichten, sowie kontext-abhängige Nachrichten, die auch für einen menschlichen Leser ohne Zusammenhang nicht nachvollziehbar sind. So ist es eine logische Schlussfolgerung, dass ein bestimmter Prozentsatz der Eingabedaten durch die Google Algorithmen nicht korrekt erfasst werden können. Zum Punkt Qualität der Vorhersage soll festgehalten werden, dass die Genauigkeit nicht nur durch eine größere Zahl an Trainingsdaten verbessert werden kann. Viel mehr kann durch eine Vorselektion der Trainingsdaten und über gutes A. Einschränkungen und Risiken Die Prediction API unterstützt keine komplexen Datentypen wie Video, Audio oder Bilder. Die Daten die verarbeitet werden sollen, müssen auf Text oder numerische Daten herunter gerechnet werden, bevor die API sie verwenden kann. Die Nutzung eines Webservices bürgt selbstverständlich die Gefahr der Abhängigkeit. Gesetzt der Fall, dass die Kernleistung der Software auf der Google Prediction API basiert, ist es trotzdem möglich, dass Google seine Dienste abschaltet. Diese Bedingung wird in der Endnutzervereinbarung wie folgt beschrieben: Google may terminate this Agreement for its convenience at any time without liability to Customer. Subject to Section 7, Google may discontinue any Services or any portion or feature for any reason at any time without liability to Customer. [20] Dies wird such als Vendor-Lockin bezeichnet [21]. Wie bei Cloudanwendungen üblich, ist es ebenso nicht möglich die Algorithmen an eigene Bedürfnisse anzupassen. Dies hört sich zunächst trivial an, sollte eine Anpassung aus dringend notwendig sein, muss die Google Prediction API durch einen anderen Dienst ausgetauscht werden. Entsprechend sollte vor der Integration geprüft werden, ob solche Anforderungen, wie zum Beispiel Gesetzesänderungen, absehbar sind. Ein Beispiel für die letzten beiden Punkte könnte es sein, dass personenbezogene Daten zur Vorhersage verwendet werden und dies nicht mit dem Datenschutzgesetz einhergehen. B. PMML für die Unabhängigkeit Während der Umsetzung wurde erwähnt, dass die Google Prediction API auch ein PMML-Format als Eingabetyp akzeptiert. Definiert man sein Model selbst mit PMML lässt sich dieses Format auch in andere Software importieren, wodurch die Abhängigkeit von Google etwas abgemildert wird.

6 C. Alternativen Angesichts der erläuterten Nachteile der API ist zu bedenken, dass noch weitere Anbieter auf dem selben Markt existieren. Zum Beispiel das Unternehmen Directed Edge oder BigML. Selbstverständlich bringt jeder Anbieter seine Vor- und Nachteile mit, die unter Umständen höhere Konfigurationsaufwände mit sich bringen. Steht eigenes Fachpersonal zur Verfügung kann es auch interessant sein, eigene Teile der Software entwerfen und auf das Apache Mahout-Toolkit zurückgreifen, welches als Algorithmen-Framework zu sehen ist. Apache Mahout ist Teil des Hadoop Projektes und daher auch mit anderen Hadoop Projekten kompatibel. Hadoop macht eine einfache Skalierung und wird außerdem bereits von verschiedenen Cloudcomputing-Dienstleistern angeboten. Die Vor- und Nachteile der Alternativen lassen sich nicht allgemeingültig beantworten und sind mit den Anforderungen im Einzelfall abzugleichen. VI. ZUSAMMENFASSUNG Der ursprüngliche Gedanke der API ist es, maschinelles Lernen mit geringem Aufwand zu ermöglichen. Durch die Prediction API, ist es mit geringstem Konfigurationsaufwand und ohne jegliches Wissen über Fachalgorithmen möglich maschinelles Lernen einzusetzen. Der Programmierer muss überhaupt nicht wissen, wie die komplexen Algorithmen arbeiten oder welche zum Einsatz kommen, um das gewünschte Ergebnis erreichen. Die Kosten die Google dafür verlangt sind so verschwindend gering, dass sie nur selten eine Hemmschwelle sein werden. Die Ziele sind also in vollem Maße erfüllt. Dennoch entsteht eine Abhängigkeit mit der die diskutierten Einschränkungen und Risiken einher gehen. Vor jedem Projekte muss daher sorgfältig geprüft werden, ob ein Unternehmen diese Umstände akzeptieren kann. [8] J. Zander and P. J. Mosterman, Technical engine for democratization of modeling, simulations, and predictions, in Proceedings of the Winter Simulation Conference, ser. WSC 12. Winter Simulation Conference, 2012, pp. 228:1 228:14. [9] [Online]. Available: https://developers.google.com/prediction/ (Letzter Zugriff: ) [10] [Online]. Available: (Letzter Zugriff ) [11] B. B. Flynn, S. Sakakibara, R. G. Schroeder, K. A. Bates, and E. J. Flynn, Empirical research methods in operations management, Journal of operations management, vol. 9, no. 2, pp , [12] H. Yu, C. Zhai, and J. Han, Text classification from positive and unlabeled documents, in Proceedings of the twelfth international conference on Information and knowledge management, ser. CIKM 03. New York, NY, USA: ACM, 2003, pp [13] R. Pechter, What s pmml and what s new in pmml 4.0? SIGKDD Explor. Newsl., vol. 11, no. 1, pp , Nov [14] [Online]. Available: https://developers.google.com/prediction/docs/pmmlschema (Letzter Zugriff ) [15] J. D. Campbell, B. Chew, and L. S. Scratchley, Cognitive and emotional reactions to daily events: The effects of self-esteem and self-complexity, Journal of Personality, vol. 59, no. 3, pp , [16] (2012, 02). [Online]. Available: prediction api crowdflower/ (Letzter Zugriff ) [17] [Online]. Available: https://cloud.google.com/pricing/cloud-storage (Letzter Zugriff ) [18] [Online]. Available: https://developers.google.com/prediction/docs/pricing (Letzter Zugriff ) [19] [Online]. Available: (Letzter Zugriff ) [20] [Online]. Available: https://developers.google.com/prediction/docs/terms (Letzter Zugriff ) [21] C. Ragusa and A. Puliafito, Running business applications in the cloud: A use case perspective, in Euro-Par 2010 Parallel Processing Workshops, ser. Lecture Notes in Computer Science, M. Guarracino, F. Vivien, J. Träff, M. Cannatoro, M. Danelutto, A. Hast, F. Perla, A. Knüpfer, B. Martino, and M. Alexander, Eds. Springer Berlin Heidelberg, 2011, vol. 6586, pp LITERATUR [1] I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., [2] R. Hafen and M. Henry, Speech information retrieval: a review, Multimedia Systems, vol. 18, no. 6, pp , [3] C. Whitelaw, B. Hutchinson, G. Y. Chung, and G. Ellis, Using the web for language independent spellchecking and autocorrection, in Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2 - Volume 2, ser. EMNLP 09. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009, pp [4] G. Takács, I. Pilászy, B. Németh, and D. Tikk, Scalable collaborative filtering approaches for large recommender systems, J. Mach. Learn. Res., vol. 10, pp , Jun [5] T. Ragg, F. Padberg, and R. Schoknecht, Applying machine learning to solve an estimation problem in software inspections, in Artificial Neural Networks ICANN 2002, ser. Lecture Notes in Computer Science, J. Dorronsoro, Ed. Springer Berlin Heidelberg, 2002, vol. 2415, pp [6] J. Manyikac, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, Tech. Rep., May [7] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, Tech. Rep., June 2011.

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Big Data - Datenquellen und Anwendungen

Big Data - Datenquellen und Anwendungen Big Data - Datenquellen und Anwendungen AW1 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 18. November 2013 Outline 1 Einleitung 2 Datenquellen 3 Data Science

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

eassessment Oracle DB Engine Whitepaper

eassessment Oracle DB Engine Whitepaper eassessment Oracle DB Engine Whitepaper DOKUMENT: TYP: eassessment Oracle DB Engine Whitepaper Plattformdokumentation ERSTELLT VON: nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION:

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Softwareentwicklungspraktikum Sommersemester 2007. Testdokumentation

Softwareentwicklungspraktikum Sommersemester 2007. Testdokumentation Softwareentwicklungspraktikum Sommersemester 2007 Testdokumentation Auftraggeber Technische Universität Braunschweig

Mehr

Large Scale Data Management

Large Scale Data Management Large Scale Data Management Beirat für Informationsgesellschaft / GOING LOCAL Wien, 21. November 2011 Prof. Dr. Wolrad Rommel FTW Forschungszentrum Telekommunikation Wien rommel@ftw.at Gartner's 2011 Hype

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf

Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf 28.05.14 Inhalt Die Glückssträhne Statistische Simulationen Baseball, Basketball & andere Sportarten Maschinelles Lernen Windhund-und

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome Big Data bei unstrukturierten Daten AW1 Vortrag Sebastian Krome Agenda Wiederholung Aspekte von Big Data Datenverarbeitungsprozess TextMining Aktuelle Paper Identification of Live News Events Using Twitter

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

RAID Redundant Array of Independent [Inexpensive] Disks

RAID Redundant Array of Independent [Inexpensive] Disks RAID Redundant Array of Independent [Inexpensive] Disks Stefan Wexel Proseminar Algorithms and Data Structures im WS 2011/2012 Rheinisch-Westfälische Technische Hochschule Aachen Lehrstuhl für Informatik

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

TimeSafe Leistungserfassung

TimeSafe Leistungserfassung Keep your time safe. TimeSafe Leistungserfassung Adressimport 1/8 Inhaltsverzeichnis Inhaltsverzeichnis... 2 1 Allgemeines... 3 1.1 Adressen in der TimeSafe Leistungserfassung... 3 1.2 Organisationen und/oder

Mehr

Data Mining in der Landwirtschaft

Data Mining in der Landwirtschaft Vortrag zum Doktorandentag 02. Februar 2010 Gliederung Motivation Grundidee field uniform treatment small scale precision treatment Abbildung: Präzisionslandwirtschaft = datengetriebene Herangehensweise

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie BIG DATA Future Opportunities and Challanges in the German Industry Zusammenfassung Die Menge der verfügbaren

Mehr

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014

Social Monitoring. HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014 HAW Hamburg Hochschule für Angewandte Wissenschaften University of Applied Sciences Master Informatik - Anwendungen 1 WS 2013/2014 Abdul-Wahed Haiderzadah abdul-wahed.haiderzadah@haw-hamburg.de Betreuer:

Mehr

Handbuch für Android 1.5

Handbuch für Android 1.5 Handbuch für Android 1.5 1 Inhaltsverzeichnis 1 Leistungsumfang... 3 1.1 Über Boxcryptor Classic... 3 1.2 Über dieses Handbuch... 3 2. Installation... 5 3. Grundfunktionen... 5 3.1 Einrichtung von Boxcryptor

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

SOZIALES" BRANCHENGEFLÜSTER ANALYSIERT DER SOCIAL MEDIA-MONITOR FÜR BANKEN

SOZIALES BRANCHENGEFLÜSTER ANALYSIERT DER SOCIAL MEDIA-MONITOR FÜR BANKEN SOZIALES" BRANCHENGEFLÜSTER ANALYSIERT DER SOCIAL MEDIA-MONITOR FÜR BANKEN CHRISTIAN KÖNIG BUSINESS EXPERT COMPETENCE CENTER CUSTOMER INTELLIGENCE Copyr i g ht 2012, SAS Ins titut e Inc. All rights res

Mehr

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper) Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10 Technische Informationen (White Paper) Inhaltsverzeichnis 1. Über dieses Dokument... 3 2. Überblick... 3 3. Upgrade Verfahren... 4

Mehr

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH BEISPIEL FLUGHAFEN BERLIN-BRANDENBURG Offizielle Webseite des Flughafens https://ber.piratenfraktion-berlin.de/projekt/

Mehr

Schnellstartanleitung. Version R9. Deutsch

Schnellstartanleitung. Version R9. Deutsch Data Backup Schnellstartanleitung Version R9 Deutsch März 19, 2015 Agreement The purchase and use of all Software and Services is subject to the Agreement as defined in Kaseya s Click-Accept EULATOS as

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10. AustroFeedr Pushing the Realtime Web Projektplan erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.2010 gefördert durch die Internet Privatstiftung Austria (IPA) 1 Projektbeschreibung

Mehr

Der Cloud-Dienst Windows Azure

Der Cloud-Dienst Windows Azure Der Cloud-Dienst Windows Azure Master-Seminar Cloud Computing Wintersemester 2013/2014 Sven Friedrichs 07.02.2014 Sven Friedrichs Der Cloud-Dienst Windows Azure 2 Gliederung Einleitung Aufbau und Angebot

Mehr

GoGrid Hochschule Mannheim

GoGrid Hochschule Mannheim Christoph Eikermann GoGrid Hochschule Mannheim WS0910 1/25 GoGrid Hochschule Mannheim Christoph Eikermann Fakultät für Informatik Hochschule Mannheim c.eikermann@googlemail.com 11.12.2009 Christoph Eikermann

Mehr

Schnittstellenbeschreibung

Schnittstellenbeschreibung Schnittstellenbeschreibung Typ: Kundenbestellungen per FTP-Upload Format: CSV/XML Version: 1.0 Datum: 25.03.2014-1 - Inhaltsverzeichnis 1. Beschreibung... 3 2. Nutzung... 3 Schritt 1: Importieren der Preise

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

Paragon Boot Media Builder

Paragon Boot Media Builder PARAGON Software GmbH Heinrich von Stephan Str. 5c 79100 Freiburg, Germany Tel. +49 (0) 761 59018201 Fax +49 (0) 761 59018130 Internet www.paragon software.de E Mail vertrieb@paragon software.de Paragon

Mehr

Kurzanleitung zu. von Daniel Jettka 18.11.2008

Kurzanleitung zu. von Daniel Jettka 18.11.2008 Kurzanleitung zu Tigris.org Open Source Software Engineering Tools von Daniel Jettka 18.11.2008 Inhaltsverzeichnis 1.Einführung...1 2.Das Projektarchivs...3 2.1.Anlegen des Projektarchivs...3 2.2.Organisation

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013. 2013 Adobe Systems Incorporated. All Rights Reserved. 1

Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013. 2013 Adobe Systems Incorporated. All Rights Reserved. 1 Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013 2013 Adobe Systems Incorporated. All Rights Reserved. 1 Creative Suite CS6 TLP + CLP Lizenzmodelle 2013 Adobe Systems Incorporated. All Rights

Mehr

1. Einleitung. 1.1. Ausgangssituation

1. Einleitung. 1.1. Ausgangssituation 1. Einleitung In der vorliegenden Arbeit wird untersucht, welche Faktoren den erfolgreichen Ausgang eines Supply-Chain-Projektes zwischen zwei Projektpartnern beeinflussen. Dazu werden zum einen mögliche

Mehr

Institut für angewandte Informationstechnologie (InIT)

Institut für angewandte Informationstechnologie (InIT) School of Engineering Institut für angewandte Informationstechnologie (InIT) We ride the information wave Zürcher Fachhochschule www.init.zhaw.ch Forschung & Entwicklung Institut für angewandte Informationstechnologie

Mehr

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftsingenieur der Fakultät

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose. Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, Microsoft @oliviaklose oliviaklose.com 13.06.20 15 SQLSaturday Rheinland 2015 1. Zu komplex: Man kann

Mehr

Inhalt... 1 Einleitung... 1 Systemanforderungen... 1 Software Download... 1 Prüfdokumentation... 4 Probleme... 5 Hintergrund... 5

Inhalt... 1 Einleitung... 1 Systemanforderungen... 1 Software Download... 1 Prüfdokumentation... 4 Probleme... 5 Hintergrund... 5 Inhalt Inhalt... 1 Einleitung... 1 Systemanforderungen... 1 Software Download... 1 Prüfdokumentation... 4 Probleme... 5 Hintergrund... 5 Dieses Dokument gibt ist eine Anleitung zur sicheren und einfachen

Mehr

Smartcard Management System

Smartcard Management System Smartcard Management System Benutzerhandbuch Zertifiziert vom Nationalinstitut für Standardisierung und Technologie der Vereinigten Staaten von Amerika. Certified by the National Institute of Standards

Mehr

Workshop Predictive Analytics am Beispiel von ITSM

Workshop Predictive Analytics am Beispiel von ITSM SMART. PRAGMATIC. PREDICTABLE. Workshop Predictive Analytics am Beispiel von ITSM Hans Sieder Geschäftsführer Fabian Shirokov Manager Data Science Über SIEGER Ergebnisse zählen. Die SIEGER Consulting liefert

Mehr

Big Data Herausforderungen für Rechenzentren

Big Data Herausforderungen für Rechenzentren FINANCIAL INSTITUTIONS ENERGY INFRASTRUCTURE, MINING AND COMMODITIES TRANSPORT TECHNOLOGY AND INNOVATION PHARMACEUTICALS AND LIFE SCIENCES Big Data Herausforderungen für Rechenzentren RA Dr. Flemming Moos

Mehr

Azure Machine Learning

Azure Machine Learning Azure Machine Learning Alexander Wechsler Wechsler Consulting GmbH & Co. KG Was ist Machine Learning? Technologie zur Vorhersage Ermittlung von Wahrscheinlichkeiten mit Hilfe von Mustern in großen Datenmengen

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Unstrukturierte Daten spielen eine immer bedeutender Rolle in Big Data-Projekten. Zunächst gilt es

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Einführung Erste Schritte mit Mamut Online Survey

Einführung Erste Schritte mit Mamut Online Survey [Type text] Mamut Active Services Einführung Erste Schritte mit Mamut Online Survey 1 Erste Schritte mit Mamut Online Survey Inhalt Über Mamut Online Survey... 2 Erste Schritte mit Mamut Online Survey...

Mehr

design kommunikation development

design kommunikation development http://www.dkd.de dkd design kommunikation development Apache Solr - A deeper look Stefan Sprenger, Developer dkd Olivier Dobberkau, Geschäftsführer dkd Agenda Einführung Boosting Empfehlungen Ausblick

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Normfall 7.2. Whitepaper. Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von:

Normfall 7.2. Whitepaper. Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von: Normfall 7.2 Whitepaper Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von: Microsoft SQL Server 2008 R2/2012/2014 2014 Normfall GmbH Alle Rechte vorbehalten. Vorbemerkungen

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch WANN REDEN WIR VON BIG DATA SCIENCE? Big Data ist der technische Teil von Big Data Science. Mehr Daten! Mehr Datenquellen(-änderungen)!

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%. Titel des Moduls: Parallel Systems Dt.: Parallele Systeme Verantwortlich für das Modul: Heiß, Hans-Ulrich E-Mail: lehre@kbs.tu-berlin.de URL: http://www.kbs.tu-berlin.de/ Modulnr.: 866 (Version 2) - Status:

Mehr

Allgemein. Einrichtung. PHOENIX Tool WinUser2PHOENIXUser. Version: 3.5.2 Stand: 2013-04-16

Allgemein. Einrichtung. PHOENIX Tool WinUser2PHOENIXUser. Version: 3.5.2 Stand: 2013-04-16 PHOENIX Tool WinUser2PHOENIXUser Version: 3.5.2 Stand: 2013-04-16 Allgemein Das Tool ermöglicht es, Benutzerinformationen aus dem Windows Active Directory (AD) in den PHOENIX zu importieren. Dabei können

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

IHRE ONLINE-BEWERBUNG BEI ENERCON. Schritt für Schritt ans Ziel!

IHRE ONLINE-BEWERBUNG BEI ENERCON. Schritt für Schritt ans Ziel! IHRE ONLINE-BEWERBUNG BEI ENERCON Schritt für Schritt ans Ziel! Einleitung Sehr geehrter Bewerber, um eine sichere und möglichst zügige Bearbeitung Ihrer Bewerbung zu ermöglichen, hat sich ENERCON für

Mehr

IHRE ONLINE-BEWERBUNG BEI ENERCON

IHRE ONLINE-BEWERBUNG BEI ENERCON IHRE ONLINE-BEWERBUNG BEI ENERCON Schritt für Schritt ans Ziel! Einleitung Sehr geehrter Bewerber, um eine sichere und möglichst zügige Bearbeitung Ihrer Bewerbung zu ermöglichen, hat sich ENERCON für

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Executive Briefing. Big Data und Business Analytics für Kunden und Unternehmen. In Zusammenarbeit mit. Executive Briefing. In Zusammenarbeit mit

Executive Briefing. Big Data und Business Analytics für Kunden und Unternehmen. In Zusammenarbeit mit. Executive Briefing. In Zusammenarbeit mit Big Data und Business Analytics für Kunden und Unternehmen Umfangreiche und ständig anwachsende Datenvolumen verändern die Art und Weise, wie in zahlreichen Branchen Geschäfte abgewickelt werden. Da immer

Mehr

Dokumentation KundenpreisManagerLX Pro. Version 2.0

Dokumentation KundenpreisManagerLX Pro. Version 2.0 Dokumentation KundenpreisManagerLX Pro Version 2.0 2 Dokumentation KundenpreisManagerLX Pro Version 2.0.207.1 Was ist KundenpreisManagerLX Pro? KundenpreisManagerLX Pro ist ein Programm zum einfachen Exportieren,

Mehr

R im Enterprise-Modus

R im Enterprise-Modus R im Enterprise-Modus Skalierbarkeit, Support und unternehmensweiter Einsatz Dr. Eike Nicklas HMS Konferenz 2014 Was ist R? R is a free software environment for statistical computing and graphics - www.r-project.org

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u)

Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u) Wie Fusion CRM die Datenqualität im Marketingprozess erhöhen kann (Fusion CRM@ec4u) Jeder kennt folgende Sätze aus seinem eigenen Unternehmen: Wieso sind so viele doppelte Einträge im System? Kann man

Mehr

Ausgewählte Kapitel der Systemsoftware: Cloud Computing

Ausgewählte Kapitel der Systemsoftware: Cloud Computing Ausgewählte Kapitel der Systemsoftware: Cloud Computing Zunächst heiter bis wolkig, später dauerhaft bedeckt Timo Hönig Friedrich-Alexander-Universität Erlangen-Nürnberg Lehrstuhl Informatik 4 (Verteilte

Mehr

Agilo [1] ist ein auf Trac [2] basierendes Scrum [3] Tool. Im Folgenden soll eine kurze Überischt gegeben werden, wie Agilo benutzt wird.

Agilo [1] ist ein auf Trac [2] basierendes Scrum [3] Tool. Im Folgenden soll eine kurze Überischt gegeben werden, wie Agilo benutzt wird. AGILO HOWTO Agilo [1] ist ein auf Trac [2] basierendes Scrum [3] Tool. Im Folgenden soll eine kurze Überischt gegeben werden, wie Agilo benutzt wird. ROLLEN IM TEAM In Scrum hat jedes Teammitglied eine

Mehr

e-procurement ein Trend wird erwachsen

e-procurement ein Trend wird erwachsen e-procurement ein Trend wird erwachsen Prof. Dr. Thomas Allweyer Folge 3: Auswahl von e-procurement-anbietern & Handlungsempfehlungen Inhalt e-procurement: Erwartungen und Erfahrungen... 02 Potenzial des

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Software EMEA Performance Tour 2013. 17.-19 Juni, Berlin

Software EMEA Performance Tour 2013. 17.-19 Juni, Berlin Software EMEA Performance Tour 2013 17.-19 Juni, Berlin Accenture s High Performance Analytics Demo-Umgebung Dr, Holger Muster (Accenture), 18. Juni 2013 Copyright 2012 Hewlett-Packard Development Company,

Mehr

Workflow-Management-Systeme

Workflow-Management-Systeme Workflow-Management-Systeme Vorlesung im Wintersemester 2007/2008 Dipl.Inform. Jutta Mülle Universität Karlsruhe, Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots Einleitung Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots von Irmela Herzog Im Rahmen der Herbsttagung der AG DANK (Datenanalyse und Numerische Klassifikation)

Mehr

Datamining Cup Lab 2005

Datamining Cup Lab 2005 Datamining Cup Lab 2005 Arnd Issler und Helga Velroyen 18. Juli 2005 Einleitung Jährlich wird der Datamining Cup 1 von der Firma Prudsys und der TU Chemnitz veranstaltet. Im Rahmen des Datamining-Cup-Praktikums

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

SemTalk Services. SemTalk UserMeeting 29.10.2010

SemTalk Services. SemTalk UserMeeting 29.10.2010 SemTalk Services SemTalk UserMeeting 29.10.2010 Problemstellung Immer mehr Anwender nutzen SemTalk in Verbindung mit SharePoint Mehr Visio Dokumente Viele Dokumente mit jeweils wenigen Seiten, aber starker

Mehr

Windows Server 2012 R2 Essentials & Hyper-V

Windows Server 2012 R2 Essentials & Hyper-V erklärt: Windows Server 2012 R2 Essentials & Hyper-V Windows Server 2012 R2 Essentials bietet gegenüber der Vorgängerversion die Möglichkeit, mit den Boardmitteln den Windows Server 2012 R2 Essentials

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Thementisch Anwendungsgebiete und

Thementisch Anwendungsgebiete und Thementisch Anwendungsgebiete und b Erfolgsgeschichten KMUs und Big Data Wien 08. Juni 2015 Hermann b Stern, Know-Center www.know-center.at Know-Center GmbH Know-Center Research Center for Data-driven

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr