Google Prediction API

Größe: px
Ab Seite anzeigen:

Download "Google Prediction API"

Transkript

1 Google Prediction API Proseminar Data Mining Simon Fakir Fakultät für Informatik Technische Universität München Kurzfassung Ziel dieses Dokuments ist es, eine Übersicht über die Funktionalität, Anwendungen und Risiken der Google Prediction API zu geben und anhand von Beispielen verständlich zu machen. Zusätzlich werden relevante Empfehlungen und Risiken vorgestellt, die gerade vor dem ersten Einsatz der API wertvoll sind. Schluesselworte Google Prediction API, Data-Mining, Maschine Learning I. EINLEITUNG Das Thema maschinelles Lernen genießt in zahlreichen Veröffentlichungen, besonders aktuell im Zusammenhang mit Big Data, große Aufmerksamkeit. Das liegt besonders daran, dass es eine der Schlüsseltechnologien ist, um aus den verfügbaren Daten wertvolle Informationen zu gewinnen [1]. Das es in diesem Bereich noch sehr viel Potential gibt, zeigen uns moderne Anwendungen wie Apples digitaler Assistent und Spracherkennung Siri [2]. Weitere Beispiele sind Rechtschreibkorrekturen [3] oder Amazons Produktvorschlagssystem [4]. Bei diesen Anbietern ist das maschinelle Lernen weit mehr als ein Zusatzservice, es ist zu echten Wettbewerbsvorteil geworden. Dabei kommt natürlich die Frage auf, unter welchen Umständen maschinelles Lernen sinnvoll eingesetzt werden kann. Dies wurde bereits an der California State University festgestellt [5]: 1) Sobald ein themen-spezifisches Problem besteht, für das zu wenig Wissen zur Verfügung steht, um einen passenden Algorithmus zu entwerfen. 2) Wenn ein großer Datenbestand vorliegt, aus dem eine interne Ordnung extrahiert und weiterverarbeitet werden soll. 3) Wenn Programme mit externen Veränderungen umgehen sollen. In vielen Unternehmen sind die notwendigen Daten in den Datenbanken vorhanden, werden aber zu wenig genutzt. Zu diesem Ergebnis kam eine Studie zum Thema Big Data Analytics von McKinsey [6]. Eine Ursache dafür ist der Mangel an qualifizierten Spezialisten im Analyse und Data- Mining-Bereich und der hohe Einarbeitungs- und Entwicklungsaufwand für lernende Software. Geht man von einer weiteren McKinsey Studie aus, werden im Jahr % - 60 % aller Deep Analytical stellen unbesetzt sein. Ebenso wird verdeutlicht, dass an diesen komplexen Problemen in der Regel interdisziplinär gearbeitet wird, von Ökonomen, Informatiker, angewandten Mathematiker und Statistiker [7]. Es lässt sich also davon ausgehen, dass die personellen als auch finanziellen Ressourcen in vielen Fällen nicht vorhanden sind. Die Google Prediction API adressiert genau dieses Problem, indem Google einen Webservice bereitstellt, der die mathematischen Algorithmen im Hintergrund automatisch einsetzt, dem Entwickler aber lediglich die notwendigen Schnittstellen bereitstellt. Dadurch ist es mit geringem Aufwand möglich, Datenspeicherung, maschinelles Lernen und Vorhersagen in die eigene Software zu integrieren [8]. Dazu kommt, dass innovative Themen oft zunächst in Pilotprojekten mit entsprechend kleinen Nutzerzahlen entwickelt werden. Gerade für Start-ups, die expandieren möchten müsste im Normalfall die leistungsstarke Hardware und komplexe Algorithmen eingekauft werden, weiter müssen die eigenen Algorithmen mit dem Geschäftsmodell skalieren können. Um dieses Problem zu vereinfachen, ist die Google Prediction API auf Skalierbarkeit ausgelegt, indem die Algorithmen auf verteilten Systemen arbeiten. Die Hypothese die der API vorausgeht ist, dass sie kosteneffizienter implementiert werden kann als eigene Spezialisten mit der Entwicklung zu beauftragen. Betrachtet man die oben genannten Gründe und stellt sie den niedrigen Kosten gegenüber, überwiegen in den meisten Szenarien die Vorteile. Die Prediction API nimmt beliebige Textdaten im CSV- Format entgegen und wertet diese mit automatischen Algorithmen aus. Da so geringe Vorgaben für die Eingabedaten existieren lässt sich die API in Einsatzgebieten verwenden, die weder Google noch die heutigen Entwickler absehen können. Beispiele für die Anwendung ist die automatische Erkennung von Sprachen, Spam-Erkennung, Betrugserkennung oder Kundenanalysen [9]. Sieht man sich Diskussionen von Entwicklern an, findet man auch konkretere Beispiele, darunter die automatische Prioritätsbewertung von Fehlerberichten oder vorgeschlagene Suchbegriffe für Forenbeiträge [10]. Nachdem die Motivation für die API erläutert wurde, werden im Folgenden Erfahrungswerte und Herangehensweisen eines realitätsnahen Anwendungsfalls vorgestellt werden. Dazu gliedert sich diese Arbeit in vier weitere Kapiel. Das Kapitel II zur Begriffsklärung und die folgenden drei: 1) Im Kapitel III wird ein realistscher Anwendungsfall mit entsprechender Vorgehensweise vorgestellt. 2) Das Kapitel IV behandelt die praktische Umsetzung und reale Rahmenbedingungen. 3) Im Kapitel V werden abschließend Risiken und Alternativen diskutiert.

2 II. BEGRIFFSKLÄRUNG A. Abhängige und unabhängige Variablen Die abhängigen Variablen (AV) und unabhängigen Variablen (UV) sind Begriffe, die im Rahmen der empirischen Forschung verwendet werden. Sie wiederum ist eine wichtige Grundlage für die Anwendung von maschinellem Lernen. Man geht davon aus, dass die unabhängigen Variablen die abhängigen Variablen beeinflussen, daher kommt auch die Namensgebung. Ein Teilgebiet der empirischen Wissenschaft beschäftigt sich damit, die Zusammenhänge tatsächlich nachzuweisen [11]. Ein praktisches Beispiel dafür ist das Wetter und der Wochentag als UV und die Anzahl der Menschen im Park als AV. Im Beispiel muss die Google Predicition API muss mit korrekten Zusammenhängen von Wochentagen (UVs) und Menschen im Park trainiert werden, wodurch das System selbstständig Zusammenhänge findet. Die gefunden Abhängigkeiten soll die Prediction API nutzen, um die abhängigen Variablen vorherzusagen. In diesem Beispiel also die Vorhersage, wie viele Menschen im Park zu erwarten wären, bei einem von uns gewähltem Wetter und Wochentag. B. Regression und Klassifikation Die Prediction API bietet, in der zum Zeitpunkt der Veröffentlichung aktuellen Version 1.5.1, zwei Modeltypen an, aus denen zur Modellierung gewählt werden muss: Die Regression und die Klassifikation. Die Wahl des Modeltyps hängt von dem Datentyp der abhängige Variable ab. Im Hintergrund wird dadurch die Wahl der Algorithmen beeinflusst. Die Klassifikation, wie der Name schon sagt, setzt voraus, dass ein Datensatz algorithmisch einer von mehreren Klassen zugeordnet werden soll. Im einfachsten Fall in ein binäres Ergebnis zum Beispiel 1 und 0, True und False oder positiv und negativ. Die Prediction API akzeptiert auch mehrere hundert Klassen, zum Beispiel verschiedene Kundengruppen. Ein Unterproblem davon könnte es ein, Texte zu segmentierten, so dass unstrukturierte Texte in ähnliche Gruppen klassifiziert werden [12]. Die Regression sagt numerische Werte vorher, die in der Regel kontinuierlich-skaliert sind. Zum Beispiel die Verkaufszahlen eines Onlineshops. Im Gegensatz zur Klassifikation ist das Regressionsmodell dafür geeignet Werte vorherzusagen. Im Allgemeinen unterscheiden sich die Datentypen darin, ob eine natürlich Ordnung mit messbarer Distanz zwischen den Werten besteht. Schulnoten haben einen gleichmäßigen Abstand zwischen den einzelnen Werten, die Nationalität dagegen folgt keiner natürlichen Reihenfolge. Da Google keine offiziellen Aussagen darüber trifft, welche Algorithmen verwendet werden, um die oben genannten Methoden auszuführen, können dazu keine weiteren Angaben gemacht werden. Der Entwickler muss sich mit dem Ergebnis zufrieden geben. C. Predictive Model Markup Language (PMML) Im Zusammenhang mit Data Mining und Vorhersagen darf die freie Modelsprache PMML nicht unerwähnt bleiben. Die XML-basierende Auszeichnungssprache ist eine der Industriestandards im Data-Mining-Bereich. Der besondere Vorteil liegt darin, dass es programmiersprachen- und plattformunabhängig ist und daher von verschiedenen Softwareanbietern unterstützt wird. Ein Beispiel wäre, dass ein Vorhersagemodell auf einer Testumgebung entwickelt werde, um es später auf eine Business Intelligence-Software zu übertragen. Dabei spielt es keine Rolle von welchem Softwarehersteller die Zielsoftware ist, solange sie den PMML Standard unterstützt [13]. Im Mai 2009 wurde PMML 4 veröffentlicht, dass auch von der Google Prediction API unterstützt wird [14]. III. ANWENDUNGSFALL Zur Veranschaulichung betrachten wir die Beispielfirma ACME Petrol AG und deren Anforderungen an eine neue Softwarekomponente. Die Firma ACME Petrol AG möchte in Zukunft die Benzinpreise deren Tankstellen langsam erhöhen und zwar immer so lange, bis sich die Kunden über die Benzinpreise negativ äußern. Die Idee entstand auf Basis einer Veröffentlichung, die besagt, dass Menschen langsame Änderungen nicht so stark wahrnehmen wie schnelle Veränderungen [15]. Um die Geschwindigkeit der Veränderungen festzulegen, sollen Twitterbeiträge in der Nähe der jeweiligen Tankstelle ausgewertet werden. Schwenkt die Stimmung um, sollen vorübergehend keine weiteren Preiserhöhung stattfinden. Die Prediction API soll in diesem Projekt die Twitterbeiträge automatisiert auf positiv, neutral oder negativ bewerten. Das Ergebnis könnte dann wie in Abbildung 1 aufbereitet werden. Abbildung 1. Beispieldarstellung der Anwendung [16] Die Karte der Vereinigtenden Staaten in Abbildung 1 zeigt dabei, die ausgewerteten Twitternachrichten mit einer Einfärbung abhängig von den inhaltlichen Reaktionen. Die Größe der Punkte soll dabei die Anzahl der einfließenden Nachrichten darstellen. Auf Basis dieser Visualisierung könnte ein Mitarbeiter die Benzinpreise in den jeweiligen Regionen anpassen. Zunächst soll die Vorgehensweise und das grundsätzliche Verständnis für die API erläutert werden. Auf Befehle wurde explizit verzichtet, da sie im Kapitel IV erläutert werden. Das Vorgehen gliedert sich in 4 Schritte, die in den folgenden Kapiteln genauer erläutert werden:

3 1) Vorbereitung der Trainingsdaten 2) Upload der Trainingsdaten 3) Modellierung und Training des Datenmodells 4) Verwendung der Vorhersagen (engl. Prediction) A. Vorbereitung der Trainingsdaten Zur Vorbereitung müssen sogenannte Trainingsdaten bereitgestellt werden, mit Hilfe derer wir das Datenmodell und Vorhersagemodell trainieren. Die Trainingsdaten erhalten korrekte Zuordnungen und zwar genau von dem Zusammenhang, der später unter anderen Umständen vorhergesagt werden soll. Die Prediction API benötigt diese Daten, um mit Hilfe von Algorithmen Zusammenhänge zu finden und daraus später Vorhersagen abzuleiten. Je größer die Menge der Daten und je deutlicher die Zusammenhänge sind, desto Zuverlässiger wird die Vorhersage. Die Trainingsdaten liegen oft bereits in Unternehmen vor, zum Beispiel im Datawarehouse, Protokolldateien oder Exceldateien. Im Regelfall handelt es sich hierbei um die historischen Daten, zum Beispiel die vergangenen Verkaufszahlen oder Wetterinformationen aus der zukünftige Werte abgeleitet werden sollen. Wie in folgender Tabelle ersichtlich, besteht ein Datensatz aus einer abhängigen Variablen und mindestens einer unabhängigen Variablen. Die abhängige Variable wäre in diesem Fall die richtige Klassifikation auf positiv, neutral oder negativ. In dem abgebildeten Fall gibt es dagegen nur eine unabhängige Variable, nämlich die Twitternachricht. Tabelle I BEISPIELHAFTER AUSZUG AUS DEN TRAININGSDATEN Richtiges Ergebnis (AV) Eingabedaten (UVs) Negativ Benzinpreise bei ACME sind unverschämt... Neutral Heute wieder bei ACME getankt... Positiv Ab zur Tankstelle, sau günstig #acme.. Negativ ACME, diese Benzinpreismafia (?) Zur Erhöhung der Zuverlässigkeit könnten hier noch weitere Daten hinzukommen, zum Beispiel die Anzahl verwendeter positiver Smileys und negativer Smileys. Die Wahl und Qualität der unabhängigen Variablen hat einen besonders großen Einfluss auf die Zuverlässigkeit der Vorhersage, worauf im Kapitel IV-C noch detailliert eingegangen wird. B. Upload der Trainingsdaten Stehen die Trainingsdaten bereit, bietet es sich an sie in einer üblichen Komma-separierten-Werte Datei (CSV) zu speichern. Zum Upload der Trainingsdaten ist zunächst die Aktivierung des Dienstes auf Googles Speicherdienst Google Storage notwendig. Die Registrierung erfordert eine Freischaltung über eine Kreditkarte (Stand 04/2013) und eine Aktivierung des Storage- und Google-Prediction-Dienstes. Daraufhin können die Trainingsdaten in den Google Storage übertragen werden. C. Modellierung des Datenmodells Sind die Daten im Cloud-Speicher abgelegt, wird das Datenmodell über einen API-Befehl erstellt. Dafür muss von uns die Datenquelle, der Modeltyp und optional ein PMML- Modell angegeben werden. Daneben sind noch einige weitere Angaben möglich, auf die in diesem Fall nicht eingegangen wird. Bei unserem Beispiel handelt es sich um eine Sentiment Analyse, die mit Hilfe der Klassifikationsalgorithmen durchgeführt wird. Entsprechend entscheiden wir uns beim Anlegen unseres Models für den Type Klassifikation. Nach der Erstellung des Modells beginnt ein Trainingsprozess der von wenigen Minuten bis zu einigen Stunden dauern kann. D. Verwendung der Vorhersage (Prediction) Nachdem die Vorbereitung, der Upload und der Trainingsprozess abgeschlossen ist, kann die Anwendung zur Vorhersage verwendet werden. Dafür wird ein Datensatz mit unabhängigen Variablen (UVs) benötigt. In unserem Beispiel senden wir Tweets an die API und erwarten, ob positiv, negativ oder neutral als Ergebnis geliefert wird. Zusätzlich erhält das Ergebnis einen Zuverlässigkeitswert (engl. confidence value) mit den Namen Score. Dazu ein Beispiel: Senden wir der Prediction API eine Anfragen mit den unabhängigen Variablen, in unserem Fall eine Twitternachricht, erhalten wir die folgenden Werte als Rückantwort: 1) outputlabel: Vorhergesagter Wert (z.b. positiv), also der Wert mit der höchsten Score. 2) outputmulti: Für jede mögliche Klassifikation die jeweilige erreichte Score als Fließkommazahl zwischen 0 und 1. Zum Beispiel: {negative:0,3 positive:0,4 neutral:0,3} Addiert man alle Scores zusammen erhält man 1, somit kann man die Score auch als Prozentwert sehen. Wie die Befehle und Rückantworten genau aussehen finden im folgenden Kapitel IV. IV. UMSETZUNG UND ERGEBNISSE In diesem Abschnitt werden reale Rahmenbedingungen und die praktische Umsetzung erläutert. Als Ausgangspunkt wird dafür der im letzten Abschnitt erläuterte Anwendungsfall herangezogen und nach dem beschriebenen Vorgehen umgesetzt. A. Anlegen des Models Zur Vorbereitung sind zunächst Trainingsdaten erforderlich. Die passenden Daten wurden von der Firma Sanders Analytics, Seattle bereitgestellt. Weitere Informationen und die Daten stehen unter folgender Adresse zur Verfügung: Der Datensatz besteht aus ca ausgewerteten Twitternachrichten mit jeweiligem Ergebnis. Im ersten Schritt nehmen wir uns der Vorbereitung der Trainingsdaten an. In unserem Fall liegen die Trainingsdaten als Komma-separierte-Werte-Datei (CSV) mit den Spalten Bewertung, Twitternachricht vor. Für den Upload kleinerer Daten ist das Webinterface ausreichend, wir nutzen allerdings das Kommandozeilenprogramm gsutil für die Übertragung.

4 Google Storage organisiert sich in buckets (dt. Eimer). Vereinfacht ausgedrückt kann man sich unter einem bucket einen Ordner vorstellen, der auf dem Google Servern weltweit eindeutig ist. Später lassen sich die Daten wieder mit diesem Bucketnamen identifizieren. Mit folgendem Befehl mb ( make bucket ) wird das Bucket mit dem Namen twitter-training angelegt. Der zweite Befehl cp kopiert die lokale CSV Datei dort hin. gsutil mb gs://twitter-training gsutil cp sentiment-training.csv gs:// training-twitter Mit der Bestätigung des Werkzeugs ist die CSV-Datei übertragen und bereit, um von der Prediction API eingelesen zu werden. Zur Erläuterung und Testen der API wird Google API Explorer empfohlen. Wir beginnen also mit dem Anlegen des Modells wofür der Befehl prediction.trainedmodels.insert bereit steht. Die wichtigsten Parameter sind 1) id: Ein eindeutiger Name für das Modell, in unserem Fall zum Beispiel twitter-sentiment-en 2) storagedatalocation: Pfad zu den Lerndaten in unserem Fall gs://training-twitter/training-twitter.csv 3) Modeltype: Handelt es sich um ein Regressions oder Klassifikationsmodel? Der Standardwert ist Klassifikation. In diesem Schritt gibt es noch weitere Parameter, die für das Praxisbeispiel nicht relevant sind, in der praktischen Anwendung jedoch sehr wohl, zum Beispiel der Import von PMML- Modellen. Eine ausführlich Erklärung ist auf der Website der Google Prediction API zu finden. Mit der Bestätigung beginnt der Server mit der Verarbeitung der bereitgestellten Daten. Die Dauer hängt von der Auslastung der Server und von der Größe des Datensatzes ab. Um den Zustand des Modells festzustellen steht Operation prediction.trainedmodels.get bereit. Als id Parameter muss nun die oben festgelegte id verwendet werden, hier twittersentiment-en. Das verkürzte Ergebnis sieht wie folgt aus: { "id": "twitter-sentiment-en", [..] "modelinfo": { "modeltype": "classification", [..] }, "trainingstatus": "DONE" Wie dem Parameter trainingstatus zu entnehmen ist, ist das Modell bereit zur Verwendung. Im folgenden nun noch ein Beispiel wie die Vorhersage mittels einer REST-POST-Anfrage im JSON-Format angesprochen wird: { "input": { "csvinstance": [ } } "The petrol prices today are very high! It s ACME Petrols fault!" ] Die Werte innerhalb der Variable csvinstance sind die unabhängigen Variablen, hier eine Twitternachricht, die bewertet werden soll. Passend dazu die verkürzte Antwort: { [..] "outputlabel": "Negative", "outputmulti": [ { "label": "Neutral", "score": }, { "label": "Negative", "score": }, { "label": "Positive", "score": } ] } Das outputlabel gibt wie erwartet den Wert Negative an - damit ist das Modell bereit zur Verwendung innerhalb einer Softwarekomponente. B. Kosten Die Nutzung der Google Prediction API, sowie der Storage API ist für kleinere Projekte kostenlos. Die Kriterien sind die Anzahl der Vorhersagen pro Monat und die Dateigröße der Trainingsdaten. Die Folgende Tabelle gibt einen groben Überblick über die konkret anfallenden Kosten. Ressource Kostenlos pro weitere Vorhersagen pro Monat 0,50 $ Training-Data Updates pro Monat 0,05 $ Speicherplatz* (in MB) dauerhaft max. 0,085 $ pro Monat Tabelle II KOSTEN DER PREDICTION API [17] [18] Die Angaben wurden von der Google Prediction API Website und Google Cloud Storage Webseite übernommen [17] [18]. Anhand der Angaben in Tabelle II wird deutlich, dass die Kosten sich im Cent-Bereich bewegen. Gerade bei kleinen bis mittleren Projekten bewegen sie sich damit in einem Rahmen, der sogar günstiger ist als die reinen Serverkosten einer selbst installierten Lösung. C. Qualität Um einen tatsächlichen Eindruck über die Qualität der Sentimentanalyse aufzuzeigen, wird auf ein Beispiel zurückgegriffen, das unserem Anwendungsfall nahe kommt. Es geht darum Twitternachrichten auszuwerten, um das reale Wetterempfinden festzustellen. Die Twitternachrichten wurden mit der Google Prediction API auf positiv, neutral und negativ kategorisiert. Alle Zahlwerte stammen, falls nicht anders gekennzeichnet, aus diesem Beispiel [16]. Ausgeführt wurde der Versuch von Dialog Earth, einem Zusammenschluss des Institute on the Environment (IonE) an der Universität Minnesota und dem Foundation for Environmental Research [19]. Der logische erste Schritt, um die Zuverlässigkeit der Ergebnisse zu verbessern, ist es die Anzahl der Trainingsdatensätze

5 zu erhöhen. So haben die Algorithmen ein höheres Vergleichsmaterial und es sind bessere Ergebnisse zu erwarten. Die folgenden Ergebnisse soll einen Eindruck über den Zusammenhang zwischen der Modellgröße und der Modellgenauigkeit geben. Verständnis des jeweiligen Anwendungsfalls erreicht werden. Als Beispiel zur Optimierung der Eingabedaten könnten hier Smileys in ein natürliches Wort umgewandelt werden - so können die Textanalyse-Algorithmen mit Happy mehr anfangen als mit :-). Ausgehend von einem festen Ziel, das mit der API erreicht werden soll, ist die Qualität der Vorhersagen von drei Einflussfaktoren abhängig: 1) Anzahl und Aufbereitung der Trainingsdaten 2) Die Auswahl der unabhängigen Variablen 3) Die Stärke des Zusammenhangs zwischen AV und UVs Dies geht unmittelbar daraus hervor, dass dies die einzigen Daten sind, die ein Entwickler der API bereitstellen kann. Abbildung 2. Modellgenauigkeit im Verhältnis zur Modellgröße V. DISKUSSION UND ALTERNATIVEN Um zu beantworten, auf welche Rahmenbedingungen zu achten ist, werden in diesem Abschnitt noch Risiken, Einschränkungen und Bedingungen diskutiert, über die man sich vor der Verwendung der API vertraut sein sollte. In dem oben genannten Beispiel wurde die Prediction API mit unterschiedlichen Mengen an Trainingsdaten trainiert. Um die Zuverlässigkeit der Antworten zu prüfen, wurden noch Testdatensätze zurückgehalten, die die Prediction API nicht kannte. Der Zuverlässigkeitswert gibt an, in wie viel Prozent der Fälle die API eine richtige Bewertung durchgeführt hat. Selbstverständlich ist eine Qualitätssteigerung mit höheren Datensätzen zu erkennen. Bei drei möglichen Ergebnissen wäre die Baseline 33,33% Zuverlässigkeit, im Vergleich dazu liefert die API bereits bei Sätzen ein wesentlich besseres Ergebnis. Interessanter ist der Vergleich zwischen Datensätzen ganz links und ganz rechts. Eine Erhöhung der Datensätze um den Faktor 20 wirkt sich mit ca. 7 % Verbesserung auf die Zuverlässigkeit aus. Außerdem zeigt die abflachende Kurve nach oben hin an, dass die Verbesserung abnimmt. Zwischen und Datensätzen ist lediglich noch eine Verbesserung des Ergebnisses um ca. 1% erreicht worden, obwohl die Anzahl sich fast verdoppelt hat. Die Verbesserung nimmt folglich proportional zu den eingesetzten Datensätzen stark ab. Vermuten lässt sich ein asympotisches Verhalten zwischen 71% und 80% Zuverlässigkeit. Betrachtet man die Daten noch einmal aus einem Schritt entfernt, stellt man fest, dass es natürliche Sprachelemente gibt, die algorithmisch nur schwer zu erfassen sind. Ein Beispiel dafür sind Ironie und Sarkasmus in den Nachrichten, sowie kontext-abhängige Nachrichten, die auch für einen menschlichen Leser ohne Zusammenhang nicht nachvollziehbar sind. So ist es eine logische Schlussfolgerung, dass ein bestimmter Prozentsatz der Eingabedaten durch die Google Algorithmen nicht korrekt erfasst werden können. Zum Punkt Qualität der Vorhersage soll festgehalten werden, dass die Genauigkeit nicht nur durch eine größere Zahl an Trainingsdaten verbessert werden kann. Viel mehr kann durch eine Vorselektion der Trainingsdaten und über gutes A. Einschränkungen und Risiken Die Prediction API unterstützt keine komplexen Datentypen wie Video, Audio oder Bilder. Die Daten die verarbeitet werden sollen, müssen auf Text oder numerische Daten herunter gerechnet werden, bevor die API sie verwenden kann. Die Nutzung eines Webservices bürgt selbstverständlich die Gefahr der Abhängigkeit. Gesetzt der Fall, dass die Kernleistung der Software auf der Google Prediction API basiert, ist es trotzdem möglich, dass Google seine Dienste abschaltet. Diese Bedingung wird in der Endnutzervereinbarung wie folgt beschrieben: Google may terminate this Agreement for its convenience at any time without liability to Customer. Subject to Section 7, Google may discontinue any Services or any portion or feature for any reason at any time without liability to Customer. [20] Dies wird such als Vendor-Lockin bezeichnet [21]. Wie bei Cloudanwendungen üblich, ist es ebenso nicht möglich die Algorithmen an eigene Bedürfnisse anzupassen. Dies hört sich zunächst trivial an, sollte eine Anpassung aus dringend notwendig sein, muss die Google Prediction API durch einen anderen Dienst ausgetauscht werden. Entsprechend sollte vor der Integration geprüft werden, ob solche Anforderungen, wie zum Beispiel Gesetzesänderungen, absehbar sind. Ein Beispiel für die letzten beiden Punkte könnte es sein, dass personenbezogene Daten zur Vorhersage verwendet werden und dies nicht mit dem Datenschutzgesetz einhergehen. B. PMML für die Unabhängigkeit Während der Umsetzung wurde erwähnt, dass die Google Prediction API auch ein PMML-Format als Eingabetyp akzeptiert. Definiert man sein Model selbst mit PMML lässt sich dieses Format auch in andere Software importieren, wodurch die Abhängigkeit von Google etwas abgemildert wird.

6 C. Alternativen Angesichts der erläuterten Nachteile der API ist zu bedenken, dass noch weitere Anbieter auf dem selben Markt existieren. Zum Beispiel das Unternehmen Directed Edge oder BigML. Selbstverständlich bringt jeder Anbieter seine Vor- und Nachteile mit, die unter Umständen höhere Konfigurationsaufwände mit sich bringen. Steht eigenes Fachpersonal zur Verfügung kann es auch interessant sein, eigene Teile der Software entwerfen und auf das Apache Mahout-Toolkit zurückgreifen, welches als Algorithmen-Framework zu sehen ist. Apache Mahout ist Teil des Hadoop Projektes und daher auch mit anderen Hadoop Projekten kompatibel. Hadoop macht eine einfache Skalierung und wird außerdem bereits von verschiedenen Cloudcomputing-Dienstleistern angeboten. Die Vor- und Nachteile der Alternativen lassen sich nicht allgemeingültig beantworten und sind mit den Anforderungen im Einzelfall abzugleichen. VI. ZUSAMMENFASSUNG Der ursprüngliche Gedanke der API ist es, maschinelles Lernen mit geringem Aufwand zu ermöglichen. Durch die Prediction API, ist es mit geringstem Konfigurationsaufwand und ohne jegliches Wissen über Fachalgorithmen möglich maschinelles Lernen einzusetzen. Der Programmierer muss überhaupt nicht wissen, wie die komplexen Algorithmen arbeiten oder welche zum Einsatz kommen, um das gewünschte Ergebnis erreichen. Die Kosten die Google dafür verlangt sind so verschwindend gering, dass sie nur selten eine Hemmschwelle sein werden. Die Ziele sind also in vollem Maße erfüllt. Dennoch entsteht eine Abhängigkeit mit der die diskutierten Einschränkungen und Risiken einher gehen. Vor jedem Projekte muss daher sorgfältig geprüft werden, ob ein Unternehmen diese Umstände akzeptieren kann. [8] J. Zander and P. J. Mosterman, Technical engine for democratization of modeling, simulations, and predictions, in Proceedings of the Winter Simulation Conference, ser. WSC 12. Winter Simulation Conference, 2012, pp. 228:1 228:14. [9] [Online]. Available: https://developers.google.com/prediction/ (Letzter Zugriff: ) [10] [Online]. Available: (Letzter Zugriff ) [11] B. B. Flynn, S. Sakakibara, R. G. Schroeder, K. A. Bates, and E. J. Flynn, Empirical research methods in operations management, Journal of operations management, vol. 9, no. 2, pp , [12] H. Yu, C. Zhai, and J. Han, Text classification from positive and unlabeled documents, in Proceedings of the twelfth international conference on Information and knowledge management, ser. CIKM 03. New York, NY, USA: ACM, 2003, pp [13] R. Pechter, What s pmml and what s new in pmml 4.0? SIGKDD Explor. Newsl., vol. 11, no. 1, pp , Nov [14] [Online]. Available: https://developers.google.com/prediction/docs/pmmlschema (Letzter Zugriff ) [15] J. D. Campbell, B. Chew, and L. S. Scratchley, Cognitive and emotional reactions to daily events: The effects of self-esteem and self-complexity, Journal of Personality, vol. 59, no. 3, pp , [16] (2012, 02). [Online]. Available: prediction api crowdflower/ (Letzter Zugriff ) [17] [Online]. Available: https://cloud.google.com/pricing/cloud-storage (Letzter Zugriff ) [18] [Online]. Available: https://developers.google.com/prediction/docs/pricing (Letzter Zugriff ) [19] [Online]. Available: (Letzter Zugriff ) [20] [Online]. Available: https://developers.google.com/prediction/docs/terms (Letzter Zugriff ) [21] C. Ragusa and A. Puliafito, Running business applications in the cloud: A use case perspective, in Euro-Par 2010 Parallel Processing Workshops, ser. Lecture Notes in Computer Science, M. Guarracino, F. Vivien, J. Träff, M. Cannatoro, M. Danelutto, A. Hast, F. Perla, A. Knüpfer, B. Martino, and M. Alexander, Eds. Springer Berlin Heidelberg, 2011, vol. 6586, pp LITERATUR [1] I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., [2] R. Hafen and M. Henry, Speech information retrieval: a review, Multimedia Systems, vol. 18, no. 6, pp , [3] C. Whitelaw, B. Hutchinson, G. Y. Chung, and G. Ellis, Using the web for language independent spellchecking and autocorrection, in Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2 - Volume 2, ser. EMNLP 09. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009, pp [4] G. Takács, I. Pilászy, B. Németh, and D. Tikk, Scalable collaborative filtering approaches for large recommender systems, J. Mach. Learn. Res., vol. 10, pp , Jun [5] T. Ragg, F. Padberg, and R. Schoknecht, Applying machine learning to solve an estimation problem in software inspections, in Artificial Neural Networks ICANN 2002, ser. Lecture Notes in Computer Science, J. Dorronsoro, Ed. Springer Berlin Heidelberg, 2002, vol. 2415, pp [6] J. Manyikac, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, Tech. Rep., May [7] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, Tech. Rep., June 2011.

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN T-SYSTEMS MULTIMEDIA SOLUTIONS GMBH, 16. FEBRUAR 2012 1. Schlüsselworte Semantic Web, Opinion Mining, Sentiment Analysis, Stimmungsanalyse,

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Analyse von Student-Studentund Student-Tutor-Interaktionen

Analyse von Student-Studentund Student-Tutor-Interaktionen Analyse von Student-Studentund Student-Tutor-Interaktionen Nils Montenegro Humboldt-Universität zu Berlin 1 / 25 Einleitung Wozu Interaktionen analysieren? Wie kann ein System eingreifen? Wie kann man

Mehr

eassessment Oracle DB Engine Whitepaper

eassessment Oracle DB Engine Whitepaper eassessment Oracle DB Engine Whitepaper DOKUMENT: TYP: eassessment Oracle DB Engine Whitepaper Plattformdokumentation ERSTELLT VON: nova ratio AG Universitätsstraße 3 56070 Koblenz Deutschland VERSION:

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

ProCall 5 Enterprise

ProCall 5 Enterprise ProCall 5 Enterprise Installationsanleitung Upgradeverfahren von ProCall 4+ Enterprise auf ProCall 5 Enterprise ProCall 5 Enterprise Upgrade Seite 1 von 10 Rechtliche Hinweise / Impressum Die Angaben in

Mehr

RAID Redundant Array of Independent [Inexpensive] Disks

RAID Redundant Array of Independent [Inexpensive] Disks RAID Redundant Array of Independent [Inexpensive] Disks Stefan Wexel Proseminar Algorithms and Data Structures im WS 2011/2012 Rheinisch-Westfälische Technische Hochschule Aachen Lehrstuhl für Informatik

Mehr

ML-Werkzeuge und ihre Anwendung

ML-Werkzeuge und ihre Anwendung Kleine Einführung: und ihre Anwendung martin.loesch@kit.edu (0721) 608 45944 Motivation Einsatz von maschinellem Lernen erfordert durchdachtes Vorgehen Programmieren grundlegender Verfahren aufwändig fehlerträchtig

Mehr

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014

Text Mining. Joachim Schole. Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg. Grundseminar, WS 2014 Text Mining Joachim Schole Fakultät Technik und Informatik Hochschule für angewandte Wissenschaften Hamburg Grundseminar, WS 2014 Joachim Schole (HAW Hamburg) Text Mining Grundseminar, WS 2014 1 / 26 Agenda

Mehr

GoGrid Hochschule Mannheim

GoGrid Hochschule Mannheim Christoph Eikermann GoGrid Hochschule Mannheim WS0910 1/25 GoGrid Hochschule Mannheim Christoph Eikermann Fakultät für Informatik Hochschule Mannheim c.eikermann@googlemail.com 11.12.2009 Christoph Eikermann

Mehr

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper) Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10 Technische Informationen (White Paper) Inhaltsverzeichnis 1. Über dieses Dokument... 3 2. Überblick... 3 3. Upgrade Verfahren... 4

Mehr

Überblick über COPYDISCOUNT.CH

Überblick über COPYDISCOUNT.CH Überblick über COPYDISCOUNT.CH Pläne, Dokumente, Verrechnungsangaben usw. werden projektbezogen abgelegt und können von Ihnen rund um die Uhr verwaltet werden. Bestellungen können online zusammengestellt

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN VERSION 1.0 OPTIMIERUNG VON ABFRAGEN IN MS SQL

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

Kurzanleitung zu. von Daniel Jettka 18.11.2008

Kurzanleitung zu. von Daniel Jettka 18.11.2008 Kurzanleitung zu Tigris.org Open Source Software Engineering Tools von Daniel Jettka 18.11.2008 Inhaltsverzeichnis 1.Einführung...1 2.Das Projektarchivs...3 2.1.Anlegen des Projektarchivs...3 2.2.Organisation

Mehr

Antwortzeitverhalten von Online Storage Services im Vergleich

Antwortzeitverhalten von Online Storage Services im Vergleich EPOD Encrypted Private Online Disc Antwortzeitverhalten von Online Storage Services im Vergleich Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee

Mehr

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim

Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Cloud-Computing Seminar Hochschule Mannheim WS0910 1/26 Aufbau eigener Cloud-Infrastrukturen mit Eucalyptus Hochschule Mannheim Andreas Ries Fakultät für Informatik Hochschule Mannheim ries.andreas@web.de

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Schnellanleitung: Bilder für das Internet optimieren

Schnellanleitung: Bilder für das Internet optimieren Inhaltsverzeichnis Inhaltsverzeichnis... 1 Schnellanleitung: Bilder für das Internet optimieren... 1 Bilder für das Internet optimieren... 2 Auflösung bei Grafiken für Printmedien... 2 Auflösung bei Grafiken

Mehr

asyoffer Dokumentation Android Apps

asyoffer Dokumentation Android Apps asyoffer Dokumentation Android Apps - 1 - Herausgeber: vh software tools Volker Hülsmann e.k. Waldenburger Weg 20 22885 Barsbüttel Kontakt: E-Mail: support@vh-tools.de Copyright: Alle Texte und Grafiken

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie BIG DATA Future Opportunities and Challanges in the German Industry Zusammenfassung Die Menge der verfügbaren

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

CSV Import WP-Meldung.doc

CSV Import WP-Meldung.doc Weiterbildungsdatenbank Version: 1.0 Status: freigegeben Datum: 06.08.2013 Dateiname: Dokumentvorlage: CSV Import WP-Meldung.doc Dokumentvorlage_5.1_Standarddokument Inhaltsverzeichnis 1 Einleitung...

Mehr

GADIV GmbH KVKenn 3.x

GADIV GmbH KVKenn 3.x Einrichten und konfigurieren Vorbereitungen Ist das Basisprodukt GADIV CC auf Ihrem Rechner installiert bzw. haben Sie Zugriff auf GADIV CC auf einem Terminal-Server? Sollte das nicht der Fall sein, so

Mehr

ISA Server 2004 - Best Practice Analyzer

ISA Server 2004 - Best Practice Analyzer ISA Server 2004 - Best Practice Analyzer Die Informationen in diesem Artikel beziehen sich auf: Microsoft ISA Server 2004 Seit dem 08.12.2005 steht der Microsoft ISA Server 2004 Best Practice Analyzer

Mehr

IT-Sicherheit mobiler Applikationen zur Unterstützung von Geschäftsprozessen. Bachelorarbeit

IT-Sicherheit mobiler Applikationen zur Unterstützung von Geschäftsprozessen. Bachelorarbeit IT-Sicherheit mobiler Applikationen zur Unterstützung von Geschäftsprozessen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft der

Mehr

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Mission TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden Der Weg zu einem datengesteuerten Unternehmen # Datenquellen x Größe der Daten Basic BI & Analytics Aufbau eines

Mehr

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Datei: Asklepius DA Flyer_Leistung_2 Seite: 1 von:5 1 Umfassende Datenanalyse Mit Asklepius-DA

Mehr

How- to. E- Mail- Marketing How- to. Anrede personalisieren. Ihr Kontakt zur Inxmail Academy

How- to. E- Mail- Marketing How- to. Anrede personalisieren. Ihr Kontakt zur Inxmail Academy E- Mail- Marketing How- to How- to Anrede personalisieren Personalisierung ist ein wichtiges Kundenbindungsinstrument, durch das die Aufmerksamkeit des Empfängers erheblich gesteigert werden kann. Dieser

Mehr

RE.one. Self Service Information Management für die Fachabteilung

RE.one. Self Service Information Management für die Fachabteilung RE.one Self Service Information Management für die Fachabteilung Das Ziel Verwertbare Informationen aus Daten gewinnen Unsere Vision Daten Info Data Warehousing radikal vereinfachen in einem Tool Die Aufgabe

Mehr

Release Notes für die Online-Version der Perinorm - September 2014

Release Notes für die Online-Version der Perinorm - September 2014 Release Notes für die Online-Version der Perinorm - September 2014 Mit der Ausgabe September 2014 wird die Software für die Online-Version von Perinorm aktualisiert. Einige Verbesserungen, die mit diesem

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Microsoft Office 2010

Microsoft Office 2010 Microsoft Office 2010 Office-Anpassungstool Author(s): Paolo Sferrazzo Version: 1.0 Erstellt am: 15.06.12 Letzte Änderung: - 1 / 12 Hinweis: Copyright 2006,. Alle Rechte vorbehalten. Der Inhalt dieses

Mehr

Dokumentation KundenpreisManagerLX Pro. Version 2.0

Dokumentation KundenpreisManagerLX Pro. Version 2.0 Dokumentation KundenpreisManagerLX Pro Version 2.0 2 Dokumentation KundenpreisManagerLX Pro Version 2.0.207.1 Was ist KundenpreisManagerLX Pro? KundenpreisManagerLX Pro ist ein Programm zum einfachen Exportieren,

Mehr

Paragon Boot Media Builder

Paragon Boot Media Builder PARAGON Software GmbH Heinrich von Stephan Str. 5c 79100 Freiburg, Germany Tel. +49 (0) 761 59018201 Fax +49 (0) 761 59018130 Internet www.paragon software.de E Mail vertrieb@paragon software.de Paragon

Mehr

Der Cloud-Dienst Windows Azure

Der Cloud-Dienst Windows Azure Der Cloud-Dienst Windows Azure Master-Seminar Cloud Computing Wintersemester 2013/2014 Sven Friedrichs 07.02.2014 Sven Friedrichs Der Cloud-Dienst Windows Azure 2 Gliederung Einleitung Aufbau und Angebot

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818

Text Mining Praktikum. Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Text Mining Praktikum Durchführung: Andreas Niekler Email: aniekler@informatik.uni-leipzig.de Zimmer: Paulinum (P) 818 Rahmenbedingungen Gruppen von 2- (max)4 Personen Jede Gruppe erhält eine Aufgabe Die

Mehr

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH BEISPIEL FLUGHAFEN BERLIN-BRANDENBURG Offizielle Webseite des Flughafens https://ber.piratenfraktion-berlin.de/projekt/

Mehr

EDI CONNECT. für Microsoft Dynamics NAV. Auf einen Blick:

EDI CONNECT. für Microsoft Dynamics NAV. Auf einen Blick: Seite 1 PROTAKT Speziallösung EDI Connect Auf einen Blick: EDI CONNECT für Microsoft Dynamics NAV Elektronischer Datenaustausch ganz effizient und einfach über Ihr Microsoft Dynamics NAV System. Vollständige

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf

Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf Predictive Modeling for Sports and Gaming Eine Präsentation von Manuel Wolf 28.05.14 Inhalt Die Glückssträhne Statistische Simulationen Baseball, Basketball & andere Sportarten Maschinelles Lernen Windhund-und

Mehr

Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013. 2013 Adobe Systems Incorporated. All Rights Reserved. 1

Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013. 2013 Adobe Systems Incorporated. All Rights Reserved. 1 Adobe Creative Cloud for Teams @ Fujitsu Software Tage 2013 2013 Adobe Systems Incorporated. All Rights Reserved. 1 Creative Suite CS6 TLP + CLP Lizenzmodelle 2013 Adobe Systems Incorporated. All Rights

Mehr

IBM SPSS Modeler 14.2 Batch-Installation für Windows

IBM SPSS Modeler 14.2 Batch-Installation für Windows IBM SPSS Modeler 14.2 Batch-Installation für Windows Die folgenden Anweisungen gelten für die Installation von IBM SPSS Modeler Batch Version 14.2. IBM SPSS Modeler Batch bietet sämtliche Analysefunktionen

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Tutorial Grundlagen der Softwareverteilung

Tutorial Grundlagen der Softwareverteilung Tutorial Grundlagen der Softwareverteilung Inhaltsverzeichnis 1. Einführung... 3 2. Clientsysteme einrichten... 3 2.1 Den SDI Agent verteilen... 3 2.2 Grundeinstellungen festlegen... 4 3. Softwareverteiler...

Mehr

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN ANALYSE VON OLAP-AUFBEREITUNGSFEHLERN

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Datenschutzerklärung. Published: 2009-08-03 Author: 42media services GmbH

Datenschutzerklärung. Published: 2009-08-03 Author: 42media services GmbH Datenschutzerklärung Published: 2009-08-03 Author: 42media services GmbH Inhaltsverzeichnis Datenschutzerklärung... 4 Datenverarbeitung auf dieser Internetseite... 4 Cookies... 4 Newsletter... 4 Auskunftsrecht...

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

So geht s Schritt-für-Schritt-Anleitung

So geht s Schritt-für-Schritt-Anleitung So geht s Schritt-für-Schritt-Anleitung Software Unternehmer Suite Professional und Mittelstand / Lohn & Gehalt Professional / Buchhaltung Professional Thema Netzwerkinstallation Version/Datum V 15.0.5107

Mehr

TimeSafe Leistungserfassung

TimeSafe Leistungserfassung Keep your time safe. TimeSafe Leistungserfassung Adressimport 1/8 Inhaltsverzeichnis Inhaltsverzeichnis... 2 1 Allgemeines... 3 1.1 Adressen in der TimeSafe Leistungserfassung... 3 1.2 Organisationen und/oder

Mehr

Anlage E.1 Fragenkatalog Nr. 4

Anlage E.1 Fragenkatalog Nr. 4 Anlage E.1 Fragenkatalog Nr. 4 Hinweise: Sofern sich aufgrund von Bieterfragen Änderungen/Ergänzungen an/zu den Vertragsunterlagen ergeben, werden Sie mit diesem Fragenkatalog hierüber informiert. Fragen

Mehr

Dokumentation QuickHMI-Schnittstelle für Oracle Datenbanken

Dokumentation QuickHMI-Schnittstelle für Oracle Datenbanken Dokumentation QuickHMI-Schnittstelle für Oracle Datenbanken Version 2.0 D-28359 Bremen info@indi-systems.de Tel + 49 421-989703-30 Fax + 49 421-989703-39 Inhaltsverzeichnis Was ist die QuickHMI-Schnittstelle

Mehr

Fax.de Web-Kundencenter

Fax.de Web-Kundencenter Fax.de Web-Kundencenter Das Web-Kundencenter ist ein Kommunikationszentrum direkt in Ihrem Browser. Sie können es nutzen wo immer Sie gerade sind. Mit der FAX.de Registrierung haben Sie eine Kundennummer

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Handbuch für Android 1.5

Handbuch für Android 1.5 Handbuch für Android 1.5 1 Inhaltsverzeichnis 1 Leistungsumfang... 3 1.1 Über Boxcryptor Classic... 3 1.2 Über dieses Handbuch... 3 2. Installation... 5 3. Grundfunktionen... 5 3.1 Einrichtung von Boxcryptor

Mehr

Das Beste aus zwei Welten

Das Beste aus zwei Welten : Das Beste aus zwei Welten Das Beste aus zwei Welten Aufruf von R Funktionen mit PROC IML KSFE 2012 08.03.2012 ist IT Dienstleister für Business Intelligence und Datenanalyse gibt es seit über 20 Jahren

Mehr

Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009)

Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009) Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009) 1. Auswertung der personenbezogenen Daten Insgesamt besuchten 271 Lehrerinnen und Lehrer aus ganz Bayern und Oberösterreich die Universität

Mehr

Funktionsübersicht. Beschreibung der zentralen Funktionen von PLOX

Funktionsübersicht. Beschreibung der zentralen Funktionen von PLOX Funktionsübersicht Beschreibung der zentralen Funktionen von PLOX Seite 2 Inhaltsverzeichnis 1. Überblick Architektur... 2 2. PLOX-Menüleiste: Eine Toolbox voll nützlicher Werkzeuge... 3 2.1 Login... 3

Mehr

Normfall 7.2. Whitepaper. Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von:

Normfall 7.2. Whitepaper. Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von: Normfall 7.2 Whitepaper Erstellen eines Normfall Projektspeichers auf Basis einer vorhandenen Installation von: Microsoft SQL Server 2008 R2/2012/2014 2014 Normfall GmbH Alle Rechte vorbehalten. Vorbemerkungen

Mehr

NEUERUNGEN IN VIVENDI MOBIL 5

NEUERUNGEN IN VIVENDI MOBIL 5 NEUERUNGEN IN VIVENDI MOBIL 5 PRODUKT(E): Vivendi Mobil KATEGORIE: Sonstiges VERSION: ab 5.00 Frage: In der Versionshistorie ist von der neuen Vivendi Mobil-Version 5 zu lesen. Welche Vorteile und Änderungen

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Datenschutzerklärung ENIGO

Datenschutzerklärung ENIGO Datenschutzerklärung ENIGO Wir, die, nehmen den Schutz Ihrer persönlichen Daten sehr ernst und halten uns strikt an die Regeln der Datenschutzgesetze. Personenbezogene Daten werden auf dieser Website nur

Mehr

Leitfaden zur Installation von BitByters.Backup

Leitfaden zur Installation von BitByters.Backup Leitfaden zur Installation von BitByters.Backup Der BitByters.Backup - DASIService ist ein Tool mit dem Sie Ihre Datensicherung organisieren können. Es ist nicht nur ein reines Online- Sicherungstool,

Mehr

Datenschutzerklärung der Gütermann GmbH

Datenschutzerklärung der Gütermann GmbH Stand: 01. März 2014 Datenschutzerklärung der Datenschutzrechtlich verantwortliche Stelle ist die,, D-79261. Datenschutz ist unser Anliegen Wir freuen uns über Ihr Interesse an unserem Unternehmen und

Mehr

Software-Installation

Software-Installation Software-Installation Hardware und Betriebssystemanforderungen Mindestens Pentium CPU mit 166 MHz und 32 MB RAM, CD-Rom Laufwerk, COM Anschluss Microsoft Windows 95/98, NT 4, 2000 Professional, XP Microsoft

Mehr

PARAGON SYSTEM UPGRADE UTILITIES

PARAGON SYSTEM UPGRADE UTILITIES PARAGON SYSTEM UPGRADE UTILITIES VIRTUALISIERUNG EINES SYSTEMS AUS ZUVOR ERSTELLTER SICHERUNG 1. Virtualisierung eines Systems aus zuvor erstellter Sicherung... 2 2. Sicherung in eine virtuelle Festplatte

Mehr

So geht's: Import von Daten in den address manager

So geht's: Import von Daten in den address manager combit GmbH Untere Laube 30 78462 Konstanz So geht's: Import von Daten in den address manager Einleitung 2 Voraussetzungen 2 Beispiele aus der Praxis 3 Beispiel 1 Import einer Excel Tabelle 3 Beispiel

Mehr

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29)

MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) MySQL Community Server 5.6 Installationsbeispiel (Ab 5.5.29) Dieses Dokument beschreibt das Herunterladen der Serversoftware, die Installation und Konfiguration der Software. Bevor mit der Migration der

Mehr

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon

Visualisierung der Eidolon Auswertung. VisEiA. Graphischer Client für das Emailspiel Eidolon Visualisierung der Eidolon Auswertung VisEiA Graphischer Client für das Emailspiel Eidolon Entstanden im Ramen einer Seminararbeit in Informatik Universität Fribourg, Schweiz david.buchmann@gmx.net http://getit.at/viseia/

Mehr

Google Analytics Premium FAQ

Google Analytics Premium FAQ Google Analytics Premium FAQ Inhaltsverzeichnis: Allgemein... 2 Datenschutz... 2 Features... 3 Service Level Agreement und Support... 3 Anforderungen und weiteres... 4 KONTAKT... 5 1 Allgemein Wird Google

Mehr

Schnellstartanleitung. Version R9. Deutsch

Schnellstartanleitung. Version R9. Deutsch Data Backup Schnellstartanleitung Version R9 Deutsch März 19, 2015 Agreement The purchase and use of all Software and Services is subject to the Agreement as defined in Kaseya s Click-Accept EULATOS as

Mehr

Softwaretool Data Delivery Designer

Softwaretool Data Delivery Designer Softwaretool Data Delivery Designer 1. Einführung 1.1 Ausgangslage In Unternehmen existieren verschiedene und häufig sehr heterogene Informationssysteme die durch unterschiedliche Softwarelösungen verwaltet

Mehr

DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE

DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE DOKUMENTATION MAAS - MONITORING AS A SERVICE DRESDEN, 08.10.2009 CHRISTIAN.KNAUER@INF.TU-DRESEDEN.DE Dokumentation MaaS - Monitoring as a Service Inhalt 1. MaaS - Monitoring as Service... 3 1.1 Einleitung...

Mehr

USER CASE: SCOUT ALS FRAMEWORK FÜR FINANCIAL TECH

USER CASE: SCOUT ALS FRAMEWORK FÜR FINANCIAL TECH USER CASE: 2. Scout User Group Meeting eclipsecon Unconference 2015 LUDWIGSBURG, 2. NOVEMBER 2015» DAVID KLEIN, ENRION GMBH Content 1. Kurzvorstellung Enrion 2. Die Suche nach einem passenden Framework

Mehr

Large Scale Data Management

Large Scale Data Management Large Scale Data Management Beirat für Informationsgesellschaft / GOING LOCAL Wien, 21. November 2011 Prof. Dr. Wolrad Rommel FTW Forschungszentrum Telekommunikation Wien rommel@ftw.at Gartner's 2011 Hype

Mehr

Datenübernahme easyjob 3.0 zu easyjob 4.0

Datenübernahme easyjob 3.0 zu easyjob 4.0 Datenübernahme easyjob 3.0 zu easyjob 4.0 Einführung...3 Systemanforderung easyjob 4.0...3 Vorgehensweise zur Umstellung zu easyjob 4.0...4 Installation easyjob 4.0 auf dem Server und Arbeitsstationen...4

Mehr

Leitfaden zur Datenu bernahme PC-Kaufmann zu GS-Office

Leitfaden zur Datenu bernahme PC-Kaufmann zu GS-Office Leitfaden zur Datenu bernahme PC-Kaufmann zu GS-Office Der nachfolgende Leitfaden zeigt anhand einer Schritt-für-Schritt-Anleitung die notwendigen Schritte, um einen bestehenden PC-Kaufmann-Mandanten in

Mehr

Synchronisations -Assistent 2.6

Synchronisations -Assistent 2.6 TimePunch Synchronisations -Assistent 2.6 Benutzerhandbuch 22.10.2014 TimePunch KG, Wormser Str. 37, 68642 Bürstadt Dokumenten Information: Dokumenten-Name Benutzerhandbuch, Synchronisations-Assistent

Mehr