Proceedings of Seminar. Information Management with Big Data and Cloud Computing

Größe: px
Ab Seite anzeigen:

Download "Proceedings of Seminar. Information Management with Big Data and Cloud Computing"

Transkript

1 Proceedings of Seminar Information Management with Big Data and Cloud Computing Chair in Information Systems Prof. Dr.-Ing. Wolfgang Maaß Department of Law and Economics Saarland University Summer 2014 Universität des Saarlandes Saarbrücken 2014

2 Preface This textbook represents an extract of the proceedings of the seminar Information Management with Big Data and Cloud Computing conducted at chair of information and service systems of Saarland University in summer term of Nowadays, big data and cloud computing play a major role in business, and health care as well as within industrial production processes. In this context, several research questions arise that touch topics like (1) the usability of corresponding interfaces, (2) techniques to analyze big data and (3) the combination of cloud computing and big data at real time. However, the goal-oriented application of technologies regarding big data and cloud computing in heterogeneous environments is quire challenging. Within the seminar, the students worked on manifold topics concerning the information management with big data and cloud computing, e.g., MapReduce, data stream reasoning, sensor streams, complex event processing and process mining in hospitals. Results were presented and discussed regarding the usability of big data and cloud computing as well as the opportunities they do offer. The proceedings shall furthermore deliver students an insight into the variety within the field of big data and cloud computing in general and its future as a fascinating area of research. May 2014 Prof. Dr.-Ing. Wolfgang Maaß Chair in Information and Service Systems Saarland University

3 Contents 1 MapReduce Big Data and Cloud Computing Data Stream Reasoning Managing Sensor Streams Complex Event Processing Big Data in der Bioinformatik Information Systems in Precision Medicine Process Mining in Hospitals

4 MapReduce Nico Clarner Universität des Saarlandes Schlüsselwörter: MapReduce, parallel DBMS, Big Data 1 Einleitung MapReduce ist ein Programmierparadigma, das es ermöglicht sehr große Datenmengen auf mehreren Computerclustern parallel zu verarbeiten. Diese Arbeit beschäftigt sich zum Einen mit dem von Google entwickelten Interface 2, sowie der Analyse des Open-Source Frameworks von Hadoop verglichen mit parallelen Datenbankmanagementsystemen 3. 2 MapReduce: Simplified data processing on large clusters[1] 2.1 Zusammenfassung Vor der Entwicklung von MapReduce wurden viele Individuallösungen zur Verarbeitung großer Datenmengen programmiert. Da die Parallelisierung der Prozesse oft sehr aufwendig war, wurde die MapReduce Abstraktion entwickelt, welche es Programmierern erleichtert, gewünschte Funktionalitäten zu implementieren, ohne die Details der Nebenläufigkeit, Fehlertoleranz und geeigneter Datenverteilung beachten zu müssen. Ziel ist es, eine effiziente Ressourcennutzung bei möglichst geringem Aufwand und hoher Ausfallsicherheit zu erreichen. 2.2 Aufbau Ziel der Arbeit ist es eine Abstraktion 1 zu entwickeln welche es ermöglicht, Berechnungsformeln einfach auszudrücken, während die tiefgehenden Implementierungsdetails verborgen bleiben. Das Programmierparadigma besteht im Wesentlichen aus den zwei Funktionen Map und Reduce, welche vom Benutzer anforderungsspezifisch geschrieben und anschließend vom Modell zur Datenverarbeitung benutzt werden. Die konkrete Implementierung des MapReduce Interfaces hängt von der Architektur des Systems ab auf dem operiert wird. Die interne Steuerung und Supervision der Aufgaben wird durch eine Master-Funktion 1 semantische Definition 2

5 2 N. Clarner übernommen, welche für die einzelnen Prozesse Identitäts-, Lokalitäts- und Statusvariablen, sowie spezielle Datenstrukturen verwaltet. Diese überwacht ebenfalls technische Ausfälle, welche aufgrund des hohen Distributiongrades möglich sind, das Berechnungsergebnis aber nicht beeinflussen dürfen. Dies geschieht über regelmäßige Pings an jede Maschine, welche bei ausbleibender Antwort als abgestürzt bzw. inaktiv gemeldet wird. Der betroffene Prozess wird dann hinsichtlich einer schnellen Fertigstellung der Operation an eine andere Maschine verteilt. Um die Netzwerkaktivitäten als limitierten Faktor möglichst zu schonen, wird mit Hilfe des Google File Systems eine redundante 2 aber lokale Datenspeicherung bewirkt. Um eine optimale Lastenverteilung und schnelle Fehlerbehebung zu garantieren wird auf eine feingranulare Aufgabenstruktur geachtet, sodass die Anzahl der Teilaufgaben wesentlich größer als die der Maschinen ist. Da es gegen Ende der Ausführung einer MapReduce-Operation oft zu Laufzeitverlusten bedingt durch Fehler oder Teilaufälle kommt, werden in der Endphase noch zu tätigende Aufgaben an mehrere Maschinen redundant vergeben, was zu einer erheblichen Zeitersparnis führt, ohne dabei Computerressourcen signifikant zu belasten. Zur Leistungsbemessung wurden zwei Algorithmen auf identischen Computerclustern über 1 Terabyte große Datensätze ausgeführt. Dies war zum einen grep 3 ein Algorithmus zur Mustererkennung, sowie ein Sortieralgorithmus basierend auf dem TeraSort Konzept. Seit Entwicklung des ersten Entwurfs der MapReduce-Bibliothek wurden erstaunlich viele Anwendungsbereiche erschlossen. Der Erfolg des Paradigmas liegt darin, dass Programmierer ein einfaches Programm auf tausenden von Maschinen ausführen können, ohne genaue Fachkenntnisse über Nebenläufigkeit zu besitzen, was zu einer extremen Zeitersparnis führt. Ein weiterer Erfolgsfaktor ist die Möglichkeit ein breites Spektrum an Problemen als MapReduce-Berechnung auszudrücken. 2.3 Kritische Bewertung des Aufbaus Der Artikel bietet ein illustres Bild über die detaillierte Funktionsweise sowie Anwendungsbereiche des MapReduce Paradigma und macht dies einfach verständlich. Die Vorteile und innovativen Funktionalitäten werden klar herausgestellt, wobei mögliche Nachteile gar nicht erst angebracht werden. Wie mehrmals im Text erwähnt, ist dies nur eine Kurzversion der originalen Forschungsarbeit, wodurch in einigen Abschnitten der genaue Kontext oder interessante Details fehlen. Somit ist das Paper eine gelungene Darstellung der Forschungsarbeit von Dean und Ghemawat, wer jedoch nach einer tiefergehenden Dokumentation sucht, sollte sich mit dem Original Artikel auseinander setzen. 2 Kopien auf mehreren Maschinen zum Ausfallschutz 3 global/regular expression/print 3

6 MapReduce 3 3 Mapreduce an Parallel DBMSs: Friends or Foes?[2] 3.1 Zusammenfassung Obwohl MapReduce als Wundermittel für großflächige Datenverarbeitung gehandelt wurde und man prognostiziert hat, es würde relationale Datenbankmodelle verdrängen, argumentieren Stonebraker et al. dafür, dass sich beide Technologien ergänzen statt konkurieren sollten. 3.2 Aufbau Ziel dieser Arbeit ist ein Vergleich von MapReduce und Parallelen DBMS 4 hinsichtlich Leistung, Anpassungsfähigkeit und Benutzerfreundlichkeit. Durch die in der IT-Welt immer populärer werdende Idee des Cloud Computing, einer Netzwerkorientierten Serverarchitektur, verbreiteten sich auch immer mehr Hilfsmittel um diese zu nutzen. MapReduce als eines dieser Werkzeuge erlangte aufgrund seiner Benutzerfreundlichkeit große Bekanntheit und es stellte sich die Frage, ob es parallele DBMS ersetzt. Aus Befragungen ergab sich, dass MapReduce hauptsächlich als ETL-System 5 benutzt wird, was den großen Unterschied zu DBMS darstellt, die dafür weitestgehend ungeeignet sind. Eine durchgeführte Benchmarkingstudie(Seite 4) ergab, dass DBMS bedeutend schneller sind sobald die Daten einmal geladen sind, was aber in Datenbanksystemen viel Zeit beansprucht. Es folgt eine Abwägung der Leistungsunterschiede basierend auf den beschränkenden architektonischen Faktoren, gefolgt von einer Auswertung, wie die beiden Syteme sich gegenseitig ergänzen können. Als wesentliche Neuerung in parallelen Datenbanksystemen wurde die horizontale Partitionierung gesehen, welche die Zeilen einer Datenbank auf mehrere Computercluster verteilt, und in Folge dessen auch SQL-Befehle 6 parallelisiert und die Ergebnisse der Abfragen vor der Ausgabe wieder zusammenführt 7. Vorteil des MapReduce Modells ist dessen Unkompliziertheit, da lediglich die zwei Funktionen Map und Reduce vom Nutzer geschrieben werden müssen. Die Semantik des MapReduce-Modells ist zwar nicht einzigartig und kann von einem modernen parallelen DBMS mittels SQL auch ausgeführt werden, jedoch ist gerade die Map-Operation schwer in SQL auszudrücken. Parallele DBMS profitieren hingegen von linearer Skalierbarkeit 8. Obwohl ein DBMS identische Aufgaben übernehmen kann wird MapReduce in einigen Anwendungsbereichen als bessere Lösung angepriesen. Es werden fünf Bereiche hinsichtlich Auswirkungen der Benutzung beider Systeme untersucht. Während MapReduce als Allzweck-ETL-System betrachtet werden kann, existieren für DBMS lediglich on-top Anwendungen, welche ETL-Prozesse 4 Datenbankmanagementsystemen 5 extract-transform-load 6 Structured Query Language 7 Merge Operation benötigt 8 Zusätzliche Cluster erhöhen die Leistung linear 4

7 4 N. Clarner durchführen. In vielen Data Mining und Clustering Anwendungen müssen semistrukturierte Daten mehrfach traversiert werden, was in einem einzigen SQL- Query nicht umsetzbar ist. MapReduce hingegen löst diese Aufgaben mit Leichtigkeit und bietet zudem den Vorteil, dass kein explizites Schema für die Daten definiert werden muss. Feste Schemata haben bei Zeilenorientierten Datenbanken oft Leistungseinbußen zur Folge, da ungesetzte Attribute mit NULL initialisiert werden, was schlecht zu verarbeiten ist. Spaltenorientierte Datenbanksysteme lesen hingegen nur relevante Attribute aus und erzeugen so gute Leistung, speziell in RDF 9 Datensätzen. So wird für analytische Zwecke ein Spaltenorientiertes Datenbanksystem empfohlen. Geht es lediglich um Datenaufbereitung, so ist MapReduce die bessere Wahl. Datenbankmanagementsysteme sind oft sehr umfangreich, kostenintensiv und es besteht ein hoher Installations- und Konfigurationsaufwand. So müssen Schemata für die Daten definiert werden und die Ausführung einer Anfrage kann ohne korrekte Implementierung mehrere Stunden beanspruchen, statt wie üblich wenige Minuten. MapReduce ist effizient für komplexe Datenanalysen, und hat den Vorteil, dass die vielen Open-Source 10 Implementierungen kaum budgetintensiv sind. Bei stark strukturierten Daten und komplexen Anfragen sollte man allerdings DBMS bevorzugen. Die Benchmarkingstudie beschäftigtsich mit den Leistungen der Systeme, wenn diese innerhalb sowie außerhalb ihrer bestimmungsgemäßen Anwendungsbreiche getestet werden. Testobjekte waren Hadoop Mapreduce, DBMS-X und Vertica 11. Durch die gigantische Open-Source community von Hadoops MapReduce nahm die Optimierung dessen viel Zeit in Anspruch. Überaschendes Ergebnis war, dass die DBMS bei allen drei Aufgaben 12 einen Laufzeitvorteil gegenüber dem Hadoop System hatten. Dies kann auf die unterschiedlichen Implentierungsstrategien der beiden Systemklassen zurückgeführt werden. MapReduce benötigt weitaus mehr parsing-ausführungen als das DBMS, was zu Laufzeitverlusten führt. Ebenso sollte bei MapReduce eine Datenkompression vermieden werden. Ein weiterer Unterschied besteht im Datentransfer, wo das DBMS die Daten an den nachfolgenden Knoten überträgt, was hinsichtlich der Gefahr eines Datenstaus vom Laufzeitsystem überwacht werden muss während MapReduce die lokal gespeicherten Daten automatisch abfragt. So wird beim DBMS die Datentransferrate zwischen den Knoten möglichst gering gehalten. Viele komplexe analytische Probleme erfordern Funktionalitäten beider Systeme, sodass es neuer Schnittstellenlösungen bedarf um die Kapazitäten jedes Systems optimal ausnutzen zu können. 3.3 Kritische Bewertung des Aufbaus Der Vergleich beider Technologien erscheint bei genauerer Betrachtung ein wenig subjektiv. Umfang sowie Bewertung der Beschreibung des DBMS stechen stark 9 Rule Definition Framework 10 Kostenlos verfügbar 11 Spaltenorientiertes DBMS 12 Grep,Join sowie WebLog Analyse 5

8 MapReduce 5 hervor, während MapReduce oft als insuffiziente Ergänzungslösung betrachtet wird. Ohnehin entbehrt der Artikel einem roten Faden, der den Forschungsverlauf klar und übersichtlich dokumentiert, was eine Ursache der zahlreichen Autoren sein kann. Es werden Zwischenschlüsse innerhalb einzelner Sektionen gezogen welche nur teilweise oder gar nicht in die finale Zusammenfassung der Ergebnisse eingehen. Ebenso bleibt offen, inwiefern die Ergebnisse der Benchmarkingstudie mit den Resultaten korrelieren. 4 Synthese Beide Artikel legen starken Fokus auf die technischen Details der Implementierungsebene. Wohingegen [1] tief auf Entwicklungsarbeit, Testing und Korrektheit des MapReduce Paradigmas eingeht und dessen Innovationskraft herausstellt, ist [2] mehr auf einen anwendungsorientierten Vergleich bedacht, welcher partiell Ergänzungsmöglichkeiten beider Systeme anbringt und sogar [1] als Quelle nutzt. Allerdings war zur Entstehung von [1] die entwickelte Semantik tatsächlich eine Neuerung. Sechs Jahre später hingegen war MapReduce weitgehend etabliert und auch die Möglichkeiten von Datenbankmanagementsystemen haben sich extrem weiterentwickelt, sodass vom Forschungsstand beider Arbeiten schon eine Diskrepanz herrscht. 5 Konklusion und Forschungsaussichten In Anlehnung an 2 könnte MapReduce lokal optimiert werden, sodass Daten, statt sie nach Berechungschritten zu speichern, an weitere Clusterkerne in naheliegenden Maschinen gepusht werden, um die Datentransferrate im Netzwerk zu verringern, wie dies bei parallelen DBMS der Fall ist. Beide Systeme sind insofern verbesserungswürdig, indem MapReduce die Abstraktionsebene der Eingabefunktionen 13 erhöht und DBMS anpassungsfähiger im Hinblick auf in-situ Daten 14 werden. Beide Technologien stellen fundamentale Werkzeuge zur Bearbeitung und Analyse großer Datenmengen da, was mit wachsenden Informationsströmen in Privat- und Geschäftsleben zukünftig eine der bedeutungsvollsten Herausforderungen im Bereich der Informatik/Wirtschaftsinformatik darstellt. Literatur 1. Dean, J., Ghemawat, S.: Mapreduce: Simplified data processing on large clusters. Commun. ACM 51(1), (Jan 2008), Stonebraker, M., Abadi, D., DeWitt, D.J., Madden, S., Paulson, E., Pavlo, A., Rasin, A.: Mapreduce and parallel dbmss: Friends or foes? Commun. ACM 53(1), (Jan 2010), 13 SQL-Anfragen sind einfacher zu schreiben als MR-Code 14 unstrukturierte Daten im Dateisystem 6

9 Big Data and Cloud Computing Ricarda Gallelli Universität des Saarlandes, Campus, D Saarbrücken 1 Einleitung Big Data und Cloud Computing spielen in der Wirtschaft eine immer größere Rolle. Die zu verarbeitenden Datenmengen werden immer umfangreicher und müssen dennoch effektiv bearbeitet und ausgewertet werden können. Dabei stellt Cloud Computing eine Möglichkeit zur Lösung des Problems dar. Die großen Datenmengen werden aufgesplittet und in Teilprobleme aufgeteilt. Die Lösung der Teilprobleme ist mit bewährten Methoden der Datenverarbeitung möglich. Die dieser Arbeit zugrunde liegenden Artikel zeigen verschiedene Lösungswege zur Verarbeitung von Big Data auf und wägen sie gegeneinander ab. Außerdem werden Einsatzmöglichkeiten von Cloud Computing dargelegt. Mithilfe von Tutorien versuchen die Autoren beider Artikel die Materie des Cloud Computing näher zu erläutern. 2 Zusammenfassung der Artikel 2.1 Computional Solutions to large-scale data management and analysis Da in der Genetik immer weiter geforscht wird, müssen auch immer mehr DNA und RNA 1 Sequenzierungsdaten gleichzeitig verarbeitet werden. Bei sinkenden Preisen wird die stetig wachsende Menge an Daten innerhalb weniger als eines Jahres 2 in den Terabyte bzw. Petabyte-Bereich übergehen. Um diesem Problem Herr zu werden gilt es nun geeignete Rechenumgebungen zu finden. Als mögliche Lösungswege dafür werden hier das Cloud Computing und heterogene Rechenumgebungen genannt. Die Daten müssen effizient bewegt werden, dabei erfolgt die Auswertung parallel durch Verteilung der Aufgaben auf verschiedene Computerprozesse. Parallele Auswertungen lassen sich in lose gekoppelte, also leicht teilbare, und eng gekoppelte Parallelitäten unterteilen, welche zur Auswertung einen erheblichen Programmieraufwand benötigen. Ziel der Forscher ist es Modelle zu entwickeln, die Phänotypen wie z.b. Krankheiten vorhersagen und gleichzeitig die Ressourcen effektiv einzusetzen. Das Cloud Computing bietet viel Flexibilität, da ein Pay-as-you-need Modell vorliegt. Es werden mehrere 1 Ribonukleinsäure 2 Stand

10 virtuelle Maschinen nebeneinander genutzt, auf die die Datenpakete aufgeteilt werden, gespeichert werden die Daten in der Cloud. Mithilfe von MapReduce werden die Daten in homogene Teilprozesse aufgeteilt, welche dann einzeln verarbeitet und danach wieder zusammengefügt werden. Bei den heterogenen Rechenumgebungen werden hingegen spezielle Beschleuniger in die Mehrkern Computer integriert, wodurch der Spitzenrechendurchsatz um das 10- bis 100-fache erhöht wird. Im Gegensatz zu Cloud Computing sind heterogene Rechenumgebungen optimal für eng gekoppelte Parallelitäten geeignet. Sie sind allerdings auch schwieriger zu entwickeln, da gute IT-Kenntnisse notwendig sind. In einem Tutorium wird anschließend Cloud Computing anhand des Beispiels Amazon S3 [2] erklärt. Die Autoren beschreiben die Arbeit mit der Managementkonsole und erläutern die Arbeitsschritte, wonach zuerst die Daten hochgeladen werden, dann der Auftragsfluss definiert (Reduzieren und Kombinieren der Daten mittels MapReduce) und zum Schluss dieser dann ausgeführt (Bearbeitung der Daten, herunterladen, etc.) wird. 2.2 Big Data and Cloud Computing: Current State and Future Opportunities Cloud Computing ist sehr serviceorientiert. Es findet sowohl Anwendung als IaaS (Infrastructure as a Service), als auch als PaaS (Platform as a Service) oder SaaS (Software as a Service). Durch das Pay-per-use Modell muss der Anwender auch nur das zahlen, was er wirklich benötigt. Außerdem ist es leicht zu vermarkten, da die Anfangsinvestition sehr gering ist. Skalierbare Datenbankmanagementsysteme (DBMS) sind ein wichtiger Bestandteil der Cloud-Infrastruktur und spielen eine wichtige Rolle beim Übergang von Anwendungen aus der Infrastruktur eines traditionell arbeitenden Unternehmens zur Cloud-Infrastruktur. Dabei wird unterschieden zwischen Updates von in der Cloud integrierten Webanwendungen, welche vor allem bei großen Anwendungen verwendet werden und Entscheidungsunterstützungssystemen zur Untersuchung der deskriptiven und analytischen Tiefe. Die Autoren zeigen in ihrem Tutorium auch, dass gerade im Bereich von Großanwendungen noch Verbesserungen notwendig sind. Während der Anwendungsserver leicht skalierbar ist, gibt es in der Daten-Management Infrastruktur häufig Engpässe. Es fehlen zudem Open-Source Cloud Funktionen, da die teuren Unternehmenslösungen in größerem Maßstab unattraktiv sind. Key- Value Shops stellen eine einfache Alternative dar, um die riesigen Datenmengen zu verarbeiten[3]. Große mandantenfähige Datenbanken benötigen ebenfalls die Unterstützung einer Cloud. Dabei werden viele verschiedene Anwendungen jeweils mit kleinen Datenfußabdrücken versehen. Die einzelnen Mieter (z.b. verschiedene Unternehmen eines Konzerns oder Unternehmensstützpunkte) teilen sich dann die gleiche Datenbank. Jeder Mieter hat einen eigenen Bereich in der Cloud, es besteht aber auch die Möglichkeit auf bestimmte Teile gemeinsamen Zugriff zu haben. Dies geschieht traditionell allerdings nur als SaaS, aber auch PaaS-Anbieter entwickeln Modelle mit mandantenfähigen Datenbanken. 8

11 3 Analyse des Aufbaus 3.1 Computional Solutions to large-scale data management and analysis Aufgabenstellung Die Aufgabenstellung ist es, den bestmöglichen Weg der Datenverarbeitung zu finden. Um große Datenmengen verarbeiten zu können, müssen verschiedene Rechenumgebungen wie Cloud Computing und heterogene Rechenumgebungen analysiert werden. Daraus lässt sich dann die jeweils passende Lösung ableiten. Mithilfe eines Tutorials soll dann genauer gezeigt werden, wie die Arbeit mit Clouds funktioniert. Vorgehensweise Zunächst muss die Ist-Situation der bioinformatischen Probleme analysiert und das Ziel der Forscher festgesetzt werden. Die Analyse umfangreicher Daten stellt die Forscher vor verrechnungstechnische Herausforderungen. Um diese zu bewältigen, muss also das vorliegende Rechenproblem genau verstanden werden. Eine Möglichkeit besteht aus Cloud Computing in Verbindung mit MapReduce. Hier erörtern die Autoren Vor- und Nachteile von Cloud Computing und zeigen, dass das Aufteilen der großen Datenmengen und Bearbeitung in Teilbereichen von MapReduce hilft, die Daten effizient zu bearbeiten. Eine zweite Möglichkeit sind heterogene Rechenumgebungen. Dabei werden heterogene Mehrkern Computer durch spezielle Beschleuniger erweitert, die dadurch den Spitzenrechendurchsatz um das bis zu fache erhöhen. Mithilfe eines Tutorials anhand des Beispiels Amazon S3 [2] wird genauer erklärt, wie die Arbeit mit Cloud Computing effektiv funktioniert. Resultate Insgesamt bieten sowohl Cloud Computing, als auch heterogene Rechensysteme nicht nur Vorteile. Sie müssen sich beide immer weiterentwickeln, da auch die Probleme mit Datenspeicherung und Analyse aufgrund exponentiell wachsender Datenmengen immer weiter zunehmen. Also ist es notwendig weitere Forschungen durchzuführen. Außerdem muss die Datenverteilung eingeschränkt werden, damit Wettbewerbsvorteile erhalten werden können. Um die bestmögliche Rechenumgebung zu finden, ist häufig eine Mischung aus Cloud Computing und heterogenen Rechenumgebungen nötig. 3.2 Big Data and Cloud Computing: Current State and Future Opportunities Aufgabenstellung Aufgabenstellung des Textes ist es, mithilfe eines Tutorials einen grundsätzlichen Überblick über Cloud Computing und seine Eigenschaften zu geben. Außerdem sollen Erfolge und Fehler skalierbarer Systeme, sowie das Datenmanagement bei Großanwendungen genauer untersucht werden. 9

12 Vorgehensweise Der Artikel ist insgesamt als Tutorial aufgebaut. Zunächst betrachten die Autoren die Vor- und Nachteile von Cloud Computing. Hintergrund ist die Unterteilung des skalierbaren Datenmanagements in zwei Bereiche: Die Unterstützung von Updates schwieriger Anwendungen sowie Ad-hoc Analysen und Entscheidungsunterstützung [1, S.531]. Das Datenmanagement von Großanwendungen befindet sich noch in der Entwicklung. Durch fehlende Cloud Funktionen in Open Source basierten relationalen Datenbanken und teure Unternehmenskonzepte bereitet die Daten-Management-Infrastrukur häufig Probleme. Auf der anderen Seite werden verschiedene Ansätze der Mandantenfähigkeit (z.b. in Verbindung mit SaaS) in einer Datenbank gesammelt um einen Überblick zu erhalten und Herausforderungen in der Gestaltung zu erkennen (vgl. 2.2). Resultate Insgesamt müssen nicht immer alle gesetzen Ziele erreicht werden, Teilziele reichen vollkommen aus. Updates sind sowohl bei großen Datenmengen in großen Anwendungen, als auch bei vielen kleineren Anwendungen mit je einem eigenen Datenfußabdruck möglich. Außerdem vermittelt das Tutorial ein Verständnis von den verschiedenen Formen der Mandantenfähigkeit in der Datenbankschicht. Weiterentwicklung und Forschung ist aber auch in Zukunft in allen behandelten Bereichen weiterhin notwendig. 4 Kritische Bewertung des Aufbaus 4.1 Computional Solutions to large-scale data management and analysis Die Ausgangssituation des Textes wird sehr ausführlich beschrieben, außerdem wird direkt klar, welches Probleme gelöst werden müssen und welche Möglichkeiten zur Lösung dieser Probleme existieren. Dieser Teil ist sehr übersichtlich und leicht verständlich. Gerade die ausführliche Einleitung gibt dem Leser auch ohne besondere Vorkenntnisse, direkt und einfach erklärt, Einblick in die Materie. Im Tutorial wird erklärt, wie gearbeitet werden soll. Auch die einzelnen Möglichkeiten zur Lösung der Probleme, also Cloud-Computing mit MapReduce und Heterogene Rechenumgebungen, werden umfassend erklärt und mithilfe von Vor- und Nachteilen gegeneinander abgewogen. Zum Schluss wird dem Leser mithilfe eines Tutorials die Praxis anhand eines Beispiels näher gebracht. Dieses ist allerdings sehr oberflächlich und nicht wirklich nachprüfbar ohne das Programm zu erwerben und selbst auszutesten. Für ein generelles, erklärendes Beispiel wäre eine für die Großzahl der Leser verständliche Variante sinnvoller. So müssten mehr Hintergrundinformationen gegeben sein, um den beschriebenen Ablauf der einzelnen Schritte besser nachvollziehen zu können. Positiv ist, dass das verwendete Beispiel sehr zeitgemäß ist und einigen Lesern, die bereits Erfahrungen in diesem Bereich gesammelt haben, das Verständnis deutlich erleichtert. 10

13 4.2 Big Data and Cloud Computing: Current State and Future Opportunities Der Text ist aufgrund seines geringen Umfangs sehr komprimiert. Er handelt von einem Tutorium, das 3 Stunden dauern soll [1, S.531]. Da das Tutorium fast den kompletten Text umfasst, werden allgemeine Informationen etwas vernachlässigt. Ohne inhaltliche Vorkenntnisse aus dem anderen Text Computional Solutions to large-scale data management and analysis [4] (Vergleiche auch 2.1) ist es schwierig alle Zusammenhänge korrekt zu verstehen. Alle Teilbereiche werden kurz angerissen, aber nicht ausführlich erklärt. Besonders Ausdrücke wie We also provide a survey of some of the current research projects which aim to infuse the cloud features in relational databases. [1, S.532] weisen darauf hin. Dies könnte aber auch daran liegen, dass der Text einen Überblick über ein Tutorial liefert, indem dies möglicherweise genauer erläutert wird. Offene Probleme hingegen werden sehr ausführlich erklärt und zeigen dem Leser auf, was in Zukunft noch weiterentwickelt und verändert werden muss. Außerdem ist positiv zu berücksichtigen, dass es einen eigenen Abschnitt gibt, der gegen Ende des Textes noch einmal die Lerninhalte zusammenfasst, wodurch der Leser noch einmal hinterfragt wird. Insgesamt ist der Text nicht ganz einfach zu verstehen, mithilfe der Hinterfragung am Ende wird der Leser aber auch dazu angehalten nicht verstandene Passagen noch einmal zu wiederholen. 5 Synthese Beide Artikel bauen auf einem Tutorial auf, mit dem die Vorgänge und Zusammenhänge von Cloud Computing besser veranschaulicht werden sollen. Während Schadt et al. [4] Cloud Computing genau unter die Lupe nehmen und dann Alternativen, wie heterogene Rechenumgebungen, aufzeigen und alles genau erklären, konzentrieren sich Agrawal et al. [1] mehr auf die Anwendungsmöglichkeiten von Cloud Computing. Allein der Umfang der Artikel lässt schon darauf schließen, dass Computional solutions to large-scale data management and analysis [4] viel ausführlicher erklärt ist als Big Data and Cloud Computing: Current State and Future Opportunities [1]. Außerdem beziehen sich Schadt et al. [4] auf ein spezifisches Problem, nämlich die wachsenden Datenmengen in der Bioinformatik, welches mithilfe der aufgezeigten Lösungen gelöst werden soll. Agrawal et al. [1] hingegen gehen sehr allgemein vor und erörtern grundsätzliche Möglichkeiten zum Datenmanagement von Großanwendungen und der Mandantenfähigkeit. In ihren Tutorien beziehen sich beide Artikel auf das gleiche Beispiel (Amazon Web Services, insbesondere Amazon S3 [2]), Schadt et al. [4] erklären aber im Gegensatz zu Agrawal et al. [1] die direkten Arbeitsschritte an der Benutzeroberfläche. 6 Schlussfolgerung und Ausblick Insgesamt bieten die beiden Artikel einen Überblick über Rechenumgebungen und ihre Vor- und Nachteile. Dieser ist allerdings recht grob, Details werden 11

14 spezifischeren Artikeln überlassen. Die Autoren sind überzeugt von dem Grundkonstrukt und sehen gute Perspektiven. So werden ihrer Meinung nach Cloud Computing und Big Data auch in Zukunft weiter von Relevanz sein und sich weiterentwickeln. Weitere Forschungen sind allerdings notwendig, um den Datenmengen gerecht werden zu können. Dabei müssen vorallem Kosten, Datenschutz und benötigte Ressourcen optimiert werden. Durch die vielschichtigen Möglichkeiten die Cloud einzusetzen, wird sie sich wohl auch immer weiter etablieren und auch in kleineren Unternehmen Einzug erhalten. Je mehr Open Source Alternativen vorhanden sind, desto eher wird es sich auch im akademischen und im privaten Sektor etablieren. Literatur 1. Agrawal, D., Das, S., Abbadi, A.E.: Big data and cloud computing: Current state and future opportunities. Proceedings of the 14th International Conference on Extending Database Technology March 21-24, (2011) 2. Amazon: Amazon simple storage service (2014), 3. Heise: Key-value-datenbanken (2014), NoSQL-im-Ueberblick html?artikelseite=2 4. Schadt, E.E., Lindermann, M.D., Sorenson, J., Lee, L., Nolan, G.P.: Computional solutions to large-scale data management and analysis. Nature Reviews Genetics 11, (2010) 12

15 Data Stream Reasoning Johannes Petri Universität des Saarlandes 1 Einleitung Welcher Artikel des News Web Portals wird am meisten beachtet?, Was sind die Top 10 Themen über die in der Blogosphäre diskutiert wird und wer führt diese Diskussion? Worüber haben sich meine Freunde in der letzten Stunde unterhalten? Die Informationen die zur Beantwortung dieser Fragen notwendig sind, sind heutzutage zunehmend verfügbar. Allerdings mangelt es an der Software, die die Antworten auf diese Fragen berechnen kann. Der Grund dafür ist, das die notwendigen Daten in Form von Streams vorliegen sich ständig und schnell verändern. Zwar können solche Daten von Data Stream Management Systems (DSMS) analysiert und kontinuierliche Abfragen der Daten durchgeführt werden, allerdings können DSMS solche komplexen Schlußfolgerungen, wie sie zur Beantwortung der oben gestellten Fragen notwendig wären nicht ausführen. Dies könnten Reasoners wie sie im Semantic Web verwendet werden leisten. Diese Tools sind jedoch darauf ausgelegt mit statischen Daten, die sich nur selten ändern zu arbeiten und können nicht mit sich schnell verändernden Daten umgehen. Um nun die oben gestellten Fragen zu beantworten, sollte man den Ansatz des Stream-Reasoning wählen. Stream-Reasoning ist ein bisher noch weitgehend unerforschter multidisziplinärer Ansatz zur Beantwortung komplexer Anfragen auf Basis von Datenstreams. Dazu werden Konzepte des Semantic Web und von DSMS miteinander kombiniert. Die Arbeiten von E.Della Valle et al.[1] und D.F.Barbieri et al.[2] befassen sich mit diesem Konzept und geben einen kurzen Einblick darauf was mit Stream-Reasoning möglich ist und wo noch Forschungsarbeit betrieben werden muss um es in der Praxis anzuwenden. 2 Zusammenfassung 2.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Es gibt etliche Gebiete in denen Stream-Reasoning von Nutzen sein kann. Unter anderem zur Finanztransaktionsüberwachung [3], für situationsbezogene mobile Anwendungen [4], für Patientenüberwachungssysteme [5] und etliche mehr. Die hier genannten Arbeiten kommen aus der Semantic Web Community und ihre Verfasser kämpften damit Streaming Probleme mit den bisher vorhandenen 13

16 2 J. Petri Tools zu lösen. Würden sie aber ihre Aufmerksamkeit auf Stream-Reasoning richten, wäre es ihnen möglich Methoden und Tools zu entwickeln mit denen die zu Beginn in 1 gestellten Fragen leicht zu beantworten wären. Eine konkrete Anwendung von Stream-Reasoning wäre Reasoning für mobile Anwendungen. Mobilität ist ein entscheidender Faktor unserer heutigen Gesellschaft. Smartphones sind populär und weit verbreitet und bieten somit ein gutes Umfeld um das Stream-Reasoning Konzept auszutesten. Mobile Anwendungen müssen Echtzeit Anforderungen erfüllen, insbesondere wenn sie dazu benutzt werden kurzfristige Entscheidungen zu treffen und mit den Problemen des Stream Reasoning (verrauschte oder fehlerhafte Daten, etc.) umgehen können. Eine weitere Anwendung wäre die Überwachung öffentlicher Gesundheitsrisiken. Eine frühe Erkennung möglicher Gesundheitsrisiken für die Bevölkerung, wie zum Beispiel Epidemien, ist eine Hauptpriorität nationaler und internationaler Gesundheitsorganisationen. Dazu bräuchte man eine Plattform, die eine große Anzahl heterogene Daten aus Streams automatisch sammelt, verarbeitet und unter Berücksichtigung des richtigen Zusammenhangs interpretiert. Wenn ein mögliches Risiko identifiziert wird müssen das Ergebniss und die Daten die dazu führen über verschiedene Informationskanäle an die zuständigen Behörden weitergeleitet werden. Damit Stream-Reasoning Systeme dies leisten können müssen sie mehrere Probleme bewältigen. Mangel an Stream Reasoning Theorien Etliche theoretische Aspekte des Stream Reasoning wurden nie formalisiert. Heterogene Formate und Zugriffsprotokolle Streams treten in vielen verschiedenen Formen auf. Von relationalen Daten von binären Nachrichtenprotokollen bis hin zu Text Streams von Web Protokollen, wie Blogs. Semantic Modelling Das Semantic Modelling von Daten Streams bietet mehrere Schwierigkeiten. Fenster Abhängigkeiten Zeit Abhängigkeiten Beziehungen zwischen Zusammenfassungen und Folgerungen Einbinden in statische Daten Lernen vom Stream Umfang Der Umfang der gelieferten Daten muss dem entsprechen den eine Anwendung für ihre Berechnungen benötigt. kontinuierliche Verarbeitung Stream-Reasoning-Abfragen werden einmal erstellt und anschließend kontinuierlich ausgeführt während ständig Daten in das System fließen. Echtzeit Beschränkung Stream-Reasoning Systeme müssen ihre Ergebnisse in Echtzeit liefern, da sie sonst unbrauchbar sind. Parallelisierung und Verteilung Durch Analyse dieser Probleme kann man die Stream-Reasoning Forschung in fünf Gebiete unterteilen. 14

17 Data Stream Reasoning 3 Stream reasoning Theorie Bisherige theoretische Frameworks bieten entweder eine gute Basis für formale und explizite Semantik oder sie sind geeignet für hochfrequente, gro svolumige Wechselraten. Logiksprache für Stream Reasoning Derzeit gibt es keinen einheitlichen Weg zur Integration von Logiksprachen in das Stream Reasoning. Stattdessen benutzen die Forscher derzeit mehrer verschiedene Logiken wie zum Beispiel Metric temporal logic [6], constructive description logic [7] oder active logic [8]. Stream Data Management für das Semantic Web Ein erster Schritt in Richtung Stream Reasoning stellt der Versuch derzeitige Techniken von DSMS und des Semantic Web miteinander zu kombinieren dar. Streaming SPARQL[9] und Continuous SPARQL (C-SPARQL)[10] sind zwei Vorschläge um SPARQL zur Nutzung in DSMS zu erweitern. Beide führen RDF streams, eine Erweiterung des RDF Datenmodells, ein und erweitern dann SPARQL, um Abfragen auf RDF streams durchführen zu können. Stream Reasoning für das Semantic Web Die zentrale Frage für die Forschung ist: Kann die Idee einer kontinuierlichen Semantik wie sie von DSMS eingeführt wird für Reasoners, die derzeit für das Semnatic Web entwickelt werden, erweitert werden. Entwicklung und Implementierung Die Entwicklung des Stream-Reasoning steht noch ganz am Anfang und es ist noch eine Menge Entwicklungsarbeit von Nöten um konkrete Fortschritte zu machen. Zwar existieren einige Stream- Reasoning Systeme [11,12,5], jedoch sind Untersuchungen einer konzeptuellen Strukutr, Entwicklungsumgebungen und Frameworks zur Evaluierung, um verschiedene Implementierungen miteinander vergleichen zu können, notwendig. 2.2 Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL D.F. Barbieri et al. stellen in ihrer Arbeit eine Implementierung einer C-SPARQL Anwendung zur Echtzeit-Analyse von Social Semantic Data vor und vergleichen C-SPARQL mit SPARQL anhand von realen Social Data Streams. SPARQL ist eine Abfragesprache für RDF unter Aufsicht des W3C [13]. C-SPARQL(Continuous-SPARQL) ist ein Erweiterung von SPARQL für RDF graphs und RDF streams [10]. Charakteristisch für C-SPARQL sind kontinuierliche Abfragen. Diese werden zuvor definiert und dann kontinuierlich über ein Fenster, dessen Größe anfangs festgelegt wird, ausgeführt. In dem Fenster wird die Anzahl der zu berücksichtigenden RDF streams oder die Zeitdauer in der die eingehenden RDF streams berücksichtigt werden festgelegt. Die von D.F. Barbieri et al. entwickelte C-SPARQL Anwendung basiert auf der Trennung des Stream-Management und der Abfrage-Auswertung. Diese Separation ist die Grundlage einer einfachen Struktur für C-SPARQL, aufbauend auf bekannten Datenbanken und Reasoning Technologien. Die Anwendung besteht aus drei Modulen. Der C-SPARQL Query Parser bekommt eine C- SPARQL Abfrage als Input und liefert den beiden anderen Modulen die zur Ausführung notwendigen Daten. Der Data Stream Manager Layer sammelt die in der Abfrage spezifizierten Daten und erstellt das Fenster. Anschließend 15

18 4 J. Petri führt der SPARQL EndPoint Layer den SPARQL Teil der C-SPARQL Anfrage über dem Fenster aus und liefert das Ergebnis. Zum testen der Anwendung wurde ein auf dieser Architektur basierender Prototyp, der ESPER[14] als DSMS und Jena[15] als SPARQL endpoint verwendet, implementiert. Dieser Prototyp wird mit echten Daten des Social Network Glue 1 und mit zwei verschiedenen Durchflussraten: 5 triples per second(5 t/s) und 200 t/s getestet und die Ausführungszeit gemessen. Zusätzlich erstellen die Autoren mithilfe einer Filter Klausel und einer Aggregatfunktion eine SPARQL Abfrage die das selbe Ergebnis wie die C-SPARQL Abfrage liefert. Diese führen sie ebenfalls aus und messen auch hier die Ausführungszeit. Anschließend werden die beiden Ergebnisse miteinander verglichen. Dabei wird deutlich dass die Ausführungszeit der C-SPARQL Abfrage deutlich schneller ist. Zusätzlich wird auch deutlich das die Ausführungszeit der C-SPARQL Abfrage bei Erhöhung der verarbeiteten Datenmenge nicht so stark ansteigt wie bei der SPARQL Abfrage. 3 Analyse des Aufbaus 3.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Die Aufgabenstellung des Artikels wird nicht explizit genannt. Sie erschließt sich eher aus dem Kontext. Es wird ein Ansatz vorgestellt, mit dessen Hilfe komplexe Anfragen auf Basis von Datenstreams beantwortet werden können, das sogenannte Stream-Reasoning. Dazu werden zunächst Fragen gestellt und kurz erläutert warum diese mit derzeitigen Anwendungen nicht zu beantworten sind. Anschließend wird kurz das Konzept des Stream-Reasoning vorgestellt mit dessen Hilfe diese Fragen beantwortet werden sollen. Im Anschluss an diese Einleitung werden zunächst einige Gebiete aufgezählt, in denen Stream-Reasoning gut eingesetzt werden kann. Anschließend werden zwei konkrete Beispiele zur Nutzung von Stream-Reasoning vorgestellt und näher erläutert. Danach werden einige Probleme die es zunächst zu lösen gilt dargelegt und erklärt. Diese Probleme wurden von E.Della Valle et al. analysiert und auf Grundlage dessen wurde die Stream-Reasoning Forschung in fünf Teilgebiete unterteilt. Diese werden dann mit Hilfe von Arbeiten die im Rahmen des ersten Stream-Reasoning Workshops (SR 09) vorgestellt wurden, genauer erklärt. Obwohl Stream-Reasoning noch am Anfang steht gehen die Autoren als drittes und letztes noch kurz auf m gliche Methoden zur Qualitätsmessung möglicher Stream-Reasoning Implementierungen ein. Abschließend legen E.Della Valle et al. noch einmal dar das es noch ein langer Weg zum Stream Reasoning ist und noch etliche Entwicklungsarbeit in diesem Bereich geleistet werden muss

19 Data Stream Reasoning Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL In der Arbeit soll mit Hilfe des Stream-Reasoning eine Anwendung entwickelt und implementiert werden um Echtzeit-Analysen von Social Semantic Daten durchzuführen, um Fragen wie zum Beispiel: Worüber haben sich meine Freunde in der letzten Stunde unterhalten? zu beantworten. Zunächst wird dem Leser das notwendige Hintergrundwissen vermittelt. Dabei werden Daten Streams, die RDF-Abfragesprache SPARQL vorgestellt und erläutert. Anschließend erklären D.F.Barbieri et al. die in von ihrer Anwendung benutzten RDF Streams, gehen kurz darauf ein woher die Daten, die sie analysieren stammen und wie diese aussehen und erläutern dann ausführlich die von ihnen verwendete SPARQL-Erweiterung C-SPARQL. Im nächsten Schritt stellen D.F.Barbieri et al. ihre C-SPARQL Anwedung und ihr Konzept auf dem sie beruht vor. Um diese Anwendung zu testen wurde ein Prototyp implementiert und mit den zuvor vorgestellten Daten ausgeführt. Zum Vergleich wurden auch Testdurchläufe mit einer SPARQL-Abfrage, welche das gleiche Ergebniss liefert durchgeführt und die beiden Ergebnisse miteinander verglichen. Dieser Vergleich zeigt das die Ausführungszeit der gewöhnlichen SPARQL-Abfrage deutlich höher ist als die der C-SPARQL-Abfrage. Abschließend vergleichen die Autoren ihre Arbeit noch mit einer anderen Arbeit zu diesen Thema und legen ihre Schlußfolgerungen aus den Testergebnissen dar. 4 Bewertung des Aufbaus 4.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Die Arbeit von E.Della Valle et al. gibt einen guten Überblick über die Möglichkeiten des Stream-Reasoning und zeigt deutlich die noch zu lösenden Probleme auf und in welchen Forschungsgebieten was noch geleistet werden muss um Stream- Reasoning zukünftig in der Praxis nutzen zu können. Somit stellt die Arbeit einen guten Einstieg in das Thema dar. Man bekommt schnell einen Eindruck davon was Stream-Reasoning bedeutet und für welche konkreten Einsatzmöglichkeiten es geeignet ist. Durch die Einteilung der noch zu leistenden Stream-Reasoning Forschung in Teilgebiete bekommt man schnell einen Überblick über die einzelnen Gebiete und welche Arbeit in ihnen jeweils noch geleistet werden muss. Wenn man sich nun für ein Gebiet besonders interessiert und dieses vertiefen möchte ist dies durch die Zuordnung der Arbeiten des First Stream-Reasoning Workshop (SR 09) zu den einzelnen Forschungsgebieten, leicht möglich. Negativ finde ich das die Aufgabenstellung der Arbeit nicht klar formuliert ist, erst im Verlauf der Arbeit wird deutlich dass sie im Prinzip dazu dient das Stream-Reasoning Konzept vorzustellen und im weiteren Verlauf quasi als Leitfaden dafür dient in welchen Bereichen was noch zu Erforschen ist um Stream-Reasoning in die Tat umzusetzen. 17

20 6 J. Petri 4.2 Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL Die Arbeit von D.F.Barbieri et al. ist gut strukturiert. Zunächst werden in der Einleitung die Motivation der Autoren sowie die Aufgabenstellung der Arbeit gut erläutert. In den beiden darauffolgenden Teilen Background und RDF Streams and Continuous SPARQL werden die zum Verständnis der Arbeit notwendigen Grundlagen dargelegt und ausführlich erklärt. Somit kann man die spätere Implementierung der entwickelten Anwendung leicht verstehen, auch wenn man sich davor noch nicht mit dem Thema auseinandergesetzt hat. Auch die anschließende Evaluation und ihre Ergebnisse sind leicht nachzuvollziehen. Da sowohl die Herkunft der Daten, wie auch die genutzten Frameworks ausreichend erläutert werden. Im letzten Abschnitt werden die Schlußfolgerungen die die Autoren aus den erhaltenen Ergebnissen ziehen dargelegt und welche Aspekte bei dieser Arbeit nicht berücksichtigt worden sind. Somit kann man gut erkennen welchen Nutzen die Arbeit gebracht hat und was in zukünftigen Arbeiten noch zu untersuchen ist. Alles in allem zeigt die Arbeit das Stream Reasoning auch mit den heutigen Mitteln zumindest teilweise schon realisierbar ist und das Abfragen mit C-SPARQL wesentlich schneller durchgeführt werden als SPARQL-Abfragen. 5 Synthese Schon beim lesen der Einleitungen der beiden Arbeiten wird deutlich dass ein enger Zusammenhang zwischen ihnen besteht. Nicht nur dass die Motivation die zu ihrer Entstehung führte identisch ist, sie wird auch gleich dargelegt. Die Anfänge der beiden Arbeiten sind quasi identisch. Was wohl auch darauf zurückzuführen ist das E.Della Valle und S.Ceri an beiden Arbeiten mitgewirkt haben. Im weiteren Verlauf wird jedoch klar dass den beiden Arbeiten eine unterschiedliche Aufgabenstellung zu Grunde liegt. Während die erste Arbeit von E.Della Valle et al.[1] eine Art Vorstellung und Einführung des Konzeptes des Stream Reasoning ist, wird in der zweiten Arbeit von D.F.Barbieri et al.[2] eine konkrete Implementierung im Rahmen des Stream-Reasoning entwickelt, durchgeführt und getestet. In [1] werden lediglig Beispiele für die Anwendung des Stream Reasoning und zu lösende Probleme vorgestellt und aufgrund dessen zukünftige Forschungsbereiche abgesteckt. In[2] dagegen wurde konkrete Forschungsarbeit auf dem Gebiet des nach[1] Stream Data Management for the Semantic Web durchgeführt. 6 Schlussfogerungen und offene Fragen Man kann sagen dass beide Arbeiten im Gebiet der Grundlagenforschung anzusiedeln sind. Bei beiden wird deutlich, dass es noch sehr viel Forschungsund Entwicklungsarbeit zu leisten gilt, bis das Konzept des Stream-Reasoning praktisch nutzbar ist. Die erste Arbeit[1] stellt im Prinzip nur einen Leitfaden für zukünftige Forschungsarbeit dar. Das Konzept des Stream-Reasoning und 18

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung A. Göbel, Prof. K. Küspert Friedrich-Schiller-Universität Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Institut für angewandte Informationstechnologie (InIT)

Institut für angewandte Informationstechnologie (InIT) School of Engineering Institut für angewandte Informationstechnologie (InIT) We ride the information wave Zürcher Fachhochschule www.init.zhaw.ch Forschung & Entwicklung Institut für angewandte Informationstechnologie

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

REAL-TIME DATA WAREHOUSING

REAL-TIME DATA WAREHOUSING REAL-TIME DATA WAREHOUSING Lisa Wenige Seminarvortrag Data Warehousing und Analytische Datenbanken Friedrich-Schiller-Universität Jena - 19.01.12 Lisa Wenige 19.01.2012 2 Agenda 1. Motivation 2. Begriffsbestimmung

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Cloud-Computing - Überblick

Cloud-Computing - Überblick Cloud-Computing - Überblick alois.schuette@h-da.de Alois Schütte 24. November 2014 1 / 20 Inhaltsverzeichnis 1 Was ist Cloud-Computing Warum beschäftigt man sich mit Cloud Computing? 2 Aufbau der Veranstaltung

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Ein Auszug aus... Studie. Content Management Systeme im Vergleich. Empfehlungen und Entscheidungshilfen für Unternehmensbereiche

Ein Auszug aus... Studie. Content Management Systeme im Vergleich. Empfehlungen und Entscheidungshilfen für Unternehmensbereiche Ein Auszug aus... Studie Content Management Systeme im Vergleich Empfehlungen und Entscheidungshilfen für Unternehmensbereiche Die komplette Studie ist bei amazon.de käuflich zu erwerben. Inhaltsverzeichnis

Mehr

Business Intelligence - Wie passt das zum Mainframe?

Business Intelligence - Wie passt das zum Mainframe? Business Intelligence - Wie passt das zum Mainframe? IBM IM Forum, 15.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Ressourcen bei BARC für Ihr Projekt Durchführung von internationalen Umfragen,

Mehr

Distributed testing. Demo Video

Distributed testing. Demo Video distributed testing Das intunify Team An der Entwicklung der Testsystem-Software arbeiten wir als Team von Software-Spezialisten und Designern der soft2tec GmbH in Kooperation mit der Universität Osnabrück.

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

1 Einleitung. 1.1 Unser Ziel

1 Einleitung. 1.1 Unser Ziel 1 Dieses Buch wendet sich an alle, die sich für agile Softwareentwicklung interessieren. Einleitend möchten wir unser mit diesem Buch verbundenes Ziel, unseren Erfahrungshintergrund, das dem Buch zugrunde

Mehr

Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services

Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services BICCnet Arbeitskreistreffen "IT-Services" am 14. November bei fortiss Jan Wollersheim fortiss

Mehr

Grid Computing. Einführung. Marc Lechtenfeld. Seminar Grid Computing Sommersemester 2004 Universität Duisburg-Essen

Grid Computing. Einführung. Marc Lechtenfeld. Seminar Grid Computing Sommersemester 2004 Universität Duisburg-Essen * Grid Computing Einführung Marc Lechtenfeld Seminar Grid Computing Sommersemester 2004 Universität Duisburg-Essen Übersicht 1 Problematik 2 Systemanforderungen 3 Architektur 4 Implementation 5 Projekte

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

A Platform for Complex Event Processing

A Platform for Complex Event Processing A Platform for Complex Event Processing Einführung Business Process Technology Prof. Dr. Mathias Weske Matthias Kunze Nico Herzberg Business Process Technology Seit 2001 Untersuchung realer Probleme des

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Das Open Network Environment neue Impulse für Innovation

Das Open Network Environment neue Impulse für Innovation Lösungsüberblick Das Open Network Environment neue Impulse für Innovation Überblick Technologien wie Cloud Computing, Mobilität, Social Media und Video haben in der IT-Branche bereits eine zentrale Rolle

Mehr

ShopBot, ein Software-Agent für das Internet

ShopBot, ein Software-Agent für das Internet Software-Agenten p.1/20 ShopBot, ein Software-Agent für das Internet Eine Einführung in (Software-)Agenten Madeleine Theile Software-Agenten p.2/20 Aufbau des Vortrags grundlegende Theorie Definition Autonomy,

Mehr

IT-Monitoring braucht Sicherheit Sicherheit braucht Monitoring. Günther Klix op5 GmbH - Area Manager D/A/CH

IT-Monitoring braucht Sicherheit Sicherheit braucht Monitoring. Günther Klix op5 GmbH - Area Manager D/A/CH IT-Monitoring braucht Sicherheit Sicherheit braucht Monitoring Günther Klix op5 GmbH - Area Manager D/A/CH Technische Anforderungen an IT Immer komplexere & verteiltere Umgebungen zunehmend heterogene

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Large Scale Data Management

Large Scale Data Management Large Scale Data Management Beirat für Informationsgesellschaft / GOING LOCAL Wien, 21. November 2011 Prof. Dr. Wolrad Rommel FTW Forschungszentrum Telekommunikation Wien rommel@ftw.at Gartner's 2011 Hype

Mehr

Mobile Backend in der

Mobile Backend in der Mobile Backend in der Cloud Azure Mobile Services / Websites / Active Directory / Kontext Auth Back-Office Mobile Users Push Data Website DevOps Social Networks Logic Others TFS online Windows Azure Mobile

Mehr

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Eine kurze Einführung in die Technologiegrundlage. Future Internet Technologies and Funding for Agri-Food, Logistics, Transport and Manufacturing

Eine kurze Einführung in die Technologiegrundlage. Future Internet Technologies and Funding for Agri-Food, Logistics, Transport and Manufacturing Eine kurze Einführung in die Technologiegrundlage www.finish-project.eu Future Internet Technologies and Funding for Agri-Food, Logistics, Transport and Manufacturing Was ist FIWARE? Future Internet Ware

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

It's all in the Cloud! Cloud Computing Grundlagen

It's all in the Cloud! Cloud Computing Grundlagen It's all in the Cloud! Cloud Computing Grundlagen Folie: 1/25 Agenda Einleitung - Cloud Computing Begriffe Überblick - Wer bietet was? Der Weg zur Private Cloud Einblick - RRZK und Cloud Computing Anmerkung

Mehr

Repeatable Benchmarking Mahout

Repeatable Benchmarking Mahout Studienarbeitsexposé Repeatable Benchmarking Mahout Entwicklung eines Lasttest-Rahmenwerkes für Apache Mahout von: Oliver Fischer Institut für Informatik Humbold-Universität zu Berlin Matrikelnummer: 19

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Towards Automated Analysis of Business Processes for Financial Audits

Towards Automated Analysis of Business Processes for Financial Audits Towards Automated Analysis of Business Processes for Financial Audits Michael Werner Universität Hamburg michael.werner@wiso.uni hamburg.de Max Brauer Allee 60 22765 Hamburg StB Prof. Dr. Nick Gehrke Nordakademie

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Dezentralisiertes Quality-of-Service Monitoring

Dezentralisiertes Quality-of-Service Monitoring Dezentralisiertes Quality-of-Service Monitoring Mai 2013 netidee Zwischenbericht Dieses Dokument informiert über den aktuellen Stand des Netidee 2012 Projektes Dezentralisiertes Quality-of-Service Monitoring.

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr

Intelligent Traveller Early Situation Awareness itesa

Intelligent Traveller Early Situation Awareness itesa Intelligent Traveller Early Situation Awareness itesa Dr. Martin Skorsky, Senior Researcher 22. Juni 2015 1 1 Intelligent Traveller Early Situation Awareness Automatischen Alarmsystems, das Reisende in

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Herausforderungen des Continuous Auditing im Big Data Umfeld

Herausforderungen des Continuous Auditing im Big Data Umfeld Herausforderungen des Continuous Auditing im Big Data Umfeld Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft der Wirtschaftswissenschaftlichen

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 2. November 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Alexander Schätzle, Martin Przjyaciel-Zablocki, Thomas Hornung dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Infrastruktur als Basis für die private Cloud

Infrastruktur als Basis für die private Cloud Click to edit Master title style Infrastruktur als Basis für die private Cloud Peter Dümig Field Product Manager Enterprise Solutions PLE Dell Halle GmbH Click Agenda to edit Master title style Einleitung

Mehr

Cloud Computing Chancen für KMU

Cloud Computing Chancen für KMU Cloud Computing Chancen für KMU Sascha A. Peters Cluster Manager IT FOR WORK 31. Oktober 2012 Cloud Computing Worüber reden alle? Fragen zum Thema Cloud Was ist Cloud Computing und wofür wird es genutzt?

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

SOA im Zeitalter von Industrie 4.0

SOA im Zeitalter von Industrie 4.0 Neue Unterstützung von IT Prozessen Dominik Bial, Consultant OPITZ CONSULTING Deutschland GmbH Standort Essen München, 11.11.2014 OPITZ CONSULTING Deutschland GmbH 2014 Seite 1 1 Was ist IoT? OPITZ CONSULTING

Mehr

ASQT 2015. 13. Anwenderkonferenz für Softwarequalität, Test und Innovation

ASQT 2015. 13. Anwenderkonferenz für Softwarequalität, Test und Innovation ASQT 2015 13. Anwenderkonferenz für Softwarequalität, Test und Innovation Kongress Graz 16. u. 17. April 2015 www.asqt.org Motivation In den letzten 50 Jahren haben zwei Wellen der Informationstechnologie

Mehr

vfabric-daten Big Data Schnell und flexibel

vfabric-daten Big Data Schnell und flexibel vfabric-daten Big Data Schnell und flexibel September 2012 2012 VMware Inc. All rights reserved Im Mittelpunkt: Daten Jeden Morgen wache ich auf und frage mich: Wie kann ich den Datenfluss optimieren,

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH CEPaaS Complex Event Processing as a Service Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH Daniar Achakeyev, Daniel Schäfer, Philip Schmiegelt CEP-Forschung in Marburg: aus

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Seminar SS 09 Amdahl`s Law and Cloud-Computing

Seminar SS 09 Amdahl`s Law and Cloud-Computing Seminar SS 09 Amdahl`s Law and Cloud-Computing Prof. G. Bengel Fakultät für Informatik SEMB 7IBW 8IB Raum HO609 Mo 9:45-11:15 1. Teil: Amdahl sches Gesetz 1. Vortrag Das Gesetz von Amdahl und Gustafson

Mehr

TECHNISCHE PRODUKTINFORMATION CARUSO

TECHNISCHE PRODUKTINFORMATION CARUSO 1111 TECHNISCHE PRODUKTINFORMATION CARUSO TECHNISCHE PRODUKTINFORMATION Seite 0/7 Inhalt 1 Systemdefinition............2 2 Technische Details für den Betrieb von CARUSO......2 2.1 Webserver... 2 2.2 Java

Mehr

1. Einleitung. 1.1. Ausgangssituation

1. Einleitung. 1.1. Ausgangssituation 1. Einleitung In der vorliegenden Arbeit wird untersucht, welche Faktoren den erfolgreichen Ausgang eines Supply-Chain-Projektes zwischen zwei Projektpartnern beeinflussen. Dazu werden zum einen mögliche

Mehr

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN CLOUD-ENTWICKLUNG: BESTE METHODEN 1 Cloud-basierte Lösungen sind auf dem IT-Markt immer weiter verbreitet und werden von immer mehr

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Wiki-basierte Dokumentation von Software-Entwicklungsprozessen

Wiki-basierte Dokumentation von Software-Entwicklungsprozessen Wiki-basierte Dokumentation von Software-Entwicklungsprozessen Erfahrungen aus der industriellen Praxis Fraunhofer IESE Kaiserslautern Inhalt Wiki-basierte Dokumentation von Software-Entwicklungsprozessen

Mehr

Cloud-Computing Seminar - Vergleichende Technologien: Grid-Computing Hochschule Mannheim

Cloud-Computing Seminar - Vergleichende Technologien: Grid-Computing Hochschule Mannheim Sven Hartlieb Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Cloud-Computing Seminar - Vergleichende Technologien: Grid-Computing Hochschule Mannheim Sven Hartlieb Fakultät für Informatik Hochschule

Mehr

Big Data in Marketing und IT

Big Data in Marketing und IT Big Data in Marketing und IT Chancen erkennen, Strategien entwickeln und Projekte erfolgreich umsetzen T-Systems Hacker Day 30. September 2015 Prof. Dr. Alexander Rossmann Reutlingen University Big Data

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

Buildfrei skalieren für Big Data mit Z2

Buildfrei skalieren für Big Data mit Z2 Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN

Mehr

Thementisch Anwendungsgebiete und

Thementisch Anwendungsgebiete und Thementisch Anwendungsgebiete und b Erfolgsgeschichten KMUs und Big Data Wien 08. Juni 2015 Hermann b Stern, Know-Center www.know-center.at Know-Center GmbH Know-Center Research Center for Data-driven

Mehr

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer Knowledge Management Wissensmanagement 0. Produktionsfaktoren 1. Data Information Knowledge 2. Knowledge representation Wissensdarstellung 3. Interfaces to artificial intelligence 4. Knowledge management

Mehr

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10. AustroFeedr Pushing the Realtime Web Projektplan erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.2010 gefördert durch die Internet Privatstiftung Austria (IPA) 1 Projektbeschreibung

Mehr

Mobile Backend in. Cloud. Azure Mobile Services / Websites / Active Directory /

Mobile Backend in. Cloud. Azure Mobile Services / Websites / Active Directory / Mobile Backend in Cloud Azure Mobile Services / Websites / Active Directory / Einführung Wachstum / Marktanalyse Quelle: Gartner 2012 2500 Mobile Internet Benutzer Desktop Internet Benutzer Internet Benutzer

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Forms2Net Die neue Migrations-Software

Forms2Net Die neue Migrations-Software Forms2Net Die neue Migrations-Software Forms2Net transportiert Ihre Oracle Forms Anwendungen perfekt nach Microsoft.NET Darauf haben viele gewartet. Vielleicht auch Sie! Forms2Net ist ein Produktpaket,

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen

Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Cloud Computing in Industrie 4.0 Anwendungen: Potentiale und Herausforderungen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftsingenieur der Fakultät

Mehr