Proceedings of Seminar. Information Management with Big Data and Cloud Computing

Größe: px
Ab Seite anzeigen:

Download "Proceedings of Seminar. Information Management with Big Data and Cloud Computing"

Transkript

1 Proceedings of Seminar Information Management with Big Data and Cloud Computing Chair in Information Systems Prof. Dr.-Ing. Wolfgang Maaß Department of Law and Economics Saarland University Summer 2014 Universität des Saarlandes Saarbrücken 2014

2 Preface This textbook represents an extract of the proceedings of the seminar Information Management with Big Data and Cloud Computing conducted at chair of information and service systems of Saarland University in summer term of Nowadays, big data and cloud computing play a major role in business, and health care as well as within industrial production processes. In this context, several research questions arise that touch topics like (1) the usability of corresponding interfaces, (2) techniques to analyze big data and (3) the combination of cloud computing and big data at real time. However, the goal-oriented application of technologies regarding big data and cloud computing in heterogeneous environments is quire challenging. Within the seminar, the students worked on manifold topics concerning the information management with big data and cloud computing, e.g., MapReduce, data stream reasoning, sensor streams, complex event processing and process mining in hospitals. Results were presented and discussed regarding the usability of big data and cloud computing as well as the opportunities they do offer. The proceedings shall furthermore deliver students an insight into the variety within the field of big data and cloud computing in general and its future as a fascinating area of research. May 2014 Prof. Dr.-Ing. Wolfgang Maaß Chair in Information and Service Systems Saarland University

3 Contents 1 MapReduce Big Data and Cloud Computing Data Stream Reasoning Managing Sensor Streams Complex Event Processing Big Data in der Bioinformatik Information Systems in Precision Medicine Process Mining in Hospitals

4 MapReduce Nico Clarner Universität des Saarlandes Schlüsselwörter: MapReduce, parallel DBMS, Big Data 1 Einleitung MapReduce ist ein Programmierparadigma, das es ermöglicht sehr große Datenmengen auf mehreren Computerclustern parallel zu verarbeiten. Diese Arbeit beschäftigt sich zum Einen mit dem von Google entwickelten Interface 2, sowie der Analyse des Open-Source Frameworks von Hadoop verglichen mit parallelen Datenbankmanagementsystemen 3. 2 MapReduce: Simplified data processing on large clusters[1] 2.1 Zusammenfassung Vor der Entwicklung von MapReduce wurden viele Individuallösungen zur Verarbeitung großer Datenmengen programmiert. Da die Parallelisierung der Prozesse oft sehr aufwendig war, wurde die MapReduce Abstraktion entwickelt, welche es Programmierern erleichtert, gewünschte Funktionalitäten zu implementieren, ohne die Details der Nebenläufigkeit, Fehlertoleranz und geeigneter Datenverteilung beachten zu müssen. Ziel ist es, eine effiziente Ressourcennutzung bei möglichst geringem Aufwand und hoher Ausfallsicherheit zu erreichen. 2.2 Aufbau Ziel der Arbeit ist es eine Abstraktion 1 zu entwickeln welche es ermöglicht, Berechnungsformeln einfach auszudrücken, während die tiefgehenden Implementierungsdetails verborgen bleiben. Das Programmierparadigma besteht im Wesentlichen aus den zwei Funktionen Map und Reduce, welche vom Benutzer anforderungsspezifisch geschrieben und anschließend vom Modell zur Datenverarbeitung benutzt werden. Die konkrete Implementierung des MapReduce Interfaces hängt von der Architektur des Systems ab auf dem operiert wird. Die interne Steuerung und Supervision der Aufgaben wird durch eine Master-Funktion 1 semantische Definition 2

5 2 N. Clarner übernommen, welche für die einzelnen Prozesse Identitäts-, Lokalitäts- und Statusvariablen, sowie spezielle Datenstrukturen verwaltet. Diese überwacht ebenfalls technische Ausfälle, welche aufgrund des hohen Distributiongrades möglich sind, das Berechnungsergebnis aber nicht beeinflussen dürfen. Dies geschieht über regelmäßige Pings an jede Maschine, welche bei ausbleibender Antwort als abgestürzt bzw. inaktiv gemeldet wird. Der betroffene Prozess wird dann hinsichtlich einer schnellen Fertigstellung der Operation an eine andere Maschine verteilt. Um die Netzwerkaktivitäten als limitierten Faktor möglichst zu schonen, wird mit Hilfe des Google File Systems eine redundante 2 aber lokale Datenspeicherung bewirkt. Um eine optimale Lastenverteilung und schnelle Fehlerbehebung zu garantieren wird auf eine feingranulare Aufgabenstruktur geachtet, sodass die Anzahl der Teilaufgaben wesentlich größer als die der Maschinen ist. Da es gegen Ende der Ausführung einer MapReduce-Operation oft zu Laufzeitverlusten bedingt durch Fehler oder Teilaufälle kommt, werden in der Endphase noch zu tätigende Aufgaben an mehrere Maschinen redundant vergeben, was zu einer erheblichen Zeitersparnis führt, ohne dabei Computerressourcen signifikant zu belasten. Zur Leistungsbemessung wurden zwei Algorithmen auf identischen Computerclustern über 1 Terabyte große Datensätze ausgeführt. Dies war zum einen grep 3 ein Algorithmus zur Mustererkennung, sowie ein Sortieralgorithmus basierend auf dem TeraSort Konzept. Seit Entwicklung des ersten Entwurfs der MapReduce-Bibliothek wurden erstaunlich viele Anwendungsbereiche erschlossen. Der Erfolg des Paradigmas liegt darin, dass Programmierer ein einfaches Programm auf tausenden von Maschinen ausführen können, ohne genaue Fachkenntnisse über Nebenläufigkeit zu besitzen, was zu einer extremen Zeitersparnis führt. Ein weiterer Erfolgsfaktor ist die Möglichkeit ein breites Spektrum an Problemen als MapReduce-Berechnung auszudrücken. 2.3 Kritische Bewertung des Aufbaus Der Artikel bietet ein illustres Bild über die detaillierte Funktionsweise sowie Anwendungsbereiche des MapReduce Paradigma und macht dies einfach verständlich. Die Vorteile und innovativen Funktionalitäten werden klar herausgestellt, wobei mögliche Nachteile gar nicht erst angebracht werden. Wie mehrmals im Text erwähnt, ist dies nur eine Kurzversion der originalen Forschungsarbeit, wodurch in einigen Abschnitten der genaue Kontext oder interessante Details fehlen. Somit ist das Paper eine gelungene Darstellung der Forschungsarbeit von Dean und Ghemawat, wer jedoch nach einer tiefergehenden Dokumentation sucht, sollte sich mit dem Original Artikel auseinander setzen. 2 Kopien auf mehreren Maschinen zum Ausfallschutz 3 global/regular expression/print 3

6 MapReduce 3 3 Mapreduce an Parallel DBMSs: Friends or Foes?[2] 3.1 Zusammenfassung Obwohl MapReduce als Wundermittel für großflächige Datenverarbeitung gehandelt wurde und man prognostiziert hat, es würde relationale Datenbankmodelle verdrängen, argumentieren Stonebraker et al. dafür, dass sich beide Technologien ergänzen statt konkurieren sollten. 3.2 Aufbau Ziel dieser Arbeit ist ein Vergleich von MapReduce und Parallelen DBMS 4 hinsichtlich Leistung, Anpassungsfähigkeit und Benutzerfreundlichkeit. Durch die in der IT-Welt immer populärer werdende Idee des Cloud Computing, einer Netzwerkorientierten Serverarchitektur, verbreiteten sich auch immer mehr Hilfsmittel um diese zu nutzen. MapReduce als eines dieser Werkzeuge erlangte aufgrund seiner Benutzerfreundlichkeit große Bekanntheit und es stellte sich die Frage, ob es parallele DBMS ersetzt. Aus Befragungen ergab sich, dass MapReduce hauptsächlich als ETL-System 5 benutzt wird, was den großen Unterschied zu DBMS darstellt, die dafür weitestgehend ungeeignet sind. Eine durchgeführte Benchmarkingstudie(Seite 4) ergab, dass DBMS bedeutend schneller sind sobald die Daten einmal geladen sind, was aber in Datenbanksystemen viel Zeit beansprucht. Es folgt eine Abwägung der Leistungsunterschiede basierend auf den beschränkenden architektonischen Faktoren, gefolgt von einer Auswertung, wie die beiden Syteme sich gegenseitig ergänzen können. Als wesentliche Neuerung in parallelen Datenbanksystemen wurde die horizontale Partitionierung gesehen, welche die Zeilen einer Datenbank auf mehrere Computercluster verteilt, und in Folge dessen auch SQL-Befehle 6 parallelisiert und die Ergebnisse der Abfragen vor der Ausgabe wieder zusammenführt 7. Vorteil des MapReduce Modells ist dessen Unkompliziertheit, da lediglich die zwei Funktionen Map und Reduce vom Nutzer geschrieben werden müssen. Die Semantik des MapReduce-Modells ist zwar nicht einzigartig und kann von einem modernen parallelen DBMS mittels SQL auch ausgeführt werden, jedoch ist gerade die Map-Operation schwer in SQL auszudrücken. Parallele DBMS profitieren hingegen von linearer Skalierbarkeit 8. Obwohl ein DBMS identische Aufgaben übernehmen kann wird MapReduce in einigen Anwendungsbereichen als bessere Lösung angepriesen. Es werden fünf Bereiche hinsichtlich Auswirkungen der Benutzung beider Systeme untersucht. Während MapReduce als Allzweck-ETL-System betrachtet werden kann, existieren für DBMS lediglich on-top Anwendungen, welche ETL-Prozesse 4 Datenbankmanagementsystemen 5 extract-transform-load 6 Structured Query Language 7 Merge Operation benötigt 8 Zusätzliche Cluster erhöhen die Leistung linear 4

7 4 N. Clarner durchführen. In vielen Data Mining und Clustering Anwendungen müssen semistrukturierte Daten mehrfach traversiert werden, was in einem einzigen SQL- Query nicht umsetzbar ist. MapReduce hingegen löst diese Aufgaben mit Leichtigkeit und bietet zudem den Vorteil, dass kein explizites Schema für die Daten definiert werden muss. Feste Schemata haben bei Zeilenorientierten Datenbanken oft Leistungseinbußen zur Folge, da ungesetzte Attribute mit NULL initialisiert werden, was schlecht zu verarbeiten ist. Spaltenorientierte Datenbanksysteme lesen hingegen nur relevante Attribute aus und erzeugen so gute Leistung, speziell in RDF 9 Datensätzen. So wird für analytische Zwecke ein Spaltenorientiertes Datenbanksystem empfohlen. Geht es lediglich um Datenaufbereitung, so ist MapReduce die bessere Wahl. Datenbankmanagementsysteme sind oft sehr umfangreich, kostenintensiv und es besteht ein hoher Installations- und Konfigurationsaufwand. So müssen Schemata für die Daten definiert werden und die Ausführung einer Anfrage kann ohne korrekte Implementierung mehrere Stunden beanspruchen, statt wie üblich wenige Minuten. MapReduce ist effizient für komplexe Datenanalysen, und hat den Vorteil, dass die vielen Open-Source 10 Implementierungen kaum budgetintensiv sind. Bei stark strukturierten Daten und komplexen Anfragen sollte man allerdings DBMS bevorzugen. Die Benchmarkingstudie beschäftigtsich mit den Leistungen der Systeme, wenn diese innerhalb sowie außerhalb ihrer bestimmungsgemäßen Anwendungsbreiche getestet werden. Testobjekte waren Hadoop Mapreduce, DBMS-X und Vertica 11. Durch die gigantische Open-Source community von Hadoops MapReduce nahm die Optimierung dessen viel Zeit in Anspruch. Überaschendes Ergebnis war, dass die DBMS bei allen drei Aufgaben 12 einen Laufzeitvorteil gegenüber dem Hadoop System hatten. Dies kann auf die unterschiedlichen Implentierungsstrategien der beiden Systemklassen zurückgeführt werden. MapReduce benötigt weitaus mehr parsing-ausführungen als das DBMS, was zu Laufzeitverlusten führt. Ebenso sollte bei MapReduce eine Datenkompression vermieden werden. Ein weiterer Unterschied besteht im Datentransfer, wo das DBMS die Daten an den nachfolgenden Knoten überträgt, was hinsichtlich der Gefahr eines Datenstaus vom Laufzeitsystem überwacht werden muss während MapReduce die lokal gespeicherten Daten automatisch abfragt. So wird beim DBMS die Datentransferrate zwischen den Knoten möglichst gering gehalten. Viele komplexe analytische Probleme erfordern Funktionalitäten beider Systeme, sodass es neuer Schnittstellenlösungen bedarf um die Kapazitäten jedes Systems optimal ausnutzen zu können. 3.3 Kritische Bewertung des Aufbaus Der Vergleich beider Technologien erscheint bei genauerer Betrachtung ein wenig subjektiv. Umfang sowie Bewertung der Beschreibung des DBMS stechen stark 9 Rule Definition Framework 10 Kostenlos verfügbar 11 Spaltenorientiertes DBMS 12 Grep,Join sowie WebLog Analyse 5

8 MapReduce 5 hervor, während MapReduce oft als insuffiziente Ergänzungslösung betrachtet wird. Ohnehin entbehrt der Artikel einem roten Faden, der den Forschungsverlauf klar und übersichtlich dokumentiert, was eine Ursache der zahlreichen Autoren sein kann. Es werden Zwischenschlüsse innerhalb einzelner Sektionen gezogen welche nur teilweise oder gar nicht in die finale Zusammenfassung der Ergebnisse eingehen. Ebenso bleibt offen, inwiefern die Ergebnisse der Benchmarkingstudie mit den Resultaten korrelieren. 4 Synthese Beide Artikel legen starken Fokus auf die technischen Details der Implementierungsebene. Wohingegen [1] tief auf Entwicklungsarbeit, Testing und Korrektheit des MapReduce Paradigmas eingeht und dessen Innovationskraft herausstellt, ist [2] mehr auf einen anwendungsorientierten Vergleich bedacht, welcher partiell Ergänzungsmöglichkeiten beider Systeme anbringt und sogar [1] als Quelle nutzt. Allerdings war zur Entstehung von [1] die entwickelte Semantik tatsächlich eine Neuerung. Sechs Jahre später hingegen war MapReduce weitgehend etabliert und auch die Möglichkeiten von Datenbankmanagementsystemen haben sich extrem weiterentwickelt, sodass vom Forschungsstand beider Arbeiten schon eine Diskrepanz herrscht. 5 Konklusion und Forschungsaussichten In Anlehnung an 2 könnte MapReduce lokal optimiert werden, sodass Daten, statt sie nach Berechungschritten zu speichern, an weitere Clusterkerne in naheliegenden Maschinen gepusht werden, um die Datentransferrate im Netzwerk zu verringern, wie dies bei parallelen DBMS der Fall ist. Beide Systeme sind insofern verbesserungswürdig, indem MapReduce die Abstraktionsebene der Eingabefunktionen 13 erhöht und DBMS anpassungsfähiger im Hinblick auf in-situ Daten 14 werden. Beide Technologien stellen fundamentale Werkzeuge zur Bearbeitung und Analyse großer Datenmengen da, was mit wachsenden Informationsströmen in Privat- und Geschäftsleben zukünftig eine der bedeutungsvollsten Herausforderungen im Bereich der Informatik/Wirtschaftsinformatik darstellt. Literatur 1. Dean, J., Ghemawat, S.: Mapreduce: Simplified data processing on large clusters. Commun. ACM 51(1), (Jan 2008), Stonebraker, M., Abadi, D., DeWitt, D.J., Madden, S., Paulson, E., Pavlo, A., Rasin, A.: Mapreduce and parallel dbmss: Friends or foes? Commun. ACM 53(1), (Jan 2010), 13 SQL-Anfragen sind einfacher zu schreiben als MR-Code 14 unstrukturierte Daten im Dateisystem 6

9 Big Data and Cloud Computing Ricarda Gallelli Universität des Saarlandes, Campus, D Saarbrücken 1 Einleitung Big Data und Cloud Computing spielen in der Wirtschaft eine immer größere Rolle. Die zu verarbeitenden Datenmengen werden immer umfangreicher und müssen dennoch effektiv bearbeitet und ausgewertet werden können. Dabei stellt Cloud Computing eine Möglichkeit zur Lösung des Problems dar. Die großen Datenmengen werden aufgesplittet und in Teilprobleme aufgeteilt. Die Lösung der Teilprobleme ist mit bewährten Methoden der Datenverarbeitung möglich. Die dieser Arbeit zugrunde liegenden Artikel zeigen verschiedene Lösungswege zur Verarbeitung von Big Data auf und wägen sie gegeneinander ab. Außerdem werden Einsatzmöglichkeiten von Cloud Computing dargelegt. Mithilfe von Tutorien versuchen die Autoren beider Artikel die Materie des Cloud Computing näher zu erläutern. 2 Zusammenfassung der Artikel 2.1 Computional Solutions to large-scale data management and analysis Da in der Genetik immer weiter geforscht wird, müssen auch immer mehr DNA und RNA 1 Sequenzierungsdaten gleichzeitig verarbeitet werden. Bei sinkenden Preisen wird die stetig wachsende Menge an Daten innerhalb weniger als eines Jahres 2 in den Terabyte bzw. Petabyte-Bereich übergehen. Um diesem Problem Herr zu werden gilt es nun geeignete Rechenumgebungen zu finden. Als mögliche Lösungswege dafür werden hier das Cloud Computing und heterogene Rechenumgebungen genannt. Die Daten müssen effizient bewegt werden, dabei erfolgt die Auswertung parallel durch Verteilung der Aufgaben auf verschiedene Computerprozesse. Parallele Auswertungen lassen sich in lose gekoppelte, also leicht teilbare, und eng gekoppelte Parallelitäten unterteilen, welche zur Auswertung einen erheblichen Programmieraufwand benötigen. Ziel der Forscher ist es Modelle zu entwickeln, die Phänotypen wie z.b. Krankheiten vorhersagen und gleichzeitig die Ressourcen effektiv einzusetzen. Das Cloud Computing bietet viel Flexibilität, da ein Pay-as-you-need Modell vorliegt. Es werden mehrere 1 Ribonukleinsäure 2 Stand

10 virtuelle Maschinen nebeneinander genutzt, auf die die Datenpakete aufgeteilt werden, gespeichert werden die Daten in der Cloud. Mithilfe von MapReduce werden die Daten in homogene Teilprozesse aufgeteilt, welche dann einzeln verarbeitet und danach wieder zusammengefügt werden. Bei den heterogenen Rechenumgebungen werden hingegen spezielle Beschleuniger in die Mehrkern Computer integriert, wodurch der Spitzenrechendurchsatz um das 10- bis 100-fache erhöht wird. Im Gegensatz zu Cloud Computing sind heterogene Rechenumgebungen optimal für eng gekoppelte Parallelitäten geeignet. Sie sind allerdings auch schwieriger zu entwickeln, da gute IT-Kenntnisse notwendig sind. In einem Tutorium wird anschließend Cloud Computing anhand des Beispiels Amazon S3 [2] erklärt. Die Autoren beschreiben die Arbeit mit der Managementkonsole und erläutern die Arbeitsschritte, wonach zuerst die Daten hochgeladen werden, dann der Auftragsfluss definiert (Reduzieren und Kombinieren der Daten mittels MapReduce) und zum Schluss dieser dann ausgeführt (Bearbeitung der Daten, herunterladen, etc.) wird. 2.2 Big Data and Cloud Computing: Current State and Future Opportunities Cloud Computing ist sehr serviceorientiert. Es findet sowohl Anwendung als IaaS (Infrastructure as a Service), als auch als PaaS (Platform as a Service) oder SaaS (Software as a Service). Durch das Pay-per-use Modell muss der Anwender auch nur das zahlen, was er wirklich benötigt. Außerdem ist es leicht zu vermarkten, da die Anfangsinvestition sehr gering ist. Skalierbare Datenbankmanagementsysteme (DBMS) sind ein wichtiger Bestandteil der Cloud-Infrastruktur und spielen eine wichtige Rolle beim Übergang von Anwendungen aus der Infrastruktur eines traditionell arbeitenden Unternehmens zur Cloud-Infrastruktur. Dabei wird unterschieden zwischen Updates von in der Cloud integrierten Webanwendungen, welche vor allem bei großen Anwendungen verwendet werden und Entscheidungsunterstützungssystemen zur Untersuchung der deskriptiven und analytischen Tiefe. Die Autoren zeigen in ihrem Tutorium auch, dass gerade im Bereich von Großanwendungen noch Verbesserungen notwendig sind. Während der Anwendungsserver leicht skalierbar ist, gibt es in der Daten-Management Infrastruktur häufig Engpässe. Es fehlen zudem Open-Source Cloud Funktionen, da die teuren Unternehmenslösungen in größerem Maßstab unattraktiv sind. Key- Value Shops stellen eine einfache Alternative dar, um die riesigen Datenmengen zu verarbeiten[3]. Große mandantenfähige Datenbanken benötigen ebenfalls die Unterstützung einer Cloud. Dabei werden viele verschiedene Anwendungen jeweils mit kleinen Datenfußabdrücken versehen. Die einzelnen Mieter (z.b. verschiedene Unternehmen eines Konzerns oder Unternehmensstützpunkte) teilen sich dann die gleiche Datenbank. Jeder Mieter hat einen eigenen Bereich in der Cloud, es besteht aber auch die Möglichkeit auf bestimmte Teile gemeinsamen Zugriff zu haben. Dies geschieht traditionell allerdings nur als SaaS, aber auch PaaS-Anbieter entwickeln Modelle mit mandantenfähigen Datenbanken. 8

11 3 Analyse des Aufbaus 3.1 Computional Solutions to large-scale data management and analysis Aufgabenstellung Die Aufgabenstellung ist es, den bestmöglichen Weg der Datenverarbeitung zu finden. Um große Datenmengen verarbeiten zu können, müssen verschiedene Rechenumgebungen wie Cloud Computing und heterogene Rechenumgebungen analysiert werden. Daraus lässt sich dann die jeweils passende Lösung ableiten. Mithilfe eines Tutorials soll dann genauer gezeigt werden, wie die Arbeit mit Clouds funktioniert. Vorgehensweise Zunächst muss die Ist-Situation der bioinformatischen Probleme analysiert und das Ziel der Forscher festgesetzt werden. Die Analyse umfangreicher Daten stellt die Forscher vor verrechnungstechnische Herausforderungen. Um diese zu bewältigen, muss also das vorliegende Rechenproblem genau verstanden werden. Eine Möglichkeit besteht aus Cloud Computing in Verbindung mit MapReduce. Hier erörtern die Autoren Vor- und Nachteile von Cloud Computing und zeigen, dass das Aufteilen der großen Datenmengen und Bearbeitung in Teilbereichen von MapReduce hilft, die Daten effizient zu bearbeiten. Eine zweite Möglichkeit sind heterogene Rechenumgebungen. Dabei werden heterogene Mehrkern Computer durch spezielle Beschleuniger erweitert, die dadurch den Spitzenrechendurchsatz um das bis zu fache erhöhen. Mithilfe eines Tutorials anhand des Beispiels Amazon S3 [2] wird genauer erklärt, wie die Arbeit mit Cloud Computing effektiv funktioniert. Resultate Insgesamt bieten sowohl Cloud Computing, als auch heterogene Rechensysteme nicht nur Vorteile. Sie müssen sich beide immer weiterentwickeln, da auch die Probleme mit Datenspeicherung und Analyse aufgrund exponentiell wachsender Datenmengen immer weiter zunehmen. Also ist es notwendig weitere Forschungen durchzuführen. Außerdem muss die Datenverteilung eingeschränkt werden, damit Wettbewerbsvorteile erhalten werden können. Um die bestmögliche Rechenumgebung zu finden, ist häufig eine Mischung aus Cloud Computing und heterogenen Rechenumgebungen nötig. 3.2 Big Data and Cloud Computing: Current State and Future Opportunities Aufgabenstellung Aufgabenstellung des Textes ist es, mithilfe eines Tutorials einen grundsätzlichen Überblick über Cloud Computing und seine Eigenschaften zu geben. Außerdem sollen Erfolge und Fehler skalierbarer Systeme, sowie das Datenmanagement bei Großanwendungen genauer untersucht werden. 9

12 Vorgehensweise Der Artikel ist insgesamt als Tutorial aufgebaut. Zunächst betrachten die Autoren die Vor- und Nachteile von Cloud Computing. Hintergrund ist die Unterteilung des skalierbaren Datenmanagements in zwei Bereiche: Die Unterstützung von Updates schwieriger Anwendungen sowie Ad-hoc Analysen und Entscheidungsunterstützung [1, S.531]. Das Datenmanagement von Großanwendungen befindet sich noch in der Entwicklung. Durch fehlende Cloud Funktionen in Open Source basierten relationalen Datenbanken und teure Unternehmenskonzepte bereitet die Daten-Management-Infrastrukur häufig Probleme. Auf der anderen Seite werden verschiedene Ansätze der Mandantenfähigkeit (z.b. in Verbindung mit SaaS) in einer Datenbank gesammelt um einen Überblick zu erhalten und Herausforderungen in der Gestaltung zu erkennen (vgl. 2.2). Resultate Insgesamt müssen nicht immer alle gesetzen Ziele erreicht werden, Teilziele reichen vollkommen aus. Updates sind sowohl bei großen Datenmengen in großen Anwendungen, als auch bei vielen kleineren Anwendungen mit je einem eigenen Datenfußabdruck möglich. Außerdem vermittelt das Tutorial ein Verständnis von den verschiedenen Formen der Mandantenfähigkeit in der Datenbankschicht. Weiterentwicklung und Forschung ist aber auch in Zukunft in allen behandelten Bereichen weiterhin notwendig. 4 Kritische Bewertung des Aufbaus 4.1 Computional Solutions to large-scale data management and analysis Die Ausgangssituation des Textes wird sehr ausführlich beschrieben, außerdem wird direkt klar, welches Probleme gelöst werden müssen und welche Möglichkeiten zur Lösung dieser Probleme existieren. Dieser Teil ist sehr übersichtlich und leicht verständlich. Gerade die ausführliche Einleitung gibt dem Leser auch ohne besondere Vorkenntnisse, direkt und einfach erklärt, Einblick in die Materie. Im Tutorial wird erklärt, wie gearbeitet werden soll. Auch die einzelnen Möglichkeiten zur Lösung der Probleme, also Cloud-Computing mit MapReduce und Heterogene Rechenumgebungen, werden umfassend erklärt und mithilfe von Vor- und Nachteilen gegeneinander abgewogen. Zum Schluss wird dem Leser mithilfe eines Tutorials die Praxis anhand eines Beispiels näher gebracht. Dieses ist allerdings sehr oberflächlich und nicht wirklich nachprüfbar ohne das Programm zu erwerben und selbst auszutesten. Für ein generelles, erklärendes Beispiel wäre eine für die Großzahl der Leser verständliche Variante sinnvoller. So müssten mehr Hintergrundinformationen gegeben sein, um den beschriebenen Ablauf der einzelnen Schritte besser nachvollziehen zu können. Positiv ist, dass das verwendete Beispiel sehr zeitgemäß ist und einigen Lesern, die bereits Erfahrungen in diesem Bereich gesammelt haben, das Verständnis deutlich erleichtert. 10

13 4.2 Big Data and Cloud Computing: Current State and Future Opportunities Der Text ist aufgrund seines geringen Umfangs sehr komprimiert. Er handelt von einem Tutorium, das 3 Stunden dauern soll [1, S.531]. Da das Tutorium fast den kompletten Text umfasst, werden allgemeine Informationen etwas vernachlässigt. Ohne inhaltliche Vorkenntnisse aus dem anderen Text Computional Solutions to large-scale data management and analysis [4] (Vergleiche auch 2.1) ist es schwierig alle Zusammenhänge korrekt zu verstehen. Alle Teilbereiche werden kurz angerissen, aber nicht ausführlich erklärt. Besonders Ausdrücke wie We also provide a survey of some of the current research projects which aim to infuse the cloud features in relational databases. [1, S.532] weisen darauf hin. Dies könnte aber auch daran liegen, dass der Text einen Überblick über ein Tutorial liefert, indem dies möglicherweise genauer erläutert wird. Offene Probleme hingegen werden sehr ausführlich erklärt und zeigen dem Leser auf, was in Zukunft noch weiterentwickelt und verändert werden muss. Außerdem ist positiv zu berücksichtigen, dass es einen eigenen Abschnitt gibt, der gegen Ende des Textes noch einmal die Lerninhalte zusammenfasst, wodurch der Leser noch einmal hinterfragt wird. Insgesamt ist der Text nicht ganz einfach zu verstehen, mithilfe der Hinterfragung am Ende wird der Leser aber auch dazu angehalten nicht verstandene Passagen noch einmal zu wiederholen. 5 Synthese Beide Artikel bauen auf einem Tutorial auf, mit dem die Vorgänge und Zusammenhänge von Cloud Computing besser veranschaulicht werden sollen. Während Schadt et al. [4] Cloud Computing genau unter die Lupe nehmen und dann Alternativen, wie heterogene Rechenumgebungen, aufzeigen und alles genau erklären, konzentrieren sich Agrawal et al. [1] mehr auf die Anwendungsmöglichkeiten von Cloud Computing. Allein der Umfang der Artikel lässt schon darauf schließen, dass Computional solutions to large-scale data management and analysis [4] viel ausführlicher erklärt ist als Big Data and Cloud Computing: Current State and Future Opportunities [1]. Außerdem beziehen sich Schadt et al. [4] auf ein spezifisches Problem, nämlich die wachsenden Datenmengen in der Bioinformatik, welches mithilfe der aufgezeigten Lösungen gelöst werden soll. Agrawal et al. [1] hingegen gehen sehr allgemein vor und erörtern grundsätzliche Möglichkeiten zum Datenmanagement von Großanwendungen und der Mandantenfähigkeit. In ihren Tutorien beziehen sich beide Artikel auf das gleiche Beispiel (Amazon Web Services, insbesondere Amazon S3 [2]), Schadt et al. [4] erklären aber im Gegensatz zu Agrawal et al. [1] die direkten Arbeitsschritte an der Benutzeroberfläche. 6 Schlussfolgerung und Ausblick Insgesamt bieten die beiden Artikel einen Überblick über Rechenumgebungen und ihre Vor- und Nachteile. Dieser ist allerdings recht grob, Details werden 11

14 spezifischeren Artikeln überlassen. Die Autoren sind überzeugt von dem Grundkonstrukt und sehen gute Perspektiven. So werden ihrer Meinung nach Cloud Computing und Big Data auch in Zukunft weiter von Relevanz sein und sich weiterentwickeln. Weitere Forschungen sind allerdings notwendig, um den Datenmengen gerecht werden zu können. Dabei müssen vorallem Kosten, Datenschutz und benötigte Ressourcen optimiert werden. Durch die vielschichtigen Möglichkeiten die Cloud einzusetzen, wird sie sich wohl auch immer weiter etablieren und auch in kleineren Unternehmen Einzug erhalten. Je mehr Open Source Alternativen vorhanden sind, desto eher wird es sich auch im akademischen und im privaten Sektor etablieren. Literatur 1. Agrawal, D., Das, S., Abbadi, A.E.: Big data and cloud computing: Current state and future opportunities. Proceedings of the 14th International Conference on Extending Database Technology March 21-24, (2011) 2. Amazon: Amazon simple storage service (2014), 3. Heise: Key-value-datenbanken (2014), NoSQL-im-Ueberblick html?artikelseite=2 4. Schadt, E.E., Lindermann, M.D., Sorenson, J., Lee, L., Nolan, G.P.: Computional solutions to large-scale data management and analysis. Nature Reviews Genetics 11, (2010) 12

15 Data Stream Reasoning Johannes Petri Universität des Saarlandes 1 Einleitung Welcher Artikel des News Web Portals wird am meisten beachtet?, Was sind die Top 10 Themen über die in der Blogosphäre diskutiert wird und wer führt diese Diskussion? Worüber haben sich meine Freunde in der letzten Stunde unterhalten? Die Informationen die zur Beantwortung dieser Fragen notwendig sind, sind heutzutage zunehmend verfügbar. Allerdings mangelt es an der Software, die die Antworten auf diese Fragen berechnen kann. Der Grund dafür ist, das die notwendigen Daten in Form von Streams vorliegen sich ständig und schnell verändern. Zwar können solche Daten von Data Stream Management Systems (DSMS) analysiert und kontinuierliche Abfragen der Daten durchgeführt werden, allerdings können DSMS solche komplexen Schlußfolgerungen, wie sie zur Beantwortung der oben gestellten Fragen notwendig wären nicht ausführen. Dies könnten Reasoners wie sie im Semantic Web verwendet werden leisten. Diese Tools sind jedoch darauf ausgelegt mit statischen Daten, die sich nur selten ändern zu arbeiten und können nicht mit sich schnell verändernden Daten umgehen. Um nun die oben gestellten Fragen zu beantworten, sollte man den Ansatz des Stream-Reasoning wählen. Stream-Reasoning ist ein bisher noch weitgehend unerforschter multidisziplinärer Ansatz zur Beantwortung komplexer Anfragen auf Basis von Datenstreams. Dazu werden Konzepte des Semantic Web und von DSMS miteinander kombiniert. Die Arbeiten von E.Della Valle et al.[1] und D.F.Barbieri et al.[2] befassen sich mit diesem Konzept und geben einen kurzen Einblick darauf was mit Stream-Reasoning möglich ist und wo noch Forschungsarbeit betrieben werden muss um es in der Praxis anzuwenden. 2 Zusammenfassung 2.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Es gibt etliche Gebiete in denen Stream-Reasoning von Nutzen sein kann. Unter anderem zur Finanztransaktionsüberwachung [3], für situationsbezogene mobile Anwendungen [4], für Patientenüberwachungssysteme [5] und etliche mehr. Die hier genannten Arbeiten kommen aus der Semantic Web Community und ihre Verfasser kämpften damit Streaming Probleme mit den bisher vorhandenen 13

16 2 J. Petri Tools zu lösen. Würden sie aber ihre Aufmerksamkeit auf Stream-Reasoning richten, wäre es ihnen möglich Methoden und Tools zu entwickeln mit denen die zu Beginn in 1 gestellten Fragen leicht zu beantworten wären. Eine konkrete Anwendung von Stream-Reasoning wäre Reasoning für mobile Anwendungen. Mobilität ist ein entscheidender Faktor unserer heutigen Gesellschaft. Smartphones sind populär und weit verbreitet und bieten somit ein gutes Umfeld um das Stream-Reasoning Konzept auszutesten. Mobile Anwendungen müssen Echtzeit Anforderungen erfüllen, insbesondere wenn sie dazu benutzt werden kurzfristige Entscheidungen zu treffen und mit den Problemen des Stream Reasoning (verrauschte oder fehlerhafte Daten, etc.) umgehen können. Eine weitere Anwendung wäre die Überwachung öffentlicher Gesundheitsrisiken. Eine frühe Erkennung möglicher Gesundheitsrisiken für die Bevölkerung, wie zum Beispiel Epidemien, ist eine Hauptpriorität nationaler und internationaler Gesundheitsorganisationen. Dazu bräuchte man eine Plattform, die eine große Anzahl heterogene Daten aus Streams automatisch sammelt, verarbeitet und unter Berücksichtigung des richtigen Zusammenhangs interpretiert. Wenn ein mögliches Risiko identifiziert wird müssen das Ergebniss und die Daten die dazu führen über verschiedene Informationskanäle an die zuständigen Behörden weitergeleitet werden. Damit Stream-Reasoning Systeme dies leisten können müssen sie mehrere Probleme bewältigen. Mangel an Stream Reasoning Theorien Etliche theoretische Aspekte des Stream Reasoning wurden nie formalisiert. Heterogene Formate und Zugriffsprotokolle Streams treten in vielen verschiedenen Formen auf. Von relationalen Daten von binären Nachrichtenprotokollen bis hin zu Text Streams von Web Protokollen, wie Blogs. Semantic Modelling Das Semantic Modelling von Daten Streams bietet mehrere Schwierigkeiten. Fenster Abhängigkeiten Zeit Abhängigkeiten Beziehungen zwischen Zusammenfassungen und Folgerungen Einbinden in statische Daten Lernen vom Stream Umfang Der Umfang der gelieferten Daten muss dem entsprechen den eine Anwendung für ihre Berechnungen benötigt. kontinuierliche Verarbeitung Stream-Reasoning-Abfragen werden einmal erstellt und anschließend kontinuierlich ausgeführt während ständig Daten in das System fließen. Echtzeit Beschränkung Stream-Reasoning Systeme müssen ihre Ergebnisse in Echtzeit liefern, da sie sonst unbrauchbar sind. Parallelisierung und Verteilung Durch Analyse dieser Probleme kann man die Stream-Reasoning Forschung in fünf Gebiete unterteilen. 14

17 Data Stream Reasoning 3 Stream reasoning Theorie Bisherige theoretische Frameworks bieten entweder eine gute Basis für formale und explizite Semantik oder sie sind geeignet für hochfrequente, gro svolumige Wechselraten. Logiksprache für Stream Reasoning Derzeit gibt es keinen einheitlichen Weg zur Integration von Logiksprachen in das Stream Reasoning. Stattdessen benutzen die Forscher derzeit mehrer verschiedene Logiken wie zum Beispiel Metric temporal logic [6], constructive description logic [7] oder active logic [8]. Stream Data Management für das Semantic Web Ein erster Schritt in Richtung Stream Reasoning stellt der Versuch derzeitige Techniken von DSMS und des Semantic Web miteinander zu kombinieren dar. Streaming SPARQL[9] und Continuous SPARQL (C-SPARQL)[10] sind zwei Vorschläge um SPARQL zur Nutzung in DSMS zu erweitern. Beide führen RDF streams, eine Erweiterung des RDF Datenmodells, ein und erweitern dann SPARQL, um Abfragen auf RDF streams durchführen zu können. Stream Reasoning für das Semantic Web Die zentrale Frage für die Forschung ist: Kann die Idee einer kontinuierlichen Semantik wie sie von DSMS eingeführt wird für Reasoners, die derzeit für das Semnatic Web entwickelt werden, erweitert werden. Entwicklung und Implementierung Die Entwicklung des Stream-Reasoning steht noch ganz am Anfang und es ist noch eine Menge Entwicklungsarbeit von Nöten um konkrete Fortschritte zu machen. Zwar existieren einige Stream- Reasoning Systeme [11,12,5], jedoch sind Untersuchungen einer konzeptuellen Strukutr, Entwicklungsumgebungen und Frameworks zur Evaluierung, um verschiedene Implementierungen miteinander vergleichen zu können, notwendig. 2.2 Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL D.F. Barbieri et al. stellen in ihrer Arbeit eine Implementierung einer C-SPARQL Anwendung zur Echtzeit-Analyse von Social Semantic Data vor und vergleichen C-SPARQL mit SPARQL anhand von realen Social Data Streams. SPARQL ist eine Abfragesprache für RDF unter Aufsicht des W3C [13]. C-SPARQL(Continuous-SPARQL) ist ein Erweiterung von SPARQL für RDF graphs und RDF streams [10]. Charakteristisch für C-SPARQL sind kontinuierliche Abfragen. Diese werden zuvor definiert und dann kontinuierlich über ein Fenster, dessen Größe anfangs festgelegt wird, ausgeführt. In dem Fenster wird die Anzahl der zu berücksichtigenden RDF streams oder die Zeitdauer in der die eingehenden RDF streams berücksichtigt werden festgelegt. Die von D.F. Barbieri et al. entwickelte C-SPARQL Anwendung basiert auf der Trennung des Stream-Management und der Abfrage-Auswertung. Diese Separation ist die Grundlage einer einfachen Struktur für C-SPARQL, aufbauend auf bekannten Datenbanken und Reasoning Technologien. Die Anwendung besteht aus drei Modulen. Der C-SPARQL Query Parser bekommt eine C- SPARQL Abfrage als Input und liefert den beiden anderen Modulen die zur Ausführung notwendigen Daten. Der Data Stream Manager Layer sammelt die in der Abfrage spezifizierten Daten und erstellt das Fenster. Anschließend 15

18 4 J. Petri führt der SPARQL EndPoint Layer den SPARQL Teil der C-SPARQL Anfrage über dem Fenster aus und liefert das Ergebnis. Zum testen der Anwendung wurde ein auf dieser Architektur basierender Prototyp, der ESPER[14] als DSMS und Jena[15] als SPARQL endpoint verwendet, implementiert. Dieser Prototyp wird mit echten Daten des Social Network Glue 1 und mit zwei verschiedenen Durchflussraten: 5 triples per second(5 t/s) und 200 t/s getestet und die Ausführungszeit gemessen. Zusätzlich erstellen die Autoren mithilfe einer Filter Klausel und einer Aggregatfunktion eine SPARQL Abfrage die das selbe Ergebnis wie die C-SPARQL Abfrage liefert. Diese führen sie ebenfalls aus und messen auch hier die Ausführungszeit. Anschließend werden die beiden Ergebnisse miteinander verglichen. Dabei wird deutlich dass die Ausführungszeit der C-SPARQL Abfrage deutlich schneller ist. Zusätzlich wird auch deutlich das die Ausführungszeit der C-SPARQL Abfrage bei Erhöhung der verarbeiteten Datenmenge nicht so stark ansteigt wie bei der SPARQL Abfrage. 3 Analyse des Aufbaus 3.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Die Aufgabenstellung des Artikels wird nicht explizit genannt. Sie erschließt sich eher aus dem Kontext. Es wird ein Ansatz vorgestellt, mit dessen Hilfe komplexe Anfragen auf Basis von Datenstreams beantwortet werden können, das sogenannte Stream-Reasoning. Dazu werden zunächst Fragen gestellt und kurz erläutert warum diese mit derzeitigen Anwendungen nicht zu beantworten sind. Anschließend wird kurz das Konzept des Stream-Reasoning vorgestellt mit dessen Hilfe diese Fragen beantwortet werden sollen. Im Anschluss an diese Einleitung werden zunächst einige Gebiete aufgezählt, in denen Stream-Reasoning gut eingesetzt werden kann. Anschließend werden zwei konkrete Beispiele zur Nutzung von Stream-Reasoning vorgestellt und näher erläutert. Danach werden einige Probleme die es zunächst zu lösen gilt dargelegt und erklärt. Diese Probleme wurden von E.Della Valle et al. analysiert und auf Grundlage dessen wurde die Stream-Reasoning Forschung in fünf Teilgebiete unterteilt. Diese werden dann mit Hilfe von Arbeiten die im Rahmen des ersten Stream-Reasoning Workshops (SR 09) vorgestellt wurden, genauer erklärt. Obwohl Stream-Reasoning noch am Anfang steht gehen die Autoren als drittes und letztes noch kurz auf m gliche Methoden zur Qualitätsmessung möglicher Stream-Reasoning Implementierungen ein. Abschließend legen E.Della Valle et al. noch einmal dar das es noch ein langer Weg zum Stream Reasoning ist und noch etliche Entwicklungsarbeit in diesem Bereich geleistet werden muss

19 Data Stream Reasoning Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL In der Arbeit soll mit Hilfe des Stream-Reasoning eine Anwendung entwickelt und implementiert werden um Echtzeit-Analysen von Social Semantic Daten durchzuführen, um Fragen wie zum Beispiel: Worüber haben sich meine Freunde in der letzten Stunde unterhalten? zu beantworten. Zunächst wird dem Leser das notwendige Hintergrundwissen vermittelt. Dabei werden Daten Streams, die RDF-Abfragesprache SPARQL vorgestellt und erläutert. Anschließend erklären D.F.Barbieri et al. die in von ihrer Anwendung benutzten RDF Streams, gehen kurz darauf ein woher die Daten, die sie analysieren stammen und wie diese aussehen und erläutern dann ausführlich die von ihnen verwendete SPARQL-Erweiterung C-SPARQL. Im nächsten Schritt stellen D.F.Barbieri et al. ihre C-SPARQL Anwedung und ihr Konzept auf dem sie beruht vor. Um diese Anwendung zu testen wurde ein Prototyp implementiert und mit den zuvor vorgestellten Daten ausgeführt. Zum Vergleich wurden auch Testdurchläufe mit einer SPARQL-Abfrage, welche das gleiche Ergebniss liefert durchgeführt und die beiden Ergebnisse miteinander verglichen. Dieser Vergleich zeigt das die Ausführungszeit der gewöhnlichen SPARQL-Abfrage deutlich höher ist als die der C-SPARQL-Abfrage. Abschließend vergleichen die Autoren ihre Arbeit noch mit einer anderen Arbeit zu diesen Thema und legen ihre Schlußfolgerungen aus den Testergebnissen dar. 4 Bewertung des Aufbaus 4.1 It s a Streaming World! Reasoning upon Rapidly Changing Information Die Arbeit von E.Della Valle et al. gibt einen guten Überblick über die Möglichkeiten des Stream-Reasoning und zeigt deutlich die noch zu lösenden Probleme auf und in welchen Forschungsgebieten was noch geleistet werden muss um Stream- Reasoning zukünftig in der Praxis nutzen zu können. Somit stellt die Arbeit einen guten Einstieg in das Thema dar. Man bekommt schnell einen Eindruck davon was Stream-Reasoning bedeutet und für welche konkreten Einsatzmöglichkeiten es geeignet ist. Durch die Einteilung der noch zu leistenden Stream-Reasoning Forschung in Teilgebiete bekommt man schnell einen Überblick über die einzelnen Gebiete und welche Arbeit in ihnen jeweils noch geleistet werden muss. Wenn man sich nun für ein Gebiet besonders interessiert und dieses vertiefen möchte ist dies durch die Zuordnung der Arbeiten des First Stream-Reasoning Workshop (SR 09) zu den einzelnen Forschungsgebieten, leicht möglich. Negativ finde ich das die Aufgabenstellung der Arbeit nicht klar formuliert ist, erst im Verlauf der Arbeit wird deutlich dass sie im Prinzip dazu dient das Stream-Reasoning Konzept vorzustellen und im weiteren Verlauf quasi als Leitfaden dafür dient in welchen Bereichen was noch zu Erforschen ist um Stream-Reasoning in die Tat umzusetzen. 17

20 6 J. Petri 4.2 Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL Die Arbeit von D.F.Barbieri et al. ist gut strukturiert. Zunächst werden in der Einleitung die Motivation der Autoren sowie die Aufgabenstellung der Arbeit gut erläutert. In den beiden darauffolgenden Teilen Background und RDF Streams and Continuous SPARQL werden die zum Verständnis der Arbeit notwendigen Grundlagen dargelegt und ausführlich erklärt. Somit kann man die spätere Implementierung der entwickelten Anwendung leicht verstehen, auch wenn man sich davor noch nicht mit dem Thema auseinandergesetzt hat. Auch die anschließende Evaluation und ihre Ergebnisse sind leicht nachzuvollziehen. Da sowohl die Herkunft der Daten, wie auch die genutzten Frameworks ausreichend erläutert werden. Im letzten Abschnitt werden die Schlußfolgerungen die die Autoren aus den erhaltenen Ergebnissen ziehen dargelegt und welche Aspekte bei dieser Arbeit nicht berücksichtigt worden sind. Somit kann man gut erkennen welchen Nutzen die Arbeit gebracht hat und was in zukünftigen Arbeiten noch zu untersuchen ist. Alles in allem zeigt die Arbeit das Stream Reasoning auch mit den heutigen Mitteln zumindest teilweise schon realisierbar ist und das Abfragen mit C-SPARQL wesentlich schneller durchgeführt werden als SPARQL-Abfragen. 5 Synthese Schon beim lesen der Einleitungen der beiden Arbeiten wird deutlich dass ein enger Zusammenhang zwischen ihnen besteht. Nicht nur dass die Motivation die zu ihrer Entstehung führte identisch ist, sie wird auch gleich dargelegt. Die Anfänge der beiden Arbeiten sind quasi identisch. Was wohl auch darauf zurückzuführen ist das E.Della Valle und S.Ceri an beiden Arbeiten mitgewirkt haben. Im weiteren Verlauf wird jedoch klar dass den beiden Arbeiten eine unterschiedliche Aufgabenstellung zu Grunde liegt. Während die erste Arbeit von E.Della Valle et al.[1] eine Art Vorstellung und Einführung des Konzeptes des Stream Reasoning ist, wird in der zweiten Arbeit von D.F.Barbieri et al.[2] eine konkrete Implementierung im Rahmen des Stream-Reasoning entwickelt, durchgeführt und getestet. In [1] werden lediglig Beispiele für die Anwendung des Stream Reasoning und zu lösende Probleme vorgestellt und aufgrund dessen zukünftige Forschungsbereiche abgesteckt. In[2] dagegen wurde konkrete Forschungsarbeit auf dem Gebiet des nach[1] Stream Data Management for the Semantic Web durchgeführt. 6 Schlussfogerungen und offene Fragen Man kann sagen dass beide Arbeiten im Gebiet der Grundlagenforschung anzusiedeln sind. Bei beiden wird deutlich, dass es noch sehr viel Forschungsund Entwicklungsarbeit zu leisten gilt, bis das Konzept des Stream-Reasoning praktisch nutzbar ist. Die erste Arbeit[1] stellt im Prinzip nur einen Leitfaden für zukünftige Forschungsarbeit dar. Das Konzept des Stream-Reasoning und 18

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung

Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung Software as a Service, Cloud Computing und aktuelle Entwicklungen Seminarvorbesprechung A. Göbel, Prof. K. Küspert Friedrich-Schiller-Universität Fakultät für Mathematik und Informatik Lehrstuhl für Datenbanken

Mehr

Cloud-Computing - Überblick

Cloud-Computing - Überblick Cloud-Computing - Überblick alois.schuette@h-da.de Alois Schütte 24. November 2014 1 / 20 Inhaltsverzeichnis 1 Was ist Cloud-Computing Warum beschäftigt man sich mit Cloud Computing? 2 Aufbau der Veranstaltung

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10

Prototypvortrag. Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning. Projektseminar WS 2009/10 Prototypvortrag Exploiting Cloud and Infrastructure as a Service (IaaS) Solutions for Online Game Service Provisioning Projektseminar WS 2009/10 Eugen Fot, Sebastian Kenter, Michael Surmann AG Parallele

Mehr

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher:

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher: Quellen: Towards a Human Computer InteractionPerspective von B.K. & B.K. LV: Visuelle Sprachen (03-763) Universität Bremen WS 2001/02 Visual Language Theory: Towards a Human- Computer Perspective; N. Hari

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Institut für angewandte Informationstechnologie (InIT)

Institut für angewandte Informationstechnologie (InIT) School of Engineering Institut für angewandte Informationstechnologie (InIT) We ride the information wave Zürcher Fachhochschule www.init.zhaw.ch Forschung & Entwicklung Institut für angewandte Informationstechnologie

Mehr

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Sperrvermerk Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Bachelorarbeit Zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

Was ist die Cloud? CCW interner Vortrag für Themenabend Erstellt: Mai 2012, Heiko Ehmsen Dauer: ca. 30 Minuten. Inhalt

Was ist die Cloud? CCW interner Vortrag für Themenabend Erstellt: Mai 2012, Heiko Ehmsen Dauer: ca. 30 Minuten. Inhalt Was ist die Cloud? CCW interner Vortrag für Themenabend Erstellt: Mai 2012, Heiko Ehmsen Dauer: ca. 30 Minuten Inhalt 1. Einführung Geschichte 2. Grundidee der Cloud-Technik (Virtualisierung, Skalierbarkeit,

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Projektgruppe. Knowledge Representation Persistence and Reasoning

Projektgruppe. Knowledge Representation Persistence and Reasoning Projektgruppe Seminarvortrag von Stefan Middeke Knowledge Representation Persistence and Reasoning 4. Juni 2010 Überblick Motivation Repräsentation der Daten Speicherung und Abfrage von Daten Folgerungen

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Artikel eindeutig mit Barcodes identifizieren und verfolgen

Artikel eindeutig mit Barcodes identifizieren und verfolgen Artikel eindeutig mit Barcodes identifizieren und verfolgen Einführung Um die Vielfalt an Anforderungen zu erfüllen haben wir drei verschiedene Varianten zur Erfassung von Barcodes implementiert. Die drei

Mehr

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH

CEPaaS. Complex Event Processing as a Service. Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH CEPaaS Complex Event Processing as a Service Bernhard Seeger Philipps-Universität Marburg RTM Realtime Monitoring GmbH Daniar Achakeyev, Daniel Schäfer, Philip Schmiegelt CEP-Forschung in Marburg: aus

Mehr

Konzeption eines Enterprise 2.0 Projektmanagement - Tool mit Beteiligung diverser Stake Holder. Bachelorarbeit

Konzeption eines Enterprise 2.0 Projektmanagement - Tool mit Beteiligung diverser Stake Holder. Bachelorarbeit Konzeption eines Enterprise 2.0 Projektmanagement - Tool mit Beteiligung diverser Stake Holder Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Software EMEA Performance Tour 2013. Berlin, Germany 17-19 June

Software EMEA Performance Tour 2013. Berlin, Germany 17-19 June Software EMEA Performance Tour 2013 Berlin, Germany 17-19 June Change & Config Management in der Praxis Daniel Barbi, Solution Architect 18.06.2013 Einführung Einführung Wer bin ich? Daniel Barbi Seit

Mehr

Sof o t f waretechn h o n l o og o i g en n f ü f r ü v e v rteilte S yst s eme Übung

Sof o t f waretechn h o n l o og o i g en n f ü f r ü v e v rteilte S yst s eme Übung Softwaretechnologien für verteilte Systeme Übung Organisatorisches Gruppen mit 3-4 Personen bearbeiten ein zugewiesenes Thema Abgabe besteht aus einer Arbeit mit 10-15 Seiten und ~30 Minuten Präsentation

Mehr

Microsoft SharePoint 2013 Designer

Microsoft SharePoint 2013 Designer Microsoft SharePoint 2013 Designer Was ist SharePoint? SharePoint Designer 2013 Vorteile SharePoint Designer Funktionen.Net 4.0 Workflow Infrastruktur Integration von Stages Visuelle Designer Copy & Paste

Mehr

Infrastruktur als Basis für die private Cloud

Infrastruktur als Basis für die private Cloud Click to edit Master title style Infrastruktur als Basis für die private Cloud Peter Dümig Field Product Manager Enterprise Solutions PLE Dell Halle GmbH Click Agenda to edit Master title style Einleitung

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender

Mehr

Mythen des Cloud Computing

Mythen des Cloud Computing Mythen des Cloud Computing Prof. Dr. Peter Buxmann Fachgebiet Wirtschaftsinformatik Software Business & Information Management Technische Universität Darmstadt 12.09.2012 IT-Business meets Science Prof.

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

Die Cloud, die für Ihr Unternehmen geschaffen wurde.

Die Cloud, die für Ihr Unternehmen geschaffen wurde. Die Cloud, die für Ihr Unternehmen geschaffen wurde. Das ist die Microsoft Cloud. Jedes Unternehmen ist einzigartig. Ganz gleich, ob im Gesundheitssektor oder im Einzelhandel, in der Fertigung oder im

Mehr

Business Intelligence - Wie passt das zum Mainframe?

Business Intelligence - Wie passt das zum Mainframe? Business Intelligence - Wie passt das zum Mainframe? IBM IM Forum, 15.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Ressourcen bei BARC für Ihr Projekt Durchführung von internationalen Umfragen,

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

AutoSPARQL. Let Users Query Your Knowledge Base

AutoSPARQL. Let Users Query Your Knowledge Base AutoSPARQL Let Users Query Your Knowledge Base Christian Olczak Seminar aus maschinellem Lernen WS 11/12 Fachgebiet Knowledge Engineering Dr. Heiko Paulheim / Frederik Janssen 07.02.2012 Fachbereich Informatik

Mehr

Wirtschaftlichkeitsanalyse von Cloud Computing aus der Sicht internationaler Unternehmen. Masterarbeit

Wirtschaftlichkeitsanalyse von Cloud Computing aus der Sicht internationaler Unternehmen. Masterarbeit Wirtschaftlichkeitsanalyse von Cloud Computing aus der Sicht internationaler Unternehmen Masterarbeit zur Erlangung des akademischen Grades Master of Science (M.Sc.) im Masterstudiengang Wirtschaftswissenschaft

Mehr

Konzepte von Betriebssystem-Komponenten: Mehrkern-Echtzeitsysteme

Konzepte von Betriebssystem-Komponenten: Mehrkern-Echtzeitsysteme Konzepte von Betriebssystem-Komponenten: Mehrkern-Echtzeitsysteme Peter Ulbrich Lehrstuhl für Informatik 4 Verteilte Systeme und Betriebssysteme Friedrich-Alexander-Universität Erlangen-Nürnberg Wintersemester

Mehr

Das Open Source Content Management System

Das Open Source Content Management System Das Open Source Content Management System Erweiterbarkeit und Individualisierung visions-marketing Unternehmensberatung Alexander Winkler Postfach 950180 81517 München Tel.+Fax: 089 / 38 90 06 53 Mobil.:

Mehr

1 Einleitung. 1.1 Unser Ziel

1 Einleitung. 1.1 Unser Ziel 1 Dieses Buch wendet sich an alle, die sich für agile Softwareentwicklung interessieren. Einleitend möchten wir unser mit diesem Buch verbundenes Ziel, unseren Erfahrungshintergrund, das dem Buch zugrunde

Mehr

Continuous Information Quality Assessment in Stream Based Smart City Frameworks

Continuous Information Quality Assessment in Stream Based Smart City Frameworks Continuous Information Quality Assessment in Stream Based Smart City Frameworks 19. VDE/ITG Fachtagung Mobilkommunikation Osnabrück, 22.05.2014 Thorben Iggena Tel.: +49 541/969-2723 E-Mail: t.iggena@hs-osnabrueck.de

Mehr

Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services

Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services BICCnet Arbeitskreistreffen "IT-Services" am 14. November bei fortiss Jan Wollersheim fortiss

Mehr

PHP Kurs Online Kurs Analysten Programmierer Web PHP

PHP Kurs Online Kurs Analysten Programmierer Web PHP PHP Kurs Online Kurs Analysten Programmierer Web PHP Akademie Domani info@akademiedomani.de Allgemeines Programm des Kurses PHP Modul 1 - Einführung und Installation PHP-Umgebung Erste Lerneinheit Introduzione

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Null-Werte in Relationalen Datenbanken

Null-Werte in Relationalen Datenbanken Seminar: Imperfektion in Datenbanken WS03/04 Null-Werte in Relationalen Datenbanken Thomas Bierhance Einführung Null-Werte in DBen sind notwendiges Übel, da... (1) das Wissen über die tatsächliche Welt

Mehr

Die richtige Cloud für Ihr Unternehmen.

Die richtige Cloud für Ihr Unternehmen. Die richtige Cloud für Ihr Unternehmen. Das ist die Microsoft Cloud. Jedes einzelne Unternehmen ist einzigartig. Ob Gesundheitswesen oder Einzelhandel, Produktion oder Finanzwesen keine zwei Unternehmen

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013 0 Es TOP 10 DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013 wird ein wichtiges Jahr für BIG (Business Intelligence Growth) 2012 war ein fantastisches Jahr für Business Intelligence! Die biedere alte

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Bringt Ihre IT auf den Punkt.

Bringt Ihre IT auf den Punkt. Bringt Ihre IT auf den Punkt. Keep it simple, but smart Streamo IT-Consulting bietet Ihnen die Leistungen, das Wissen und die Möglichkeiten, die Sie für Ihre IT brauchen: auf hohem Niveau, mit kurzen

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

!!!!T!!! Systems!() Multimedia Solutions

!!!!T!!! Systems!() Multimedia Solutions Inhalt. Was ist das semantische Web? Wie findet man einen Arzttermin mit Hilfe des semantischen Web? Wie gibt man Inhalten einen Sinn? Welche Werkzeuge stehen zur Verfügung? Wo können strukturierte Inhalte

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Intelligent Traveller Early Situation Awareness itesa

Intelligent Traveller Early Situation Awareness itesa Intelligent Traveller Early Situation Awareness itesa Dr. Martin Skorsky, Senior Researcher 22. Juni 2015 1 1 Intelligent Traveller Early Situation Awareness Automatischen Alarmsystems, das Reisende in

Mehr

Scheinaufgabe im Fach Web Engineering

Scheinaufgabe im Fach Web Engineering Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Verteilte Systeme Scheinaufgabe im Fach Web Engineering Thomas Thüm 07. August 2006 Matrikel: 171046 Lehrveranstaltung: Web

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Zeitgemäße Verfahren für ganzheitliche Auswertungen

Zeitgemäße Verfahren für ganzheitliche Auswertungen Intelligente Vernetzung von Unternehmensbereichen Zeitgemäße Verfahren für ganzheitliche Auswertungen Sächsische Industrie- und Technologiemesse Chemnitz, 27. Juni 2012, Markus Blum 2012 TIQ Solutions

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Überblick IBM Offerings für Cloud-Provider

Überblick IBM Offerings für Cloud-Provider - IBM Cloud Computing März, 2011 Überblick IBM Offerings für Cloud-Provider Juerg P. Stoll Channel Development Executive for Cloud IMT ALPS juerg.stoll@ch.ibm.com +41 79 414 3554 1 2010 IBM

Mehr

REAL-TIME DATA WAREHOUSING

REAL-TIME DATA WAREHOUSING REAL-TIME DATA WAREHOUSING Lisa Wenige Seminarvortrag Data Warehousing und Analytische Datenbanken Friedrich-Schiller-Universität Jena - 19.01.12 Lisa Wenige 19.01.2012 2 Agenda 1. Motivation 2. Begriffsbestimmung

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Administering Microsoft SQL Server Databases

Administering Microsoft SQL Server Databases Administering Microsoft SQL Server Databases Dauer: 5 Tage Kursnummer: M20462 Überblick: Im Rahmen dieses fünftägigen Kurses vermitteln wir Ihnen das nötige Know-How und die notwendigen Fertigkeiten, um

Mehr

Referent Robin Adam, Unit Manager Microsoft Development, Logica Deutschland

Referent Robin Adam, Unit Manager Microsoft Development, Logica Deutschland KURSPROGRAMM - WINDOWS AZURE PLATTFORM EINFÜHRUNG IN DIE MICROSOFT CLOUD COMPUTING PLATTFORM WS 2011 Referent Robin Adam, Unit Manager Microsoft Development, Logica Deutschland 1 MOTIVATION Der Begriff

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Vom Intranet zum Knowledge Management

Vom Intranet zum Knowledge Management Vom Intranet zum Knowledge Management Die Veränderung der Informationskultur in Organisationen von Martin Kuppinger, Michael Woywode 1. Auflage Hanser München 2000 Verlag C.H. Beck im Internet: www.beck.de

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Mobile Backend in der

Mobile Backend in der Mobile Backend in der Cloud Azure Mobile Services / Websites / Active Directory / Kontext Auth Back-Office Mobile Users Push Data Website DevOps Social Networks Logic Others TFS online Windows Azure Mobile

Mehr

Business Intelligence. Bereit für bessere Entscheidungen

Business Intelligence. Bereit für bessere Entscheidungen Business Intelligence Bereit für bessere Entscheidungen Business Intelligence Besserer Einblick in Geschäftsabläufe Business Intelligence ist die Integration von Strategien, Prozessen und Technologien,

Mehr

Jump Project. Softwarelösungen für professionelles Projektmanagement

Jump Project. Softwarelösungen für professionelles Projektmanagement Jump Project Softwarelösungen für professionelles Projektmanagement Jump Project Office Übersichtliche Dokumentenstruktur und schneller Zugriff auf alle wichtigen Funktionen. Steuern Sie Ihre Projekte

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data Herausforderungen und Chancen für Controller ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC BARC: Expertise für datengetriebene Organisationen Beratung Strategie

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Die Spezialisten für innovative Lösungen im Bereich Document Output Management

Die Spezialisten für innovative Lösungen im Bereich Document Output Management Die Spezialisten für innovative Lösungen im Bereich Document Output Management Agenda Wer ist Rasterpunkt Einführung Software as a Service Hat SaaS Marktpotential? SaaS im Document Output Management: Konvertierung

Mehr

Collaborative Virtual Environments

Collaborative Virtual Environments Collaborative Virtual Environments Stefan Lücking Projektgruppe Kreativität und Technik AG Domik WS 02/03 09.01.2003 1/35 Was sind CVE? Versuch einer Definition : Ein CVE ist ein Programm, das eine virtuelle

Mehr

Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13

Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13 Inhaltsverzeichnis Vorwort... 11 Azure Cloud Computing mit Microsoft... 12 Danksagungen... 13 Kontakt zum Autor... 13 Einleitung... 15 Zielgruppe... 16 Aufbau... 16 Inhalt der einzelnen Kapitel... 17 Systemanforderungen...

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr

Cloud Computing Chancen für KMU

Cloud Computing Chancen für KMU Cloud Computing Chancen für KMU Sascha A. Peters Cluster Manager IT FOR WORK 31. Oktober 2012 Cloud Computing Worüber reden alle? Fragen zum Thema Cloud Was ist Cloud Computing und wofür wird es genutzt?

Mehr

Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos

Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos Semantic Wiki Eine Erweiterung des Wiki-Konzepts von Harald Cichos Seminar: Semantic Web Wintersemester 2005/2006 Universität Jena Seminarleiter: Prof. Dr. C. Beckstein, Dr. H. Sack, Dipl.-Inform. H. Peter

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

A Generic Database Web Service for the Venice Lightweight Service Grid

A Generic Database Web Service for the Venice Lightweight Service Grid A Generic Database Web Service for the Venice Lightweight Service Grid Michael Koch Bachelorarbeit Michael Koch University of Kaiserslautern, Germany Integrated Communication Systems Lab Email: m_koch2@cs.uni-kl.de

Mehr

Einführung in Generatives Programmieren. Bastian Molkenthin

Einführung in Generatives Programmieren. Bastian Molkenthin Einführung in Generatives Programmieren Bastian Molkenthin Motivation Industrielle Entwicklung *!!*,(% % - #$% #!" + '( & )!* Softwareentwicklung Rückblick auf Objektorientierung Objektorientierte Softwareentwicklung

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Basis Community und Übersicht der verfügbaren Whitepapers

Basis Community und Übersicht der verfügbaren Whitepapers Business Community Basis Community und Übersicht der verfügbaren Whitepapers Zusammenfassung Dieses Dokument erklärt, wozu die Basis Community notwendig ist und welche Whitepapers verfügbar sind. Die Whitepapers

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

ShopBot, ein Software-Agent für das Internet

ShopBot, ein Software-Agent für das Internet Software-Agenten p.1/20 ShopBot, ein Software-Agent für das Internet Eine Einführung in (Software-)Agenten Madeleine Theile Software-Agenten p.2/20 Aufbau des Vortrags grundlegende Theorie Definition Autonomy,

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

R im Enterprise-Modus

R im Enterprise-Modus R im Enterprise-Modus Skalierbarkeit, Support und unternehmensweiter Einsatz Dr. Eike Nicklas HMS Konferenz 2014 Was ist R? R is a free software environment for statistical computing and graphics - www.r-project.org

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

Cloud Computing in der öffentlichen Verwaltung

Cloud Computing in der öffentlichen Verwaltung Cloud Computing in der öffentlichen Verwaltung Willy Müller /ch/open - 5.4.2012 Sie alle sind Cloud-Nutzer 2 3 Cloud-Computing als Weiterentwicklung von SOA Business process as a Service Software as a

Mehr

Positionspapier Big Data

Positionspapier Big Data TeleTrusT-interner Workshop Berlin, 05.06.2014 Positionspapier Big Data Oliver Dehning, antispameurope GmbH Leiter der AG Cloud Security Definition Big Data Big Data bezeichnet große Datenmengen (Volume)

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

JOB MANAGEMENT MIT DEM SAP SOLUTION MANAGER. Whitepaper

JOB MANAGEMENT MIT DEM SAP SOLUTION MANAGER. Whitepaper JOB MANAGEMENT MIT DEM SAP SOLUTION MANAGER. Whitepaper Wussten Sie, dass lediglich der kleinere Teil der Datenverarbeitung in Ihrem System von End-Anwendern generiert wird? Der größere Teil der Informationen

Mehr

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.

AustroFeedr. Pushing the Realtime Web. Projektplan. erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10. AustroFeedr Pushing the Realtime Web Projektplan erstellt von: DI Klaus Furtmüller, DI Wolfgang Ziegler Version 1.0 Datum: 05.10.2010 gefördert durch die Internet Privatstiftung Austria (IPA) 1 Projektbeschreibung

Mehr

IT IS AG präsentiert IT IS activigence, die neue Integrationslösung für Microsoft Dynamics- ERP und SharePoint-Technologien

IT IS AG präsentiert IT IS activigence, die neue Integrationslösung für Microsoft Dynamics- ERP und SharePoint-Technologien IT IS AG präsentiert IT IS activigence, die neue Integrationslösung für Microsoft Dynamics- ERP und SharePoint-Technologien Landshut 09. März 2006: Die IT IS AG startet heute das neue, webbasierte IT IS

Mehr