9. Cloud-Datenspeicherung und MapReduce-Parallelisierung

Größe: px
Ab Seite anzeigen:

Download "9. Cloud-Datenspeicherung und MapReduce-Parallelisierung"

Transkript

1 9. Cloud-Datenspeicherung und MapReduce-Parallelisierung Einführung Cloud Data Management Verteilte Datenhaltung Dateisysteme (GFS) Hbase (Google Big Table) Amazon Dynamo MapReduce Idee Open Source-Realisierung Hadoop MapReduce vs. Parallele DBS MapReduce - Erweiterungen Hive HadoopDB 9-1 Cloud Computing Cloud computing is using the internet to access someone else's software running on someone else's hardware in someone else's data center - Lewis Cunningham Externe Bereitstellung von IT-Infrastrukturen sowie Applikations- Hosting über das Internet (bzw. Intranet) Public Cloud vs. Private Clouds Charakteristika: Illusion unendlicher, on demand verfügbarer Ressourcen Virtualisierung: gemeinsame Nutzung v. Ressourcen durch viele Nutzer Elastizität - schnelle Belegung/Freigabe von Ressourcen nach Bedarf ( Hinzuschalten weiterer Rechner) Abrechnung nach Verbrauch (CPU Zyklen, Speicherplatz, Übertragungsvolumen) 9-2

2 Cloud Computing (2) Vorteile Cloud User Kein Einrichten/Betreiben eigener Rechenzentren Keine langfristige Ressourcenplanung Keine hohen Vorabinvestitionen - pay per use Verspricht wesentliche Kosteneinsparungen (u.a. für Startups) Vorteile Cloud Provider Aufteilung verfügbarer Ressourcen auf mehrere Kunden Große Rechenzentren ( Server) haben im Vrgl. zu mittelgroßen (1000 Server) nur 1/5-1/7 der Kosten Standortvorteile - Elektrizitätspreise, Löhne, Steuern Green Computing - Bessere Auslastung der Clouds im gegenüber lokalen Rechenzentren 9-3 Cloud Computing - Einteilung SaaS Software as a Service PaaS Platform as a Service IaaS Infrastructure as a Service 9-4

3 Cloud-Einsatzbeispiele Amazon EC2 (Electronic Compute Cloud) Mieten einer Menge virtueller Maschinen Verwendung für Anwendungen beliebiger Art Online-Speicher Amazon S3 Speichern und Lesen von Daten über Webservice von überall zu jeder Zeit Schnell, billig, hochverfügbar, hochskalierbar 9-5 Cloud-Einsatzbeispiele 2 Google App Engine Plattform zum Entwickeln und Vorhalten von Webanwendungen Python, Java etc. Cloud-basierte Office-Anwendungen (realisiert als Web-Dienste) Google Mail, Docs, Google Calendar,... Keine lokale Software und Datenhaltung Universeller Zugang mittels Browser/ Thin Client 9-6

4 Cloud Data Management Cloud-Anwendungen erfordern Datenhaltung / Austausch von Daten in der Cloud Effiziente und persistente Verwaltung großer Datenmengen die Speicherkapazität eines Rechners übersteigen (mehrere TB-PB) Möglichkeiten: Verteiltes Filesystem (Google File System, Hadoop DFS) Cloud-Datenbanken - statt RDBMS oft Key-Value Stores (Bigtable/Hbase, Dynamo, Cassandra, CouchDB, ) Map/Reduce-Paradigma zur Parallelisierung Unterstützung für parallele Datenauswertungen / Data Mining OLAP - multidim. Aggregation großer Datenmengen ACID nicht erforderlich 9-7 Google File System 1 (GFS) Proprietäres, verteiltes Linux-basiertes Dateisystem Hochskalierend: tausende Festplatten, mehrere 100TB Open Source-Alternative - Hadoop Distributed File System Netzknoten: billige Standardhardware (kein RAID) Hardwarefehler- und ausfälle sind Regelfall Gewährleistung von Datensicherheit optimiert für Streaming Access File-Änderungen durch Anhängen: write once - read many times Verteiltes, sequentielles Lesen (blockweise) Hoher Durchsatz statt geringer Latenz 1 S.Ghemawat, H. Gobioff, S. T. Leung. The Google File System. SOSP

5 Google File System Physische Datenpartitionierung in Chunks (Default: 64 MB) Verteilung über mehrere Chunkserver (und Replizierung jedes Chunks) Master-Server (Metadaten) Mapping: Datei->Chunk->Node Replikat-Management: Default 3 Chunk-Kopien (in 2 Racks) Anfragebearbeitung, Zugriffsverwaltung Architektur 9-9 HBase 1 Verteilte Datenspeicherung nach Vorbild von Google Bigtable 2 Spaltenorientierter Key-Value-Store Multi-Dimensional Versioniert Hochverfügbar High-Performance Ziele Milliarden von Zeilen, Millionen von Spalten, Tausende von Versionen Real-time read/write random access Große Datenmengen (mehrere PB) Lineare Skalierbarkeit mit Anzahl Nodes Fay Chang, Jeffrey Dean, Sanjay Ghemawat et al. Bigtable: A Distributed Storage System for Structured Data. OSDI

6 Hbase: Einsatzfälle Web-Tabelle Tabelle mit gecrawlten Webseiten mit ihren Attributen/Inhalten Key: Webseiten-URL Millionen/Milliarden Seiten Random-Zugriff durch Crawler zum Einfügen neuer/geänderter Webseiten Batch-Auswertungen zum Aufbau eines Suchmaschinenindex Random-Zugriff in Realzeit für Suchmaschinennutzer, um Cache- Version von Webseiten zu erhalten Datenmodell Hbase / Bigtable Verteilte, mehrdimensionale, sortierte Abbildung (row:string, column:string, time:int64) string Spalten- und Zeilenschlüssel Zeitstempel Daten bestehen aus beliebigen Zeichenketten / Bytestrings Zeilen (nur) Lese- und Schreiboperationen auf eine Zeile sind atomar Speicherung der Daten in lexikographischer Reihenfolge der Zeilenschlüssel 9-11 [CDG+08] 9-12

7 Datenmodell Hbase/Bigtable (2) Spaltenfamilien (column families) - Können n verwandte Spalten (ähnliche Inhalte) umfassen - Spaltenschlüssel = Spaltenfamilie:Kennzeichen - Benachbarte Speicherung von Spalten einer Familie - innerhalb Familie: flexible Erweiterbarkeit um neue Spalten Zeitstempel mehrere Versionen pro Zelle festgelegte Versionszahl: automatisches Löschen älterer Daten [CDG+08] 9-13 Datenmodell Konzeptionelle Sicht (alternativ) Row Key Time Stamp Column Contents Column Family Anchor com.cnn.www T9 Anchor:cnnsi.com CNN T8 Anchor:my.look.ca CNN.COM T6 <html>.. T5 <html>.. Physische Speicherung (Hstore) Row Key Time Stamp Contents com.cnn.www T6 <html>.. T5 <html>.. Row Key Time Stamp Anchor com.cnn.www T9 Anchor:cnnsi.com CNN T5 Anchor:my.look.ca CNN.COM 9-14

8 HBase Hohe Schemaflexibilität über Spaltenfamilien Optionale Verwendung von Spalten pro Satz Pro Spaltenfamilie können zur Laufzeit beliebig viele Spalten hinzugefügt werden Bsp: create test, {NAME=> fam1, VERSIONS=>2} put test, row1, fam1:col7, value1 put test, row2, fam1:col8, value2 put test, row2, fam1:col8, value3 scan test ROW COLUMN+CELL row1 column=fam1:col7, timestamp=123, value=value1 row2 column=fam1:col8, timestamp=125, value=value2 row2 column=fam1:col8, timestamp=127, value=value HBase Regions (Tablets in Bigtable) Horizontale Partitionierung von Tabellen in Regions mehrere Region-Server zur Aufnahme der Regions Lastbalancierung Region-Split in 2 gleich große Regions, wenn max. Größe (z.b. 128 MB) erreicht Architektur Datenspeicherung in Region-Server Master - weist Regions Region-Servern zu - Recovery für Region-Server Master Server Region Server Region Server Region Server HStore HStore Region 9-16

9 HBase Zweistufige Katalogverwaltung: Tabellen ROOT, META META verwaltet Liste aller (user table) Regions ROOT: 1 Region mit Liste der META-Regions Eintrag enthält 1 st Row Key, Location, Status, Tabellen sind sortiert nach Start-Row-Key Adressraum (Eintragsgröße 1 KB, Regiongröße 128 MB): user table 1.META. -ROOT- user table n region { 9-17 Hbase vs. RDBMS Hbase-Eigenschaften Verteilte Punkt- und Scan-Anfragen für Reads/Writes Built-In-Replikation Skalierbarkeit Batch-Verarbeitung (Source/Sink für MapReduce) Denormalisierte Daten / breite, spärlich besetzte Tabellen kostengünstig keine Query-Engine / kein SQL Transaktionen und Sekundär-Indexe (extern) möglich, jedoch schlechte Performance RDBMS deklarative Anfragen mit SQL (Joins, Group By, Order By ) automatische Parallelisierbarkeit auf verschiedenen PDBS-Architekturen Sekundär-Indexe Referenzielle Integrität ACID-Transaktionen, 9-18

10 Amazon Dynamo Verteilter, skalierbarer Key-Value-Speicher v.a. für kleine Datensätze (z.b. 1 MB/Key), z.b. Warenkörbe hochverfügbar Eventually consistent data store Schreibzugriffe sollen immer möglich sein reduzierte Konsistenzzusicherungen zugunsten Verfügbarkeit Performance SLA (Service Level Agreement) response within 300ms for 99.9% of requests for peak client load of 500 requests per second P2P-artige Verteilung keine Master-Knoten alle Knoten haben selbe Funktionalität 9-19 Amazon Dynamo Knoten bilden logischen Ring Position entspricht zufälligem Punkt im Wertebereich einer Hashfunktion Knoten speichert Daten, deren Key-Hashwert zwischen Vorgänger und ihm liegt jedes Datum über N Knoten repliziert Präferenzliste: Liste der Knoten, die zur Datenspeicherung für einen Key zuständig 9-20

11 Amazon Dynamo Key-Value-Store-Interface Put (key, context, object) - Context enthält u. a. Versionsnummer des Objektes (aus vorheriger Leseoperation) - Lokales Schreiben des Objektes, Erhöhen der Versionsnummer - asynchrone Aktualisierung der Replikate -> Konsistenzprobleme Get (key) - Kann mehrere Versionen eines Objektes zurückliefern: Liste von (object, context)-paaren Primary-Key-Zugriff; keine komplexen Queries Anfrage kann an beliebigen Knoten des Ringes gesendet werden Weiterleitung der Anfrage an einen Knoten der Präferenzliste dieses Keys Anwendungen sehen Versionierung Amazon Dynamo Verwendung von Read/Write-Quoren R/W minimale Anzahl der N Replikat-Knoten, die für erfolgreiche Read/Write Operation übereinstimmen müssen Anwendung kann (N,R,W) an Bedürfnisse an bzgl. Performanz, Verfügbarkeit und Dauerhaftigkeit einstellen üblich ist (3,2,2) 9-21 Sloppy Quorum strenge Konsistenz erfordert R + W > N, W > R/2 hohe Zugriffszeiten W=1 Schreiben möglich, solange mindestens ein Knoten arbeitet Nutzergesteuerte Konfliktbehandlung für abweichende Versionen 9-22

12 Amazon Dynamo Verwenden von Vector Clocks um Abhängigkeiten zwischen verschiedenen Versionen eines Objektes darzustellen Versionsnummer/zähler pro Replikat-Knoten z.b. D ([S x, 1] für Objekt D, Speicherknoten S x, Version 1 Vector Clock : Liste von (node,counter)-paaren zur Anzeige welche Objektversionen bekannt sind Beispiel zur Entwicklung von Objektversionen 9-23 Amazon Dynamo mit Vector Clocks feststellbar, ob 2 Objektversionen aufeinander aufbauen oder nicht Counter der 1. Vector Clock alle Counter der 2. Vector Clock 1.Version ist Vorfahr, kann gelöscht werden sonst Konflikt Leseoperation liefert im Konfliktfall alle bekannten Versionen inkl. Vector Clocks darauf folgendes Update führt verschiedene Versionen wieder zusammen Anwendung kann Konfliktlösung bestimmen z.b. Mischen verschiedener Warenkorbversionen 9-24 Quelle: G. DeCandia, D. Hastorun, M. Jampani et al. Dynamo: Amazon shighly Available Key-value Store. SOSP 07

13 MapReduce Framework zur automatischen Parallelisierung von Auswertungen auf großen Datenmengen (Google-Ansatz 1 ) Nutzung v.a. zur Verarbeitung riesiger Mengen teilstrukturierter Daten in einem verteilten Dateisystem Konstruktion Suchmaschinenindex Clusterung von News-Artikeln Spam-Erkennung Ausnutzung vorhandener Datenpartitionierung (GFS, Bigtable) Verwenden zweier Funktionen Map und Reduce Map: Verarbeitung von Key-Value-Paaren, Generierung und dynamische Partitionierung von Zwischenergebnissen (abgeleitete Key- Value-Paare) Reduce: Mischen aller Zwischenergebnisse mit demselben Key; Datenreduktion; Generierung von Key-Value Paaren als Endergebnis 1 Jeffrey Dean,Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04 map: (k 1,v 1 ) list(k 2,v 2 ) 9-25 MapReduce reduce: (k 2,list(v 2 )) list(k 3,v 3 ) Bsp. Bestimmen der höchsten aufgezeichneten Temperatur pro Jahr in großer Menge von ASCII-Files mit Wetterdaten N k 1 vom Typ Long (File-Offset) v 1 vom Typ String (Zeile selbst) pro (k 1,v 1 )-Paar wird Ein (k 2,v 2 )-Paar erzeugt (1-elementige Liste) Sortieren der (k 2,v 2 )-Paare und gruppieren nach k2 Adaptiert von: Hadoop The Definitive Guide, 2009, Tom White, O Reilly Zusammenfassung (Maximum) Aller v 2 zu einem k 2 (1-elementige Liste) 9-26

14 MapReduce Parallele Ausführung der Map- und Reduce- Funktionen Lokale Speicherung des partitionierten Map-Outputs Reducer holen sich ihren Input ab Output d. Mapper sortiert und partitioniert nach Key Output der Mapper mit selbem Key wird vom selben Reducer bearbeitet Reducer mischen sortierten Map-Output und übergeben (k 2,list(v 2 )) an Reduce-Funktion R Quelle: Hadoop Googles MapReduce 2004 veröffentlicht Proprietär, nicht verfügbar Hadoop ist Open Source Alternative Inspiriert von Googles MR/GFS Apache Top-Level-Projekt Unterprojekte: HDFS, MapReduce, HBase, Pig, Hive et al. Unix-ähnliche OS (Shell Skripte, passwortloses SSH) Java 6 Große Community Fertige Distributionen zur Ausführung in Amazon EC2 Sieger des Terabyte Sort Benchmark 2008 & TB Integer in 173 Minuten mit 3452 nodes (2 Quadcore Xeons, 8 GB Memory, 4 SATA) 9-28

15 Hadoop Bsp.: SELECT line, COUNT(*) FROM file WHERE line LIKE 'pattern' GROUP BY line k 1 v1 k 2 v 2 list(v 2 ) v 3 k 3 MR-Job Submission MR- Layer über HDFS 2 Arten von Knoten 9-29 Hadoop Jobtracker - Koordinator Tasktracker - Ausführung der Map und Reduce-Funktionen (Tasks) Jeder Tasktracker hat feste Anzahl an Slots für Map- und Reduce Tasks Abhängig von #Cores und Hauptspeicher Tasktracker sind gleichzeitig Chunkserver des HDFS Jobtracker weist Tasks an Tasktracker mit freien Slots zu Berücksichtigung der Datenlokalität 9-30 Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly

16 Hadoop Fehlschlag eines Task Abbruch/Timeout: Tasktracker meldet failed Task wird an anderen Tasktracker vergeben Nach vier Fehlschlägen wird Job als failed markiert Crash Tasktracker Abbruch/Timeout: Entfernen aus Tasktracker Pool Jobtracker weist diesem Tasktracker keine neuen Tasks mehr zu Fertige Map-Tasks laufender Jobs werden neu vergeben - Ergebnisse d. Map-Tasks (im lok. FS des Tasktrackers) nicht erreichbar - Neustarten aller laufenden Tasks Tasktracker Slowdown - ausstehende Tasks mehrfach vergeben Jobtracker - Single Point of Failure 9-31 MapReduce vs. Parallele DBS Datengröße Struktur Partitionierung Anfrage Zugriff Updates Scheduling Verarbeitung Datenfluss Fehlertoleranz Skalierbarkeit Umgebung Kosten M/R SN-RDBMS TB-PB Statisches Schema Horizontal Deklarativ (SQL) Punkt/Bereich via Indexes Read and write many times Compile-time Effizienter Zugriff auf Attribute möglich (Storage Manager) Push - Pipelining von Tupeln zwischen Operatoren Query-Restart (z. T. Operator-Restart) Linear (existierende Setups) Homogen (High-End-Hardware) Sehr teuer 9-32

17 MapReduce vs. Parallele DBS Vorteile MapReduce Skalierbarkeit/Fehlertoleranz Konfigurationsaufwand Kosten Kein initialer Ladevorgang Vorteile SN-DBS Deklarative Anfragesprache Anfragen werden um Größenordnungen schneller beantwortet (Zzt.) Arbeit auf komprimierten Daten Random Access Typische Anwendungsfälle MapReduce ETL Data-Mining, Data-Clustering Analyse semistrukturierter Daten (Web-Logs, ) Einmal-Analysen eines Datenbestandes 9-33 Hive 1 Data Warehouse-Infrastruktur, setzt auf Hadoop auf Entwickelt für Facebook 4TB komprimierte Daten pro Tag 135TB komprimierte Daten werden pro Tag analysiert 7500 MapReduce/HiveJobs jeden Tag MapReduce Programmierung Low-Level Programme schwer zu warten, kaum Reuse Barriere für Nicht-Experten Fehlende Ausdrucksmächtigkeit - Hoher Zeitaufwand, um simple Count/Avg-Anfragen in MapReduce zu realisieren Ziel - Erweiterung der Anfragemöglichkeiten an Hadoop

18 Hive What is Hive Verwaltung und Analayse strukturierter Daten mit Hilfe Hadoop Anfragen mit HiveQL, Ausführung mit MapReduce Datenhaltung im HDFS, Metadaten für Abbildung auf Tabellen Skalierbarkeit und Fehlertoleranz Erweiterbarkeit (UDTF, UDAF) What Hive is NOT 1 Hive does not and cannot promise low latencies on queries The paradigm here is strictly of submitting jobs and being notified when the jobs are completed as opposed to real-time queries Hive queries response times for even the smallest jobs can be of the order of several minutes 1 Hive HiveQL - SQL-ähnliche Anfragesprache σ, π, Equi-, Union, Sub-Queries, Group By, Aggregatfunktionen Übersetzung d. Anfragen in MapReduce Jobs Ausführung in Hadoop Cluster MapReduce Skripte können Bestandteil von Queries sein Architektur 9-35 Thrift - Cross-language Service Metastore - Tabellen, Spalten/Typ, Location, Partitionen, (De)Serialisierungs-informationen, Compiler - Anfrageoptimierung und Übersetzung des HiveQL-Statements in DAG von MapReduce Jobs Executor - Ausführung der MR-Jobs entsprechend DAG Quelle: Ashish Thusoo, Joydeep Sen Sarma, Namit Jain et. Al. Hive - A Warehousing Solution Over a Map-Reduce Framework. VLDB

19 Tabellen 1 Hive Kann auf exist. Daten im HDFS verweisen Tabelle hat korrespond. HDFS-Verzeichnis - /wh/pvs CREATE EXTERNAL TABLE pvs(userid int, pageid int, ds string, stry string) PARTITIONED ON(ds string, ctry string) STORED AS textfile LOCATION /path/to/existing/file Definition von Spalten, anhand denen Daten partitioniert werden - /wh/pvs/ds= /ctry=us - /wh/pvs/ds= /ctry=ca Bucketing - Aufteilen der Dateien eines Verzeichnisses anhand Hash-Wert einer Spalte (Datenparallelität) - /wh/pvs/ds= /ctry=us/part /wh/pvs/ds= /ctry=us/part Laden von Daten in Tabellen 1 status_updates(user_id int, status string, ds string) LOAD DATA LOCAL INPATH /logs/status_updates INTO TABLE status_updates PARTITION (ds= ) Hive Anfrageübersetzung SELECT * FROM status_updates WHERE status LIKE michael jackson Quelle: Anfrageoptimierung Verwerfen nicht benötigter Spalten - Berücksichtigung von. (Outer-)Join- und Selektionsattributen Frühes Anwenden von Selektionsprädikaten Verwerfen nicht benötigter Partitionen 9-38

20 Hive SELECT COUNT(*) FROM status_updates WHERE ds= Alle Updates Zwischenspeichern Des Map-Outputs Updates/Nutzer 9-39 Hive Join INSERT INTO TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid) page_view pageid userid time :08: :08: :08:14 key value 111 <1,1> 111 <1,2> 222 <1,1> key value 111 <1,1> 111 <1,2> 111 <2,25> pv_users pageid age user Map Shuffle Sort Reduce userid age gender female male key value 111 <2,25> 222 <2,32> key value 222 <1,1> 222 <2,32> pageid age 1 32 Quelle: Unterscheidung, aus welcher Tabelle Key-Value-Paar stammt

21 Hive Map-Join Kleinere Tabelle (benutzerdef.) wird von Mappern in Hash-Tabelle gehalten page_view pageid userid time :08: :08: :08:14 Hash table key value 111 <1,2> 222 <1> Besuchte Seiten eines Users user userid age gender female male Map Quelle: pv_users pageid age Keine Reducer notwendig N-Wege-Map-Join wenn n-1 Tabellen von Mapper gespeichert werden können 9-41 Hive Group By INSERT INTO TABLE pageid_age_sum SELECT pageid, age, count(*) FROM pv_users GROUP BY pageid, age pv_users pageid age Map key value <1,25> 2 Shuffle Sort key value <1,25> 2 <1,25> 1 Reduce pageid_age_sum pageid age count pageid age key value <1,25> 1 <2,32> 1 key value <2,32> 1 pageid age count Quelle:

22 M/R HadoopDB 1 (SN-)RDBMS Struktur Un-/semistrukturierte Daten Strukturierte relationale Daten Anfrage Abfrageausführung Map/Reduce Programme ( etwas SQL mit Hive) Materialisierung der Ergebnisse zwischen Map- und Reduce-Phase SQL Pipelining von Ergebnissen zwischen Operatoren Quelle: 1 Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi at al. An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. VLDB HadoopDB Idee Viele unabhängige Single-Node DBS (PostgreSQL/MySQL) Hadoop als Koordinator und Kommunikations-Layer Anfragen mit MapReduce parallelisiert Großteil der Arbeit wird in DBS-Nodes verrichtet Kombination Fehlertolleranz Hadoop und Performance paralleler DBS 9-44

23 HadoopDB Architektur DB-Connector - Hadoop InputFormat-Implementierung - Datenbanken für Hadoop wie HDFS- Blöcke Catalog - Metadaten über DB (Location, Driver, ) - Metadaten über gehaltene Daten (Partitionierung, Replikation, ) Data Loader - Partitionierung der Daten während des Ladens SQL to MapReduce to SQL Planner Quelle: - Erweitert Hive - Hive ist regelbasiert keine kostenbasierten Anfrageoptimierung wie DBS - Anpassung der Hive Ausführungspläne Erstellen von Single-Node-Queries (Optimierung durch DBS) Kombination mit MapReduce 9-45 HadoopDB SELECT YEAR(salesDate), SUM(revenue) FROM sales GROUP BY YEAR(salesDate) SMS SMS (sales partitioniert nach YEAR) Hive Quelle: Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi at al. An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. VLDB

24 Zusammenfassung Cloud Computing - Illusion unendlicher, on demand verfügbarer Ressourcen Verteilte Dateisysteme, z.b. Google FileSystem replizierte Speicherung großer Datenmengen verteilte Speicherung semistrukturierter Daten: Key-Value-Stores Beispiele: Google Bigtable/Hbase, Dynamo Replikation, Lastbalancierung, sehr einfache Operationen MapReduce - automatische Parallelisierung von Auswertungen auf großen Datenmengen Hive - Erweiterung von MapReduce um SQL-ähnliche Anfragemöglichkeiten HadoopDB versucht Vorteile von MapReduce und parallelen DBS zu kombinieren 9-47 Literatur The Google File System, Sanjay Ghemawat, Howard Gobioff, Shun T. Leung, SOSP 03 MapReduce: Simplified Data Processing on Large Clusters, Jeffrey Dean and Sanjay Ghemawat, OSDI 04 Bigtable: A Distributed Storage System for Structured Data, Fay Chang, Jeffrey Dean, Sanjay Ghemawat et al., OSDI 06 Dynamo: Amazon s Highly Available Key-value Store, G. DeCandia, D. Hastorun, M. Jampani et al., SOSP 07 Hadoop The Definitive Guide, 2009, Tom White, O Reilly Hive - A Warehousing Solution Over a Map-Reduce Framework, Ashish Thusoo, Joydeep Sen Sarma, Namit Jain et. al., VLDB 09 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, Azza Abouzeid, Kamil Bajda- Pawlikowski, Daniel J. Abadi et al., VLDB

25 Vorschau SS2010 Datenbanksysteme 2 Relationales Datenbankpraktikum (IBM DB2) Data Warehouse-Praktikum Bio-Datenbanken Lehrveranstaltungen können auch in Module im WS10/11 eingebracht werden MRDBS-Klausur Donnerstag, , 15:00 Uhr, HS 3 Klausurdauer: 60 Minuten Anmeldung: OLAT (Anmeldeschluss ) 9-49 Stoff: Kap. 1-8 Vorbereitung Buch Mehrrechner-DBS VL-Skript und -mitschriften LOTS 9-50

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Seminar WS 2009/10 Folie 1 Seminar: Anrechnungsmöglichkeiten Masterstudium Teil der Kern- bzw. Vertiefungsmodule Moderne Datenbanktechnologien (bzw. Anwendungsspezifische Datenbankkonzepte)

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

NoSQL-Datenbanken. Kapitel 2: Key-Value Stores. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 2-1

NoSQL-Datenbanken. Kapitel 2: Key-Value Stores. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 2-1 NoSQL-Datenbanken Kapitel 2: Key-Value Stores Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 2-1 Inhaltsverzeichnis Key-Value Stores File/Object Storage Services Beispiele:

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Verteiltes Persistenz-System. Mykhaylo Kabalkin

Verteiltes Persistenz-System. Mykhaylo Kabalkin Verteiltes Persistenz-System Mykhaylo Kabalkin 01.12.2006 Übersicht Motivation und Problematik Ziel Anforderungen Systemarchitektur erster Entwurf Architekturkomponenten Risiken 01.12.2006 Seminar Ringvorlesung

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Dieser Fragenkatalog wurde aufgrund das Basistextes und zum Teil aus den Prüfungsprotokollen erstellt, um sich auf mögliche

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

Datenmanagement in Android-Apps. 16. Mai 2013

Datenmanagement in Android-Apps. 16. Mai 2013 Datenmanagement in Android-Apps 16. Mai 2013 Überblick Strukturierung von datenorientierten Android-Apps Schichtenarchitektur Möglichkeiten der Datenhaltung: in Dateien, die auf der SDCard liegen in einer

Mehr

Grid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit. 07.06.2002 Grid Systeme 1

Grid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit. 07.06.2002 Grid Systeme 1 Grid-Systeme Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit 07.06.2002 Grid Systeme 1 Gliederung Vorstellung verschiedener Plattformen Globus

Mehr

Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs])

Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs]) Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs]) Hochschule für Technik, Wirtschaft und Kultur Leipzig 06.06.2008 Datenbanken II,Speicherung und Verarbeitung großer Objekte

Mehr

Test zur Bereitschaft für die Cloud

Test zur Bereitschaft für die Cloud Bericht zum EMC Test zur Bereitschaft für die Cloud Test zur Bereitschaft für die Cloud EMC VERTRAULICH NUR ZUR INTERNEN VERWENDUNG Testen Sie, ob Sie bereit sind für die Cloud Vielen Dank, dass Sie sich

Mehr

Überblick und Vergleich von NoSQL. Datenbanksystemen

Überblick und Vergleich von NoSQL. Datenbanksystemen Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Data Mining und Machine Learning

Data Mining und Machine Learning Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

Allgemeines zu Datenbanken

Allgemeines zu Datenbanken Allgemeines zu Datenbanken Was ist eine Datenbank? Datensatz Zusammenfassung von Datenelementen mit fester Struktur Z.B.: Kunde Alois Müller, Hegenheimerstr. 28, Basel Datenbank Sammlung von strukturierten,

Mehr

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation Markus Feichtinger Power Systems Der Weg zu POWER! Agenda Motivation Lösung Beispiel Export / Import - Überblick - Migration Beispiel XenoBridge - Überblick - Migration Benefits 2 Motivation Strategisch

Mehr

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg NoSQL Datenbanken am Beispiel von HBase Daniel Georg No to SQL at all sondern Not only SQL Open- Source Community Erst im Jahr 2009 gestartet Community bietet verschiede Lösungen: Casandra, CouchDD, HBase,

Mehr

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010 NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Kapitel 6 Anfragebearbeitung

Kapitel 6 Anfragebearbeitung LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2014 Kapitel 6 Anfragebearbeitung Vorlesung: PD Dr. Peer Kröger

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH Windows Azure für Java Architekten Holger Sirtl Microsoft Deutschland GmbH Agenda Schichten des Cloud Computings Überblick über die Windows Azure Platform Einsatzmöglichkeiten für Java-Architekten Ausführung

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Cloud Computing - die Lösung der Zukunft

Cloud Computing - die Lösung der Zukunft Cloud Computing - die Lösung der Zukunft Agenda: 08:30 08:40 Begrüssung Herr Walter Keller 08:40 09:00 Idee / Aufbau der Cloud Herr Daniele Palazzo 09:00 09:25 Definition der Cloud Herr Daniele Palazzo

Mehr

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Large-scale Incremental Processing Using Distributed Transactions and Notifications Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job

Mehr

Skalierbare Webanwendungen mit Python und Google App Engine

Skalierbare Webanwendungen mit Python und Google App Engine Skalierbare Webanwendungen mit Python und Google App Engine Oliver Albers 03. Juli 2008 1/32 Einführung Worum geht es? Pro und Contra Technik Genereller Aufbau Anwendungskonfiguration Verarbeitung von

Mehr

7. Übung - Datenbanken

7. Übung - Datenbanken 7. Übung - Datenbanken Informatik I für Verkehrsingenieure Aufgaben inkl. Beispiellösungen 1. Aufgabe: DBS a Was ist die Kernaufgabe von Datenbanksystemen? b Beschreiben Sie kurz die Abstraktionsebenen

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004) Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der

Mehr

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL XAMPP-Systeme Teil 3: My SQL Daten Eine Wesenseigenschaft von Menschen ist es, Informationen, in welcher Form sie auch immer auftreten, zu ordnen, zu klassifizieren und in strukturierter Form abzulegen.

Mehr

f Link Datenbank installieren und einrichten

f Link Datenbank installieren und einrichten f Link Datenbank installieren und einrichten Dokument-Version 1.1 20.08.2011 Programm-Version 1.0 und höher Autor Dipl.-Ing. Thomas Hogrebe, tommic GmbH Inhalt Versionshistorie... 1 Über dieses Dokument...

Mehr

Matrix42. Matrix42 Cloud Trial Erste Schritte. Version 1.0.0 03.02.2016 - 1 -

Matrix42. Matrix42 Cloud Trial Erste Schritte. Version 1.0.0 03.02.2016 - 1 - Matrix42 Matrix42 Cloud Trial Erste Schritte Version 1.0.0 03.02.2016-1 - Inhaltsverzeichnis 1Einleitung 3 2Cloud Trial Steuerung 4 2.1 Starten der Cloud-Umgebung 4 2.2 Bedienen der Maschinen in der Cloud

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version 7.4.4. - Optional einen DHCP Server.

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version 7.4.4. - Optional einen DHCP Server. 1. Dynamic Host Configuration Protocol 1.1 Einleitung Im Folgenden wird die Konfiguration von DHCP beschrieben. Sie setzen den Bintec Router entweder als DHCP Server, DHCP Client oder als DHCP Relay Agent

Mehr

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo. Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten

Mehr

Lokale Installation von DotNetNuke 4 ohne IIS

Lokale Installation von DotNetNuke 4 ohne IIS Lokale Installation von DotNetNuke 4 ohne IIS ITM GmbH Wankelstr. 14 70563 Stuttgart http://www.itm-consulting.de Benjamin Hermann hermann@itm-consulting.de 12.12.2006 Agenda Benötigte Komponenten Installation

Mehr

Datenbanken für Online Untersuchungen

Datenbanken für Online Untersuchungen Datenbanken für Online Untersuchungen Im vorliegenden Text wird die Verwendung einer MySQL Datenbank für Online Untersuchungen beschrieben. Es wird davon ausgegangen, dass die Untersuchung aus mehreren

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

5.3.1.6 Laborübung - Task Manager (Verwalten von Prozessen) in Windows Vista

5.3.1.6 Laborübung - Task Manager (Verwalten von Prozessen) in Windows Vista 5.0 5.3.1.6 Laborübung - Task Manager (Verwalten von Prozessen) in Windows Vista Einführung Drucken Sie diese Übung aus und folgen Sie den Anweisungen. In dieser Übung werden Sie sich den Task Manager

Mehr

JEAF Cloud Plattform Der Workspace aus der Cloud

JEAF Cloud Plattform Der Workspace aus der Cloud JEAF Cloud Plattform Der Workspace aus der Cloud Juni 2014 : Aktuelle Situation Heutige Insellösungen bringen dem Nutzer keinen Mehrwert Nutzer sind mobil Dateien und Applikationen sind über Anbieter und

Mehr

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN ANALYSE VON OLAP-AUFBEREITUNGSFEHLERN

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

DB2 Codepage Umstellung

DB2 Codepage Umstellung DB2 Codepage Umstellung Was bei einer Umstellung auf Unicode zu beachten ist Torsten Röber, SW Support Specialist DB2 April 2015 Agenda Warum Unicode? Unicode Implementierung in DB2/LUW Umstellung einer

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis Kommunikationsübersicht Inhaltsverzeichnis Kommunikation bei Einsatz eines MasterServer... 2 Installation im... 2 Installation in der... 3 Kommunikation bei Einsatz eines MasterServer und FrontendServer...

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis BOKUbox BOKUbox ist ein Spezialservice für alle Mitarbeiter/innen der BOKU. Kurzfristiger Austausch von vielen und großen Dateien kann Ihre Mailbox schnell überlasten. BOKUbox ist die perfekte Alternative

Mehr

5. Übung: PHP-Grundlagen

5. Übung: PHP-Grundlagen 5.1. Erstes PHP-Programm 1. Schreiben Sie PHP-Programm innerhalb einer Webseite, d.h. innerhalb eines HTML-Dokument. Ihr PHP-Programm soll einen kurzen Text ausgeben und Komentare enthalten. Speichern

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

Kapitel 8: Physischer Datenbankentwurf

Kapitel 8: Physischer Datenbankentwurf 8. Physischer Datenbankentwurf Seite 1 Kapitel 8: Physischer Datenbankentwurf Speicherung und Verwaltung der Relationen einer relationalen Datenbank so, dass eine möglichst große Effizienz der einzelnen

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: MapReduce und Datenbanken Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis SQL-Anfrageformulierung

Mehr

peer-to-peer Dateisystem Synchronisation

peer-to-peer Dateisystem Synchronisation Ziel Realisierungen Coda Ideen Fazit Literatur peer-to-peer Dateisystem Synchronisation Studiendepartment Informatik Hochschule für Angewandte Wissenschaften Hamburg 30. November 2007 Ziel Realisierungen

Mehr

Einführung in die technische Informatik

Einführung in die technische Informatik Einführung in die technische Informatik Christopher Kruegel chris@auto.tuwien.ac.at http://www.auto.tuwien.ac.at/~chris Betriebssysteme Aufgaben Management von Ressourcen Präsentation einer einheitlichen

Mehr

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich

Mehr

Implementation of a Framework Component for Processing Tasks within Threads on the Application Level

Implementation of a Framework Component for Processing Tasks within Threads on the Application Level Implementation of a Framework Component for Processing Tasks within Threads on the Application Level Deutsches Krebsforschungszentrum, for Processing Task within Threads on the Application Level Motivation

Mehr

Lizenzierung von SharePoint Server 2013

Lizenzierung von SharePoint Server 2013 Lizenzierung von SharePoint Server 2013 Das Lizenzmodell von SharePoint Server 2013 besteht aus zwei Komponenten: Serverlizenzen zur Lizenzierung der Serversoftware und CALs zur Lizenzierung der Zugriffe

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 5: MapReduce Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

Ein mobiler Electronic Program Guide

Ein mobiler Electronic Program Guide Whitepaper Telekommunikation Ein mobiler Electronic Program Guide Ein iphone Prototyp auf Basis von Web-Technologien 2011 SYRACOM AG 1 Einleitung Apps Anwendungen für mobile Geräte sind derzeit in aller

Mehr

Kapitel 14 Verteilte DBMS

Kapitel 14 Verteilte DBMS Kapitel 14 Verteilte DBMS 14 Verteilte DBMS 14 Verteilte DBMS...1 14.1 Begriff, Architektur und Ziele verteilter Datenbanksysteme...2 14.2 Verteilungsarten...5 14.2.1 Verteilung der Daten...5 14.2.2 Verteilung

Mehr

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger Grundlegendes Oracle9i PostgreSQL Prevayler Memory mywms bietet umfangreiche Konfigurationsmöglichkeiten um die Daten dauerhaft zu speichern.

Mehr

Versionsverwaltung GIT & SVN. Alexander aus der Fünten. Proseminar: Methoden und Werkzeuge, SS 2012. Lehrstuhl i9, Prof. Dr. T.

Versionsverwaltung GIT & SVN. Alexander aus der Fünten. Proseminar: Methoden und Werkzeuge, SS 2012. Lehrstuhl i9, Prof. Dr. T. Versionsverwaltung GIT & SVN Alexander aus der Fünten Proseminar: Methoden und Werkzeuge, SS 2012 Lehrstuhl i9, Prof. Dr. T. Seidl RWTH Aachen Ablauf Was ist Versionsverwaltung? Arbeitsmodelle Lokale,

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control

DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen Your Data. Your Control WebGUI CMIS GW (JSON) GDS2 API (JSON) WebDAV GDS core Moderne Software Architektur Object-Store

Mehr

Lizenzierung von SharePoint Server 2013

Lizenzierung von SharePoint Server 2013 Lizenzierung von SharePoint Server 2013 Das Lizenzmodell von SharePoint Server 2013 besteht aus zwei Komponenten: Serverlizenzen zur Lizenzierung der Serversoftware und CALs zur Lizenzierung der Zugriffe

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Sind Cloud Apps der nächste Hype?

Sind Cloud Apps der nächste Hype? Java Forum Stuttgart 2012 Sind Cloud Apps der nächste Hype? Tillmann Schall Stuttgart, 5. Juli 2012 : Agenda Was sind Cloud Apps? Einordnung / Vergleich mit bestehenden Cloud Konzepten Live Demo Aufbau

Mehr

Flashfragen in ILIAS Test & Assessment. Helmut Schottmüller

Flashfragen in ILIAS Test & Assessment. Helmut Schottmüller Flashfragen in ILIAS Test & Assessment Helmut Schottmüller Flashfragen in ILIAS Test & Assessment Helmut Schottmüller Veröffentlicht Januar 2009 Copyright 2009 Helmut Schottmüller Inhaltsverzeichnis 1.

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten. Webalizer Statistik Bedeutung der Begriffe Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten. Anfragen Gesamtheit aller Anfragen an Ihren Account. Jede Anfrage auf eine Grafik, eine

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

SQL Server 2008 Standard und Workgroup Edition

SQL Server 2008 Standard und Workgroup Edition September 2008 Produktgruppe: Server Lizenzmodell: Microsoft Server Server/ Serverlizenz Zugriffslizenz () pro Gerät Zugriffslizenz () pro Nutzer Produktgruppe: Server Lizenzmodell: Microsoft Server Pro

Mehr

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Wesentliche Inhalte Begriff DBS Datenbankmodelle Datenbankentwurf konzeptionell, logisch und relational

Mehr

Anleitung zum Prüfen von WebDAV

Anleitung zum Prüfen von WebDAV Brainloop Secure Dataroom Version 8.20 Copyright Brainloop AG, 2004-2014. Alle Rechte vorbehalten. Sämtliche verwendeten Markennamen und Markenzeichen sind Eigentum der jeweiligen Markeninhaber. Inhaltsverzeichnis

Mehr

SolarWinds Engineer s Toolset

SolarWinds Engineer s Toolset SolarWinds Engineer s Toolset Monitoring Tools Das Engineer s Toolset ist eine Sammlung von 49 wertvoller und sinnvoller Netzwerktools. Die Nr. 1 Suite für jeden Administrator! Die Schwerpunkte liegen

Mehr