9. Cloud-Datenspeicherung und MapReduce-Parallelisierung
|
|
- Gertrud Winkler
- vor 8 Jahren
- Abrufe
Transkript
1 9. Cloud-Datenspeicherung und MapReduce-Parallelisierung Einführung Cloud Data Management Verteilte Datenhaltung Dateisysteme (GFS) Hbase (Google Big Table) Amazon Dynamo MapReduce Idee Open Source-Realisierung Hadoop MapReduce vs. Parallele DBS MapReduce - Erweiterungen Hive HadoopDB 9-1 Cloud Computing Cloud computing is using the internet to access someone else's software running on someone else's hardware in someone else's data center - Lewis Cunningham Externe Bereitstellung von IT-Infrastrukturen sowie Applikations- Hosting über das Internet (bzw. Intranet) Public Cloud vs. Private Clouds Charakteristika: Illusion unendlicher, on demand verfügbarer Ressourcen Virtualisierung: gemeinsame Nutzung v. Ressourcen durch viele Nutzer Elastizität - schnelle Belegung/Freigabe von Ressourcen nach Bedarf ( Hinzuschalten weiterer Rechner) Abrechnung nach Verbrauch (CPU Zyklen, Speicherplatz, Übertragungsvolumen) 9-2
2 Cloud Computing (2) Vorteile Cloud User Kein Einrichten/Betreiben eigener Rechenzentren Keine langfristige Ressourcenplanung Keine hohen Vorabinvestitionen - pay per use Verspricht wesentliche Kosteneinsparungen (u.a. für Startups) Vorteile Cloud Provider Aufteilung verfügbarer Ressourcen auf mehrere Kunden Große Rechenzentren ( Server) haben im Vrgl. zu mittelgroßen (1000 Server) nur 1/5-1/7 der Kosten Standortvorteile - Elektrizitätspreise, Löhne, Steuern Green Computing - Bessere Auslastung der Clouds im gegenüber lokalen Rechenzentren 9-3 Cloud Computing - Einteilung SaaS Software as a Service PaaS Platform as a Service IaaS Infrastructure as a Service 9-4
3 Cloud-Einsatzbeispiele Amazon EC2 (Electronic Compute Cloud) Mieten einer Menge virtueller Maschinen Verwendung für Anwendungen beliebiger Art Online-Speicher Amazon S3 Speichern und Lesen von Daten über Webservice von überall zu jeder Zeit Schnell, billig, hochverfügbar, hochskalierbar 9-5 Cloud-Einsatzbeispiele 2 Google App Engine Plattform zum Entwickeln und Vorhalten von Webanwendungen Python, Java etc. Cloud-basierte Office-Anwendungen (realisiert als Web-Dienste) Google Mail, Docs, Google Calendar,... Keine lokale Software und Datenhaltung Universeller Zugang mittels Browser/ Thin Client 9-6
4 Cloud Data Management Cloud-Anwendungen erfordern Datenhaltung / Austausch von Daten in der Cloud Effiziente und persistente Verwaltung großer Datenmengen die Speicherkapazität eines Rechners übersteigen (mehrere TB-PB) Möglichkeiten: Verteiltes Filesystem (Google File System, Hadoop DFS) Cloud-Datenbanken - statt RDBMS oft Key-Value Stores (Bigtable/Hbase, Dynamo, Cassandra, CouchDB, ) Map/Reduce-Paradigma zur Parallelisierung Unterstützung für parallele Datenauswertungen / Data Mining OLAP - multidim. Aggregation großer Datenmengen ACID nicht erforderlich 9-7 Google File System 1 (GFS) Proprietäres, verteiltes Linux-basiertes Dateisystem Hochskalierend: tausende Festplatten, mehrere 100TB Open Source-Alternative - Hadoop Distributed File System Netzknoten: billige Standardhardware (kein RAID) Hardwarefehler- und ausfälle sind Regelfall Gewährleistung von Datensicherheit optimiert für Streaming Access File-Änderungen durch Anhängen: write once - read many times Verteiltes, sequentielles Lesen (blockweise) Hoher Durchsatz statt geringer Latenz 1 S.Ghemawat, H. Gobioff, S. T. Leung. The Google File System. SOSP
5 Google File System Physische Datenpartitionierung in Chunks (Default: 64 MB) Verteilung über mehrere Chunkserver (und Replizierung jedes Chunks) Master-Server (Metadaten) Mapping: Datei->Chunk->Node Replikat-Management: Default 3 Chunk-Kopien (in 2 Racks) Anfragebearbeitung, Zugriffsverwaltung Architektur 9-9 HBase 1 Verteilte Datenspeicherung nach Vorbild von Google Bigtable 2 Spaltenorientierter Key-Value-Store Multi-Dimensional Versioniert Hochverfügbar High-Performance Ziele Milliarden von Zeilen, Millionen von Spalten, Tausende von Versionen Real-time read/write random access Große Datenmengen (mehrere PB) Lineare Skalierbarkeit mit Anzahl Nodes Fay Chang, Jeffrey Dean, Sanjay Ghemawat et al. Bigtable: A Distributed Storage System for Structured Data. OSDI
6 Hbase: Einsatzfälle Web-Tabelle Tabelle mit gecrawlten Webseiten mit ihren Attributen/Inhalten Key: Webseiten-URL Millionen/Milliarden Seiten Random-Zugriff durch Crawler zum Einfügen neuer/geänderter Webseiten Batch-Auswertungen zum Aufbau eines Suchmaschinenindex Random-Zugriff in Realzeit für Suchmaschinennutzer, um Cache- Version von Webseiten zu erhalten Datenmodell Hbase / Bigtable Verteilte, mehrdimensionale, sortierte Abbildung (row:string, column:string, time:int64) string Spalten- und Zeilenschlüssel Zeitstempel Daten bestehen aus beliebigen Zeichenketten / Bytestrings Zeilen (nur) Lese- und Schreiboperationen auf eine Zeile sind atomar Speicherung der Daten in lexikographischer Reihenfolge der Zeilenschlüssel 9-11 [CDG+08] 9-12
7 Datenmodell Hbase/Bigtable (2) Spaltenfamilien (column families) - Können n verwandte Spalten (ähnliche Inhalte) umfassen - Spaltenschlüssel = Spaltenfamilie:Kennzeichen - Benachbarte Speicherung von Spalten einer Familie - innerhalb Familie: flexible Erweiterbarkeit um neue Spalten Zeitstempel mehrere Versionen pro Zelle festgelegte Versionszahl: automatisches Löschen älterer Daten [CDG+08] 9-13 Datenmodell Konzeptionelle Sicht (alternativ) Row Key Time Stamp Column Contents Column Family Anchor com.cnn.www T9 Anchor:cnnsi.com CNN T8 Anchor:my.look.ca CNN.COM T6 <html>.. T5 <html>.. Physische Speicherung (Hstore) Row Key Time Stamp Contents com.cnn.www T6 <html>.. T5 <html>.. Row Key Time Stamp Anchor com.cnn.www T9 Anchor:cnnsi.com CNN T5 Anchor:my.look.ca CNN.COM 9-14
8 HBase Hohe Schemaflexibilität über Spaltenfamilien Optionale Verwendung von Spalten pro Satz Pro Spaltenfamilie können zur Laufzeit beliebig viele Spalten hinzugefügt werden Bsp: create test, {NAME=> fam1, VERSIONS=>2} put test, row1, fam1:col7, value1 put test, row2, fam1:col8, value2 put test, row2, fam1:col8, value3 scan test ROW COLUMN+CELL row1 column=fam1:col7, timestamp=123, value=value1 row2 column=fam1:col8, timestamp=125, value=value2 row2 column=fam1:col8, timestamp=127, value=value HBase Regions (Tablets in Bigtable) Horizontale Partitionierung von Tabellen in Regions mehrere Region-Server zur Aufnahme der Regions Lastbalancierung Region-Split in 2 gleich große Regions, wenn max. Größe (z.b. 128 MB) erreicht Architektur Datenspeicherung in Region-Server Master - weist Regions Region-Servern zu - Recovery für Region-Server Master Server Region Server Region Server Region Server HStore HStore Region 9-16
9 HBase Zweistufige Katalogverwaltung: Tabellen ROOT, META META verwaltet Liste aller (user table) Regions ROOT: 1 Region mit Liste der META-Regions Eintrag enthält 1 st Row Key, Location, Status, Tabellen sind sortiert nach Start-Row-Key Adressraum (Eintragsgröße 1 KB, Regiongröße 128 MB): user table 1.META. -ROOT- user table n region { 9-17 Hbase vs. RDBMS Hbase-Eigenschaften Verteilte Punkt- und Scan-Anfragen für Reads/Writes Built-In-Replikation Skalierbarkeit Batch-Verarbeitung (Source/Sink für MapReduce) Denormalisierte Daten / breite, spärlich besetzte Tabellen kostengünstig keine Query-Engine / kein SQL Transaktionen und Sekundär-Indexe (extern) möglich, jedoch schlechte Performance RDBMS deklarative Anfragen mit SQL (Joins, Group By, Order By ) automatische Parallelisierbarkeit auf verschiedenen PDBS-Architekturen Sekundär-Indexe Referenzielle Integrität ACID-Transaktionen, 9-18
10 Amazon Dynamo Verteilter, skalierbarer Key-Value-Speicher v.a. für kleine Datensätze (z.b. 1 MB/Key), z.b. Warenkörbe hochverfügbar Eventually consistent data store Schreibzugriffe sollen immer möglich sein reduzierte Konsistenzzusicherungen zugunsten Verfügbarkeit Performance SLA (Service Level Agreement) response within 300ms for 99.9% of requests for peak client load of 500 requests per second P2P-artige Verteilung keine Master-Knoten alle Knoten haben selbe Funktionalität 9-19 Amazon Dynamo Knoten bilden logischen Ring Position entspricht zufälligem Punkt im Wertebereich einer Hashfunktion Knoten speichert Daten, deren Key-Hashwert zwischen Vorgänger und ihm liegt jedes Datum über N Knoten repliziert Präferenzliste: Liste der Knoten, die zur Datenspeicherung für einen Key zuständig 9-20
11 Amazon Dynamo Key-Value-Store-Interface Put (key, context, object) - Context enthält u. a. Versionsnummer des Objektes (aus vorheriger Leseoperation) - Lokales Schreiben des Objektes, Erhöhen der Versionsnummer - asynchrone Aktualisierung der Replikate -> Konsistenzprobleme Get (key) - Kann mehrere Versionen eines Objektes zurückliefern: Liste von (object, context)-paaren Primary-Key-Zugriff; keine komplexen Queries Anfrage kann an beliebigen Knoten des Ringes gesendet werden Weiterleitung der Anfrage an einen Knoten der Präferenzliste dieses Keys Anwendungen sehen Versionierung Amazon Dynamo Verwendung von Read/Write-Quoren R/W minimale Anzahl der N Replikat-Knoten, die für erfolgreiche Read/Write Operation übereinstimmen müssen Anwendung kann (N,R,W) an Bedürfnisse an bzgl. Performanz, Verfügbarkeit und Dauerhaftigkeit einstellen üblich ist (3,2,2) 9-21 Sloppy Quorum strenge Konsistenz erfordert R + W > N, W > R/2 hohe Zugriffszeiten W=1 Schreiben möglich, solange mindestens ein Knoten arbeitet Nutzergesteuerte Konfliktbehandlung für abweichende Versionen 9-22
12 Amazon Dynamo Verwenden von Vector Clocks um Abhängigkeiten zwischen verschiedenen Versionen eines Objektes darzustellen Versionsnummer/zähler pro Replikat-Knoten z.b. D ([S x, 1] für Objekt D, Speicherknoten S x, Version 1 Vector Clock : Liste von (node,counter)-paaren zur Anzeige welche Objektversionen bekannt sind Beispiel zur Entwicklung von Objektversionen 9-23 Amazon Dynamo mit Vector Clocks feststellbar, ob 2 Objektversionen aufeinander aufbauen oder nicht Counter der 1. Vector Clock alle Counter der 2. Vector Clock 1.Version ist Vorfahr, kann gelöscht werden sonst Konflikt Leseoperation liefert im Konfliktfall alle bekannten Versionen inkl. Vector Clocks darauf folgendes Update führt verschiedene Versionen wieder zusammen Anwendung kann Konfliktlösung bestimmen z.b. Mischen verschiedener Warenkorbversionen 9-24 Quelle: G. DeCandia, D. Hastorun, M. Jampani et al. Dynamo: Amazon shighly Available Key-value Store. SOSP 07
13 MapReduce Framework zur automatischen Parallelisierung von Auswertungen auf großen Datenmengen (Google-Ansatz 1 ) Nutzung v.a. zur Verarbeitung riesiger Mengen teilstrukturierter Daten in einem verteilten Dateisystem Konstruktion Suchmaschinenindex Clusterung von News-Artikeln Spam-Erkennung Ausnutzung vorhandener Datenpartitionierung (GFS, Bigtable) Verwenden zweier Funktionen Map und Reduce Map: Verarbeitung von Key-Value-Paaren, Generierung und dynamische Partitionierung von Zwischenergebnissen (abgeleitete Key- Value-Paare) Reduce: Mischen aller Zwischenergebnisse mit demselben Key; Datenreduktion; Generierung von Key-Value Paaren als Endergebnis 1 Jeffrey Dean,Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04 map: (k 1,v 1 ) list(k 2,v 2 ) 9-25 MapReduce reduce: (k 2,list(v 2 )) list(k 3,v 3 ) Bsp. Bestimmen der höchsten aufgezeichneten Temperatur pro Jahr in großer Menge von ASCII-Files mit Wetterdaten N k 1 vom Typ Long (File-Offset) v 1 vom Typ String (Zeile selbst) pro (k 1,v 1 )-Paar wird Ein (k 2,v 2 )-Paar erzeugt (1-elementige Liste) Sortieren der (k 2,v 2 )-Paare und gruppieren nach k2 Adaptiert von: Hadoop The Definitive Guide, 2009, Tom White, O Reilly Zusammenfassung (Maximum) Aller v 2 zu einem k 2 (1-elementige Liste) 9-26
14 MapReduce Parallele Ausführung der Map- und Reduce- Funktionen Lokale Speicherung des partitionierten Map-Outputs Reducer holen sich ihren Input ab Output d. Mapper sortiert und partitioniert nach Key Output der Mapper mit selbem Key wird vom selben Reducer bearbeitet Reducer mischen sortierten Map-Output und übergeben (k 2,list(v 2 )) an Reduce-Funktion R Quelle: Hadoop Googles MapReduce 2004 veröffentlicht Proprietär, nicht verfügbar Hadoop ist Open Source Alternative Inspiriert von Googles MR/GFS Apache Top-Level-Projekt Unterprojekte: HDFS, MapReduce, HBase, Pig, Hive et al. Unix-ähnliche OS (Shell Skripte, passwortloses SSH) Java 6 Große Community Fertige Distributionen zur Ausführung in Amazon EC2 Sieger des Terabyte Sort Benchmark 2008 & TB Integer in 173 Minuten mit 3452 nodes (2 Quadcore Xeons, 8 GB Memory, 4 SATA) 9-28
15 Hadoop Bsp.: SELECT line, COUNT(*) FROM file WHERE line LIKE 'pattern' GROUP BY line k 1 v1 k 2 v 2 list(v 2 ) v 3 k 3 MR-Job Submission MR- Layer über HDFS 2 Arten von Knoten 9-29 Hadoop Jobtracker - Koordinator Tasktracker - Ausführung der Map und Reduce-Funktionen (Tasks) Jeder Tasktracker hat feste Anzahl an Slots für Map- und Reduce Tasks Abhängig von #Cores und Hauptspeicher Tasktracker sind gleichzeitig Chunkserver des HDFS Jobtracker weist Tasks an Tasktracker mit freien Slots zu Berücksichtigung der Datenlokalität 9-30 Quelle: Hadoop The Definitive Guide, 2009, Tom White, O Reilly
16 Hadoop Fehlschlag eines Task Abbruch/Timeout: Tasktracker meldet failed Task wird an anderen Tasktracker vergeben Nach vier Fehlschlägen wird Job als failed markiert Crash Tasktracker Abbruch/Timeout: Entfernen aus Tasktracker Pool Jobtracker weist diesem Tasktracker keine neuen Tasks mehr zu Fertige Map-Tasks laufender Jobs werden neu vergeben - Ergebnisse d. Map-Tasks (im lok. FS des Tasktrackers) nicht erreichbar - Neustarten aller laufenden Tasks Tasktracker Slowdown - ausstehende Tasks mehrfach vergeben Jobtracker - Single Point of Failure 9-31 MapReduce vs. Parallele DBS Datengröße Struktur Partitionierung Anfrage Zugriff Updates Scheduling Verarbeitung Datenfluss Fehlertoleranz Skalierbarkeit Umgebung Kosten M/R SN-RDBMS TB-PB Statisches Schema Horizontal Deklarativ (SQL) Punkt/Bereich via Indexes Read and write many times Compile-time Effizienter Zugriff auf Attribute möglich (Storage Manager) Push - Pipelining von Tupeln zwischen Operatoren Query-Restart (z. T. Operator-Restart) Linear (existierende Setups) Homogen (High-End-Hardware) Sehr teuer 9-32
17 MapReduce vs. Parallele DBS Vorteile MapReduce Skalierbarkeit/Fehlertoleranz Konfigurationsaufwand Kosten Kein initialer Ladevorgang Vorteile SN-DBS Deklarative Anfragesprache Anfragen werden um Größenordnungen schneller beantwortet (Zzt.) Arbeit auf komprimierten Daten Random Access Typische Anwendungsfälle MapReduce ETL Data-Mining, Data-Clustering Analyse semistrukturierter Daten (Web-Logs, ) Einmal-Analysen eines Datenbestandes 9-33 Hive 1 Data Warehouse-Infrastruktur, setzt auf Hadoop auf Entwickelt für Facebook 4TB komprimierte Daten pro Tag 135TB komprimierte Daten werden pro Tag analysiert 7500 MapReduce/HiveJobs jeden Tag MapReduce Programmierung Low-Level Programme schwer zu warten, kaum Reuse Barriere für Nicht-Experten Fehlende Ausdrucksmächtigkeit - Hoher Zeitaufwand, um simple Count/Avg-Anfragen in MapReduce zu realisieren Ziel - Erweiterung der Anfragemöglichkeiten an Hadoop
18 Hive What is Hive Verwaltung und Analayse strukturierter Daten mit Hilfe Hadoop Anfragen mit HiveQL, Ausführung mit MapReduce Datenhaltung im HDFS, Metadaten für Abbildung auf Tabellen Skalierbarkeit und Fehlertoleranz Erweiterbarkeit (UDTF, UDAF) What Hive is NOT 1 Hive does not and cannot promise low latencies on queries The paradigm here is strictly of submitting jobs and being notified when the jobs are completed as opposed to real-time queries Hive queries response times for even the smallest jobs can be of the order of several minutes 1 Hive HiveQL - SQL-ähnliche Anfragesprache σ, π, Equi-, Union, Sub-Queries, Group By, Aggregatfunktionen Übersetzung d. Anfragen in MapReduce Jobs Ausführung in Hadoop Cluster MapReduce Skripte können Bestandteil von Queries sein Architektur 9-35 Thrift - Cross-language Service Metastore - Tabellen, Spalten/Typ, Location, Partitionen, (De)Serialisierungs-informationen, Compiler - Anfrageoptimierung und Übersetzung des HiveQL-Statements in DAG von MapReduce Jobs Executor - Ausführung der MR-Jobs entsprechend DAG Quelle: Ashish Thusoo, Joydeep Sen Sarma, Namit Jain et. Al. Hive - A Warehousing Solution Over a Map-Reduce Framework. VLDB
19 Tabellen 1 Hive Kann auf exist. Daten im HDFS verweisen Tabelle hat korrespond. HDFS-Verzeichnis - /wh/pvs CREATE EXTERNAL TABLE pvs(userid int, pageid int, ds string, stry string) PARTITIONED ON(ds string, ctry string) STORED AS textfile LOCATION /path/to/existing/file Definition von Spalten, anhand denen Daten partitioniert werden - /wh/pvs/ds= /ctry=us - /wh/pvs/ds= /ctry=ca Bucketing - Aufteilen der Dateien eines Verzeichnisses anhand Hash-Wert einer Spalte (Datenparallelität) - /wh/pvs/ds= /ctry=us/part /wh/pvs/ds= /ctry=us/part Laden von Daten in Tabellen 1 status_updates(user_id int, status string, ds string) LOAD DATA LOCAL INPATH /logs/status_updates INTO TABLE status_updates PARTITION (ds= ) Hive Anfrageübersetzung SELECT * FROM status_updates WHERE status LIKE michael jackson Quelle: Anfrageoptimierung Verwerfen nicht benötigter Spalten - Berücksichtigung von. (Outer-)Join- und Selektionsattributen Frühes Anwenden von Selektionsprädikaten Verwerfen nicht benötigter Partitionen 9-38
20 Hive SELECT COUNT(*) FROM status_updates WHERE ds= Alle Updates Zwischenspeichern Des Map-Outputs Updates/Nutzer 9-39 Hive Join INSERT INTO TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid) page_view pageid userid time :08: :08: :08:14 key value 111 <1,1> 111 <1,2> 222 <1,1> key value 111 <1,1> 111 <1,2> 111 <2,25> pv_users pageid age user Map Shuffle Sort Reduce userid age gender female male key value 111 <2,25> 222 <2,32> key value 222 <1,1> 222 <2,32> pageid age 1 32 Quelle: Unterscheidung, aus welcher Tabelle Key-Value-Paar stammt
21 Hive Map-Join Kleinere Tabelle (benutzerdef.) wird von Mappern in Hash-Tabelle gehalten page_view pageid userid time :08: :08: :08:14 Hash table key value 111 <1,2> 222 <1> Besuchte Seiten eines Users user userid age gender female male Map Quelle: pv_users pageid age Keine Reducer notwendig N-Wege-Map-Join wenn n-1 Tabellen von Mapper gespeichert werden können 9-41 Hive Group By INSERT INTO TABLE pageid_age_sum SELECT pageid, age, count(*) FROM pv_users GROUP BY pageid, age pv_users pageid age Map key value <1,25> 2 Shuffle Sort key value <1,25> 2 <1,25> 1 Reduce pageid_age_sum pageid age count pageid age key value <1,25> 1 <2,32> 1 key value <2,32> 1 pageid age count Quelle:
22 M/R HadoopDB 1 (SN-)RDBMS Struktur Un-/semistrukturierte Daten Strukturierte relationale Daten Anfrage Abfrageausführung Map/Reduce Programme ( etwas SQL mit Hive) Materialisierung der Ergebnisse zwischen Map- und Reduce-Phase SQL Pipelining von Ergebnissen zwischen Operatoren Quelle: 1 Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi at al. An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. VLDB HadoopDB Idee Viele unabhängige Single-Node DBS (PostgreSQL/MySQL) Hadoop als Koordinator und Kommunikations-Layer Anfragen mit MapReduce parallelisiert Großteil der Arbeit wird in DBS-Nodes verrichtet Kombination Fehlertolleranz Hadoop und Performance paralleler DBS 9-44
23 HadoopDB Architektur DB-Connector - Hadoop InputFormat-Implementierung - Datenbanken für Hadoop wie HDFS- Blöcke Catalog - Metadaten über DB (Location, Driver, ) - Metadaten über gehaltene Daten (Partitionierung, Replikation, ) Data Loader - Partitionierung der Daten während des Ladens SQL to MapReduce to SQL Planner Quelle: - Erweitert Hive - Hive ist regelbasiert keine kostenbasierten Anfrageoptimierung wie DBS - Anpassung der Hive Ausführungspläne Erstellen von Single-Node-Queries (Optimierung durch DBS) Kombination mit MapReduce 9-45 HadoopDB SELECT YEAR(salesDate), SUM(revenue) FROM sales GROUP BY YEAR(salesDate) SMS SMS (sales partitioniert nach YEAR) Hive Quelle: Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi at al. An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. VLDB
24 Zusammenfassung Cloud Computing - Illusion unendlicher, on demand verfügbarer Ressourcen Verteilte Dateisysteme, z.b. Google FileSystem replizierte Speicherung großer Datenmengen verteilte Speicherung semistrukturierter Daten: Key-Value-Stores Beispiele: Google Bigtable/Hbase, Dynamo Replikation, Lastbalancierung, sehr einfache Operationen MapReduce - automatische Parallelisierung von Auswertungen auf großen Datenmengen Hive - Erweiterung von MapReduce um SQL-ähnliche Anfragemöglichkeiten HadoopDB versucht Vorteile von MapReduce und parallelen DBS zu kombinieren 9-47 Literatur The Google File System, Sanjay Ghemawat, Howard Gobioff, Shun T. Leung, SOSP 03 MapReduce: Simplified Data Processing on Large Clusters, Jeffrey Dean and Sanjay Ghemawat, OSDI 04 Bigtable: A Distributed Storage System for Structured Data, Fay Chang, Jeffrey Dean, Sanjay Ghemawat et al., OSDI 06 Dynamo: Amazon s Highly Available Key-value Store, G. DeCandia, D. Hastorun, M. Jampani et al., SOSP 07 Hadoop The Definitive Guide, 2009, Tom White, O Reilly Hive - A Warehousing Solution Over a Map-Reduce Framework, Ashish Thusoo, Joydeep Sen Sarma, Namit Jain et. al., VLDB 09 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, Azza Abouzeid, Kamil Bajda- Pawlikowski, Daniel J. Abadi et al., VLDB
25 Vorschau SS2010 Datenbanksysteme 2 Relationales Datenbankpraktikum (IBM DB2) Data Warehouse-Praktikum Bio-Datenbanken Lehrveranstaltungen können auch in Module im WS10/11 eingebracht werden MRDBS-Klausur Donnerstag, , 15:00 Uhr, HS 3 Klausurdauer: 60 Minuten Anmeldung: OLAT (Anmeldeschluss ) 9-49 Stoff: Kap. 1-8 Vorbereitung Buch Mehrrechner-DBS VL-Skript und -mitschriften LOTS 9-50
Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrCloud Data Management
Cloud Data Management Seminar WS 2009/10 Folie 1 Seminar: Anrechnungsmöglichkeiten Masterstudium Teil der Kern- bzw. Vertiefungsmodule Moderne Datenbanktechnologien (bzw. Anwendungsspezifische Datenbankkonzepte)
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrMATCHING VON PRODUKTDATEN IN DER CLOUD
MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrBig Data Management Thema 14: Cassandra
Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrPostgreSQL in großen Installationen
PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,
MehrGliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik
Cloud Computing Gliederung Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik 2 Bisher Programme und Daten sind lokal beim Anwender
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrNoSQL-Datenbanken. Kapitel 2: Key-Value Stores. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 2-1
NoSQL-Datenbanken Kapitel 2: Key-Value Stores Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 2-1 Inhaltsverzeichnis Key-Value Stores File/Object Storage Services Beispiele:
MehrSeminar Cloud Data Management WS09/10. Tabelle1 Tabelle2
Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrVerteiltes Persistenz-System. Mykhaylo Kabalkin
Verteiltes Persistenz-System Mykhaylo Kabalkin 01.12.2006 Übersicht Motivation und Problematik Ziel Anforderungen Systemarchitektur erster Entwurf Architekturkomponenten Risiken 01.12.2006 Seminar Ringvorlesung
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrFragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96
Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Dieser Fragenkatalog wurde aufgrund das Basistextes und zum Teil aus den Prüfungsprotokollen erstellt, um sich auf mögliche
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
MehrGoogle's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge
Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit
MehrDatenmanagement in Android-Apps. 16. Mai 2013
Datenmanagement in Android-Apps 16. Mai 2013 Überblick Strukturierung von datenorientierten Android-Apps Schichtenarchitektur Möglichkeiten der Datenhaltung: in Dateien, die auf der SDCard liegen in einer
MehrGrid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit. 07.06.2002 Grid Systeme 1
Grid-Systeme Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit 07.06.2002 Grid Systeme 1 Gliederung Vorstellung verschiedener Plattformen Globus
MehrDatenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs])
Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs]) Hochschule für Technik, Wirtschaft und Kultur Leipzig 06.06.2008 Datenbanken II,Speicherung und Verarbeitung großer Objekte
MehrTest zur Bereitschaft für die Cloud
Bericht zum EMC Test zur Bereitschaft für die Cloud Test zur Bereitschaft für die Cloud EMC VERTRAULICH NUR ZUR INTERNEN VERWENDUNG Testen Sie, ob Sie bereit sind für die Cloud Vielen Dank, dass Sie sich
MehrÜberblick und Vergleich von NoSQL. Datenbanksystemen
Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrData Mining und Machine Learning
Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende
MehrEin Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?
Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa
MehrAllgemeines zu Datenbanken
Allgemeines zu Datenbanken Was ist eine Datenbank? Datensatz Zusammenfassung von Datenelementen mit fester Struktur Z.B.: Kunde Alois Müller, Hegenheimerstr. 28, Basel Datenbank Sammlung von strukturierten,
MehrMarkus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation
Markus Feichtinger Power Systems Der Weg zu POWER! Agenda Motivation Lösung Beispiel Export / Import - Überblick - Migration Beispiel XenoBridge - Überblick - Migration Benefits 2 Motivation Strategisch
MehrNoSQL Datenbanken am Beispiel von HBase. Daniel Georg
NoSQL Datenbanken am Beispiel von HBase Daniel Georg No to SQL at all sondern Not only SQL Open- Source Community Erst im Jahr 2009 gestartet Community bietet verschiede Lösungen: Casandra, CouchDD, HBase,
MehrNoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010
NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrKapitel 6 Anfragebearbeitung
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Skript zur Vorlesung: Datenbanksysteme II Sommersemester 2014 Kapitel 6 Anfragebearbeitung Vorlesung: PD Dr. Peer Kröger
MehrSeminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006
Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet
MehrWindows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH
Windows Azure für Java Architekten Holger Sirtl Microsoft Deutschland GmbH Agenda Schichten des Cloud Computings Überblick über die Windows Azure Platform Einsatzmöglichkeiten für Java-Architekten Ausführung
MehrFast Analytics on Fast Data
Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung
MehrDATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER
DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.
MehrBig Data Mythen und Fakten
Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher
Mehr3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner
3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrCloud Computing - die Lösung der Zukunft
Cloud Computing - die Lösung der Zukunft Agenda: 08:30 08:40 Begrüssung Herr Walter Keller 08:40 09:00 Idee / Aufbau der Cloud Herr Daniele Palazzo 09:00 09:25 Definition der Cloud Herr Daniele Palazzo
MehrLarge-scale Incremental Processing Using Distributed Transactions and Notifications
Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job
MehrSkalierbare Webanwendungen mit Python und Google App Engine
Skalierbare Webanwendungen mit Python und Google App Engine Oliver Albers 03. Juli 2008 1/32 Einführung Worum geht es? Pro und Contra Technik Genereller Aufbau Anwendungskonfiguration Verarbeitung von
Mehr7. Übung - Datenbanken
7. Übung - Datenbanken Informatik I für Verkehrsingenieure Aufgaben inkl. Beispiellösungen 1. Aufgabe: DBS a Was ist die Kernaufgabe von Datenbanksystemen? b Beschreiben Sie kurz die Abstraktionsebenen
MehrHadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern
MehrClouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!
Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler
MehrHadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und
MehrNachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)
Nachtrag: Farben Farbblindheit (Light und Bartlein 2004) 1 Vorgeschlagene Farbskalen (Light and Bartlein 2004) Farbkodierung metrisch skalierter Daten Unterscheide: 1. Sequential Data (ohne Betonung der
MehrXAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL
XAMPP-Systeme Teil 3: My SQL Daten Eine Wesenseigenschaft von Menschen ist es, Informationen, in welcher Form sie auch immer auftreten, zu ordnen, zu klassifizieren und in strukturierter Form abzulegen.
Mehrf Link Datenbank installieren und einrichten
f Link Datenbank installieren und einrichten Dokument-Version 1.1 20.08.2011 Programm-Version 1.0 und höher Autor Dipl.-Ing. Thomas Hogrebe, tommic GmbH Inhalt Versionshistorie... 1 Über dieses Dokument...
MehrMatrix42. Matrix42 Cloud Trial Erste Schritte. Version 1.0.0 03.02.2016 - 1 -
Matrix42 Matrix42 Cloud Trial Erste Schritte Version 1.0.0 03.02.2016-1 - Inhaltsverzeichnis 1Einleitung 3 2Cloud Trial Steuerung 4 2.1 Starten der Cloud-Umgebung 4 2.2 Bedienen der Maschinen in der Cloud
MehrCloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.
Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition
MehrFolgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version 7.4.4. - Optional einen DHCP Server.
1. Dynamic Host Configuration Protocol 1.1 Einleitung Im Folgenden wird die Konfiguration von DHCP beschrieben. Sie setzen den Bintec Router entweder als DHCP Server, DHCP Client oder als DHCP Relay Agent
MehrMengenvergleiche: Alle Konten außer das, mit dem größten Saldo.
Mengenvergleiche: Mehr Möglichkeiten als der in-operator bietet der θany und der θall-operator, also der Vergleich mit irgendeinem oder jedem Tupel der Unteranfrage. Alle Konten außer das, mit dem größten
MehrLokale Installation von DotNetNuke 4 ohne IIS
Lokale Installation von DotNetNuke 4 ohne IIS ITM GmbH Wankelstr. 14 70563 Stuttgart http://www.itm-consulting.de Benjamin Hermann hermann@itm-consulting.de 12.12.2006 Agenda Benötigte Komponenten Installation
MehrDatenbanken für Online Untersuchungen
Datenbanken für Online Untersuchungen Im vorliegenden Text wird die Verwendung einer MySQL Datenbank für Online Untersuchungen beschrieben. Es wird davon ausgegangen, dass die Untersuchung aus mehreren
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
Mehr5.3.1.6 Laborübung - Task Manager (Verwalten von Prozessen) in Windows Vista
5.0 5.3.1.6 Laborübung - Task Manager (Verwalten von Prozessen) in Windows Vista Einführung Drucken Sie diese Übung aus und folgen Sie den Anweisungen. In dieser Übung werden Sie sich den Task Manager
MehrJEAF Cloud Plattform Der Workspace aus der Cloud
JEAF Cloud Plattform Der Workspace aus der Cloud Juni 2014 : Aktuelle Situation Heutige Insellösungen bringen dem Nutzer keinen Mehrwert Nutzer sind mobil Dateien und Applikationen sind über Anbieter und
MehrSOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken
WEITER BLICKEN. MEHR ERKENNEN. BESSER ENTSCHEIDEN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN ANALYSE VON OLAP-AUFBEREITUNGSFEHLERN
MehrDie wichtigsten Hadoop-Komponenten für Big Data mit SAS
Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:
MehrDB2 Codepage Umstellung
DB2 Codepage Umstellung Was bei einer Umstellung auf Unicode zu beachten ist Torsten Röber, SW Support Specialist DB2 April 2015 Agenda Warum Unicode? Unicode Implementierung in DB2/LUW Umstellung einer
MehrFachbericht zum Thema: Anforderungen an ein Datenbanksystem
Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank
MehrKommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis
Kommunikationsübersicht Inhaltsverzeichnis Kommunikation bei Einsatz eines MasterServer... 2 Installation im... 2 Installation in der... 3 Kommunikation bei Einsatz eines MasterServer und FrontendServer...
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrBOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis
BOKUbox BOKUbox ist ein Spezialservice für alle Mitarbeiter/innen der BOKU. Kurzfristiger Austausch von vielen und großen Dateien kann Ihre Mailbox schnell überlasten. BOKUbox ist die perfekte Alternative
Mehr5. Übung: PHP-Grundlagen
5.1. Erstes PHP-Programm 1. Schreiben Sie PHP-Programm innerhalb einer Webseite, d.h. innerhalb eines HTML-Dokument. Ihr PHP-Programm soll einen kurzen Text ausgeben und Komentare enthalten. Speichern
MehrWas ist Windows Azure? (Stand Juni 2012)
Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,
MehrKapitel 8: Physischer Datenbankentwurf
8. Physischer Datenbankentwurf Seite 1 Kapitel 8: Physischer Datenbankentwurf Speicherung und Verwaltung der Relationen einer relationalen Datenbank so, dass eine möglichst große Effizienz der einzelnen
MehrCloud Data Management
Cloud Data Management Kapitel 6: MapReduce und Datenbanken Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis SQL-Anfrageformulierung
Mehrpeer-to-peer Dateisystem Synchronisation
Ziel Realisierungen Coda Ideen Fazit Literatur peer-to-peer Dateisystem Synchronisation Studiendepartment Informatik Hochschule für Angewandte Wissenschaften Hamburg 30. November 2007 Ziel Realisierungen
MehrEinführung in die technische Informatik
Einführung in die technische Informatik Christopher Kruegel chris@auto.tuwien.ac.at http://www.auto.tuwien.ac.at/~chris Betriebssysteme Aufgaben Management von Ressourcen Präsentation einer einheitlichen
MehrISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011
Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich
MehrImplementation of a Framework Component for Processing Tasks within Threads on the Application Level
Implementation of a Framework Component for Processing Tasks within Threads on the Application Level Deutsches Krebsforschungszentrum, for Processing Task within Threads on the Application Level Motivation
MehrLizenzierung von SharePoint Server 2013
Lizenzierung von SharePoint Server 2013 Das Lizenzmodell von SharePoint Server 2013 besteht aus zwei Komponenten: Serverlizenzen zur Lizenzierung der Serversoftware und CALs zur Lizenzierung der Zugriffe
MehrCloud Data Management
Cloud Data Management Kapitel 5: MapReduce Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung
MehrEin mobiler Electronic Program Guide
Whitepaper Telekommunikation Ein mobiler Electronic Program Guide Ein iphone Prototyp auf Basis von Web-Technologien 2011 SYRACOM AG 1 Einleitung Apps Anwendungen für mobile Geräte sind derzeit in aller
MehrKapitel 14 Verteilte DBMS
Kapitel 14 Verteilte DBMS 14 Verteilte DBMS 14 Verteilte DBMS...1 14.1 Begriff, Architektur und Ziele verteilter Datenbanksysteme...2 14.2 Verteilungsarten...5 14.2.1 Verteilung der Daten...5 14.2.2 Verteilung
Mehrmywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger
mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger Grundlegendes Oracle9i PostgreSQL Prevayler Memory mywms bietet umfangreiche Konfigurationsmöglichkeiten um die Daten dauerhaft zu speichern.
MehrVersionsverwaltung GIT & SVN. Alexander aus der Fünten. Proseminar: Methoden und Werkzeuge, SS 2012. Lehrstuhl i9, Prof. Dr. T.
Versionsverwaltung GIT & SVN Alexander aus der Fünten Proseminar: Methoden und Werkzeuge, SS 2012 Lehrstuhl i9, Prof. Dr. T. Seidl RWTH Aachen Ablauf Was ist Versionsverwaltung? Arbeitsmodelle Lokale,
MehrNoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse
NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden
MehrDataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen. Your Data. Your Control
DataSpace 2.0 Die sichere Kommunikations-Plattform für Unternehmen und Organisationen Your Data. Your Control WebGUI CMIS GW (JSON) GDS2 API (JSON) WebDAV GDS core Moderne Software Architektur Object-Store
MehrLizenzierung von SharePoint Server 2013
Lizenzierung von SharePoint Server 2013 Das Lizenzmodell von SharePoint Server 2013 besteht aus zwei Komponenten: Serverlizenzen zur Lizenzierung der Serversoftware und CALs zur Lizenzierung der Zugriffe
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrSind Cloud Apps der nächste Hype?
Java Forum Stuttgart 2012 Sind Cloud Apps der nächste Hype? Tillmann Schall Stuttgart, 5. Juli 2012 : Agenda Was sind Cloud Apps? Einordnung / Vergleich mit bestehenden Cloud Konzepten Live Demo Aufbau
MehrFlashfragen in ILIAS Test & Assessment. Helmut Schottmüller
Flashfragen in ILIAS Test & Assessment Helmut Schottmüller Flashfragen in ILIAS Test & Assessment Helmut Schottmüller Veröffentlicht Januar 2009 Copyright 2009 Helmut Schottmüller Inhaltsverzeichnis 1.
MehrBig Data in der Praxis
Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data
MehrÜbersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.
Webalizer Statistik Bedeutung der Begriffe Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten. Anfragen Gesamtheit aller Anfragen an Ihren Account. Jede Anfrage auf eine Grafik, eine
MehrMöglichkeiten für bestehende Systeme
Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-
MehrSQL Server 2008 Standard und Workgroup Edition
September 2008 Produktgruppe: Server Lizenzmodell: Microsoft Server Server/ Serverlizenz Zugriffslizenz () pro Gerät Zugriffslizenz () pro Nutzer Produktgruppe: Server Lizenzmodell: Microsoft Server Pro
MehrDatenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer
Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Wesentliche Inhalte Begriff DBS Datenbankmodelle Datenbankentwurf konzeptionell, logisch und relational
MehrAnleitung zum Prüfen von WebDAV
Brainloop Secure Dataroom Version 8.20 Copyright Brainloop AG, 2004-2014. Alle Rechte vorbehalten. Sämtliche verwendeten Markennamen und Markenzeichen sind Eigentum der jeweiligen Markeninhaber. Inhaltsverzeichnis
MehrSolarWinds Engineer s Toolset
SolarWinds Engineer s Toolset Monitoring Tools Das Engineer s Toolset ist eine Sammlung von 49 wertvoller und sinnvoller Netzwerktools. Die Nr. 1 Suite für jeden Administrator! Die Schwerpunkte liegen
Mehr