Cloud Data Management

Ähnliche Dokumente

Cloud Data Management

It's all in the Cloud! Cloud Computing Grundlagen

MATCHING VON PRODUKTDATEN IN DER CLOUD

Gliederung. Was ist Cloud Computing Charakteristiken Virtualisierung Cloud Service Modelle Sicherheit Amazon EC2 OnLive Vorteile und Kritik

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

Linux Server in der eigenen Cloud

synergetic AG Open House 2012 Ihr Unternehmen in der Wolke - Cloud Lösungen von synergetic

Cloud Computing - die Lösung der Zukunft

Cnlab / CSI Herbsttagung 2014 WAS IST CLOUD UND WAS NICHT?

Technik der Cloud. Prof. Dr. Hannes Federrath Sicherheit in verteilten Systemen (SVS) München, 18.

Cloud Computing mit OpenStack

Big Data Mythen und Fakten

Secure Cloud - "In-the-Cloud-Sicherheit"

Mythen des Cloud Computing

Vorstellung Studienprojekt. Policy4TOSCA. Umsetzung eines Policy-Frameworks für sicheres und energieeffizientes Cloud Computing

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany. Cloud Computing. Steffen Staab

Anforderungen an Cloud- Rechenzentren

OSL Technologietage Virtualization Clustering

Magento goes into the cloud Cloud Computing für Magento. Referent: Boris Lokschin, CEO

Emil Dübell EDConsulting

Open Source als de-facto Standard bei Swisscom Cloud Services

/ Prof. Dr. Jürgen Treffert. Cloud Computing - eine realistische Alternative für Unternehmen?

Cloud Computing mit mathematischen Anwendungen

Cloud-Computing - Überblick

Cloud Computing Top oder Flop? 17. November 2010

Cloud Computing. ITA Tech Talk, Oberursel, Nicholas Dille IT-Architekt, sepago GmbH

Cloud-Architekturen auf verschiedenen Ebenen Seminar: Datenbankanwendungen im Cloud Computing

Sicht eines Technikbegeisterten

Private IaaS Cloud mit OpenStack. Sebastian Zielenski Linux/Unix Consultant & Trainer B1 Systems GmbH zielenski@b1-systems.de

JEAF Cloud Plattform Der Workspace aus der Cloud

Die aktuellen Top 10 IT Herausforderungen im Mittelstand

Die EBCONT Unternehmensgruppe.

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale

Dateisysteme und Datenverwaltung in der Cloud

Dr. Uwe Jasnoch Intergraph SG&I Deutschland GmbH

Cloud Computing Services. oder: Internet der der Dienste. Prof. Dr. Martin Michelson

Was ist Windows Azure? (Stand Juni 2012)

Data Center Automa-on for the Cloud. Pascal Petsch

Cloud Computing: Hype oder Chance auch. für den Mittelstand?

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Apache HBase. A BigTable Column Store on top of Hadoop

Test zur Bereitschaft für die Cloud

Migration einer bestehenden Umgebung in eine private Cloud mit OpenStack

Herzlich Willkommen! MR Cloud Forum Bayreuth

Cloud Computing. 7. Oktober 2010

Die Plattform für Ihre Datenfabrik unabhängig von Ort und Zeit

Cloud Computing interessant und aktuell auch für Hochschulen?

Chancen und Risiken durch IT-basierte Leistungen "aus der Wolke"

Von Markus Schmied und Manuel Bundschuh. New Trends in IT Das Wikireferat

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen

COBIT 5 Controls & Assurance in the Cloud. 05. November 2015

Cloud Computing. Strategien auf dem Weg in die Cloud. Björn Bröhl

Was ist die Cloud? CCW interner Vortrag für Themenabend Erstellt: Mai 2012, Heiko Ehmsen Dauer: ca. 30 Minuten. Inhalt

WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009

Seminar im Wintersemester 2008/2009. Complex and Distributed IT-Systems TU Berlin

Cloud Computing. D o m i n i c R e u t e r Softwarearchitekturen

Cloud-Provider im Vergleich. Markus

Sind Cloud Apps der nächste Hype?

Cloud Computing Chancen für KMU

Big Data Informationen neu gelebt

Christian Metzger Thorsten Reitz Juan Villar. Cloud Computing. Chancen und Risiken aus technischer und unternehmerischer Sicht HANSER

Hybrid-Szenarien in der Virtualisierung

Immer noch wolkig - aktuelle Trends bei Cloud Services

Überblick IBM Offerings für Cloud-Provider

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Vertrags- und Lizenzfragen im Rahmen des Cloud Computing LES Arbeitsgruppenmeeting 13. Mai 2011

3 MILLIARDEN GIGABYTE AM TAG ODER WELCHE KAPAZITÄTEN MÜSSEN NETZE TRAGEN?

Vision: ICT Services aus der Fabrik

Reche. jede Art von Daten Mitarbeiterorientierte IT

Platform as a Service (PaaS) Prof. Dr. Ch. Reich

Oracle JD Edwards EnterpriseOne Investment. Delivery. Proof. Oracle JD Edwards EnterpriseOne All You Need Without The Risk. CLOUD JDE and TRY IT

Cloud-Computing. Selina Oertli KBW

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH

Zend PHP Cloud Application Platform

Cloud Computing Technologien. Maxim Schnjakin 16. April 2013

Datenbanken. Prof. Dr. Bernhard Schiefer.

Der Cloud Point of Purchase. EuroCloud Conference, 18. Mai 2011 (Christoph Streit, CTO & Co-Founder ScaleUp)"

Beim Kunden wahrgenommene Qualität von IT-Services Ein wichtiger Faktor in der Beschaffung von Cloud Services

Prof. Dr.-Ing. Rainer Schmidt 1

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Spotlight 5 Gründe für die Sicherung auf NAS-Geräten

WINDOWS 8 WINDOWS SERVER 2012

ITK-Trends 2010: Hardware and Software. Engineered to work together. Rolf Kersten EMEA Hardware Product Marketing, Oracle

Klopotek goes Cloud computing Peter Karwowski. Frankfurt, 14. Oktober 2015

Multi-Device Applikationen aus der Swisscom Cloud. Lukas Lehmann

Stefan Kusiek BFW-Leipzig

Evaluierung und Auswahl von

Managed Cloud Services. Christian Affolter Managed Cloud Services 11. Mai 2012

Unternehmen-IT sicher in der Public Cloud

Die Bausteine der AWS Web Services

Oracle Public Cloud benutzen

Cloud Kongress Umfrage. Reinhard Travnicek / X-tech

Konzept zur Push Notification/GCM für das LP System (vormals BDS System)

Next Generation Datacenter Automation und Modularisierung sind die Zukunft des Datacenters

Effizient, sicher und flexibel: Desktop-Virtualisierung mit Citrix XenDesktop

Hype oder Fortschritt??

GIS-Projekte in der Cloud

Was darf das Grid kosten?

Transkript:

Cloud Data Management Kapitel 1: Einführung Dr. Anika Groß Sommersemester 2015 Universität Leipzig http://dbs.uni-leipzig.de/

Cloud Computing: Hype Google Trends Interesse im zeitlichen Verlauf

Gartner Hype Cycle for Emerging Technologies 2014 http://na2.www.gartner.com/imagesrv/newsroom/images/hc_et_2014.jpg;pv4cc7877f7de80268

http://venturebeat.com/2014/05/29/augmented-reality-wheres-the-venture-capital/ Gartner Emerging Technology Hype Cycle Cloud Computing 2008-2004 Gipfel der überzogenen Erwartungen Plateau der Produktivität Pfad der Erleuchtung Technologischer Auslöser Tal der Enttäuschungen

BVP Cloud Computing Index Verfolgt die wöchentlichen Marktschwankungen der führenden Public Cloud Unternehmen Top Public Cloud Unternehmen > 100 Milliarden USD Marktkapital http://www.bvp.com/sites/default/files/img/cloud_index_1_03172015.jpg

Cloud Computing: Definition Cloud computing is a model for enabling convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. [NIST Definition of Cloud Computing] Cloud computing is using the internet to access someone else's software running on someone else's hardware in someone else's data center (Lewis Cunningham) Externe Bereitstellung von IT-Infrastrukturen sowie Applikations-Hosting über das Internet (bzw. Intranet)

Cloud Computing: Definition "The interesting thing about cloud computing is that we've redefined cloud computing to include everything that we already do. I can't think of anything that isn't cloud computing with all of these announcements. The computer industry is the only industry that is more fashion-driven than women's fashion. Maybe I'm an idiot, but I have no idea what anyone is talking about. What is it? It's complete gibberish. It's insane. When is this idiocy going to stop? (Larry Ellison, CEO Oracle) Cloud computing is simply a buzzword used to repackage grid computing and utility computing, both of which have existed for decades. (whatis.com) 03/2011 04/2015

Cloud Computing: Eigenschaften On-demand self-service automatisches und bedarfsorientertes Mieten/Bereitstellen von Ressourcen Illusion unendlicher verfügbarer Ressourcen Broad network access standardisierter Zugriff über Internet für heterogene Clients Ressource pooling (Virtualisierung) gemeinsame Nutzung von Ressourcen durch viele Nutzer (multi-tenant) Nutzer hat i.allg. kein Wissen über exakten Ort der genutzten Ressourcen Rapid elasticity ( Elastizität ) schnelle (z.t. automatische) Belegung/Freigabe von Ressourcen nach Bedarf ( Hinzuschalten weiterer Rechner) Measured service Protokollierung (und Optimierung) der Ressourcennutzung Bezahlmodelle auf Nutzungsbasis möglich (CPU Zyklen, Speicherplatz,...)

Elastizität Dynamische Anpassung der Ressourcen an Bedarf Quelle: Eran Levin: Running Your Database in the Cloud

Cloud Computing: Vorteile Vorteile Cloud User Kein Einrichten/Betreiben eigener Rechenzentren Keine langfristige Ressourcenplanung Keine hohen Vorabinvestitionen - pay per use Verspricht wesentliche Kosteneinsparungen (u.a. für Startups) Vorteile Cloud Provider Aufteilung verfügbarer Ressourcen auf mehrere Kunden Große Rechenzentren (50.000 Server) haben im Vergleich zu mittelgroßen (1000 Server) nur 1/5-1/7 der Kosten (pro Server) Standortvorteile: Elektrizitätspreise, Löhne, Steuern,... Green Computing Bessere Auslastung der Clouds gegenüber lokalen Rechenzentren Quelle: Skript zur Vorlesung Mehrrechner-Datenbanksysteme (Prof. Rahm, WS09/10, Uni Leipzig)

Cloud Computing: Service Modelle Infrastructure as a Service (IaaS) Bereitstellung (Mieten) von CPU, Storage, Network,... + Infrastruktur-Tools früher: Utility Computing Beispiele: Amazon Elastic Compute Cloud, Amazon Simple Storage Service Platform as a Service (PaaS) Framework zur Entwicklung und Bereitstellung von Applikationen Beispiele: Amazon Elastic MapReduce, Google App Engine Software as a Service (SaaS) Bereitstellung von (Web)-Applikationen zur sofortigen Nutzung, Standardisierte Software (z.b. Office-Produkte, CRM,...) Beispiele: Google Apps (Docs, Mail,...)

Gartner "Cloud Infrastructure as a Service" 2014 Cloud Computing Plattformen, Bsp.:

Cloud Provider Beispiel - Amazon Web Services (AWS) Seit Herbst 2014 neue Region in Frankfurt (weitere in Brasilien, China, USA ): Datenschutz Speichern innerhalb von Deutschland Services: Compute Elastic Compute Cloud (EC2): anpassbare Rechenkapazität in der Cloud Elastic Load Balancing (ELB): verteilt eingehenden Anwendungsverkehr automatisch auf mehrere EC2-Instanzen in der Cloud Networking Amazon Virtual Private Cloud (VPC): log. Isolierter Bereich in AWS Cloud, vollständige Kontrolle über eigenes virtuelles Netzwerk Storage and Content Delivery Network Amazon Simple Storage Service (S3): Speicherung großer Datenmengen Database Amazon Relational Database Service (RDS): rel. DB Zugang, autom. Backups etc. Dynamo DB: NoSQL database service (key-value store) Analytics Elastic MapReduce: verwaltetes Hadoop Framework für BigData Verarbeitung

Cloud Computing: Deployment Modelle Private Cloud Infrastruktur gehört Kunden (Firma/Organisation) Beispiel: VMWare Cloud, MS Hyper-V Community Cloud Infrastruktur gehört mehreren Organisationen einer Community Beispiele: Google's "Gov Cloud, OpenCirrus Public Cloud Infrastruktur gehört Cloud-Anbieter, Kunde mietet Infrastruktur Beispiel: Amazon Web Services, Google App Engine Hybrid Cloud z.b. Teile der Infrastruktur privat, Teile public

Weitere Aspekte der Cloud Datenschutz und Compliance Wer hat Zugriff auf die Daten? Welche Gesetze gelten für deutsche Daten auf amerikanischen Servern? Datensicherheit und Zuverlässigkeit Was passiert wenn ein Cloud-Anbieter pleite geht? Ist ein Cloud-Data-Center ein lohnendes Angriffsziel? Open Source und offene Standards Wie kann man innerhalb der Cloud umziehen? Wie kann man verschiedene Cloud-Anbieter verknüpfen? Weitere: Geschäftsmodelle, Nachhaltigkeit,... Weiterer Stromausfall in Amazons Cloud (Heise Online; 30.06.2012) Innerhalb von kurzer Zeit hat Amazons Cloud-Computing-Dienst AWS (Amazon Web Services) erneut mit einem Ausfall zu kämpfen: Wie schon vor zwei Wochen fiel in Amazons Rechenzentrum im Norden Virginias am Freitag Abend (29.6. Ortszeit) der Strom aus. US-Berichten zufolge waren etliche Dienste, die Amazon hostet, nicht mehr erreichbar, darunter der Streaming-Video-Anbieter Netflix, die Cloud-Entwicklungs- Plattform Heroku und der Social-Media-Dienst Pinterest. http://www.heise.de/ix/meldung/weiterer-stromausfall-in-amazons-cloud-1629610.html

Facebook in Zahlen Nutzer (02/2015) 1.4 Milliarden monatlich aktive Nutzer; >60% davon täglich eingeloggt 19% US, 81% Non-US; durchschnittlich 190 Freunde (11/2011) Durchschnittliche Aktivitäten (05/2013) 300 Millionen Foto-Uploads pro Tag (ca. 3.500 pro Sekunde) 4.5 Milliarden Likes pro Tag (ca. 52.000 pro Sekunde) 500 Millionen Terabyte Daten pro Tag verarbeitet Peaks: Olympia, Silvester,. Infrastruktur: 180.000 Server (Schätzung 08/2012) Fragen Wie groß wäre eine minimale Repräsentation des Freundschafts-Graphen? Welche Datenmenge an Fotos werden pro Sekunde hochgeladen? https://zephoria.com/social-media/top-15-valuable-facebook-statistics/ http://www.facebook.com/press/info.php?statistics http://www.datacenterknowledge.com/archives/2012/08/15/estimate-facebook-running-180000-servers/ http://allfacebook.de/zahlen_fakten/big-data-diese-datenmengen-verarbeitet-facebook-taglich/ http://www.datacenterknowledge.com/the-facebook-data-center-faq-page-2/ http://www.jodyjelas.com/wp-content/uploads/2011/02/facebook-stats.png

Verarbeitung großer Datenmengen Twitter Ebay 400 Millionen Tweets pro Tag (ca. 4.500 pro Sekunde) (07/2012) >10.000 Tweets pro Sekunde (Superbowl 2012) 2 Milliarden Seitenaufrufe pro Tag 10 PB Daten, u.a. zur Geschäftsanalyse (6/2012) CERN s LHC (Large Hadron Collider) Physicists must sift through the 30 petabytes or so of data produced annually to determine if the collisions have thrown up any interesting physics. http://socialmediatoday.com/bradfriedman/469107/twitter-facts-and-stats http://www.mediabistro.com/alltwitter/twitter-400-million-tweets_b23744 http://hughewilliams.com/2012/06/26/the-size-scale-and-numbers-of-ebay-com/ http://www.sourcelink.com/blog/guest-author-series/2012/08/18/the-5ws-and-1h-of-big-data-%28part-2-of-2%29 http://home.web.cern.ch/about/computing

Cloud Data Management Effiziente Verarbeitung großer Datenmengen in der Cloud, d.h. in einer preiswerten, verteilten (heterogenen) Infrastruktur mit konkurrierenden Schreib- und Lesezugriffen unter Berücksichtigung von Knoten- bzw. Netzwerkausfällen für beliebige Daten (unstrukturiert, semi-strukturiert, strukturiert) Parallele Datenbanksysteme ungeeignet... teure, homogene Infrastrukur geringe Fehlertoleranz (z.b. Query-Restart) nur für strukturierte Daten (statisches Schema) begrenzte Skalierbarkeit (ca. 100 Knoten)... dafür mächtige, einfache Anfragesprache ACID-Eigenschaften Datenunabhängigkeit

Inhalt der Vorlesung Kennenlernen von CDM-Techniken im Hinblick auf folgende Kriterien Skalierbarkeit: Anzahl der Nutzer (Sessions) oder Operationen die gleichzeitig bedient/ausgeführt werden können Performanz: Optimale Ausnutzung der Ressourcen Antwortzeiten: Zeit pro Operation Verfügbarkeit: Wahrscheinlichkeit, dass System/Anwendung für Nutzer/Operation verfügbar ist Fehlertoleranz: Einfluss von Ausfall von Ressourcen auf Nutzer/Operation Weitere Kosten Wartungsaufwand

Inhalt der Vorlesung Techniken zum effizienten Management großer un-/semi-strukturierter Datenmengen Verteilte Architekturen zum Storage (Speicherung) Retrieval/Querying (Anfrageverarbeitung) Processing (Weiterverarbeitung) Algorithmen zur Optimierung von Joins Lastbalancierung

Inhaltsverzeichnis (vorläufig) 1. Einführung Cloud Computing Cloud Data Management 2. Infrastruktur und Dienste Hardware-Infrastrukur Software-Infrastruktur Cloud-Dienste IaaS, Virtualisierung 3. Verteilte Dateisysteme Google File System (GFS) Hadoop File System (HDFS) 4. MapReduce (MR) Konzept Hadoop Algorithmen in MR-Form 5. MapReduce und Datenbanken SQL und MR Effiziente Joins in MR Datenanalyse mit MR Kopplung von RDBMS mit MR 6. Optimierungstechniken für MapReduce Fehlerbehandlung Indexierung Lastbalancierung 7. Large-scale Datenanalyse YARN / MRv2 Google Dremel Apache Spark

Literatur Tom White: Hadoop: The Definitive Guide, Third Edition, O'Reilly Media, Mai 2012 Open Source Software-Framework für skalierbare, verteilte, datenintensive Software Bausteine u.a. MapReduce, HBase, Hive und Pig Jimmy Lin, Chris Dyer: Data-Intensive Text Processing with MapReduce, Morgan & Claypool, Einsatz von MapReduce für NLP u.a. Inverted Index, Graph Algorithmen, Expectation Maximation Algorithmen Weitere Referenzen an jeweiliger Stelle Wissenschaftliche Veröffentlichungen Vortragsfolien (z.b. SlideShare)