P2P DATENBANKEN. Anwendungen 1 WS 2009/2010. Julissa Cusi Juarez. Department Informatik

Ähnliche Dokumente
Ausarbeitung Anwendungen 1

Information Retrieval in P2P-Netzen

Inhalte der Vorlesung. Ziele der Vorlesung. Dr. Felix Heine Complex and Distributed IT-Systems

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Verteilte Datenbanksysteme. Hans-Dieter Ehrich Institut für Informationssysteme Technische Universität Braunschweig

Methoden zur adaptiven Steuerung von Overlay-Topologien in Peer-to-Peer-Diensten

Beyond Music File Sharing: A Technical Introduction to P2P Networks

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Datenbanken und Informationssysteme. Datenbanken und Informationssysteme

Datenbanken und Informationssysteme

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Informationsintegration

Dominic Battré P2P Netzwerke

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

1. Einführung, Problemstellung und Überblick Rechnernetze

Rolf Wanka Sommersemester Vorlesung

Software ubiquitärer Systeme

Definition. Gnutella. Gnutella. Kriterien für P2P-Netzwerke. Gnutella = +

Paradigmenwechsel. Von Client/Server zu Peer-to-Peer. Ein Paradigmenwechsel

Kapitel 14 Verteilte DBMS

Michael Dimov: Peer-to-Peer Technologie Vortrag im Rahmen eines Seminars

Web Service Discovery mit dem Gnutella Peer-to-Peer Netzwerk

Intelligenter Austausch von Daten in Private Area Networks

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

11 Peer-to-Peer-Netzwerke

Complex Event Processing

1. Einführung. Datenbanken Grundlagen

Aktuelles Schlagwort Semi-strukturierte Daten

Agenda. Motivation Architektur Use Cases Ausblick LOCOM.SCS

Datenbanken (WS 2015/2016)

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Inhalt. Literatur. Dr. Felix Heine Complex and Distributed IT-Systems

Semantic Web: Resource Description Framework (RDF)

Michael Seemann. Native XML-Datenbanken im Praxiseinsatz

Anfragebearbeitung und Routing in Schema-basierten P2P-Systemen

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Relationales Datenbanksystem Oracle

XML in der Oracle Datenbank

Was ist Windows Azure? (Stand Juni 2012)

Verteilte Systeme - P2P-Computing

<Insert Picture Here> RAC Architektur und Installation

Datenbankbasierte Lösungen

Drafting behind Akamai

Einführung. Kapitel 1 2 / 508

Transaction Validation for XML Documents based on XPath

.NET Networking 1. Proseminar Objektorientiertes Programmieren mit.net und C# Matthias Jaros. Institut für Informatik Software & Systems Engineering

Organic Computing. Rolf Wanka Sommersemester Juni Organic Computing: Peer-to-Peer-Netzwerke

Vorwort zur 5. Auflage Über den Autor... 16

Systemarchitekturen für Verteilte Anwendungen

Datenbanken Datenbanken 1 Belegnummer Belegnummer

11. Mehrrechner-DBMSe / Datenbankmaschinen

Virtuelle Präsenz. Peer to Peer Netze. Bertolt Schmidt

Datenbanken und Informationssysteme

Lookup Performanz von Verteilten Hashtabellen

Informationsintegration I Einführung

Datenmodellierung VU Einführung SS 2016

XML und Datenbanken. Wintersemester 2003/2004. Vorlesung: Dienstag, 13:15-15:00 Uhr IFW A36. Übung: Dienstag, 15:15-16:00 Uhr IFW A36

Open Source Data Center Virtualisierung mit OpenNebula LinuxTag Berlin. Bernd Erk

Open Source Data Center Virtualisierung mit OpenNebula CeBIT Bernd Erk

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

Peer-to-Peer (P2P) Grundlagen

Red Hat Cluster Suite

peer-to-peer Dateisystem Synchronisation

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

FlexFrame for Oracle. Torsten Schlautmann OPITZ CONSULTING Gummersbach GmbH

Definition Informationssystem

Hetero-Homogene Data Warehouses

Prof. Dr. Th. Letschert CS5001. Verteilte Systeme. Master of Science (Informatik) - Einleitung - Th Letschert FH Gießen-Friedberg

Archivierung in DBMS

ICENI: Eine JXTA-basierte Service-Oriented. Architecture. Im Rahmen des Seminars Services Computing und Service-Oriented Architectures

Projektgruppe. Knowledge Representation Persistence and Reasoning

Dr. Dominic Battré Complex and Distributed IT Systems

EXCHANGE Neuerungen und Praxis

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

Was ist PretonSaverTM... 3 PretonSaver's... 3 PretonCoordinator... 3 PretonControl... 4 PretonSaver Client... 4 PretonSaver TM Key Funktionen...

Web Data Management Systeme

Next Generation Internet

Technische Grundlagen von Netzwerken

Configuration Management mit Verbosy OSDC Eric Lippmann

Weitere Decision-Support Anfrage- Typen

Big Data Management Thema 14: Cassandra

Infor PM 10 auf SAP. Bernhard Rummich Presales Manager PM Uhr

Datenbanken. Prof. Jürgen Sauer. Datenbanken. Skriptum zur Vorlesung im SS 2001

Analyse und praktischer Vergleich von neuen Access- Layer-Technologien in modernen Webanwendungen unter Java. Oliver Kalz

Der Weg in das dynamische Rechenzentrum. Jürgen Bilowsky Bonn

Jens Kupferschmidt Universitätsrechenzentrum

<Insert Picture Here> Einführung in SOA

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT

Relationale Datenbanken Kursziele

Internet Protokolle II

Industrie 4.0 und Smart Data

11 Inhaltsübersicht. c M. Scholl, 2005/06 Informationssysteme: 11. Inhaltsübersicht 11-1

Vorteile von Java und Konvergenz Service Creation mit JAIN Network Management mit JMX Fazit

SQL Azure Technischer Überblick. Steffen Krause Technical Evangelist Microsoft Deutschland GmbH

PIWIN II. Praktische Informatik für Wirtschaftsmathematiker, Ingenieure und Naturwissenschaftler II. Vorlesung 2 SWS SS 08

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung

Strukturierte Peer-to-Peer Netze

Parallelität im Betrieb von Online-Computerspielen

ONET: FT-NIR-Netzwerke mit zentraler Administration & Datenspeicherung. ONET Server

Transkript:

P2P DATENBANKEN Anwendungen 1 WS 2009/2010 Julissa Cusi Juarez Department Informatik HAW Hamburg 02.12.2009 1

Agenda 1. Motivation 2. Klassische Datenbanksysteme 3. Verteilte Datenbanksysteme 4. Peer to Peer (P2P) 5. P2P Datenbanksysteme 6. Query Processing in P2P Datenbanksystemen 6.1. Beispiel: Skyframe 7. Zusammenfassung 8. Ausblick a. Literatur 2

1. Motivation Entwicklung der Endbenutzer Kapazitäten Hohe Rechenleistung Hohe Speicherkapazität Entwicklung der Kommunikations Netzwerke Breitbandverbindung verfügbar Flatrate Content Sharing Websysteme Hoher Bedarf, Information auszutauschen Hohe Anzahl von Benutzern weltweit 3

2. Klassische Datenbanksysteme Basierend auf Client/Server Model Zentralisiertes DBS, paßt gut zu zentralisierten Unternehmen Zentrale Administration des Servers Steuert relationale Datenbanken Benutzt SQL Anfragesprache 4

3. Verteilte Datenbanksysteme Ein Verteiltes Datenbank managementsystem ist eine Software, die eine oder mehrere logisch zusammenhängende Datenbanken über ein Netzwerk steuert. 5

3. Verteilte Datenbanksysteme Klassifikation Dimension Autonomie 0: Vollständige Integration 1: Semi autonome System 2: Vollständige Autonomie Dimension Verteilung 0: Nicht verteilt (zentralisiert) 1: Client / Server System 2: Verteilung Peer to Peer Dimension Heterogenität 0: Homogenes System 1: Heterogenes System 6

3. Verteilte Datenbanksysteme Fragmentierung: Verteilung der Daten auf Knoten Horizontal (Zeilen) Vertikal (Spalten) Hybrid Replikation : Absichtlich redundante Speicherung der Daten auf den Knoten Vollständige Replikation Partielle Replikation Keine Replikation 7

4. Peer to Peer (P2P) Overlay Architektur Dezentralisiertes und selbstorganisiertes System Das System ist dynamisch Peers sind gleichberechtigt lihb hi und autonom Kein Peer hat einen Überblick über das Gesamtsystem Benutzt verteilte und geteilte Ressourcen 8

4. Peer to Peer (P2P) Eigenschaften Skalierbarkeit bezüglich der Knotennummer Dezentralisiert i in der reinsten Form von P2P P Netzen, gibt es kein Konzept von Server Autonomie bezüglich Speicherung, Ausführung, Standzeit und Verbindung Direkter Zugriff auf Daten der verschiedenen Knoten Robustheit und Härtung gegen Peer Ausfälle Einfache Entwicklung, weil die Knoten keine besondere Infrastruktur brauchen 9

4. Peer to Peer (P2P) Unstrukturierte P2P Netze Overlay Links beliebig etabliert Anfragebearbeitung durch Flutung Manchmal können die Anfragen nicht beantwortet werden Flutung erzeugt hohen Kommunikationsoverhead Typen Zentralisierte P2P Systeme Beispiel Napster Ri Reine P2P Systeme PS Gnutella 0.4, Freenet Hybride P2P Systeme Gnutella 0.6, Gnutella2, JXTA 10

4. Peer to Peer (P2P) Unstrukturierte Systeme, zentralisiertes P2P: Napster Napster Protokoll [8] 11

4. Peer to Peer (P2P) Unstrukturierte Systeme, reines P2P: Gnutella 0.4 Gnutella Protokoll [8] 12

4. Peer to Peer (P2P) Strukturierte P2P Netze Benutzen Distributed Hash Table (DHT) Jeder Peer ist verantwortlich für einen bestimmten Teil des Netzwerkgehaltes Das Protokoll wird benutzt, um die geeigneten g Peers zu finden Höhere Erhaltungskosten Bi Beispielsysteme: il CAN, Chord CAN Chord 13

4. Peer to Peer (P2P) Strukturierte Systeme : Distributed Hash Tables (DHT) Distributed Hash Tables [7] 14

5. P2P Datenbanksysteme Eine Kollektion vom lokalen autonomen Datenbehältern (Peers) Man kombiniert die dezentralisierten Eigenschaften und die Autonomie der P2P Syteme mit der Semantik der VDBS Man vermeidet globale Datenbankschemata Integrationarchitektur der Daten [1] 15

5. P2P Datenbanksysteme Vorteile P2P Vorteile bleiben erhalten, z.b. hohe Skalierbarkeit k it Keine besondere Infrastruktur in den Knoten erforderlich Nachteile Keine Garantie alle Antworten zu erhalten SQL typischerweise nicht unterstützt 16

6. Query Processing in P2P DBS Anfragenwerden durch das Overlaynetzverbreitet Man benutztt spezifische Indexeses Anfragesprache oft begrenzt und von der Art des Netzwerkes abhängig Es gibt keine Garantie, alle Antworten zu erhalten Benutzt Replikation und Laufzeittoleranztechniken 17

6. Query Processing in P2P DBS Abhängigkeiten vom verfügbaren Index Typen Beschreibung Ki Kein Index Routing durch Flutung (wie in Gnutella 0.4) Zentralisierter Index Verteilter Index (hängt von Overlaytopologie ab) Ein Peer hat die Information über den Inhalt von allen Knoten. Bottleneck (wie in Napster) Unstrukturierten Systeme Routing Indexes, ein Peer hat Information über den Inhalt von erreichbaren Knoten Strukturierten t Jd Jeder Peer hat Indexinformation Systeme aller Daten über die Hash Funktion 18

6. Query Processing in P2P DBS Mögliche Datenmodelle und Anfragesprachen Datenmodell XML RDF Anfragesprache XPath, XQuery SPARQL, Logic Language 19

6.1. Beispiel: Skyframe Skyline Query Beispiel von Skyline Query im zweidimensionalen Raum [6] 20

6.1. Beispiele: Skyframe Architektur 1. Query Processing Manager: Greedy Skyline Search (GSS) und Relaxed Skyline Search (RSS) Greedy SkylineSearch Search [6] Relaxed Search Space [6] 21

6.1. Beispiele: Skyframe Architektur 2. Query load balancing Manager Query load balanced Partition Dynamic query load balancing 3. Skyframe Skyframe [6] 22

7. Zusammenfassung Ein P2P DBS kombiniert die dezentralisierten Eigenschaften und die Autonomie der P2P Systeme mit der Semantik der VDBS. Es gibt verschiedene Query Processing Methoden je nach Overlayarchitektur. Es gibt verschiedene Datenmodelle und Anfragesprachen, je nach P2P Netz. Skyframe ist ein beispielhaftes Framework, das den Zeitverlauf optimiert und niedrige Netzwerkkommunikationskosten erreicht. 23

8. Ausblick Entwicklung von einem Query Processing Verfahren für ein strukturiertes P2P System Anwendung des Verfahrens in typischen Szenarien Vergleich des entwickelten Verfahrens mit existierenden Verfahren für das betrachtete Szenario 24

A. Literatur [1] A. Bonifati, P. K. Chrysanthis, A. M.Ouksel, K. Sattler. Distributed Databases and Peer to Peer Databases: Past and Present. InACMSIGMOD Record, Vol.37 No.1, 2008. [2] A. Eyal, A.Gal. Self Organizing Semantic Topologies in P2P Data Integration Systems. In IEEE International Conference on Data Engineering, 2009. [3] X. Shen, Z. Li. Implementing Database Management System in P2P Networks. In International Seminar on Future Information Technology and Management Engineering, 2008. [4] M. Karnstedt, K. Sattler, M. Haß, M. Hauswirth, B. Sapkota, R. Sachmidt. Estimating the Number of Answers with Guarantees for Structured Queries in P2P Databases. In ACM Conference on Information and Knowledge Management CIKM 08, 2008. 25

A. Literatur [5] G. Koloniari, E. Pitoura. Peer to Peer Management of XML Data: Issues and Research Challenges. In ACM SIGMOD Record, Vol.34 No.2, 2005. [6] S.Wang,Q.H.Vu,B.C.Ooi,A.K.H.Tung,L.Xu.Skyframe: a framework for skyline query processing in peer to peer systems. In VLDB Journal, Vol.18, No.1, 2009. [7] http://en.wikipedia.org/wiki/distributed_hash_table [8] http://www.umkc.edu/is/security/p2p_explanation.asp 26

Vielen Dank für Ihre Aufmerksamkeit! 27