Präsentation zur Seminararbeit Christoph Aßmann Aßmann, Christoph Leipzig, 26.01.2010 Folie 1
Inhalt Begriffe Motivation Abgrenzung Grid Cloud OGSA: Architektur servicebasierter Grids Standardisierung Evolution / Erweiterungen Informatica Cloud Data Integration Solutions Zusammenfassung Aßmann, Christoph Leipzig, 26.01.2010 Folie 2
Begriffsbestimmung: Datenintegration Ziel: einheitlicher Zugriff auf mehrere DBs Verteilte Datenbanken Dezentral verwaltete Datenbanken Problem: Heterogene Datenbanken ObjectStore exist MSSQL DB2 Aßmann, Christoph Leipzig, 26.01.2010 Folie 3
Begriffsbestimmung: Datenintegration Heterogenität: Ausprägungen ObjectStore MSSQL Zugriff exist Syntax Datenmodell DB2 Schema Data Cleaning Erstellung einheitlicher Sicht Aßmann, Christoph Leipzig, 26.01.2010 Folie 4
Begriffsbestimmung: Dienstbasierte Architekturen Ziel: technologieunabhängige Integration heterogener Systeme Transportprotokoll Programmiersprache Plattform? Aßmann, Christoph Leipzig, 26.01.2010 Folie 5
Begriffsbestimmung: Dienstbasierte Architekturen Beschreibung, Veröffentlichung, Suche, Nutzung von Diensten Dienstverzeichnis! WSDL WSDL Dienstkonsument SOAP XML HTTP TCP/IP Ethernet Dienstanbieter Aßmann, Christoph Leipzig, 26.01.2010 Folie 6
Motivation ISPIDER Project Erfassung biochemischer Daten Identifizierung von Proteomen an verschiedenen Standorten Zusammenführung der Informationen PEDRo PepSeeker gpmdb Aßmann, Christoph Leipzig, 26.01.2010 Folie 7
Abgrenzung Grid - Cloud Gemeinsamkeit: Dynamische Bereitstellung von Speicher und Rechenkapazität über Netzwerk Unterschiede: Cloud Zentraler Anbieter Ökonomischer Ansatz Grid Virtuelle Organisation (VO) / dezentrale Admin. Wissenschaftlicher Kontext Aßmann, Christoph Leipzig, 26.01.2010 Folie 8
Abgrenzung Grid - Cloud Grid O1 O2 O3 VO Cloud Aßmann, Christoph Leipzig, 26.01.2010 Folie 9
OGSA: Architektur servicebasierter Grids Hoher Grad an Heterogenität Autonome Datenquellen Dezentrale Administration Standardisierung O3 O1 O2 Aßmann, Christoph Leipzig, 26.01.2010 Folie 10
OGSA: Architektur servicebasierter Grids Standardisierungsgremium: Open Grid Forum (OGF) Diverse Arbeitsgruppen, u.a.: Database Access and Integration Services (DAIS WG) Architektur: Open Grid Services Architecture (OGSA) Aßmann, Christoph Leipzig, 26.01.2010 Folie 11
OGSA: Architektur servicebasierter Grids Repräsentation von Ressourcen durch Dienste Grid Services Standardisierung von Schnittstellen Auffinden von Grid Services Erzeugen / Beenden von Grid Dienstinstanzen Nachrichtenaustausch Aßmann, Christoph Leipzig, 26.01.2010 Folie 12
OGSA-DAI / OGSA-DQP: Übersicht OGSA DAI: dienstbasierter Zugriff auf Datenbanken OGSA DQP: Koordinierung des Zugriffs auf mehrere OGSA DAI Ressourcen Aßmann, Christoph Leipzig, 26.01.2010 Folie 13
OGSA-DAI Data Access and Integration (OGSA DAI) Java basierte Middleware zur Integration heterogener Datenquellen auf Basis der OGSA FS Rel. DB XML Aßmann, Christoph Leipzig, 26.01.2010 Folie 14
OGSA-DAI Ablauf einer Anfrage gegen das Grid (a) Container Start RegisterService Registry (GDSR) (1 je Container) Factory (GDSF) (1 je DBMS) Aßmann, Christoph Leipzig, 26.01.2010 Folie 15
OGSA-DAI Ablauf einer Anfrage gegen das Grid (b) Dienstlokalisierung Grid Service Handle (GSH) Registry (GDSR) Factory (GDSF) Service Instance (GDS) Rel. DB Aßmann, Christoph Leipzig, 26.01.2010 Folie 16
OGSA-DAI Ablauf einer Anfrage gegen das Grid (c) Durchführen einer Anfrage Grid Service Handle (GSH) Registry (GDSR) Factory (GDSF) Service Instance (GDS) Rel. DB Aßmann, Christoph Leipzig, 26.01.2010 Folie 17
OGSA-DQP Ablauf einer Anfrage gegen das Grid (c) Durchführen einer verteilten Anfrage via DQP Factory Factory (GDSF) (GDSF) Registry (GDSR) Grid Service Handle (GSH) Coordinator (GDQS) Evaluator (GQES) Service Instance (GDS) Rel. DB Evaluator (GQES) Service Instance (GDS) XML Aßmann, Christoph Leipzig, 26.01.2010 Folie 18
Einschub: Schemaintegration Dezentrale Administration Schemaevolution einmalige Schemaintegration unzureichend Grid Data Integration System (GDIS) Mapping Katalog Änderung / Hinzufügen einer Ressource: Update Ausführliche Beschreibung s. Ausarbeitung Aßmann, Christoph Leipzig, 26.01.2010 Folie 19
ISPIDER: virtuelle Datenintegration PepSeeker PEDRo gpmdb S PepSeeker S PEDRo S gpmdb S integr LSID src_id acc_nr col_xy URN:LSID:ispider.man.ac.uk:pepseeker.protein:1 1 ENSP00000339074... URN:LSID:ispider.man.ac.uk:pepseeker.protein:2 2 ENSP00000339074... URN:LSID:ispider.man.ac.uk:pedro.protein:1 1 ENSP00000339074... URN:LSID:ispider.man.ac.uk:gpmdb.protein:1 1 ENSP00000339074... Aßmann, Christoph Leipzig, 26.01.2010 Folie 20
ISPIDER Nutzung von OGSA DAI und OGSA DQP Manuelles Erstellen des globalen Schemas Basis: S PEDRo Beschreibung der Korrespondenzen S local S global IQL, Transformation Pathways Speicherung in Schemas & Transformations Repository Schemaevolution möglich Aßmann, Christoph Leipzig, 26.01.2010 Folie 21
Informatica Cloud Data Integration Solutions SaaS Anwendung: Salesforce CRM Cloud Plattform: Force.com Problematik: Migration lokaler Datenbestände aus Legacy Software nach Salesforce CRM Aßmann, Christoph Leipzig, 26.01.2010 Folie 22
Informatica Cloud Data Integration Solutions Informatica On Demand (IOD): Webbasierte Konfiguration von Verbindungen Source Connection, Target Connection Filter Definition Field Mappings, Transformation Schedule IOD Aßmann, Christoph Leipzig, 26.01.2010 Folie 23
Zusammenfassung Integrationsproblematik in Grids und Clouds vorhanden Lösung in Grids: Standardisierung Virtuelle Integration Dienstbasierte Ansätze OGF Lösung in Clouds: Eigenentwicklungen Physische Integration Migration in die Cloud Proprietäre Ansätze Aßmann, Christoph Leipzig, 26.01.2010 Folie 24
ISPIDER Architecture [ZFB+ 06] Aßmann, Christoph Leipzig, 26.01.2010 Folie 25
[ZFB+ 06] Lucas Zamboulis, Hao Fan, Khalid Belhajjame, Jennifer A. Siepen, Andrew Jones, Nigel J. Martin, Alexandra Poulovassilis, Simon J. Hubbard, Suzanne M. Embury und Norman W. Paton. Data Access and Integration in the ISPIDER Proteomics Grid. In Ulf Leser, Felix Naumann und Barbara A. Eckman, Hrsg., DILS, Jgg. 4075 of Lecture Notes in Computer Science, Seiten 3 18. Springer, 2006. Aßmann, Christoph Leipzig, 26.01.2010 Folie 26