Seminar: Advanced Topics in Databases Präsentation der Themen

Ähnliche Dokumente
Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

Kommunikation, Information und mobile verteilte Systeme (KIS)

OPERATIONEN AUF EINER DATENBANK

Data Mining-Modelle und -Algorithmen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

MS SQL Server: Index Management. Stephan Arenswald 10. Juli 2008

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Apache HBase. A BigTable Column Store on top of Hadoop

DB2 Kurzeinführung (Windows)

Kapitel 8: Physischer Datenbankentwurf

visionapp Base Installation Packages (vbip) Update

Wie Google Webseiten bewertet. François Bry

XML und Datenbanken. Wintersemester 2003/2004. Vorlesung: Dienstag, 13:15-15:00 Uhr IFW A36. Übung: Dienstag, 15:15-16:00 Uhr IFW A36

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

Aufgabe 1: [Logische Modellierung]

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Prof. Dr.-Ing. Rainer Schmidt 1

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Reporting Services und SharePoint 2010 Teil 1

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

3. Stored Procedures und PL/SQL

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Installation SQL- Server 2012 Single Node

2 Evaluierung von Retrievalsystemen

Business Intelligence in NRW

Windows Server 2008 (R2): Anwendungsplattform

[ doing research online] nic.at Kunden-/Registrar-Befragung

Kurzanweisung für Google Analytics

Workflow, Business Process Management, 4.Teil

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Datenbank LAP - Chefexperten Detailhandel

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Spezialisierung Business Intelligence

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

windream für Microsoft Office SharePoint Server

impact ordering Info Produktkonfigurator

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Wissenschaftliches Arbeiten , SE 2.0

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Physischer Datenbankentwurf: Datenspeicherung

Use Cases. Use Cases

Algorithmen und Datenstrukturen

Windows Small Business Server (SBS) 2008

1. Einführung. 2. Archivierung alter Datensätze

Exploration und Klassifikation von BigData

Lokale Installation von DotNetNuke 4 ohne IIS

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Data Warehouse Definition (1)

Eine Logikschaltung zur Addition zweier Zahlen

OLAP und der MS SQL Server

Synchronisations- Assistent

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Die Beitrags-Ordnung vom Verein

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

Erfahrungen mit Hartz IV- Empfängern

Datenbanken. Prof. Dr. Bernhard Schiefer.

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Titel. App-V 5 Single Server Anleitung zur Installation

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

IntelliRestore Seedload und Notfallwiederherstellung

Updatehinweise für die Version forma 5.5.5

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Sabotage in Scrum. dem Prozess erfolglos ins Knie schiessen. Andreas Leidig (andrena objects ag) Vortrag bei den XP Days 2007

Dr. Guido Schwarz Forschung, Schulung, Beratung; A Wien, Edelhofgasse 31/8; Tel: Mobil:

Whitepaper. Produkt: combit Relationship Manager. SQL Server 2008 R2 Express um Volltextsuche erweitern. combit GmbH Untere Laube Konstanz

Konvertierung von Smap3D Norm- und Wiederholteilen für SolidWorks 2015

Seminar C02 - Praxisvergleich OLAP Tools

Begriff 1 Begriff 2 Datenbank 1

Sitzungsleitung. Dr. Urs-Peter Oberlin 1/5

Professionelle Seminare im Bereich MS-Office

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Hilfe, ich verstehe meine APEX Seite nicht mehr! DOAG Development Konferenz, Düsseldorf

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Der beste Plan für Office 365 Archivierung.

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Java Enterprise Architekturen Willkommen in der Realität

Vorkurs Informatik WiSe 15/16

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Statuten in leichter Sprache

Kommunikations-Management

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Windows 7: Neue Funktionen im praktischen Einsatz - Die neue Taskleiste nutzen

Business Intelligence Praktikum 1

Leichte-Sprache-Bilder

Persönliche Provision (PPR) Ich verdiene eine Persönliche Provision von 25% bzw. 30% auf meine Nettoumsätze*.

Begeisterung und Leidenschaft im Vertrieb machen erfolgreich. Kurzdarstellung des Dienstleistungsangebots

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Null-Werte in Relationalen Datenbanken

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Hinweise zum BA-Beifach-Studium in Philosophie

Datenstrukturen & Algorithmen

Transkript:

Seminar: Advanced Topics in Databases Präsentation der Themen Felix Naumann Alexander Albrecht Jens Bleiholder Hasso-Plattner-Institut für Softwaresystemtechnik GmbH FB Informationssysteme Prof.-Dr.-Helmert-Str. 2-3, D-14482 Potsdam

Überblick Einführung und Motivation Vorstellung der Themen Query Processing Data Storage and Access Methods Transaction Management Extensible Systems Database Evolution Data Warehousing Data Mining Web Services and Databases Stream-Based Data Management Organisatorisches 2

Voraussetzungen VL DBS I 3 http://www.hpi.uni-potsdam.de/naumann/lehre/ws_0607/dbsi.html http://www.tele-task.de/page42_mode1_series617.html

Voraussetzungen VL DBS II 4 http://www.hpi.uni-potsdam.de/naumann/lehre/ss_08/dbsii0.html http://www.tele-task.de/page42_mode1_series645.html

Seminar - Advanced Topics in Databases Ziel des Seminars: Tieferer Einblick in die wichtigen Themen der Datenbank-Forschung Nicht nur hochaktuelle sondern auch grundlegende Themen werden behandelt "Readings in Database Systems" von Joseph M. Hellerstein und Michael Stonebraker bilden die Grundlage Exzellente Sammlung bedeutender Paper im Bereich Datenbanken ("best of") http://redbook.cs.berkeley.edu/ http://www.amazon.de/dp/0262693143/ 5

Überblick Einführung und Motivation Vorstellung der Themen Query Processing Data Storage and Access Methods Transaction Management Extensible Systems Database Evolution Data Warehousing Data Mining Web Services and Databases Stream-Based Data Management Organisatorisches 6

Query Processing Access Path Selection in a Relational Database Management System SIGMOD 1979 P. Selinger, M. Astrahan, D. Chamberlin, R. Lorie, T. Price Beschreibt, wie in System R, einem der ersten relationalen DBMSe von IBM, ausgewählt wird, wie auf die Daten auf der Platte zugegriffen wird. Gegeben ist eine SQL Anfrage, geliefert wird ein Zugriffsplan auf die Daten, der möglichst wenig Kosten verursacht. 7

Query Processing Join Processing in Datanbase Systems with Large Main Memories TODS 11(3), 1986 L. Shapiro Nimmt an, dass es zukünftig Systeme mit genügend großem Hauptspeicher geben wird, um Hash-Techniken zur Berechnung eines Joins verwenden zu können. Führt den Hash-Join ein. 8

Data Storage and Access Methods The R*-tree: An Efficient and Robust Access Method for Points and Rectangles SIGMOD 1990 N. Beckmann, H.-P. Kriegel, R. Schneider, B. Seeger R-trees sind Speicherstrukturen um auf Raumdaten (Punkte, Rechtecke, etc.) zuzugreifen. Basierend auf dem B+-tree werden in diesem Artikel mehrere Varianten von R-trees miteinander verglichen. 9

Data Storage and Access Methods The Five-Minute Rule Ten Years Later, and Other Computer Storage Rules of Thumb SIGMOD Record 26(4), 1997 J. Gray, G. Graefe Wann lohnt es sich, eine Seite im Hauptspeicher zu halten, anstatt sie jedes Mal von Platte zu lesen? Wenn sie alle 5 Minuten benötigt wird. Welche Regeln gibt es noch, um zu entscheiden wie ich meine Speicherhierarchie aufbaue? 10

Transaction Management On Optimistic Methods for Concurency Control VLDB 1979 H. Kung, J. Robinson Der Artikel beschreibt eine Methode ohne Locking verteilt und parallel von mehreren Prozessen aus, auf Daten zuzugreifen. 11

Transaction Management Efficient Locking for Concurrent Operations on B-trees TODS 6(4), 1981 P. Lehman, S. Yao Wie kann man sicherstellen, dass bei gleichzeitigem Zugriff mehrerer Transaktionen auf denselben B-Baum keine Inkonsistenzen auftreten? Für diesen Zweck wird ein Locking- Protokoll vorgestellt. 12

Extensible Systems Generalized Search Trees for Database Systems VLDB 1995 J. Hellerstein, J. Naughton, A. Pfeffer Für unterschiedliche Domänen und Anfragetypen gibt es spezialisierte Suchstrukturen (B-Bäume, R-Bäume, etc.). Mit dem GiST wird eine allgemeine Suchstruktur vorgestellt, die auf verschiedenste Art angepasst und spezialisiert werden kann. 13

Extensible Systems Grammar-like Functional Rules for Representing Query Optimization Alternatives SIGMOD 1988 G. Lohman Ein Anfrageoptimierer erstellt aus der SQL Anfrage den auszuführenden optimalen Ausführungsplan, üblicherweise mit Hilfe von Transformationsregeln. Der Artikel beschreibt eine Methode schnell mehrere alternative Pläne zu erzeugen. 14

Database Evolution AutoAdmin 'What-if' Index Analysis Utility SIGMOD, 1998 Surajit Chaudhuri, Vivek R. Narasayya Automatisierte Index-Auswahl in Datenbanken: Das AutoAdmin Projekt präsentierte das erste Tool, um ausgehend von einer Menge SQL-Anweisungen, dem Workload, die Kosten für unterschiedliche Indexkonfigurationen abschätzen zu können. Das Tool nutzt dabei den Datenbank-Optimierer für die Kostenabschätzung. Prototyped wurde für Microsoft SQL Server 7.0. 15

Database Evolution Applying Model Management to Classical Meta Data Problems CIDR, 2003 Philip A. Bernstein Metadata Management: Beim Austausch von Daten, Weiterverarbeiten von (XML-)Nachrichten, Objektrelationalen Mappings etc. treten klassische Metadaten Management Probleme auf, z.b. Schema Integration. Das Paper beschreibt Model Management und dessen Anwendung als neuen Ansatz um diese Probleme anzugehen. On top: Rondo - A Programming Platform for Generic Model Management. SIGMOD, 2003. 16

Data Warehousing Improved Query Performance with Variant Indexes SIGMOD, 1997 Patrick E. O'Neil, Dallan Quass Indexing: Das read-only Umfeld in einem Datawarehouse ermöglicht komplexere Index-Verfahren, z.b. bzgl. Materialisierung. Das Paper stellt neue Index- Strukturen vor. Diese neuen Verfahren ermöglichen es, im Vergleich zu klassischen Index-Strukturen (B- Bäume, Bitmap), OLAP-Anfragen schneller auszuwerten. Dabei wird die Groupset Index-Struktur genauer beschrieben, die insbesondere für OLAP-Anfragen mit Aggregation und Gruppierung gut geeignet ist. 17

Data Warehousing Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals Data Mining and Knowledge Discover, Vol. 1, No. 1, 1997 Jim Gray et al. Online Analytical Processing (OLAP): Bei der Datenanalyse werden Daten oft gleichzeitig nach mehreren Dimensionen gruppiert, z.b. nach Zeit (Tag/Woche/Jahr) oder Ort (Stadt/Land/Kontinent), und aggregiert (roll-up), z.b. Umsätze oder Lagerbestände. Klassisches SQL kann das nicht leisten. Das Paper erweitert SQL um den Data Cube und Roll-Up Operator für die schnelle und mehrdimensionale Datenanalyse. 18

Data Mining BIRCH: An Efficient Data Clustering Method for Very Large Databases SIGMOD, 1996 Tian Zhang, Raghu Ramakrishnan, Miron Livny Data Clustering entdeckt in einer Menge von Daten dicht beieinander liegenden Datenpunkte (Cluster). Dabei verwendet BIRCH hierarchisches Clustering, um in sehr großen Datenmengen Cluster für metrische, mehr-dimensionale Datenpunkte zu finden. In dem Paper wird der CF Baum als neue Datenstruktur vorgestellt, um hierarchisches Clustering großer Datenmengen effizient im vergleichsweise kleinen Hauptspeicher zu ermöglichen. 19

Data Mining Fast Algorithms for Mining Association Rules in Large Databases VLDB, 1994 Rakesh Agrawal, Ramakrishnan Srikant Association Rules: In diesem Paper werden zwei effiziente Algorithmen vorgestellt, die (unbekannte) Zusammenhänge in transaktionalen Daten entdecken. Zusammenhänge werden dabei als Assoziationsregeln formuliert, X=>Y, wobei X und Y Mengen von Items sind und es gilt: Transaktionen, die X beinhalten, enthalten in c% aller Transaktionen auch Y. Für Studenten, die nicht an den vorangegangenen 'Beauty is our Business' Seminaren teilgenommen haben. 20

Web Services and Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Computer Networks, 30(1-7), 1998 Sergey Brin, Lawrence Page In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems 21

Stream-Based Data Management The Design and Implementation of a Sequence Database System VLDB, 1996 Praveen Seshadri, Miron Livny, Raghu Ramakrishnan Sequence data: Daten in einer Relation können oft als Sequenz betrachtet werden, denen eine logische Ordnung zugrunde liegt, beispielsweise können Daten nach der Zeit geordnet sein (Verkehrsbeobachtungssystem). In relationalen Datenbanken werden Daten ausschließlich als Menge betrachtet, nicht als Sequenz. Das Paper beschreibt die Erweiterung eines relationalen Datenbanksystems, um Sequenzen zu unterstützen und die Interaktion von Sequence Queries (SEQULN) und Relational Queries (SQL) zu ermöglichen. 22

Stream-Based Data Management Eddies: Continuously Adaptive Query Processing SIGMOD, 2000 Ron Avnur, Joseph M. Hellerstein Anfrageverarbeitung: In der klassischen Anfrageverarbeitung wird der Anfrageplan einmalig erstellt und bleibt während der Ausführung unverändert. Das führt zu Problemen, sobald sich die Laufzeitumgebung während der Anfrageverarbeitung ändert (förderierte Datenbanken etc.). In diesem Paper wird mit Eddy ein Mechanismus zur Anfrageverarbeitung vorgestellt, der während der Laufzeit die Operatoren im Anfrageplan reorganisiert. Das Reorganisieren geschieht dabei unter anderem mit Hilfe einfacher maschineller Lernverfahren. 23

Überblick Einführung und Motivation Vorstellung der Themen Query Processing Data Storage and Access Methods Transaction Management Extensible Systems Database Evolution Data Warehousing Data Mining Web Services and Databases Stream-Based Data Management Organisatorisches 24

Organisatorisches Feste Termine Dienstag um 9:15 Uhr Raum A-1.1 Nächster Termin (28. Oktober) Einführung LaTeX Pro Termin Zwei Vorträge / zwei Themen Diskussion über die Themen 25

Organisatorisches Zu einem ausgewählten Thema Vortrag, ca. 30 Minuten und 15 Minuten Diskussion Ausarbeitung, ca. 8-10 Seiten, in LaTeX Zu den nicht gewählten Themen Einarbeitung in die Themen vor jedem Seminartermin (Paper lesen) Mitarbeit wird bei der Bewertung berücksichtigt Anwesenheit an allen Terminen! Vortrag, Ausarbeitung und Beteiligung im Seminar werden benotet! 26

Ablauf Paper auswählen Geordnete Themenwunschliste bis spätestens 23. Oktober per E-Mail an Jens Bleiholder mit mind. 3 Themen aus mind. 3 der vorgestellten Themengebiete. Die Reihenfolge ist wichtig! Themenvergabe & Terminbekanntgabe am 24. Oktober Benachrichtigung erfolgt per E-Mail und im WWW Paper lesen Ab 24. Oktober 27

Betreuung 1. Treffen mit Betreuer Inhalte besprechen, ca. 2 Wochen vor Vortragstermin 2. Treffen mit Betreuer Vortrag/Folien besprechen, ca. 1 Woche vor Vortragstermin 3. Treffen mit Betreuer Ausarbeitung besprechen, ca. 2 Wochen vor Abgabe Abgabe der Ausarbeitung am 3. März 2009 28

29