Data Warehousing und Data Mining
|
|
|
- Viktoria Schuster
- vor 8 Jahren
- Abrufe
Transkript
1 Data Warehousing und Data Mining Logische Optimierung Ulf Leser Wissensmanagement in der Bioinformatik
2 Inhaltsübersicht Vorlesung Architektur Modellierung von Daten im DWH Umsetzung des multidimensionalen Datenmodells Extraction, Transformation & Load (ETL) Indexstrukturen für DWH Logische Optimierung Implementierung von OLAP Operatoren Materialisierte Sichten (3-4 Termine) Data Mining (ca. 4 Wochen) Ulf Leser: Data Warehousing und Data Mining 2
3 Inhalt dieser Vorlesung Star-Join Grundidee Star-Join mit Bitmap-Indexen Bloom-Filter Partitionierung Ulf Leser: Data Warehousing und Data Mining 3
4 Typische Anfragen an ein Star-Schema time day_id day month_id month year_id year Typische Anfrage sales product_id day_id shop_id amount price product product_id product_name pg_id pg_name localization shop_id shop_name region_id region_name Joins zwischen Dimensions- und Faktentabelle Aggregation (Fakten) und Gruppierung (Dimensionen) Bedingungen auf den Dimensionstabellen Jetzt: Optimale Joinreihenfolge Ulf Leser: Data Warehousing und Data Mining 4
5 Beispiel Alle Verkäufe von Produkten der Produktgruppe Wasser in Berlin im Januar der Jahre 1997, 1998, 1999, gruppiert nach Jahr SELECT T.year, sum(amount*price) FROM sales S, product P, time T, localization L WHERE P.pg_name= Wasser AND P.product_id = S.product_id AND T.day_id = S.day_id AND T.year in (1997, 1998, 1999) AND T.month = 1 AND L.shop_id = S.shop_id AND L.region_name= Berlin GROUP BY T.year Ulf Leser: Data Warehousing und Data Mining 5
6 Anfrageplanung 3 Joins über 4 Tabellen: 4! left-deep join trees Andere berücksichtigen die meisten Optimierer idr nicht Aber: Nicht alle Tabellen sind mit allen gejoined Nur 2*2*3 der 4! enthalten kein kartesisches Produkt sales als erste oder zweite Relation ausgewählt σ pg_name= Wasser' σ year in (1997,1998, 1999) sales σ region_name= Berlin' σ month=1 product location time Ulf Leser: Data Warehousing und Data Mining 6
7 Join-Optimierung Typisches Vorgehen SELECT T.year, sum(amount*price) FROM sales S, product P, time T, localization L WHERE P.pg_name= Wasser AND P.product_id = S.product_id AND T.day_id = S.day_id AND T.year in (1997, 1998, 1999) AND T.month = 1 AND L.shop_id = S.shop_id AND L.region_name= Berlin GROUP BY T.year Auswahl des Planes nach Größe der Zwischenergebnisse Keine Beachtung von Plänen, die kartesisches Produkt enthalten Kartesisches Produkt σ year in (1997,1998, 1999) σ pg_name= Wasser' product σ region_name= Berlin' location sales σ month=1 time Ulf Leser: Data Warehousing und Data Mining 7
8 Abschätzung von Zwischenergebnissen SELECT T.year, sum(amount*price) FROM sales S, product P, time T, loc L WHERE P.pg_name= Wasser AND P.product_id = S.product_id AND T.day_id = S.day_id AND T.year in (1997, 1998, 1999) AND T.month = 1 AND L.shop_id = S.shop_id AND L.region_name= Berlin GROUP BY T.year Annahmen m= S = Verkaufstage pro Monat Daten von 10 Jahren 50 Produktgruppen a 20 Produkten 15 Regionen a 100 Shops Gleichverteilung aller Verkäufe Größe des Ergebnisses Jan 97,98,99-60 Tage: (m / (20*12*10)) * 3*20 Wasser - 20 Produkte : (m / (20*50)) * 20 Berlin Shops (m / (15*100)) * 100 Gesamt: ~3.333 Tupel Selektivität: 0,00003% Ulf Leser: Data Warehousing und Data Mining 8
9 Reihenfolge zählt product location time time sales location sales product Zwischenergebnis Zwischenergebnis 1. Join (m / 15) Join (m / 50) Join ( J 1 *3/120) Join ( J 1 *3/120) Join ( J 2 /50) Join ( J 2 / 15) Ulf Leser: Data Warehousing und Data Mining 9
10 Plan mit kartesischen Produkten product sales time location Zwischenergebnis 1. time x location (3*20 * 100) x product ( P 1 *20) sales Ulf Leser: Data Warehousing und Data Mining 10
11 Star-Join in Oracle 7 Kartesisches Produkt aller Dimensionstabellen Zugriff auf Faktentabelle über Index Hohe Selektivität für Anfrage wichtig Zusammengesetzter Index auf allen FKs muss vorhanden sein Achtung: Problem der Attributfolge im Index versus Query Bitmap-Indexe gab es noch nicht Sonst nur kleinere Zwischenergebnisse, dann teurer Scan Fixes Ablaufschema, wenn Star-Schema erkannt wurde Ulf Leser: Data Warehousing und Data Mining 11
12 Star-Join ab Oracle 8i Benutzung komprimierter Bitmapindexe 1. Berechnung aller FKs in Faktentabelle gemäß Dimensionsbedingungen einzeln für jede Dimension 2. Anlegen/laden von bitmapped Join-Indexen auf allen FK Attributen der Faktentabelle 3. Merge (AND) aller Bitmapindexe Das berechnet den Inner-Join der Fakten mit allen Dimensionen 4. Zugriff auf Faktentabelle über TID 5. Join nur der selektierten Fakten mit Dimensionstabellen zum Zugriff auf Dimensionswerte Die großen Zwischenergebnisse sind Bitlisten - Hauptspeicher Ulf Leser: Data Warehousing und Data Mining 12
13 Beispiel Schritt 1 SELECT T.year, sum(amount*price) FROM sales S, product P, time T, localization L WHERE P.pg_name= Wasser AND P.product_id = S.product_id AND T.day_id = S.day_id AND T.year in (1997, 1998, 1999) AND T.month = 1 AND L.shop_id = S.shop_id AND L.region_name= Berlin GROUP BY T.year Umformung SELECT T.year, sum(amount*price) FROM sales S, time T WHERE S.day_id IN (SELECT day_id FROM time WHERE year in (1997, 1998, 1999) AND month= 1 ) AND S.shop_id IN (SELECT shop_id FROM localization WHERE region_name= Berlin ) AND S.product_id IN (SELECT product_id FROM product WHERE pg_name= Wasser ) AND S.day_id = T.day_id GROUP BY T.year Ulf Leser: Data Warehousing und Data Mining 13
14 Schritt 2 & 3 SELECT T.year, sum (amount * price) FROM sales S, time T WHERE S.day_id IN (SELECT day_id FROM time WHERE year in (1997, 1998, 1999) AND month= 1 ) AND S.shop_id IN (SELECT shop_id FROM localization WHERE region_name= Berlin ) AND S.product_id IN (SELECT product_id FROM product WHERE pg_name= Wasser ) AND S.day_id = T.day_id GROUP BY T.year 2400 Bitarrays Davon ~60 gewählt Mit OR verknüpfen 1500 Bitarrays Davon ~100 gewählt Mit OR verknüpfen 1000 Bitarrays Davon ~20 gewählt Mit OR verknüpfen AND Ulf Leser: Data Warehousing und Data Mining 14
15 Schritt 4 & = :45,1,Meier,20.000,2,M,... A2:55,2,Müller,15.000,3,W,... 33:D1,3,Schmidt,25.000,1,M,... 1A:0E,4,Dehnert,22.000,2,M,... 33:91,3,Schmolke,25.000,1,M,... 3D:D1,3,Bern,25.000,1,M,... 43:D4,3,Felder,23.000,1,M,... location time product Ulf Leser: Data Warehousing und Data Mining 15
16 Gesamtplan Phase 2 Phase 1 SELECT STATEMENT SORT GROUP BY HASH JOIN TABLE ACCESS FULL HASH JOIN TABLE ACCESS FULL HASH JOIN TABLE ACCESS FULL PARTITION RANGE ALL TABLE ACCESS BY LOCAL INDEX ROWID BITMAP CONVERSION TO ROWIDS BITMAP AND BITMAP INDEX SINGLE VALUE BITMAP MERGE BITMAP KEY ITERATION BUFFER SORT TABLE ACCESS FULL BITMAP INDEX RANGE SCAN BITMAP MERGE BITMAP KEY ITERATION BUFFER SORT TABLE ACCESS FULL BITMAP INDEX RANGE SCAN Kostenbasiert anderer Plan für Location LOCATION TIME PRODUCT SALES SALES_L_BJIX PRODUCT SALES_P_BIX TIME SALES_TIME_BIX Ulf Leser: Data Warehousing und Data Mining 16
17 Verfeinerung: Bloom-Filter Vorteile gehen verloren, wenn Bitarrays nicht in Hauptspeicher passen Weitere Idee: Bloom-Filter Schritte 2-3 werden unscharf ausgeführt Unschärfe wird so konstruiert, dass es nur Falsch-Positive aber keine Falsch-Negativen geben kann Falsch-Positiv: Tupel wird selektiert, obwohl es nicht sollte Falsch-Negativ: Tupel wird nicht selektiert, obwohl es sollte Falsch-Positive werden in Schritt 4/5 herausgefiltert Hier werden ja die wirklichen Werte gelesen Bringt Vorteile, wenn es wenig Falsch-Positive gibt und durch die Unschärfe weniger Speicher benötigt wird Ulf Leser: Data Warehousing und Data Mining 17
18 Ablauf Aufbau zweier Bitmaps für Fakten S Erzeuge zwei maximal große leere B 1 und B 2 Wahl einer Hashfunktion h(s) B 1 (bzw. B 2 ) Weil B 1 = B 2 < S : Mehrere TID mappen auf ein Bit Initialisierung Auswahl der Dimension D mit höchster Selektivität Für alle selektierten Tuple t aus D Scan Faktentabelle nach FK-Wert aus t B 1 [h(tid)]=1 Iteriere über alle restlichen D i Berechne B 2 [] für D i wie bei D B 1 [] = B 1 [] AND B 2 [] Ulf Leser: Data Warehousing und Data Mining 18
19 Ergebnis Wenn B 1 = B 2 = S wäre Nur Tupel TID mit B 1 [h(tid)] sind relevant Wir haben aber B 1 [z]=0 : Alle Tupel mit h(tid)=z garantiert nicht relevant Selbst Kombinationen aller Tupel mit h(tid)=z schaffen keine 1 in allen notwendigen Dimensionen B 1 [z]=1 : Alle Tupel mit h(tid)=z eventuell relevant Das sind potentiell Falsch-Positive Erneute Auswertung aller Bedingungen nach Joins mit Dimensionstabellen Filterschritt für Falsch-Positive Menge der zu untersuchenden Fakten aber idr schon sehr klein Ulf Leser: Data Warehousing und Data Mining 19
20 Eigenschaften Implementiert in DB2 Kernidee ist Reduktion der Faktentabelle vor Joins mit Dimensionstabellen Faktentabelle muss mehrmals gescanned werden Aber immer nur Zugriff auf (wenige) FK s Dynamischer Aufbau von Bitmap-Indexen Keine Vorabfestlegung des verwendbaren Speichers, sondern optimale Ausnutzung des verfügbaren Speichers Voraussetzungen Hohe Selektivität in Dimensionsbedingungen Aufbau hinreichend großer Bitmaps möglich Wahrscheinlichkeit für falsche 1 steigt überproportional mit Verhältnis S / B Ulf Leser: Data Warehousing und Data Mining 20
21 Inhalt dieser Vorlesung Star-Join Partitionierung Partitionierungsarten Management von Partitionen Spezielle Themen Ulf Leser: Data Warehousing und Data Mining 21
22 Partitionierung Aufteilung der Daten einer Tabelle in Untereinheiten Physische Partitionierung (Allokation): Für den Benutzer transparent Nach Definition der Partitionen Logische Partitionierung: Für den Benutzer nicht transparent Explizites Anlegen mehrerer Tabellen Anfragen müssen entsprechend formuliert werden Ursprünglich für verteilte Datenbanken entwickelt Verteilung der Partitionen auf verschiedenen Knoten Vereinfachte Synchronisation & Lastverteilung Wichtig ist Lokalität Anfrage Partition Ulf Leser: Data Warehousing und Data Mining 22
23 Vertikale Partitionierung id price amount code form CASH VISA VISA id price amount id code form CASH VISA VISA Ulf Leser: Data Warehousing und Data Mining 23
24 Bewertung Zerstört semantische Einheiten die Tupel Zusammenfassen erfordert (teure) Joins Geeignete Technik zur Auslagerung von... Selten benutzten Attributen Attributen, die häufiger als andere verändert werden Und deshalb zu Reorganisation / Row Splits führen BLOBs, LONGS, etc. Herstellung von Transparenz? Definition eines Views Join muss aber berechnet werden Ulf Leser: Data Warehousing und Data Mining 24
25 Horizontale Partitionierung id price amount code form CASH VISA VISA CASH CASH CASH VISA CASH VISA VISA CASH VISA Ulf Leser: Data Warehousing und Data Mining 25
26 Horizontale Partitionierung Wichtige Erweiterung der meisten kommerziellen RDBMS der letzten Jahre Halb-Transparent : Admin legt Partitionen an, SQL- Entwickler (Benutzer) muss sie nicht kennen Hauptvorteile Datenmanagement Partitionen als eigenständige Datenbankobjekte Parallele Verarbeitung Scans können Partitionen auslassen (Partition pruning) Ulf Leser: Data Warehousing und Data Mining 26
27 Prinzip CREATE TABLE sales_range (salesman_id NUMBER(5), salesman_name VARCHAR2(30), sales_amount NUMBER(10), sales_date DATE) PARTITION BY RANGE(sales_date) ( PARTITION t21 VALUES LESS THAN(TO_DATE('02/01/2000','DD/MM/YYYY')), PARTITION t22 VALUES LESS THAN(TO_DATE('03/01/2000','DD/MM/YYYY')), ); Partitionen sind eigene Datenbankobjekte (Tabellen) Einmal angelegt, ist Existenz für Benutzer transparent Die letzte Partition kann als Grenze MAXVALUE haben Specifying a value other than MAXVALUE for the highest partition bound imposes an implicit integrity constraint on the table. Ulf Leser: Data Warehousing und Data Mining 27
28 Arten von Partitionierung (Oracle) Bereichspartitionierung Explizite Angabe der Partitionsbereiche Typische Attribute: Zeiträume (Archivierung historischer Daten) Balancierung muss der Administrator verantworten Einfaches Management, Partition Pruning etc. Hash Partitionierung Angabe einer Hashfunktion über Attributwerten eines Tupel Balancierung wird durch Hashfunktion erreicht Führt idr zu hoher Parallelität in Anfragebearbeitung Achtung: Ungleiche Partitionsgrößen: Evt. sogar Performanzverschlechterung Da Parallelisierung ausgehebelt Ulf Leser: Data Warehousing und Data Mining 28
29 Datenmanagement MERGE Verschmelzen zweier Partitionen ADD Hinzufügen einer Partition (abh. von P-Art) DROP/TRUNCATE Löschen einer Partition Nur sinnvoll bei Range-Partitionierung Viel schneller als DELETE FROM sales WHERE... Möglich: Eigenständige Archivierung DWH als Sliding Window über den Archiv Verteilung der Partitionen auf verschiedene Platten Parallelität beim IO Zugriff Ulf Leser: Data Warehousing und Data Mining 29
30 Exchange EXCHANGE: Wandelt Tabelle in Partition (einer anderen Tabelle) um oder umgekehrt Nur sinnvoll bei Range-Partitionierung Sehr nützlich für ETL Beispiel: Vorverarbeitung der Daten eines Tages in einer eigenen Tabelle Dann hinzufügen zu sales mit einem Befehl Keine Reorganisation, kein Indexneubau,... Ulf Leser: Data Warehousing und Data Mining 30
31 Partitionierung und Indexe Partitionierte Indexierung partitionierter Tabellen Globale Indexe Index unabhängig von Tabelle partitioniert Eigene DDL Kommandos Lokale Indexe Index partitioniert wie Tabelle Bildung eines lokalen Index (Indexpartition) pro Partition Manipulation automatisch mit Tabellenpartition (DROP, ADD, TRUNCATE,...) Ulf Leser: Data Warehousing und Data Mining 31
32 Partition Pruning Anfragen mit Bedingung auf Partitionierungsattribut Punktanfragen Direkte Auswahl relevanter Partition Partition ähnlich einer Ebene in B*-Baum Keine Performanceverbesserung Bereichsanfragen Direkte Auswahl relevanter Partitionen Daten liegen partitioniert vor (nicht nur TIDs) Erhebliche Performanceverbesserung Unterstützte Prädikate Pruning mit Bereichspartitionierung nur bei =, <, >, IN Pruning mit Hashpartitionierung nur bei =, IN Ulf Leser: Data Warehousing und Data Mining 32
33 Parallelität Interquery Verteilen von Anfragen auf Prozessoren / Knoten Keine Beschleunigung einzelner Queries Behandlung auf Session-Ebene (Dedicated Server / MTS) Intraquery Aufbrechen der Query in parallel ausgeführte Teilanfragen Query wird mehrmals parallel auf disjunkten Datenbereichen ausgeführt Aufbrechen durch Partitionierung bestimmt: Teile einer Anfrage laufen parallel auf unterschiedlichen Partitionen Ulf Leser: Data Warehousing und Data Mining 33
34 Partitionierung und Joins Join mit zwei auf dem Join-Attribut partitionierten Tabellen Effektive Parallelisierung möglich Erhebliche Beschleunigung Ulf Leser: Data Warehousing und Data Mining 34
35 Partitionierung und Joins Join bei nur einer partitionierten Tabelle Dynamische Partitionierung at runtime Ulf Leser: Data Warehousing und Data Mining 35
36 Literatur [Leh03]: Kapitel 8.5.2, 8.5.3, [BG02]: Kapitel 7.3, 7.4 Oracle Dokumentation: Data Warehousing Guide Ulf Leser: Data Warehousing und Data Mining 36
37 Selbsttest Was ist ein Star-Join? Was ist anders als bei normalen Joins? Erklären Sie den Star-Join in Oracle 8i folgende. Was ist ein Bloom-Filter? Warum soll sich der bei Star- Joins lohnen? Welche Arten von Partitionierung gibt es? Welche davon dient der Parallelisierung? Welche Vorteile hat Hast-Partitionierung gegenüber Range-Partitionierung? Wie funktioniert ein paralleler Join über zwei nicht auf dem Join Attribute partitionierten Tabellen? Ulf Leser: Data Warehousing und Data Mining 37
Data Warehousing. Ausführung von OLAP Operationen. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Ausführung von OLAP Operationen Ulf Leser Wissensmanagement in der Bioinformatik Variante 1 - Snowflake Year id year Productgroup id pg_name Month Id Month year_id Day Id day month_id
Data Warehousing und Data Mining
Data Warehousing und Data Mining Speicherung multidimensionaler Daten Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Relationales OLAP (ROLAP) Snowflake-, Star- und Fullfactschema
Nutzung der Oracle Database InMemory Option für SAP BW
Nutzung der Oracle Database InMemory Option für SAP BW Schlüsselworte Oracle, SAP-BW, InMemory, Star-Schema. Jörn Bartels Oracle München Einleitung In SAP BW wurde bisher ein erweitertes Snow Flake Schema
Data Warehousing und Data Mining
Data Warehousing und Data Mining Sprachen für OLAP Operationen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung OLAP Operationen MDX: Multidimensional Expressions SQL Erweiterungen
Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012
Repetitorium Data Warehousing und Data Mining 11/12 Sebastian Wandelt 13./16. Februar 2012 Inhalt Data Warehousing und Data Mining auf 40 Slides Weder in-, noch exklusiv! Subjektive Zusammenfassung pro
Data Warehousing. Speicherung multidimensionaler Daten. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Speicherung multidimensionaler Daten Ulf Leser Wissensmanagement in der Bioinformatik Beispiel Z.Tag Z.Monat 4.1.1999 B.Abteilung 4 1999 B.Sparte 3.1.1999 3 1999 2.1.1999 1.1.1999 Skoda.Reparatur
Oracle 9i Einführung Performance Tuning
Kurs Oracle 9i Einführung Performance Tuning Teil 3 Der Optimizer Timo Meyer Wintersemester 2005 / 2006 Seite 1 von 16 Seite 1 von 16 1. auf Tabellen 2. 3. Optimizer 4. Optimizer RBO 5. Optimizer CBO 6.
Optimiertes Laden in die F-Fakten-Tabelle des SAP BW
Optimiertes Laden in die F-Fakten-Tabelle des SAP BW Schlüsselworte SAP BW Index unusable. Einleitung Jörn Bartels Oracle München Mit Oracle Database 11g Release 2 kann das Laden der F-Fakten Tabelle in
Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte
Indexstrategien im Data Warehouse
Indexstrategien im Data Warehouse Reinhard Mense areto consulting gmbh Köln Schlüsselworte Business Intelligence, Data Warehouse, Bitmap Index, B*Tree Index, Partial Index, Star Schema, Snowflake Schema,
Index- und Zugriffsstrukturen für. Holger Brämer, 05IND-P
Index- und Zugriffsstrukturen für Data Warehousing Holger Brämer, 05IND-P Index- und Zugriffstrukturen für Data Warehousing Materialisierte Sichten Bitmap-Indexe Verbundindexe Materialisierte Sichten gehören
Oracle In-Memory & Data Warehouse: Die perfekte Kombination?
Oracle In-Memory & Data Warehouse: Die perfekte Kombination? Dani Schnider Trivadis AG Zürich/Glattbrugg, Schweiz Einleitung Als Larry Ellison in einer Keynote im Juni 2014 die Oracle In-Memory Option
Star Join & Kostenbasierte Optimierung. Architektur von Datenbanksystemen II
Star Join & Kostenbasierte Optimierung Architektur von Datenbanksystemen II Star Join Übungsaufgabe zum 09.06.2015 JOIN-ALGORITHMUS für folgendes Scenario Große Faktentabelle F mit sehr vielen Einträgen
Relationales Datenbanksystem Oracle
Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information
Partitionierung Indizes und Statistiken
Partitionierung Indizes und Statistiken DOAG Konferenz + Ausstellung 18.11.2014 Nürnberg Klaus Reimers [email protected] www.ordix.de Agenda Einführung Arten der Partitionierung Fragestellungen Indizes Indextypen
Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.
Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen
Optimale Performance durch Constraints im Data Warehouse
Optimale Performance durch Constraints im Data Warehouse DOAG Konferenz, 17. November 2016 Dani Schnider, Trivadis AG @dani_schnider BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENF HAMBURG
Themenblock: Erstellung eines Cube
Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen
DOAG Konferenz Was Sie bei modernen Datenbank-Systemen anders machen müssen!
oracledeli.wordpress.com DOAG Konferenz 2015 Was Sie bei modernen Datenbank-Systemen anders machen müssen! Matthias Schulz Selbständiger Software- und Datenbankentwickler: Consulting Schulungen Workshops
Anfrageoptimierung Kostenabschätzung
Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Kostenabschätzung Dr. Thomas Gottron Wintersemester 2012/13 Regel vs. Kostenbasierte Optimierung Bisher: Regeln, wie Optimierung
Andrea Held. Motivation ILM: Definition und Strategien Lösungen für Oracle Datenbanken. Empfehlungen
Andrea Held Motivation ILM: Definition und Strategien Lösungen für Oracle Datenbanken Partitionierung Komprimierung ILM Assistant Flashback Data Archive Empfehlungen 1 Datenwachstum Wachsende Kosten Schlechtere
RavenDB, schnell und skalierbar
RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG [email protected] Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/
SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis.
SQL Lehr- und Forschungseinheit Datenbanken und Informationssysteme Ziele Grundlagen von SQL Beziehung zur relationalen Algebra SELECT, FROM, WHERE Joins ORDER BY Aggregatfunktionen Lehr- und Forschungseinheit
Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.
Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu
ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de
08 Datenbanken Übung SQL Einführung Eckbert Jankowski www.iit.tu-cottbus.de Datenmodell (Wiederholung, Zusammenfassung) Objekte und deren Eigenschaften definieren Beziehungen zwischen den Objekten erkennen/definieren
WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #3. SQL (Teil 1)
Vorlesung #3 SQL (Teil 1) Fahrplan Wiederholung/Zusammenfassung Relationales Modell Relationale Algebra Relationenkalkül Geschichte der Sprache SQL SQL DDL (CREATE TABLE...) SQL DML (INSERT, UPDATE, DELETE)
SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99
SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:
Einführung in SQL. Sprachumfang: Indizes. Datensätzen. Zugriffsrechten
Einführung in SQL Die Sprache SQL (Structured Query Language) ist eine Programmiersprache für relationale Datenbanksysteme, die auf dem ANSI-SQL-Standard beruht. SQL wird heute von fast jedem Datenbanksystem
Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH
Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Dani Schnider Principal Consultant Business Intelligence BI Trilogie, Zürich/Basel 25./26. November 2009 Basel Baden Bern Lausanne Zürich
Oracle Database 12c Was Sie immer schon über Indexe wissen wollten
Oracle Database 12c Was Sie immer schon über Indexe wissen wollten Marco Mischke, 08.09.2015 DOAG Regionaltreffen B* Indexe - Aufbau 0-Level Index A-F G-Z 1-Level Index A-F G-Z 2-Level Index A-F G-M N-Z
Anfragen an multidimensionale Daten
Anfragen an multidimensionale Daten Alexander Heidrich - BID8 09.06.2005 Hintergrundbild: http://www.csc.calpoly.edu/~zwood/teaching/csc471/finalproj02/afternoon/mfouquet/cube.jpg Inhaltsübersicht Motivation
SQL (Structured Query Language) Schemata Datentypen
2 SQL Sprachelemente Grundlegende Sprachelemente von SQL. 2.1 Übersicht Themen des Kapitels SQL Sprachelemente Themen des Kapitels SQL (Structured Query Language) Schemata Datentypen Im Kapitel SQL Sprachelemente
Anfragebearbeitung. Anfrage. Übersetzer. Ausführungsplan. Laufzeitsystem. Ergebnis
Anfragebearbeitung Anfrage Übersetzer Ausführungsplan Laufzeitsystem Ergebnis Übersetzung SQL ist deklarativ, Übersetzung für Laufzeitsystem in etwas prozedurales DBMS übersetzt SQL in eine interne Darstellung
SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar
Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-
Introduction to Data and Knowledge Engineering. 6. Übung SQL
Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB
Partitioning mit Oracle Text 9i
Partitioning mit Oracle Text 9i Autor: Andreas Habl, msg systems ag DOAGNews Q1_2005 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks,
Einführung in SQL. 1. Grundlagen SQL. Structured Query Language. Viele Dialekte. Unterteilung: i. DDL (Data Definition Language)
Einführung in SQL 1. Grundlagen Structured Query Language Viele Dialekte Unterteilung: i. DDL (Data Definition Language) ii. iii. DML (Data Modifing Language) DRL (Data Retrival Language) 1/12 2. DDL Data
Aufgabe 1: [Logische Modellierung]
Aufgabe 1: [Logische Modellierung] a) Entwerfen Sie für das von Ihnen entworfene Modell aus Aufgabe 2 des 1. Übungsblattes ein Star-Schema. b) Entwerfen Sie für das vorangegangene Modell einen Teil eines
Wiederholung VU Datenmodellierung
Wiederholung VU Datenmodellierung VU Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester
Partitionierungsstrategien für Data Vault
ierungsstrategien für Data Vault Dani Schnider Trivadis AG Zürich/Glattbrugg, Schweiz Einleitung Während das Laden von Tabellen in Data Vault in der Regel nicht zeitkritisch ist, stellt uns das effiziente
SQL - Datenbankdesign - Aufbau
SQL - Datenbankdesign - Aufbau Kompakt-Intensiv-Training Unsere fünftägige ANSI SQL Schulung vermittelt Ihnen alle nötigen Kenntnisse zur Erstellung von Datenauswertungen und Programmierung wiederkehrender
Partitionierung Indizes und Statistiken
Partitionierung Indizes und Statistiken Klaus Reimers ORDIX AG Paderborn Schlüsselworte Local index, global index, prefixed index, nonprefix index, hash partitioned index, unusable index, orphaned index,
Inhaltsverzeichnis. Vorwort Kapitel 1 Einleitung... 15
Vorwort..................................................... 13 Kapitel 1 Einleitung.......................................... 15 Kapitel 2 SQL der Standard relationaler Datenbanken... 19 2.1 Die Geschichte................................
Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.
Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,
Cluster-Bildung. VL Datenbanken II 4 107
Cluster-Bildung gemeinsame Speicherung von Datensätzen auf Seiten wichtige Spezialfälle: Ballung nach Schlüsselattributen. Bereichsanfragen und Gruppierungen unterstützen: Datensätze in der Sortierreihenfolge
Data Warehousing. Relationale Datenbanken. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Relationale Datenbanken Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Relationale Datenbanken Relationales Modell und relationale Operatoren SQL Anfragebearbeitung
Inhaltsverzeichnis. Vorwort 13. Kapitel 1 Einleitung 15
Vorwort 13 Kapitel 1 Einleitung 15 Kapitel 2 SQL-der Standard relationaler Datenbanken... 19 2.1 Die Geschichte 19 2.2 Die Bestandteile 20 2.3 Die Verarbeitung einer SQL-Anweisung 22 2.4 Die Struktur von
SQL structured query language
Umfangreiche Datenmengen werden üblicherweise in relationalen Datenbank-Systemen (RDBMS) gespeichert Logische Struktur der Datenbank wird mittels Entity/Realtionship-Diagrammen dargestellt structured query
Data Warehousing Grundbegriffe und Problemstellung
Data Warehousing Grundbegriffe und Problemstellung Dr. Andrea Kennel, Trivadis AG, Glattbrugg, Schweiz [email protected] Schlüsselworte Data Warehouse, Cube, Data Mart, Bitmap Index, Star Queries,
Automatisierte Datenmigration mit dynamischen SQL
Automatisierte Datenmigration mit dynamischen SQL Rolf Wesp Consultant [email protected] Düsseldorf, 27. Oktober 2009 Baden Basel Bern Brugg Lausanne Zürich Düsseldorf Frankfurt/M. Freiburg i. Br.
Erzeugung und Veränderung von Tabellen
Datenbanken - Objekte Erzeugung und Veränderung von Tabellen Objekt Tabelle View Sequence Index Synonym Basiseinheit zum Speichern; besteht aus Zeilen und Spalten; Logische Repräsentation; kann Teilmengen
4. Datenallokation in VDBS und PDBS Fragmentierung und Allokation Fragmentierungsvarianten
4. Datenallokation in VDBS und PDBS Fragmentierung und Allokation Fragmentierungsvarianten horizontale Fragmentierungen vertikale Fragmentierung hybride Fragmentierung Verteilungstransparenz Datenallokation
ACCESS SQL ACCESS SQL
ACCESS SQL Datenbankabfragen mit der Query-Language ACCESS SQL Datenbankpraxis mit Access 34 Was ist SQL Structured Query Language Bestehend aus Datendefinitionssprache (DDL) Datenmanipulationssprache
Physische Datenbankdefinition in. Arthur Bauer
Physische Datenbankdefinition in Arthur Bauer Inhalt Cluster Index-Cluster Hash-Cluster Vor- und Nachteile Index-Organisierte Tabelle (IOT) Partitionierung STORAGE-Klausel in DDL Indexstrukturen Oracle
Abfragen (Queries, Subqueries)
Abfragen (Queries, Subqueries) Grundstruktur einer SQL-Abfrage (reine Projektion) SELECT [DISTINCT] {* Spaltenname [[AS] Aliasname ] Ausdruck} * ; Beispiele 1. Auswahl aller Spalten SELECT * ; 2. Auswahl
Es geht also im die SQL Data Manipulation Language.
1 In diesem Abschnitt wollen wir uns mit den SQL Befehlen beschäftigen, mit denen wir Inhalte in Tabellen ( Zeilen) einfügen nach Tabelleninhalten suchen die Inhalte ändern und ggf. auch löschen können.
Daten-Definitionssprache (DDL) Bisher: Realwelt -> ERM -> Relationen-Modell -> normalisiertes Relationen-Modell. Jetzt: -> Formulierung in DDL
Daten-Definitionssprache (DDL) Bisher: Realwelt -> ERM -> Relationen-Modell -> normalisiertes Relationen-Modell Jetzt: -> Formulierung in DDL Daten-Definitionssprache (DDL) DDL ist Teil von SQL (Structured
Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort... 13
Auf einen Blick Vorwort... 13 Teil 1 Vorbereitung Kapitel 1 Einleitung... 17 Kapitel 2 SQL der Standard relationaler Datenbanken... 21 Kapitel 3 Die Beispieldatenbanken... 39 Teil 2 Abfrage und Bearbeitung
Anfrageoptimierung Logische Optimierung
Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Logische Optimierung Dr. Thomas Gottron Wintersemester 2012/13 Ablauf der Deklarative Anfrage Scanner Parser Sichtenauflösung Algebraischer
7. XML-Datenbanksysteme und SQL/XML
7. XML-Datenbanksysteme und SQL/XML Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherung von XML-Dokumenten Speicherung von XML-Dokumenten als Ganzes Generische Dekomposition von XML-Dokumenten Schemabasierte
Inhalt. 1. Indextypen B*Baum-Index Reversed Key Index Bitmap Index Funktionsbasierter Index
Inhalt 1. Indextypen B*Baum-Index Reversed Key Index Bitmap Index Funktionsbasierter Index 2. Indexverwendung Vergleich von B*Baum und Bitmap Steuerung der Indexverwendung Richtlinien für die Indizierung
Datenbanken zur Entscheidungsunterstützung - Data Warehousing. Prof. Dr. T. Kudraß 1
Datenbanken zur Entscheidungsunterstützung - Data Warehousing Prof. Dr. T. Kudraß 1 Einführung Zunehmender Bedarf nach Analyse aktueller und historischer Daten Identifizierung interessanter Patterns Entscheidungsfindung
Übersicht der wichtigsten MySQL-Befehle
Übersicht der wichtigsten MySQL-Befehle 1. Arbeiten mit Datenbanken 1.1 Datenbank anlegen Eine Datenbank kann man wie folgt erstellen. CREATE DATABASE db_namen; 1.2 Existierende Datenbanken anzeigen Mit
In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.
1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?
Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort 13
Auf einen Blick Vorwort 13 Teil 1 Vorbereitung Kapitel 1 Einleitung 17 Kapitel 2 SQL - der Standard relationaler Datenbanken 21 Kapitel 3 Die Beispieldatenbanken 39 Teil 2 Abfrage und Bearbeitung Kapitel
Oracle OLAP 11g: Performance für das Oracle Data Warehouse
Oracle OLAP 11g: Performance für das Oracle Data Warehouse Marc Bastien Oracle BI Presales Agenda Performanceprobleme in Oracle DWH: gibt s das überhaupt? Mögliche Gründe und Lösungen
Datenbanken: Indexe. Motivation und Konzepte
Datenbanken: Indexe Motivation und Konzepte Motivation Warum sind Indexstrukturen überhaupt wünschenswert? Bei Anfrageverarbeitung werden Tupel aller beteiligter Relationen nacheinander in den Hauptspeicher
GROUP BY, HAVING und Sichten
GROUP BY, HAVING und Sichten Tutorübungen 09/33 zu Grundlagen: Datenbanken (WS 14/15) Michael Schwarz Technische Universität München 11.11 / 12.11.2014 1/12 GROUP BY HAVING Sichten Eine Tabelle studenten
Oracle 10g Einführung
Kurs Oracle 10g Einführung Teil 5 Einführung Timo Meyer Administration von Oracle-Datenbanken Timo Meyer Sommersemester 2006 Seite 1 von 16 Seite 1 von 16 Agenda 1 Tabellen und Views erstellen 2 Indizes
Übung Blatt 5. Materialized Views. Ulf Leser Wissensmanagement in der Bioinformatik
Übung Blatt 5 Materialized Views Ulf Leser Wissensmanagement in der Bioinformatik Achtung Die Tabellen, Views, Indexe etc. von Aufgabe 4 noch nicht löschen! Ulf Leser: DWH und DM, Übung, Sommersemester
3 Query Language (QL) Einfachste Abfrage Ordnen Gruppieren... 7
1 Data Definition Language (DDL)... 2 1.1 Tabellen erstellen... 2 1.1.1 Datentyp...... 2 1.1.2 Zusätze.... 2 1.2 Tabellen löschen... 2 1.3 Tabellen ändern (Spalten hinzufügen)... 2 1.4 Tabellen ändern
Kapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
Aggregatfunktionen in SQL
Aggregatfunktionen in SQL Michael Dienert 14. April 2008 1 Definition von Aggregatfunktionen Ihren Namen haben die Aggregatfunktionen vom englischen Verb to aggregate, was auf deutsch anhäufen, vereinigen,
Aufgabe 1 Indexstrukturen
8. Übung zur Vorlesung Datenbanken im Sommersemester 2006 mit Musterlösungen Prof. Dr. Gerd Stumme, Dr. Andreas Hotho, Dipl.-Inform. Christoph Schmitz 25. Juni 2006 Aufgabe 1 Indexstrukturen Zeichnen Sie
Anfragebearbeitung 2. Vorlesung Datenbanksysteme vom
Vorlesung Datenbanksysteme vom 21.11.2016 Anfragebearbeitung 2 Architektur eines DBMS Logische Optimierung Physische Optimierung Kostenmodelle + Tuning Physische Optimierung Iterator: einheitliche Schnittstelle
insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle
Einführung in SQL insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Quelle Wikipedia, 3.9.2015 SQL zur Kommunikation mit dem DBMS SQL ist
