Vertrautmachen mit Daten



Ähnliche Dokumente
Aufgabe 1: [Logische Modellierung]

OPERATIONEN AUF EINER DATENBANK

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouse Definition (1)

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

SJ OFFICE - Update 3.0

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Professionelle Seminare im Bereich MS-Office

Updatehinweise für die Version forma 5.5.5

Tevalo Handbuch v 1.1 vom

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

7. Übung - Datenbanken

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

QM: Prüfen -1- KN

3. Das Relationale Datenmodell

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

FORUM HANDREICHUNG (STAND: AUGUST 2013)

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Mitarbeiterbefragung als PE- und OE-Instrument

Data Mining: Einige Grundlagen aus der Stochastik

Lehrerarbeitslosigkeit in den Sommerferien 2015

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

WS 2009/10. Diskrete Strukturen

1 Mathematische Grundlagen

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Auswertung von Grundinformationen zu den Jugendleiter/innen Juleica-Daten

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Mean Time Between Failures (MTBF)

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Unternehmensname Straße PLZ/Ort Branche Mitarbeiterzahl in Deutschland Projektverantwortlicher Funktion/Bereich * Telefon

Netzwerkeinstellungen unter Mac OS X

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

OP-LOG

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2

Projektmanagement in der Spieleentwicklung

ODBC-Treiber Programmübersicht

Beschaffung mit. Auszug aus dem Schulungshandbuch: Erste Schritte im UniKat-System

Beheben von verlorenen Verknüpfungen

Leseauszug DGQ-Band 14-26

Kurzanweisung für Google Analytics

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

CHECK24-Autokreditatlas. Analyse der Autokredit-Anfragen aller CHECK24-Kunden aus 2011 & 2012

Dokumentation zur Versendung der Statistik Daten

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

Allgemeines zu Datenbanken

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Multicheck Schülerumfrage 2013

Relationale Datenbanken Datenbankgrundlagen

Qualifikationsbereich: Application Engineering Zeit:

Data Quality Management: Abgleich großer, redundanter Datenmengen

Willkommen zur Vorlesung Statistik

Einführung in. Logische Schaltungen

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Was die Fachhändler bewegt: Schlagworte der Händler zur Umsatzmeldung UMSATZENTWICKLUNG-MAI: +3,8% UMSATZENTWICKLUNG-KUMULIERT: +1,3%

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Einführung in das Arbeiten mit MS Excel. 1. Bearbeitungs

Hilfe zur Urlaubsplanung und Zeiterfassung

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Einbindung einer ACT!12-16 Datenbank als Datenquelle für den Bulkmailer 2012

Programm 4: Arbeiten mit thematischen Karten

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Mengenvergleiche: Alle Konten außer das, mit dem größten Saldo.

tentoinfinity Apps 1.0 EINFÜHRUNG

Business Intelligence Praktikum 1

Erstellen von x-y-diagrammen in OpenOffice.calc

OKB Die MS SQL-Volltextsuche für organice SQL einrichten

Data Mining-Modelle und -Algorithmen

Im Original veränderbare Word-Dateien

WAS finde ich WO im Beipackzettel

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

SharePoint Demonstration

Kontakte mit MS-Outlook als Mail versenden Inhalt

Barrierefreie Webseiten erstellen mit TYPO3

(für Grund- und Leistungskurse Mathematik) 26W55DLQHU0DUWLQ(KUHQE UJ*\PQDVLXP)RUFKKHLP

Funktion Erläuterung Beispiel

Umsatz-Kosten-Treiber-Matrix Woodmark Consulting AG

Kapitel 8: Physischer Datenbankentwurf

How to do? Projekte - Zeiterfassung

Logische Modelle für OLAP. Burkhard Schäfer

Transkript:

Kapitel III Vertrautmachen mit Daten 2004 AIFB / FZI 1

III Vertrautmachen mit Daten (see also Data Preparation ) 2004 AIFB / FZI 2

III Vertrautmachen mit Daten III.1 OLAP III.1.1 Einführung in OLAP Wie gesehen, gibt es große Unterschiede zwischen operativen Systemen und dem DWh Entsprechend gibt es fundamentale Unterschiede auch zwischen den jeweiligen Zugriffsarten auf diese Datenquellen: OLAP = On-Line Analytical Processing benutzt DWh OLTP = On-Line Transaction Processing benutzt operative Systeme 2004 AIFB / FZI 3

III.1.1 Einführung in OLAP OLTP hohe Zahl kurzer, atomarer, isolierter, wiederkehrender Transaktionen z.b. Konto-Update, Flugbuchung, Telefon-Gespräch Transaktionen benötigen detaillierte, aktuelle Daten Daten werden (oft tupelweise) gelesen und relativ häufig aktualisiert Transaktionen dienen dem Tagesgeschäft und haben relativ hohe Ansprüche an die Bearbeitungsgeschwindigkeit 2004 AIFB / FZI 4

III.1.1 Einführung in OLAP Definition von OLAP: OLAP Systeme dienen der Entscheidungs-Unterstützung oder können in den Phasen Data Understanding bzw. Data Preparation im Rahmen des Data-Mining-Prozesses eingesetzt werden. OLAP-Funktionen erlauben den schnellen, interaktiven Zugriff auf Unternehmensdaten unter beliebigen unternehmensrelevanten Blickwinkeln (Dimensionen) auf verschiedenen Aggregationsstufen mit verschiedenen Techniken der Visualisierung Hauptmerkmal ist die multi-dimensionale Sichtweise auf Daten mit flexiblen interaktiven Aggregations- bzw. Verfeinerungsfunktionen entlang einer oder mehrerer Dimensionen. 2004 AIFB / FZI 5

III.1.1 Einführung in OLAP Multi-Dimensionalität: Mehrdimensionale Sichtweise auf Daten ist sehr natürlich. Sichtweise der Analysten auf Unternehmen ist mehrdimensional. Konzeptuelles Datenmodell sollte mehrdimensional sein, damit Analysten leicht und intuitiv Zugang finden. Beispiel: Verkaufszahlen können nach unterschiedlichen Kriterien / Dimensionen aggregiert und analysiert werden. nach Produkt: Produkt, Produktkategorie, Industriezweig nach Region: Filiale, Stadt, Bundesland nach Zeit: Tag, Woche, Monat, Jahr nach verschiedenen Dimensionen des Käufers: Alter, Geschlecht, Einkommen des Käufers und nach beliebigen Kombinationen von Dimensionen, z.b. nach Produktkategorie, Stadt und Monat 2004 AIFB / FZI 6

III.1.1 Einführung in OLAP Kennzahlen: Die Analyse-Gegenstände von OLAP sind numerische Werte, typischerweise Kennzahlen genannt (oder auch Maße, Metriken oder Fakten). Beispiel: Verkaufszahlen, Umsatz, Gewinn, Lagerbestand,... Diese numerischen Werte lassen sich auf verschiedene Weise verdichten, z.b. Summenbildung Mittelwertbildung Minimum- oder Maximumbestimmung Die zulässige Art der Verdichtung hängt vom Skalenniveau der Kennzahl ab. 2004 AIFB / FZI 7

III.1.1 Einführung in OLAP Skalenniveaus In der Statistik unterscheidet man die Attributausprägungen einer vorgegebenen Menge von Daten mittels Skalen mit unterschiedlichem Skalenniveau. Die wichtigsten Typen sind: Nominalskalierte Merkmale: Ausprägungen sind Namen, keine Ordnung möglich keine Aggreagation möglich Ordinalskalierte Merkmale: Ausprägungen können geordnet, aber Abstände nicht interpretiert werden. Median macht Sinn, Mittelwert z.b. nicht Kardinalskalierte Merkmale: Ausprägungen sind Zahlen, Interpretation der Abstände möglich (metrisch) Mittelwertbildung, Standardabweichung etc. sinnvoll 2004 AIFB / FZI 8

III.1.1 Einführung in OLAP Dimensionen: Jede Kennzahl hängt von einer Menge von Dimensionen ab. Diese bilden den Kontext der Kennzahlen. Beispiel: Die Verkaufszahlen (Kennzahl) hängen von den Dimensionen Produkt, Region und Zeit ab. Die Dimensionen sind orthogonal (unabhängig). Sie definieren einen sog. Hyper-Würfel (hyper cube). Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch 1 2 3 4 5 6 7 Sachsen-Anhalt Rheinland-Pfalz Hessen Baden-Württemb. Bayern Produkt Region Zeit Es kann eine beliebige Zahl an Dimensionen geben (abhängig vom Zweck des OLAP-Systems und der enthaltenen Daten). In manchen Anwendungen treten bis zu 50 Dimensionen auf. 2004 AIFB / FZI 9

III.1.1 Einführung in OLAP Dimension Zeit: Spezielle Dimension, die in jedem OLAP-System existiert, ist die Zeit. Leistung eines Unternehmens wird immer anhand der Zeit bewertet: aktueller Monat im Vergleich zu letztem Monat aktueller Monat im Vergleich zum gleichen Monat des Vorjahres Dimension Zeit unterscheidet sich von allen anderen Dimensionen: Zeit hat einen linearen Charakter: Januar kommt vor Februar Zeit hat Wiederholungscharakter: jeden Montag, werktags,... OLAP-System muss Umgang mit der Dimension Zeit und den damit verbundenen Besonderheiten unterstützen. Attribute und Attributelemente: Jede Dimension ist durch eine Menge von Attributen charakterisiert. Beispiel: Die Dimension Region ist charakterisiert durch die Attribute Filiale, Stadt und Bundesland. 2004 AIFB / FZI 10

III.1.1 Einführung in OLAP Attribute und Attributelemente: Diese Attribute können hierarchisch angeordnet sein (Aggregationsstufen) Beispiel: Gesamtwert ergibt sich aus den Werten mehrerer Bundesländer. Wert für ein Bundesland ergibt sich aus Werten mehrerer Städte. Wert für eine Stadt ergibt sich aus Werten mehrerer Filialen. Region: Zeit: Produkt: Bundesland Jahr Industriezweig Stadt Woche Monat Produktkategorie Filiale Tag Produkt 2004 AIFB / FZI 11

III.1.1 Einführung in OLAP Ein Pfad in einer solchen Attribut-Hierarchie (z.b. Tag, Monat, Jahr) wird auch consolidation path genannt. Jedes Attribut einer Dimension wird durch Attributelemente instantiert. Beispiel: Das Attribut Produkt der Dimension Produkt hat die Attributelemente: Coca-Cola, Pepsi-Cola, Afri-Cola,... Das Attribut Produktkategorie hat die Attributelemente: Orangensaft, Apfelsaft, Orangenlimo, Cola,... Das Attribut Industriezweig hat die Attributelemente: Lebensmittelindustrie, Textilindustrie, Schwerindustrie,... 2004 AIFB / FZI 12

III.1.2 OLAP Funktionalität III.1.2 OLAP Funktionalität Bei der Analyse können beliebige Aggregationsstufen visualisiert werden: Drill-Down bzw. Roll-Up-Operationen Bedingungen an Dimensionen, Attribute und Attributelemente reduzieren Dimensionalität der visualisierten Daten: Slice & Dice - Operationen Analyse wird durch Vielzahl von Visualisierungstechniken unterstützt. Bedingungen werden interaktiv gewählt (Buttons, Menüs, drag & drop), so dass Analysten und Manager keine komplizierte Anfragesprache lernen müssen. 2004 AIFB / FZI 13

III.1.2 OLAP-Funktionalität Drill-Down und Roll-Up Entlang der Attribut-Hierarchien werden die Daten verdichtet bzw. wieder detailliert und sind so auf verschiedenen Aggregationsstufen für Analysen zugreifbar. Verdichtung/Detaillierung kann entlang einer, mehrerer oder aller Dimensionen geschehen - gleichzeitig oder in beliebiger Reihenfolge. Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch 1 2 3 4 5 6 7 Sachsen-Anhalt Rheinland-Pfalz Hessen Baden-Württemb. Bayern drill - down Hier: Gleichzeitige Detaillierung aller Dimensionen 1.7 2.7 3.7 4.7 5.7 6.7 7.7 München Fürth Augsburg Passau Nürnberg Coca-Cola Pepsi-Cola Afri-Cola Kinder-Cola... roll - up 2004 AIFB / FZI 14

III.1.2 OLAP-Funktionalität Slice & Dice: Bei dieser Operation wird die Dimensionalität der visualisierten Daten reduziert. Zu einer Teilmenge der Dimensionen (sog. page dimensions) werden Bedingungen formuliert. Alle Daten in der resultierenden Tabelle genügen diesen Bedingungen. Die page dimensions tauchen in der neuen Tabelle nicht mehr explizit auf, sondern definieren implizit die Menge dargestellter Daten. Slice & Dice entspricht dem Herausschneiden einer Scheibe (slice) aus dem Hyper-Würfel. Nur diese Scheibe wird weiterhin visualisiert. 2004 AIFB / FZI 15

III.1.2 OLAP-Funktionalität Beispiele: Lokation bestimmter atomarer und aggregierter Werte im Hyper-Würfel. a) Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch 1 2 3 4 5 6 7 Sachsen-Anhalt Rheinland-Pfalz Hessen Baden-Württemb. Bayern a) Verkaufszahlen für Orangensaft in Bayern im Mai 2004 AIFB / FZI 16

III.1.2 OLAP-Funktionalität b) Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch 1 2 3 4 5 6 7 Sachsen-Anhalt Rheinland-Pfalz Hessen Baden-Württemb. Bayern b) Verkaufszahlen für Milch in ganz Süddeutschland im Juli 2004 AIFB / FZI 17

III.1.2 OLAP-Funktionalität c) Orangensaft Orangenlimo Apfelsaft Mineralwasser sonstige Cola Milch 1 2 3 4 5 6 7 Sachsen-Anhalt Rheinland-Pfalz Hessen Baden-Württemb. Bayern c) Verkaufszahlen insgesamt für Sachsen-Anhalt Aggregation der Verkaufszahlen über alle Monate und alle Produkte 2004 AIFB / FZI 18

III.1.2 OLAP-Funktionalität Analyse bezieht sich nur selten auf einen Wert: sondern auf eine Folge von Werten Entwicklungen und Trends erkennbar (d) oder auf eine Menge von Werten Vergleiche verschiedener Werte ermöglicht (e) 2004 AIFB / FZI 19

III.1.2 OLAP-Funktionalität d) Entwicklung der Verkaufszahlen für Apfelsaft in Baden-Württemberg im letzten Jahr. Jan Feb Mär Apr Mai Jun Jul Aug Sept Okt Nov Dez page dimensions: Produkt = Apfelsaft, Region = Baden-Württemberg 2004 AIFB / FZI 20

III.1.2 OLAP-Funktionalität e) Vergleich der Verkaufszahlen für Apfelsaft in den Regionen Deutschlands für das erste Halbjahr Bayern Baden- Würtemberg Hessen Jan Feb Mär Apr Mai Jun Sachsen- Anhalt Rheinland- Pfalz page dimensions: Produkt = Apfelsaft 2004 AIFB / FZI 21

III.1.3 Mehrdimensionales Datenmodell III.1.3 Mehrdimensionales Datenmodell Der beste Weg um zu einem OLAP-fähigen DWh zu kommen: 1. Erstellen eines mehrdimensionalen konzeptuellen Datenmodells. 2. Ableiten eines relationalen logischen Datenmodells. Relationale DBS bilden die Implementierungsebene des DWh Stern-Schema: (star schema) mehrdimensionales Datenmodell durch Stern-Schema realisierbar. Konstrukte eines Stern-Schemas: Kennzahlen: Gegenstände der Analyse: Verkaufszahlen Dimensionen definieren den Kontext der Kennzahlen: Produkt, Region, Zeit 2004 AIFB / FZI 22

III.1.3 Mehrdimensionales Datenmodell Beispiel: Produkt Dimension Verkaufszahlen Region Dimension Kennzahl Zeit 2004 AIFB / FZI 23

III.1.3 Mehrdimensionales Datenmodell Vorteile des Stern-Schemas gegenüber herkömmlichen relationalen Schemata: Schema-Entwurf entspricht der natürlichen Sichtweise der Benutzer Daten können in einer für Analysen adäquaten Weise zugegriffen werden. Erweiterungen und Änderungen am Schema sind leicht zu realisieren. Beziehungen zwischen den Tabellen sind vordefiniert Join-Operationen können durch entsprechende Zugriffspfade unterstützt werden Schnelle Antwortzeiten sind möglich Stern-Schema kann leicht in relationales DB-Schema umgesetzt werden. 2004 AIFB / FZI 24

III.1.3 Mehrdimensionales Datenmodell Umsetzung des Stern-Schemas in relationale Tabellen: Kennzahlentabelle (major table): Die Gegenstände der Analyse (Kennzahlen) werden in dieser Tabelle gesichert Nebentabelle (minor tables): Jede Dimension wird zu einer eigenen Relation / Tabelle. Kennzahlentabelle: Jedes Tupel der Kennzahlentabelle besteht aus einem Zeiger für jede Dimensionstabelle (Fremdschlüssel), die den Kontext eindeutig definieren und den numerischen Werten (Daten) für den jeweiligen Kontext. Sie enthält die eigentlichen Geschäftsdaten, die analysiert werden sollen. Die Kennzahlentabelle kann sehr viele Zeilen enthalten (Millionen). Der Schlüssel der Kennzahlentabelle wird durch die Gesamtheit der Dimensionszeiger gebildet 2004 AIFB / FZI 25

III.1.3 Mehrdimensionales Datenmodell Dimensionstabelle: Jede Dimensionstabelle enthält einen eindeutigen Schlüssel (z.b. Produktnummer) und beschreibende Daten der Dimension (Attribute). Dimensionstabellen sind deutlich kleiner als die Kennzahlentabelle. Zusammenhang zur Kennzahlentabelle über Schlüssel/Fremdschlüssel-Relation Beispiel: Tabellen abgeleitet aus einem Stern-Schema: Produkt-Nr. Name Beschreibung Produktkategorie Industriezweig Stückpreis Kunden-Nr. Name Adresse Ort Produkt-Nr. Filial-Nr. Kunden-Nr. Datums-ID Verkaufszahl Gesamtpreis Rabatt Filial-Nr. Stadt Bundesland Datums-ID Tag Woche Monat Jahr Arbeitstag 2004 AIFB / FZI 26

III.1.3 Mehrdimensionales Datenmodell Schneeflocken-Schema: Stern-Schema repräsentiert die Attribut-Hierarchien in den Dimensionen nicht explizit. Explizite Hierarchie kann durch sog. Schneeflocken-Schemata (Snowflake Schema) erreicht werden. Beispiel: Schneeflocken-Schema Produktkategorie Industriezweig Produkt-Nr. Name Beschreibung Produktkategorie Stückpreis Produkt-Nr. Filial-Nr. Kunden-Nr. Datums-Id Verkaufszahl Gesamtpreis Rabatt Filial-Nr. Stadt Tag Woche Stadt Bundesland Woche Jahr Kunden-Nr. Name Adresse Ort Datums-ID Tag Tag Monat Monat Jahr 2004 AIFB / FZI 27

III.1.3 Mehrdimensionales Datenmodell MOLAP: Multidimensional On-Line Analytical Processing Spezifische Produkte für OLAP, die auf einer eigenen, proprietären mehrdimensionalen Datenbank beruhen. Intern beruht die Datenbank auf einer Zell-Struktur, bei der jede Zelle entlang jeder Dimension identifiziert werden kann. ROLAP: Relational On-Line Analytical Processing Produkte, die eine multidimensionale Analyse auf einer relationalen Datenbank ermöglichen. Sie speichern eine Menge von Beziehungen, die logisch einen mehrdimensionalen Würfel darstellen, aber physikalisch als relationale Daten abgelegt werden. 2004 AIFB / FZI 28