Informationssysteme: Neuere Konzepte Teil II

Ähnliche Dokumente

Data Warehousing und Data Mining

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Business Intelligence Data Warehouse. Jan Weinschenker

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

IDV Assessment- und Migration Factory für Banken und Versicherungen

Gesetzliche Aufbewahrungspflicht für s

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Survival Guide für Ihr Business Intelligence-Projekt

Daten-Synchronisation zwischen Mozilla Thunderbird (Lightning) / Mozilla Sunbird und dem ZDV Webmailer

Marketing Intelligence Schwierigkeiten bei der Umsetzung. Josef Kolbitsch Manuela Reinisch

OMM Online Maintenance Management

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Benutzerverwaltung Business- & Company-Paket

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Data Warehouse Definition (1)

Cad-OasEs Int. GmbH. 20 Jahre UG/NX Erfahrung prägen Methodik und Leistungen. Nutzen Sie dieses Wissen!

Kurzeinführung Excel2App. Version 1.0.0

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen. Wir bringen Qualität. Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen

Kurzanweisung für Google Analytics

3. GLIEDERUNG. Aufgabe:

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Das System für Ihr Mitarbeitergespräche

Outlook 2000 Thema - Archivierung

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Kapitel 2 Terminologie und Definition

Einführungsveranstaltung: Data Warehouse

Kapitel II. Datenbereitstellung. II. Datenbereitstellung. II.1 Grundlagen. II. Datenbereitstellung. Collect Initial Data. II.

1. Einführung. 2. Archivierung alter Datensätze

Schuljahreswechsel im Schul-Webportal

HSR git und subversion HowTo

Bauteilattribute als Sachdaten anzeigen

SEMINAR Modifikation für die Nutzung des Community Builders

Anbindung Borland CaliberRM

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

CENIT RETENTION SOLUTION 1.1 Verwaltung von temporären Sperren und Löschworkflows. Copyright CENIT AG

Der Kalender im ipad

OLAP und Data Warehouses

Content Management System mit INTREXX 2002.

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

all media Publikationssysteme Entwicklung und Integration

teischl.com Software Design & Services e.u. office@teischl.com

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Drägerware.ZMS/FLORIX Hessen

Das Standortreporting von MVV Energie. Ihre Energie immer im Blick mit unserem Online-Portal für Strom und Gas

Hilfe zur Dokumentenverwaltung

Beschaffung mit. Auszug aus dem Schulungshandbuch: Erste Schritte im UniKat-System

Ihr CMS für die eigene Facebook Page - 1

Updatehinweise für die Version forma 5.5.5

Datensicherung EBV für Mehrplatz Installationen

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis

IWP Institut für Wirtschafts- und Politikforschung Richter & Schorn gfa@iwp-koeln.org,

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Copyright 2014 Delta Software Technology GmbH. All Rights reserved.

3 Windows als Storage-Zentrale

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Hilfe zur Urlaubsplanung und Zeiterfassung

Datenbanken. Prof. Dr. Bernhard Schiefer.

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Was ist neu in Sage CRM 6.1

DOKUMENTATION PASY. Patientendaten verwalten

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Zur Bestätigung wird je nach Anmeldung (Benutzer oder Administrator) eine Meldung angezeigt:

Anleitung über den Umgang mit Schildern

Agiles Design. Dr.-Ing. Uwe Doetzkies Gesellschaft für Informatik mail:

e-books aus der EBL-Datenbank

2006 COGNOSCO AG, 8057 ZUERICH, SWITZERLAND All rights reserved. Performance Management Markterfolg dank Kundenrating

SDD System Design Document

Business Process Management. AristaFlow GmbH Ulm

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Moodle-Kurzübersicht Kurse Sichern und Zurücksetzen

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

ARAkoll 2013 Dokumentation. Datum:

Kommunikations-Management

Wiederkehrende Buchungen

MSI TECHNOLOGY. RaidXpert AMD. Anleitung zur Installation und Konfiguration MSI

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Persönliches Adressbuch

ERP-Evaluation systematisch und sicher zum optimalen ERP-System

FINANZ+ mobile Erfassung. Finanzmanagementsystem FINANZ+ Erfassung von Zählerständen auf mobilen Geräten

Sicher auf Erfolgskurs. Mit Ihrem Treuhand-Betriebsvergleich

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Lastenheft. Inhaltsverzeichnis. Gruppe: swp09-5. Projektleiterin: Anne Vogler am: 28. April Zielbestimmungen 2. 2 Produkteinsatz 2

Projektarbeit POS II zum Thema Branchensoftware in der Druckindustrie. Ben Polter, Holger Räbiger, Kilian Mayer, Jochen Wied

Kapitel I: Registrierung im Portal

Version 3.2 vom

Um dies zu tun, öffnen Sie in den Systemeinstellungen das Kontrollfeld "Sharing". Auf dem Bildschirm sollte folgendes Fenster erscheinen:

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

QR-FUNKTION. Informationen über zu erledigende Aufgaben an das Reinigungspersonal senden.

WIE WIRKLICH IST DIE WIRKLICHKEIT WIE SCHNELL WERDEN SMART GRIDS WIRKLICH BENÖTIGT? DI Dr.techn. Thomas Karl Schuster Wien Energie Stromnetz GmbH

Transkript:

Informationssysteme: Neuere Konzepte Kapitel 1: Data-Warehousing-Architektur Folien teilweise übernommen von Matthias Gimbel 2 von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser Umsatz im Vergleich zum letzten Jahr? In welchen Regionen liegt der erzielte Gewinn unterhalb der Erwartungen? Mit welchen Produktgruppen erzielen wir den größten Gewinn? Ich möchte wöchentlich einen Bericht über die wichtigsten Kennzahlen und deren Veränderung in den letzten Wochen! Welchen durchschnittlichen Umsatz erwirtschaften wir pro Filiale? 1

3 Herausforderungen Die benötigten Daten sind eventuell auf die verschiedenen Filialen verteilt, werden teilweise unterschiedlich benannt, müssen aus verschiedenen Anwendungen extrahiert werden, liegen in unterschiedlicher Granularität (Lebensmittel Milchprodukte, Obst & Gemüse) oder in unterschiedlicher Struktur vor, sind fehlerbehaftet oder unvollständig, bereits gelöscht oder auf Band archiviert. -Anfragen stören möglicherweise den laufenden Betrieb 4 Früher Telefonaktionen Taschenrechner Listen hoher zeitlicher Aufwand hoher Personalaufwand hohe Kosten hohe Fehleranfälligkeit schwierige Nachvollziehbarkeit 2

5 Ziel Daten sollen einheitlich benannt sein, einheitliche Bedeutung besitzen. Zugriff soll jederzeit, möglichst aktuell und schnell möglich sein, auch komplexe Fragestellungen erlauben, laufenden Betrieb nicht beeinträchtigen, auch auf historische Daten möglich sein, automatisiert ablaufen, nachvollziehbar sein, zuverlässig erfolgen. 6 Definition A is a subject oriented, integrated, non-volatile, and time variant collection of data in support of management's decision-making process. (Inmon, 1996) 3

7 Definition Fachorientierung (subject oriented) themenbezogen, nicht auf einzelne Anwendungen bezogen Integrierte Datenbasis (integrated) integriert Daten aus verschiedenen Systemen und Standorten Nicht flüchtige Datenbasis (non-volatile) dauerhafte Speicherung der Daten, kein Ändern, kein Löschen von Daten Historische Daten (time variant) zeitpunktbezogene Speicherung, häufig Vergleiche von Werten zu verschiedenen Zeitpunkten 8 transaktional vs. analytisch Transaktionale/Operative Systeme Benutzer: Sachberarbeiter, Verkäufer dienen der täglichen Arbeit OLTP = OnLine Transactional Processing Analytische/Entscheidungsunterstützende Systeme Benutzer: Analysten, Management helfen, strategische Entscheidungen zu fällen Basis für alle entscheidungsunterstützenden Anwendungen, wie z. B. Reporting OLAP = (OnLine Analytical Processing) Data Mining DSS = Decision Support System EUS = Entscheidungsunterstützendes System 4

9 Analytische Systeme Eigenschaften: enthalten sehr große Datenmengen (möglichst alle relevanten Unternehmensdaten) über mehrere Jahre wenige Benutzer und Zugriffe, aber mit hohem Datenvolumen keine Änderungen oder Löschungen von Einträgen überwiegend historische, zusammengefasste Daten ''Schnappschüsse'' der operativen Daten relativ hohe Redundanz Daten strukturiert, integriert und konsolidiert 10 OLTP vs. OLAP Fokus Transaktionsdauer und typ Anfragestruktur Datenvolumen einer Anfrage Datenvolumen eines Systems Datenalter Datenmodell Verfügbarkeit Anzahl Benutzer OLTP (transaktional) Lesen, Schreiben, Modifizieren, Löschen kurze Lese-/ Schreibtransaktionen einfach strukturiert wenige Datensätze Gigabyte (GB) Terabyte (TB) aktuell - mehrere Monate anfrageflexibles Datenmodell sehr hoch hoch OLAP (analytisch) Lesen, periodisches Hinzufügen lange Lesetransaktionen komplex viele Datensätze Terabyte (TB) Petabyte (PB) aktuell - viele Jahre analysebezogenes Datenmodell hoch gering 5

11 Referenzarchitektur eines DWS 12 Data-Warehouse- Datenfluss Kontrollfluss 6

13 Repository Datenfluss Kontrollfluss 14 Referenzarchitektur eines DWS Repository Datenfluss Kontrollfluss 7

15 ETL-Prozess Repository ETL = Datenfluss Kontrollfluss 16 ETL-Prozess: Extrahieren der Daten aus den Quellsystemen Wann? periodisch auf Anfrage ereignisgesteuert (z. B. nach x Änderungen) sofort Unterschiedliche Quellen Datenbanken Webseiten Dateien Wie? vollständig inkrementell Repository Wie bekommt man Änderungen mit? Trigger SQL-Anfrage Zeitstempel-basiert Snapshot-Vergleich 8

17 ETL-Prozess: #1 Entfernen irrelevanter Daten Säubern der Daten Ergänzung fehlender Werte Belegung mit default-werten Prüfung auf falsche Werte (Plausibilitätsprüfung) Überbrückung struktureller Differenzen Beispiel: Speditionsfilialen: 1 Tabelle pro Filiale: Gut, Menge 1 Zeile pro Gut 1 Tabelle pro Gut: Auftraggeber, Menge 1 Zeile pro Auftraggeber 1 Tabelle pro Filiale: Kohle, Öl, 1 Zeile pro Verkaufstag Repository 18 ETL-Prozess: #2 Anpassen der Werte Übersetzungen zwischen Bezugssystemen Maßeinheiten (inch/m, EUR/$) Kodierungen (ASCII/Unicode) Datumsangaben (D/US) Anpassungen bei semantischen Differenzen Umsatz brutto oder netto Gewinn vor Steuern, nach Steuern mit/ohne Sonderbelastungen Repository 9

19 ETL-Prozess: von analyseunabhängigen Detaildaten in die von analyseabhängigen Daten in das Definition und Befüllen der Basistabellen Aufbau und Wartung von Indexstrukturen Anpassen abgeleiteter Sichten Repository 20 Eigenschaften integrierte Sicht umfassend bezüglich Zeit und Granularität Modellierung und Optimierung anwendungsneutral Daten werden nach definierter Zeit in ein übertragen Aktualisierung zu beliebigem Zeitpunkt möglich Daten liegen bereinigt vor Funktion Sammel- und Integrationsfunktion (logisch) zentrales Datenlager Distributionsfunktion Versorgung aller s Auswertungsfunktion Nur wenn direkt auf zugegriffen wird! 10

21 Nabe-Speiche-Architektur 22 Eigenschaften Datenbank für zwecke Enthält alle für zweck benötigten Daten Strukturierung orientiert sich an bedürfnissen Funktion Unterstützung des Ladeprozesses Unterstützung des prozesses 11

23 und Data Mart Erfahrung: Data-Warehouse-Projekte scheitern oft an ihrer Größe Anwender brauchen oftmals keine Sicht auf das komplette Daher oftmals auch sogenannte Data Marts: kleine s für überschaubaren Bereich Entwicklung entweder als Teilbestand eines bereits existierenden großen oder als erster Schritt hin zu einem integrierten unternehmensweiten. 24 Aggregierung und Gruppierung Durch Aggregierung und Gruppierung werden die einzelnen Sichten anwendergerecht verdichtet. Aufbereitung der Daten für verschiedene Nutzersichten Data Mart Data Mart Data Mart Managementsicht sicht Ableitung von Sichten verschiedener Granularität aus den Basisdaten Basisdaten 12

25 Data-Warehouse- Zentrale Steuerung aller Data-Warehouse- Komponenten e Extraktoren Transformatoren Ladekomponenten komponenten Initiierung des Datenbeschaffungsprozesses regelmäßige Zeitintervalle von Datenänderungen abhängig auf explizites Verlangen 26 Metadaten Metadaten sind Daten über Daten Wozu werden Metadaten benötigt? Welche Metadaten werden in einem Data- Warehouse-System benötigt? 13

27 Metadaten Partnerarbeit: Variante A Sie sind ab sofort für ein laufendes Data-Warehouse-System verantwortlich: Welche Informationen benötigen Sie? Woher bekommen Sie diese Informationen? Variante B Sie waren für ein laufendes Data-Warehouse-System verantwortlich: Welche Informationen geben Sie bei der Übergabe Ihrem Nachfolger? Variante C Sie sind der Vorgesetzte eines für ein Data-Warehouse-System verantwortlichen Mitarbeiters und haben schlechte Erfahrungen mit der Dokumentation gemacht: Welche Vorgaben geben Sie einem neuen Verantwortlichen bezüglich der Dokumentation des Data- Warehouse-Systems? 28 Metadaten sind wichtig! Historie Warum wurde eine Entscheidung getroffen? beim Aufbau, bei der Erweiterung beim Betrieb Unternehmen Ansprechpartner Datenqualität der Datenquellen 14

29 Metadaten sind wichtig! Konzeptuelle Sicht Anforderungen Welche Anfragen möchten anwender stellen? Terminologie Einheitliche Begriffsdefinitionen: Welche Terminologie verwenden anwender? ETL-Prozess Welche Quelldaten werden benötigt? Welche en werden benötigt? Aggregierung Wann werden welche Daten wie aggregiert? Welche Aggregierungen sind erlaubt? 30 Metadaten sind wichtig! Logische Sicht Schemata Datenquellen,,, anwendungen, Regeln sregeln Aggregierungsregeln Physische Sicht Tabellen Indexstrukturen Sichten Materialisierung Partitionierung 15

31 Metadaten sind wichtig! Organisation Wann werden Daten ins geladen? Welche Datenmengen sind zu verwalten bzw. zu laden? Benutzergruppen, Zugriffsrechte Backup-Strategie Datensicherheit Datenschutz 32 Der sammelt alle Metadaten, speichert Metadaten zentral im Repository, arbeitet mit dem Data-Warehouse- zusammen. Repository 16

33 anwendungen Reporting einfache, automatisch erzeugbare Berichte OLAP aufwändige, automatisch erzeugbare Berichte mit Navigationsmöglichkeit später Data Mining Suche von Mustern in Daten später Repository 34 Entwicklungszyklus Iterativer Prozess Anfangs ist den Beteiligten das Potential eines DWS unklar. Neue Anforderungen kommen erst bei laufendem Betrieb oder nach erstem Prototyp. Qualität steigt durch Anwender-Feedback! Aufbau eines DWS in einem einzigen Schritt besitzt hohe Komplexität und erfordert hohen zeitlichen und personellen Aufwand Management oft erst nach ersten Ergebnissen zu überzeugen besser erst vielversprechenstes Anwendungsgebiet aufbauen (positives Feedback) sukzessive weitere Datenquellen integrieren und weitere Data Marts aufbauen Think big, start small, grow step by step! 17

35 Entwicklungszyklus Laufender Betrieb: Alles erledigt? Nein! ing der Benutzung Welche Daten werden regelmäßig genutzt? Wie schnell wächst der Datenbestand? Wer benutzt das DW? Sind die Antwortzeiten noch akzeptabel?... und natürlich sämtliche Veränderungen im Unternehmen im Auge behalten und gegebenenfalls reagieren... 36 Literatur A. Bauer, H. Günzel: Systeme. Architektur, Entwicklung, Anwendung. dpunkt, 2001. W. Lehner: Datenbanktechnologie für Data- Warehouse-Systeme. dpunkt, 2003. 18