Data Warehousing und Data Mining



Ähnliche Dokumente
Informationssysteme: Neuere Konzepte Teil II

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Business Intelligence Data Warehouse. Jan Weinschenker

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Schuljahreswechsel im Schul-Webportal

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Das Standortreporting von MVV Energie. Ihre Energie immer im Blick mit unserem Online-Portal für Strom und Gas

BOKUbox. Zentraler Informatikdienst (ZID/BOKU-IT) Inhaltsverzeichnis

IDV Assessment- und Migration Factory für Banken und Versicherungen

Anleitung über den Umgang mit Schildern

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

SCHALTEN SIE DEN DATENSCHUTZ EIN. EINFACH & EFFEKTIV.

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Internet online Update (Mozilla Firefox)

Arbeiten mit UMLed und Delphi

Übung - Konfigurieren einer Windows 7-Firewall

Checkliste. zur Gesprächsvorbereitung Mitarbeitergespräch. Aktivität / Frage Handlungsbedarf erledigt

Angebot. UVV-Prüfungen und Wartungen von mobilen Abfallpressen

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

So versprüht man digitalen Lockstoff

Was sind Jahres- und Zielvereinbarungsgespräche?

Logistikmanagement aus Kundensicht, ein unterschätztes Potenzial

Allgemeines zu Datenbanken

Hilfedatei der Oden$-Börse Stand Juni 2014

[Customer Service by KCS.net] KEEPING CUSTOMERS SUCCESSFUL

Projektmanagement in Outlook integriert

Organisation des Qualitätsmanagements

Kapitel 10 Aktive DBMS

Wo sind meine Anforderungen?

Herzlich willkommen bei tetraguard Ihrem Spezialisten für Sicherheitssoftware!

Benutzerhandbuch - Elterliche Kontrolle

Cad-OasEs Int. GmbH. 20 Jahre UG/NX Erfahrung prägen Methodik und Leistungen. Nutzen Sie dieses Wissen!

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Einführungsveranstaltung: Data Warehouse

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

teamsync Kurzanleitung

Gesetzliche Aufbewahrungspflicht für s

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Drei Fragen zum Datenschutz im. Nico Reiners

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Projekt- Management. Landesverband der Mütterzentren NRW. oder warum Horst bei uns Helga heißt

Kapitel 2 Terminologie und Definition

PHIMEA MITARBEITERZUFRIEDENHEIT. Erkennen. Verstehen. Handeln. Mitarbeiter sind das Kapital in Ihrem Unternehmen

Protect 7 Anti-Malware Service. Dokumentation

Unternehmenssteuerung mit der Balanced Scorecard

Nutzung dieser Internetseite

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Das Seminarangebot richtet sich an drei Gruppen von Frauen:

10. Fachtagung IT-Beschaffung 2014 Fachforum 6

P&P Software - Adressexport an Outlook 05/29/16 14:44:26

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Survival Guide für Ihr Business Intelligence-Projekt

Thorsten Sett-Weigel Berlin, den 28. März 2012 Finowstraße Berlin

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Hardware - Software - Net zwerke

Angebot. UVV-Prüfungen und Wartungen von mobilen Abfallpressen

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

LOPEZ_SU AREZ_DAT ENANALYS E_ZERZEP

Datenbanken Kapitel 2

Fachseminare für die Versicherungswirtschaft

Erfolg beginnt im Kopf

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Ein unverzichtbarer Helfer für den Heizwerksbetrieb!

HP Product Content Syndication Steigern Sie Ihre Add-to-Cart Rate in 3 einfachen Schritten

Shopz Zugang Neuanmeldung

SWOT Analyse zur Unterstützung des Projektmonitorings

ecommerce Deshalb ist es für Unternehmen jeder Grösse wichtig, den Schritt in den Online-Verkauf nicht zu verpassen.

Kontenaktualisierung in Lexware buchhalter

Aussage: Das Seminar ist hilfreich für meine berufliche Entwicklung

CERTQUA-Servicecenter Nahtlose IT-Anbindung per Schnittstelle

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Komplettpaket Coaching. Arbeitsmittel & Checklisten

SQL - Übungen Bearbeitung der Datenbank Personal (1)

Vorsorgeverhalten und Pensionskonto Neu Steiermark

Dokumentenverwaltung im Internet

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Informationssystemanalyse Problemstellung 2 1. Trotz aller Methoden, Techniken usw. zeigen Untersuchungen sehr negative Ergebnisse:

Das System für Ihr Mitarbeitergespräche

Typo3: Nachrichten verfassen

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Feiertage in Marvin hinterlegen

Herausforderungen und Möglichkeiten für die landwirtschaftliche Logistik

Massenversand Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

Moodle-Kurzübersicht Kurse Sichern und Zurücksetzen

Anhang. 3. Was denken Sie: An wen richtet sich das Lernprogramm für Psycholinguistik? zu nicht nicht zu

Datenbanken Microsoft Access 2010

Unternehmens-Check (U.C.)

Meinungen zur Altersvorsorge

2 Tägliche Aktualisierung notwendig und sehr Personalaufwand -> Kostengünstiger

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

Erstellen von x-y-diagrammen in OpenOffice.calc

Software Engineering. Zur Architektur der Applikation Data Repository. Franz-Josef Elmer, Universität Basel, HS 2015

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

Transkript:

2 Data Warehousing und Data Mining Kapitel 1: Data-Warehousing-Architektur von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser Umsatz im Vergleich zum letzten Jahr? In welchen Regionen liegt der erzielte Gewinn unterhalb der Erwartungen? Mit welchen Produktgruppen erzielen wir den größten Gewinn? Ich möchte wöchentlich einen Bericht über die wichtigsten Kennzahlen und deren Veränderung in den letzten Wochen! Welchen durchschnittlichen Umsatz erwirtschaften wir pro Filiale? Folien teilweise übernommen von Matthias Gimbel 3 4 Herausforderungen Früher Die benötigten Daten sind eventuell auf die verschiedenen Filialen verteilt, werden teilweise unterschiedlich benannt, müssen aus verschiedenen Anwendungen extrahiert werden, liegen in unterschiedlicher Granularität (Lebensmittel Milchprodukte, Obst & Gemüse) oder in unterschiedlicher Struktur vor, sind fehlerbehaftet oder unvollständig, bereits gelöscht oder auf Band archiviert. -Anfragen stören möglicherweise den laufenden Betrieb Telefonaktionen Taschenrechner Listen hoher zeitlicher Aufwand hoher Personalaufwand hohe Kosten hohe Fehleranfälligkeit schwierige Nachvollziehbarkeit 5 6 Ziel Definition Daten sollen einheitlich benannt sein, einheitliche Bedeutung besitzen. Zugriff soll jederzeit, möglichst aktuell und schnell möglich sein, auch komplexe Fragestellungen erlauben, laufenden Betrieb nicht beeinträchtigen, auch auf historische Daten möglich sein, automatisiert ablaufen, nachvollziehbar sein, zuverlässig erfolgen. A is a subject oriented, integrated, non-volatile, and time variant collection of data in support of management's decision-making process. (Inmon, 1996) 1

7 8 Definition transaktional vs. analytisch Fachorientierung (subject oriented) themenbezogen, nicht auf einzelne Anwendungen bezogen Integrierte Datenbasis (integrated) integriert Daten aus verschiedenen Systemen und Standorten Nicht flüchtige Datenbasis (non-volatile) dauerhafte Speicherung der Daten, kein Ändern, kein Löschen von Daten Historische Daten (time variant) zeitpunktbezogene Speicherung, häufig Vergleiche von Werten zu verschiedenen Zeitpunkten Transaktionale/Operative Systeme Benutzer: Sachberarbeiter, Verkäufer dienen der täglichen Arbeit OLTP = OnLine Transactional Processing Analytische/Entscheidungsunterstützende Systeme Benutzer: Analysten, Management helfen, strategische Entscheidungen zu fällen Basis für alle entscheidungsunterstützenden Anwendungen, wie z. B. Reporting OLAP = (OnLine Analytical Processing) Data Mining DSS = Decision Support System EUS = Entscheidungsunterstützendes System 9 10 Analytische Systeme OLTP vs. OLAP Eigenschaften: enthalten sehr große Datenmengen (möglichst alle relevanten Unternehmensdaten) über mehrere Jahre wenige Benutzer und Zugriffe, aber mit hohem Datenvolumen keine Änderungen oder Löschungen von Einträgen überwiegend historische, zusammengefasste Daten ''Schnappschüsse'' der operativen Daten relativ hohe Redundanz Daten strukturiert, integriert und konsolidiert Fokus Transaktionsdauer und typ Anfragestruktur Datenvolumen einer Anfrage Datenvolumen eines Systems Datenalter Datenmodell Verfügbarkeit Anzahl Benutzer OLTP (transaktional) Lesen, Schreiben, Modifizieren, Löschen kurze Lese-/ Schreibtransaktionen einfach strukturiert wenige Datensätze Gigabyte (GB) Terabyte (TB) aktuell - mehrere Monate anfrageflexibles Datenmodell sehr hoch hoch OLAP (analytisch) Lesen, periodisches Hinzufügen lange Lesetransaktionen komplex viele Datensätze Terabyte (TB) Petabyte (PB) aktuell - viele Jahre analysebezogenes Datenmodell hoch gering 11 12 Referenzarchitektur eines DWS Data-Warehouse- 2

13 14 Referenzarchitektur eines DWS 15 16 ETL-Prozess ETL-Prozess: ETL = Extrahieren der Daten aus den Quellsystemen Wann? Wie? periodisch auf Anfrage ereignisgesteuert (z. B. nach x Änderungen) sofort vollständig inkrementell Wie bekommt man Änderungen mit? Trigger SQL-Anfrage Zeitstempel-basiert Snapshot-Vergleich Unterschiedliche Quellen Datenbanken Webseiten Dateien 17 18 ETL-Prozess: #1 ETL-Prozess: #2 Entfernen irrelevanter Daten Säubern der Daten Ergänzung fehlender Werte Belegung mit default-werten Prüfung auf falsche Werte (Plausibilitätsprüfung) Überbrückung struktureller Differenzen Beispiel: Speditionsfilialen: 1 Tabelle pro Filiale: Gut, Menge 1 Zeile pro Gut 1 Tabelle pro Gut: Auftraggeber, Menge 1 Zeile pro Auftraggeber 1 Tabelle pro Filiale: Kohle, Öl, 1 Zeile pro Verkaufstag Anpassen der Werte Übersetzungen zwischen Bezugssystemen Maßeinheiten (inch/m, EUR/$) Kodierungen (ASCII/Unicode) Datumsangaben (D/US) Anpassungen bei semantischen Differenzen Umsatz brutto oder netto Gewinn vor Steuern, nach Steuern mit/ohne Sonderbelastungen 3

19 20 ETL-Prozess: von analyseunabhängigen Detaildaten in die von analyseabhängigen Daten in das Definition und Befüllen der Basistabellen Aufbau und Wartung von Indexstrukturen Anpassen abgeleiteter Sichten Eigenschaften integrierte Sicht umfassend bezüglich Zeit und Granularität Modellierung und Optimierung anwendungsneutral Daten werden nach definierter Zeit in ein übertragen Aktualisierung zu beliebigem Zeitpunkt möglich Daten liegen bereinigt vor Funktion Sammel- und Integrationsfunktion (logisch) zentrales Datenlager Distributionsfunktion Versorgung aller s Auswertungsfunktion Nur wenn direkt auf zugegriffen wird! 21 22 Nabe-Speiche-Architektur Eigenschaften Datenbank für zwecke Enthält alle für zweck benötigten Daten Strukturierung orientiert sich an bedürfnissen Funktion Unterstützung des Ladeprozesses Unterstützung des prozesses 23 24 und Data Mart Aggregierung und Gruppierung Erfahrung: Data-Warehouse-Projekte scheitern oft an ihrer Größe Anwender brauchen oftmals keine Sicht auf das komplette Daher oftmals auch sogenannte Data Marts: kleine s für überschaubaren Bereich Entwicklung entweder als Teilbestand eines bereits existierenden großen oder als erster Schritt hin zu einem integrierten unternehmensweiten. Durch Aggregierung und Gruppierung werden die einzelnen Sichten anwendergerecht verdichtet. Aufbereitung der Daten für verschiedene Nutzersichten Ableitung von Sichten verschiedener Granularität aus den Basisdaten Data Mart Data Mart Data Mart Managementsicht sicht Basisdaten 4

25 26 Data-Warehouse- Metadaten Zentrale Steuerung aller Data-Warehouse- Komponenten e Extraktoren Transformatoren Ladekomponenten komponenten Metadaten sind Daten über Daten Wozu werden Metadaten benötigt? Welche Metadaten werden in einem Data- Warehouse-System benötigt? Initiierung des Datenbeschaffungsprozesses regelmäßige Zeitintervalle von Datenänderungen abhängig auf explizites Verlangen 27 28 Metadaten Partnerarbeit: Variante A Sie sind ab sofort für ein laufendes Data-Warehouse-System verantwortlich: Welche Informationen benötigen Sie? Woher bekommen Sie diese Informationen? Variante B Sie waren für ein laufendes Data-Warehouse-System verantwortlich: Welche Informationen geben Sie bei der Übergabe Ihrem Nachfolger? Variante C Sie sind der Vorgesetzte eines für ein Data-Warehouse-System verantwortlichen Mitarbeiters und haben schlechte Erfahrungen mit der Dokumentation gemacht: Welche Vorgaben geben Sie einem neuen Verantwortlichen bezüglich der Dokumentation des Data- Warehouse-Systems? Historie Warum wurde eine Entscheidung getroffen? beim Aufbau, bei der Erweiterung beim Betrieb Unternehmen Ansprechpartner Datenqualität der Datenquellen 29 30 Konzeptuelle Sicht Anforderungen Welche Anfragen möchten anwender stellen? Terminologie Einheitliche Begriffsdefinitionen: Welche Terminologie verwenden anwender? ETL-Prozess Welche Quelldaten werden benötigt? Welche en werden benötigt? Aggregierung Wann werden welche Daten wie aggregiert? Welche Aggregierungen sind erlaubt? Logische Sicht Schemata Datenquellen,,, anwendungen, Regeln sregeln Aggregierungsregeln Physische Sicht Tabellen Indexstrukturen Sichten Materialisierung Partitionierung 5

31 32 Organisation Wann werden Daten ins geladen? Welche Datenmengen sind zu verwalten bzw. zu laden? Benutzergruppen, Zugriffsrechte Backup-Strategie Datensicherheit Datenschutz Der sammelt alle Metadaten, speichert Metadaten zentral im, arbeitet mit dem Data-Warehouse- zusammen. 33 34 anwendungen Entwicklungszyklus Reporting einfache, automatisch erzeugbare Berichte OLAP aufwändige, automatisch erzeugbare Berichte mit Navigationsmöglichkeit später Data Mining Suche von Mustern in Daten später Iterativer Prozess Anfangs ist den Beteiligten das Potential eines DWS unklar. Neue Anforderungen kommen erst bei laufendem Betrieb oder nach erstem Prototyp. Qualität steigt durch Anwender-Feedback! Aufbau eines DWS in einem einzigen Schritt besitzt hohe Komplexität und erfordert hohen zeitlichen und personellen Aufwand Management oft erst nach ersten Ergebnissen zu überzeugen besser erst vielversprechenstes Anwendungsgebiet aufbauen (positives Feedback) sukzessive weitere Datenquellen integrieren und weitere Data Marts aufbauen Think big, start small, grow step by step! 35 36 Entwicklungszyklus Literatur Laufender Betrieb: Alles erledigt? Nein! ing der Benutzung Welche Daten werden regelmäßig genutzt? Wie schnell wächst der Datenbestand? Wer benutzt das DW? Sind die Antwortzeiten noch akzeptabel?... und natürlich sämtliche Veränderungen im Unternehmen im Auge behalten und gegebenenfalls reagieren... A. Bauer, H. Günzel: Systeme. Architektur, Entwicklung, Anwendung. dpunkt, 2001. W. Lehner: Datenbanktechnologie für Data- Warehouse-Systeme. dpunkt, 2003. 6