Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data- Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Betriebswirtschaft. Ein Data-Warehouse dient der Informationsintegration. 1
Data Warehouse Definition (2) http://de.wikipedia.org/wiki/data-warehouse Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde: 1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen. 2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data-Warehouse z. B. für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden. 2
Data Warehouse Definition (3) http://de.wikipedia.org/wiki/data-warehouse Das Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden im Rahmen des ETL-Prozesses 1) aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data- Warehouse geladen zu werden. Dieser Prozess kann turnusgemäß durchgeführt werden, so dass im Data- Warehouse nicht nur Daten nach inhaltlichen Aspekten, sondern auch nach dem Aspekt Zeit also langfristig vorgehalten werden, was auch Analysen über die Zeit ermöglicht. 1) Extract Transform Load 3
Data Mart Definition (1) http://de.wikipedia.org/wiki/data-mart Ein Data-Mart ist ein langfristig gehaltener Datenbestand innerhalb eines Data-Warehouse (Datenlager) oder die Kopie eines Teilbereichs des Data-Warehouse, die für einen bestimmten Organisationsbereich oder eine bestimmte Anwendung geschaffen wird. Hierdurch entsteht eine Teilsicht auf das Data-Warehouse. Gründe für das Arbeiten mit Kopien aus dem Data-Warehouse anstelle des direkten Zugriffs auf die Daten im Data- Warehouse anhand von Sichten (Views) können sein: 4
Data Mart Definition (2) http://de.wikipedia.org/wiki/data-mart Eigenständigkeit der Anwender (z. B. Mobilität, Unabhängigkeit von anderen Organisationsbereichen) spezielle Datenstrukturen, z. B. für die mehrdimensionale Analyse, das so genannte Online Analytical Processing (OLAP) bessere Leistung (Performance): Verlagerung von Rechnerleistung auf einen anderen Rechner und/oder Verlagerung von Zugriffen auf einen anderen Speicher und/oder im Falle von lokaler Nutzung weniger Netzbelastung mehr oder auch weniger Zugriffsschutz: Abgrenzung gegenüber anderen Nutzern oder Öffnung für weitere Nutzer. 5
Sternschema - Definition (1) http://de.wikipedia.org/wiki/sternschema Das Sternschema ist eine besondere Form eines Datenmodells, dessen Ziel nicht die Normalisierung ist, sondern eine Optimierung auf effiziente Leseoperationen. Hauptanwendungsfeld sind Data Warehouses und OLAP-Anwendungen. Die Bezeichnung Sternschema rührt daher, dass die Tabellen sternförmig angeordnet werden: Im Zentrum steht eine Faktentabelle, um die sich mehrere Dimensionstabellen gruppieren. 6
Sternschema - Definition (2) http://de.wikipedia.org/wiki/sternschema Fakten- und Dimensionstabellen Die zu verwaltenden Daten werden als Fakten bezeichnet; sie werden typischerweise fortlaufend in der Faktentabelle gespeichert. Andere Namen für die Fakten sind Metriken oder Messwerte. Faktentabellen können sehr groß werden, was ein Data-Warehouse zwingt, die Daten nach und nach zu verdichten (aggregieren) und schließlich nach einer Halteperiode zu löschen oder auszulagern (Archivierung). 7
Sternschema - Definition (3) http://de.wikipedia.org/wiki/sternschema Im Gegensatz dazu enthält die Dimensionstabelle die beschreibenden Daten. Die Faktentabelle enthält Fremdschlüssel auf die Dimensionseinträge, die deren Bedeutung definieren. Typischerweise stellt die Gesamtmenge der Fremdschlüssel auf die Dimensionstabellen gleichzeitig den Primärschlüssel in der Faktentabelle dar. Das impliziert, dass es jeden Eintrag zu einer Kombination von Dimensionen nur einmal geben kann. 8
Sternschema - Beispiel http://de.wikipedia.org/wiki/sternschema Beispielsweise sind die Dimensionstabellen Zeit, Kunde, Verkäufer, Produkt, während in der Faktentabelle Verkäufe, Lohnzahlungen, Kundenbesuche, etc. gespeichert sind. In der Faktentabelle werden quantitative Daten gespeichert, beispielsweise die Anzahl der Verkäufe oder der Preis. Die Dimensionstabelle beschreibt das, was verkauft wurde, von wem, wann und an wen. 9
Data Mining Definition (1) http://de.wikipedia.org/wiki/data-mining Unter Data Mining (englisch für Datenschürfen ) versteht man die systematische Anwendung von Methoden, die meist statistisch-mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das Durchsuchen sehr großer Datenbestände[...]. Bei Verzicht auf Modellannahmen über den Datenentstehungsprozess ergeben sich auch bei kleinen oder mittleren Datenbeständen sinnvolle Anwendungsmöglichkeiten. In der Praxis, vor allem im deutschen Sprachgebrauch, etablierte sich der angelsächsische Begriff "Data Mining" für den gesamten Prozess der so genannten "Knowledge Discovery in Databases". 10
Data Mining Definition (2) http://de.wikipedia.org/wiki/data-mining Große Datenmengen entstehen heute in Unternehmen, Forschungsprojekten, Verwaltungen oder im Internet. Data-Mining ermöglicht das automatische Auswerten solcher Datenbestände mit Hilfe statistischer Verfahren, künstlicher neuronaler Netze, Fuzzy- Clustering-Verfahren oder genetischer Algorithmen. Ziel dabei ist das Aufspüren von Regeln und Mustern bzw. statistischen Auffälligkeiten. So lassen sich z. B. Änderungen im Verhalten von Kunden oder Kundengruppen aufspüren und Geschäftsstrategien können darauf ausgerichtet werden. Es kann aber auch abweichendes Verhalten einzelner Personen erkannt werden. 11