Dr. Michael Hahne ist Geschäftsführender Gesellschafter der Hahne Consulting GmbH, eines auf BI-Architektur und -Strategie spezialisierten Beratungsunternehmens. Zuvor war er Vice President und Business Development Manager bei SAND Technology, einem internationalen Anbieter von intelligenter Software für das Informationsmanagement, spezialisiert auf Lösungen für unternehmensweite und große Data Warehouses. E-Mail: michael@hahneconsulting.de Dr. Christian Kurze ist wissenschaftlicher Mitarbeiter an der TU Chemnitz, Lehrstuhl für Wirtschaftsinformatik II, insbesondere für Systementwicklung und Anwendungssysteme in Wirtschaft und Verwaltung. E-Mail: christian.kurze@wirtschaft.tu-chemnitz.de Serie Datenmodellierung, Teil III OLAP-lierung mit Hilfe der ADAPT-Notation Der vorliegende dritte Teil unserer losen Artikelserie zur lierung multidimensionaler Datenstrukturen konzentriert sich auf deren fachliche lierung mit Hilfe der ADAPT-Notation. Er baut somit auf den in Teil I diskutierten OLAP-Grundstrukturen (Würfel, en und Kennzahlen sowie Strukturanomalien) auf und ist des Weiteren die Grundlage für deren logische lierung, beispielsweise für eine relationale Implementierung, wie in Teil II unter den Stichworten Star- und Snowflake- Schema beschrieben. Ein Ausblick auf eine weitgehende Automatisierung der Entwicklung und Dokumentation von BI-Systemen unter Einsatz von ADAPT auf Basis von Werkzeugen rundet den Artikel ab. Ausgangssituation Viele Data-Warehouse-Projekte beginnen mit der Erarbeitung einer Datenquellen- und Informationsbedarfsanalyse. In der Datenquellenanalyse werden die vorhandenen Datenquellen formal beschrieben. Dies sind außer den DV-Systemen auch nicht DV-mäßig gespeicherte Informationen, beispielsweise Papierdokumente. Ziel der Informationsbedarfsanalyse ist eine möglichst exakte Beschreibung der zu erwartenden Fragestellungen, die an das zu entwickelnde System gerichtet werden, sowie eine exakte Definition der zu betrachtenden Kennzahlen beziehungsweise betriebswirtschaftlichen Variablen (auch Key Performance Indicators, KPIs, oder Mea sures genannt). Wie bereits in Teil I der Serie beschrieben, werden diese Kennzahlen für OLAP-Anwendungen (On- Line Analytical Processing) dem mehrdimensionalen Paradigma folgend dargestellt und modelliert. Da die lierung von Systemen zur Unterstützung von Fachund Führungskräften in ihren analytischen Fragestellungen einen entscheidenden Einfluss auf deren Akzeptanz und erfolgreiche Nutzung hat, ist hierauf beim Aufbau solcher Systeme besondere Sorgfalt zu verwenden. Datenmodelle sollen die und Repräsentation von Daten beschreiben, das heißt, ein Datenmodell geht aus der Abstraktion eines zu modellierenden Realitätsausschnitts hervor. Datenmodelle können, wie bereits in Teil II der Serie ausgeführt, durch ihre Nähe zur Realwelt klassifiziert werden. Diese weit verbreitete Strukturierung des lierungsvorgangs unterscheidet die Ebenen der semantischen, logischen und physischen Datenmodellierung. Der Realwelt am nächsten ist dabei die semantische Ebene. Die Aufgabe des semantischen Datenmodells ist es, eine Brücke zwischen der Realwelt einerseits und dem logischen Datenmodell andererseits zu schlagen. Dieses ist noch losgelöst von dem einzusetzenden Datenbanksystem und soll den zu betrachtenden Realitätsausschnitt abstrahierend in einem l abbilden. Die Wahl eines geeigneten semantischen Datenmodells hängt somit von dem betrachteten Realitätsausschnitt ab. An dieser Stelle setzt der vorliegende Beitrag an, der sich der semantischen lierung mehrdimensionaler Datenstrukturen für OLAP-Anwendungen widmet. Besonderes Augenmerk liegt auf Notationsformen, die einen hinreichenden Formalisierungsgrad aufweisen, um anschließend in geeigneter Form in eine Implementierung überführt werden zu können, aber dennoch über eine hohe Lesbarkeit durch Fachanwender verfügen. Methoden mehrdimensionaler semantischer Datenmodellierung Die Analyse auf fachkonzeptueller Ebene ist ein wesentlicher Schritt beim Aufbau einer Data-Warehouse-Lösung. Die für OLAP-Analysen benötigten mehrdimensional strukturierten Datenbestände sind an den Anforderungen orientiert zu gestalten. Daher hat die semantische lierung mehrdimensionaler Datenstrukturen für die frühen konzeptgetriebenen Projektphasen einen hohen Stellenwert. Adäquate Notationsformen sind in drei Kategorien zu klassifizieren (zu einem Überblick der Klassifizierung vgl. [Kur11] sowie zur Darstellung verschiedener Ansätze vgl. [Hah10]): Erweiterungen des Entity-Relationship- ls, beispielsweise das Multidimensionale Entity- Relationship-l (ME/R), Erweiterungen der UML, wie Yet Another Multidimensional (YAM²), sowie Ad-hoc-le wie das al Fact (DFM) oder Application Design for Analytical Processing Tech- 23
Objekt Objekt zur Darstellung einer (Achse eines Cubes) Objekt zur Darstellung von Hierarchien (Verdichtungsweg von selementen) Ebene in einer Hierarchie (Konsolidierungsstufe) Member Darstellungsobjekt für (Zusätzliche Information zu selementen) Member Objekt für ein selement Member (Eindeutig identifizierender Wert) Member Scope Darstellung eines sausschnittes Member Scope (Teilmenge einer ) Member Scope Berechnungsvorschrift Member Scope (Formeln zur Berechnung abgeleiteter Daten) Scope Tab. 1: ADAPT-Objekte zur smodellierung Scope nologies Scope (ADAPT). Sämtliche Notationen gleichen sich in den Basiskonstrukten der mehrdimensionalen lierung, verfügen jedoch über teilweise signifikante Unterschiede in der Abbildung weiterführender Konzepte hinsichtlich irregulärer Hierarchien, Assoziationstypen und Additivitätseigenschaften. Im Folgenden soll näher auf die ADAPT-Notation [BuF06, Hah06, Hah10] eingegangen werden. Die Darstellung der Beispiele erfolgt dabei in Anlehnung an die Ausführungen zur ADAPT- Notation auf www.t-adapt.de. Semantische lierung mit ADAPT Diese von Bulos 1996 vorgeschlagene Methode zur grafischen Abbildung multidimensionaler Datenstrukturen umfasst ein speziell auf die Belange analytischer Anwendungen ausgerichtetes lierungsinstrumentarium [Bul06]. Dabei bietet ADAPT eine breit gefächerte Palette unterschiedlicher Beschreibungselemente, Tabelle 2 mit denen sich die einzelnen Bestandteile multidimensionaler Datenmodelle darstellen lassen. Zusätzlicher praktischer Nutzen der Methode liegt in der Verfügbarkeit der zugrunde liegenden Symbole für Microsoft Visio (die Schablonendateien sowie unterschiedliche Vorlagen können unter www.hahneonline.de sowie www.t-adapt.com heruntergeladen werden) sowie der Verfügbarkeit weiterer lierungswerkzeuge, wodurch die le einfach zu generieren sind. Die hauptsächlich in Amerika verbreitete Notation befindet sich im deutschsprachigen Raum seit einigen Jahren zunehmend in der Diskussion [Hah10, ToJ98]. Im Folgenden wird zunächst die lierung von sstrukturen sowie anschließend die Erstellung von Cubes betrachtet. Die einzelnen Grundbestandteile zur lierung von en und darauf definierten hierarchischen Strukturen sind in zusammengefasst. Neben den eigentlichen Objekten ist auch die Form der Verbindung untereinander wichtig. Eine Zusammenstellung der möglichen Verbindungen zur smodellierung findet sich in Tabelle 2. Die Möglichkeit zur Darstellung von m:n-beziehungen beziehungsweise Heterarchien ist im Standard nicht vorgesehen, wurde jedoch aufgrund der praktischen Relevanz aufgenommen und ist in den oben genannten Symbolschablonen mit enthalten. Die Darstellung der wesentlichen Komponenten zur Abbildung von en in ADAPT erfolgt anhand eines Beispiels, der exemplarisch aufgerissenen dimension in Abbildung 1. Dem mehrdimensionalen Grundverständnis folgend sind eine oder mehrere Hierarchien das Wesensmerkmal einer. Diese basieren auf Über- und Unterordnungsverhältnissen und bilden die Konsolidierungspfade in en. Sie sind damit die Grundlage für Operationen des Drill-down und Roll-up. Wie der Darstellung zu entnehmen ist, sind für e zwei Hierarchien definiert, die jeweils unterschiedlich aufgebaut sind. Bei der Darstellung handelt es sich um eine ebenenbestimmte, sodass die lierung aller Hierarchien über sebenen erfolgt. Diese ver- Tabelle 2 schiedenen Hierarchien werden oftmals auch als parallele Hierarchien bezeichnet. Die gemeinsame Basisebene wird Tabelle durch das 2 Objekt für die -Ebene repräsentiert, die damit die feinste Granularität in dieser festlegt. Die Hersteller-Hierarchie zeigt zunächst einen einfachen Fall, da nur eine Verdichtung von en zu Herstellern erfolgt. Dabei ist jedem genau ein Hersteller zugeordnet. Auch der Fall einer m:n-beziehung zwischen Objekt Lockere Beziehung zwischen Ebenen Strenge Beziehung Rekursive Beziehung Tabelle 2 smodellierung Die Stärke liegt in der Darstellung vielfältiger sstrukturen und deren betriebswirtschaftlichem Bezug. m:n-beziehung Tab. 2: Verbindungsobjekte für die smodellierung 24
Abbildung 1 Warengruppe en und Herstellern ist denkbar. Für diesen Fall bedeutete dies, dass jedem auch mehrere Hersteller zugeordnet werden könnten und das Many-many- Verbindungsobjekt zur Darstellung heranzuziehen wäre. Das verwendete Symbol mit dem Doppelpfeil zur Verbindung der Ebenen verdeutlicht die strenge Beziehung, derzufolge jedem genau ein übergeordnetes Tabelle Element zugewiesen wird. Dies ist in der anderen Hierarchie 3 Tabelle 3 nicht der Fall. Dort werden die Ebenen Warenuntergruppe, Warengruppe Tabelle und 3Warenhauptgruppe differenziert, jedoch kann es auch e geben, die keiner Warenuntergruppe zugeordnet sind, sondern direkt an einer Wa- Tabelle 3 rengruppe hängen. Die Notation dieses Zusammenhangs erfolgt in ADAPT mit dem Verbindungspfeil mit nur einer Spitze. Objekt Eigene e Fremdprodukte Abb. 1: Exemplarische dimension in ADAPT-Notation Tab. 3: Beziehungstypen in ADAPT Hersteller Umfassendes Exklusiv-Oder Umfassendes Oder Partielles Exklusiv-Oder Partielles Oder Bezeichnung Verpackungsart hierarchie Warenhauptgruppe Warenuntergruppe Herstellerhierarchie Verpackungsgröße Gewicht Anzahl auf einer Palette Ein weiteres Grundkonstrukt zur Darstellung mehrdimensionaler Strukturen auf semantischer Ebene sind zu en oder sebenen. In dem dargestellten Beispiel befinden sich die ausschließlich auf der untersten Ebene aller e und modellieren weitere Eigenschaften von en wie etwa deren Gewicht oder weitere verpackungsrelevante Informationen. In der lierungsphase ist oftmals für diverse betriebswirtschaftliche Objekte zu entscheiden, ob diese als Attribut oder als eigene zu modellieren sind. Eine Stärke von ADAPT ist die lierung von sausschnitten, auch ssicht genannt, die eine logisch zusammenhängende Teilmenge einer darstellen. Für die e sind beispielsweise Teilmengen für Eigenfertigung und Fremdbezug denkbar. Diese sausschnitte stehen wiederum untereinander in einer Beziehung. So ist etwa ein entweder selbst produziert oder wird hinzugekauft. Dieser Beziehungstyp heißt Umfassendes Exklusiv-Oder. Abbildung 2 Abb. 2: Elementbestimmte Szenario Ist Plan Abweichung Ist - Plan Außer den Beziehungen zwischen sausschnitten gibt es in ADAPT auch die Möglichkeit der lierung von Beziehungen zwischen en. Eine Übersicht über die verschiedenen Beziehungstypen zwischen sausschnitten gibt Tabelle 3. In der Bezeichnung der Beziehungen bedeutet Exklusiv- Oder, dass die beteiligten Teilmengen disjunkt sind, das nichtexklusive Oder hingegen erlaubt Überlappungen. Bildet die Vereinigung der Teilmengen die Gesamtheit, wird dies als umfassend bezeichnet. Andernfalls wird dies mit partiell umschrieben. Neben den ebenenbestimmten stypen sind auch en mit ihren direkten Ausprägungen mit dem Objekt für selemente abbildbar. Typischerweise sind dies die en für Datenarten und Wertarten, die auch als elementbestimmte bezeichnet werden. In Abbildung 2 ist das Beispiel einer Szenariodimension aufgezeigt. An der lierung des berechneten Elements für die Abweichung ist erkennbar, wie der Objekttyp für Berechnungsvorschriften zum Einsatz gelangt. Die en legen die Struktur der mehrdimensionalen Daten in Würfeln beziehungsweise Cubes fest. Diese sind Gegenstand des nachfolgenden Abschnitts. lierung von Cubes Für die Darstellung eines Würfels steht in ADAPT das Cube-Objekt zur Verfügung. In diesem werden die Bezeichnung und die ierung eingetragen. Über 25
Vertriebsweg Partner Abb. 3: Exemplarischer ADAPT-Cube für die Marketingsicht Katalog E-Shop Zeit Kennzahl Absatz Umsatz Geschäftsjahrhierarchie hierarchie Warenhauptgruppe Herstellerhierarchie Marketing Zeit Vertriebsweg Kennzahl Winter Jahr Quartal Monat Tag Kalenderhierarchie Geschäftsjahr Periode Besonderes Ereignis Ferientag Warengruppe Frühling Werktage Warenuntergruppe Hersteller Sommer Herbst Letzter Tag im Monat Eigene e Fremdprodukte Bezeichnung Verpackungsart Verpackungsgröße Gewicht Anzahl auf einer Palette ein Verbindungspfeil-Objekt findet die Verknüpfung mit den beteiligten en statt. Dabei reicht in der allgemeinen Darstellung die lierung mit dem Cube- Objekt und den angehängten sobjekten, um die Komplexität der Darstellung zu reduzieren. Bei nicht so großen len ist aber die vollständige Darstellung sinnvoller, da alle lbestandteile auf einen Blick sichtbar sind. Beispielhaft ist in Abbildung 3 ein Marketing-Cube modelliert, bei dem auch die en direkt mit dargestellt sind. Der Cube und seine en umfassen eine Betrachtung der Kennzahlen Absatz und Umsatz bezogen auf zeitliche Aspekte, betrachtete e und den Vertriebsweg. Durch die fachliche lierung soll es möglich sein, Berichtsanforderungen abzubilden. Hierfür bietet ADAPT in seiner Standard-Version teilweise nur begrenzte Möglichkeiten. So muss etwa die Abbildung temporaler Aspekte, also der Umgang mit strukturellen Veränderungen in shierarchien, zum Ausdruck gebracht werden. Hierfür steht in ADAPT nur die textliche Ergänzung um Kommentare zur Verfügung. Um die Aspekte der Berücksichtigung struktureller Veränderungen in en adäquat in ADAPT abbilden zu können, liegt eine erweiterte ADAPT-Notationsform zur Abbildung temporaler Konstrukte vor. Die Erweiterung von ADAPT um diese Konstrukte wird mit T-ADAPT bezeichnet (siehe hierzu www.t-adapt.com). Weiterhin sind spezifische Anpassungen von ADAPT möglich, die etwa die lierungsspezifika konkreter Systeme wie beispielsweise im Umfeld von IBM Cognos oder SAP BW beachten. Anderenfalls können Reduktionen oder Erweiterungen der Notation durchgeführt werden, um konkreten Projektanforderungen zu genügen. Diese können zum einen in einer veränderten Visio-Schablone resultieren oder aber in eigenen lierungswerkzeugen, die zusätzliche Funktionalitäten hinsichtlich der Unterstützung des Entwicklungsprozesses von Data-Warehouse-Systemen bieten. Der nachfolgende Abschnitt geht exemplarisch auf zwei solche Werkzeuge ein. 26
Automatisierung mit Hilfe der ADAPT-Notation Als ein Beispiel zur Toolunterstützung des lierungsprozesses dient das aus der Prozessmodellierung bekannte Werkzeug Semtalk, das um die Data- Warehouse-Methode auf Basis von ADAPT erweitert wurde. Im Fokus dieses Werkzeugs steht die Gewährleistung konsistenter le auf Basis eines ADAPT- Metamodells. Gerade unter dem aktuell sehr stark diskutierten Stichwort Agile Data Warehousing kann es von Nutzen sein, bereits die fachlichen Anforderungen in solchen len festzuhalten, die anschließend automatisiert weiterverarbeitet werden können. Ein an der TU Chemnitz entwickeltes Framework ermöglicht die lierung und Dokumentation komplexer, heterogener Data-Warehouse-Systeme. Durch die formale, system- und herstellerübergreifende Abbildung von Metadaten sowie ihrer Zusammenhänge entsteht die Möglichkeit, auf Basis einer fachlichen lierung neue DWH-Systeme (teil-)automatisiert zu generieren, bestehende und neue DWH-Lösungen weitgehend automatisiert zu dokumentieren und existierende Systeme (teil-)automatisiert zu migrieren [Kur11]. Im Bereich der Dokumentation konnte sich der Einsatz des Frameworks bereits bewähren ein automatisiertes Reverse-Engineering von Tools der IBM-Cognos-Serie reduzierte durch die automatische Erzeugung von fachlicher und technischer Dokumentation 75 Prozent des Dokumentationsaufwands für OLAP-Strukturen bei der TUI Deutschland GmbH [GKW10]. Dort kommt auch die ADAPT-Notation zum Einsatz, die vom Fachanwender gut angenommen wird. Zusammenfassung Der Beitrag hat einen Überblick über die zunehmend weiter verbreitete ADAPT-Notation zur lierung mehrdimensionaler Datenstrukturen gegeben. Aufgrund der pragmatischen Ausrichtung auf OLAP-Strukturen bietet ADAPT eine reichhaltige Sammlung von Konzepten, die auch eine Reihe von Strukturanomalien in en umfasst (siehe auch Teil I der Artikelserie). Durch individuelle Anpassungen der Notation ist es weiterhin möglich, system- oder projektspezifische Besonderheiten in die Notation einfließen zu lassen. Neuere technische Ansätze erlauben zudem die automatische Überführung der erstellten le in logische Repräsentationen und verkürzen somit den Entwicklungszyklus teilweise erheblich. Auch der Einsatz von ADAPT in Dokumentationsprojekten in Verbindung mit einer geeigneten Automatisierung erweist sich als sinnvoll. Literatur [Bul06] Bulos, Dan: A New. In: Database Programming & Design 9, 1996, S. 33 38 [BuF06] Bulos, Dan / Forsman, Sarah: Getting Started with ADAPT, Whitepaper, 2006, siehe: http://symcorp. com/downloads/adapt_white_paper.pdf [GKW10] Gluchowski, Peter / Kurze, Christian / Wunderlich, Matthias: lierung und Dokumentation von BI-Systemen. CONTROLLING 12/2010 [Hah06] Hahne, Michael: SAP Business Information Warehouse: Mehrdimensionale Datenmodellierung. Springer, 2006 [Hah10] Hahne, Michael: Mehrdimensionale Datenmodellierung für analyseorientierte Informationssysteme. In: Chamoni, Peter / Gluchowski, Peter: Analytische Informationssysteme. 4. Aufl., Springer, 2010 [Kur11] Kurze, Christian: Computer-Aided Warehouse Engineering (CAWE): Anwendung modellgetriebener Entwicklungsparadigmen auf Data-Warehouse-Systeme. Verlag Dr. Kova, 2011 [ToJ98] Totok, Andreas / Jaworski, Ramon: lierung von multidimensionalen Datenstrukturen mit ADAPT. Arbeitsbericht 98-11, Technische Universität Braunschweig, 1998 27