Hochschule Darmstadt Data Warehouse SS2015 Fachbereich Informatik Praktikumsversuch 4 Prof. Dr.. S. Karczewski Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 11.06.2015 1. Kurzbeschreibung Dieses Praktikum besteht aus 3 Teilen: Aufgabenstellung 1) Modellieren von ETL-Prozessen. (ETL= Extraktion, Transformation, Laden) 2) Erstellen eines multidimensionalen Würfels 3) Analyse von Daten Die folgenden Werkzeuge kommen zum Einsatz: Pentaho Data Integration (Kettle) Das Werkzeug stellt alle notwendigen Bausteine bereit, um die erforderlichen ETL-Prozesse zu erstellen. Die graphische Oberfläche lässt sich innerhalb von Windows über die Kommandozeileneingabe (cmd) starten: (C:\ pentaho \pdi-ce-4.4.0-stable\data-integration\spoon.bat Pentaho Schema Workbench Basierend auf den physischen Tabellen im Data Warehouse wird mit diesem Werkzeug eine logische Sicht auf die Daten erstellt: Cubes, Dimensionen, Hierarchien, Hierarchieelemente und Kennzahlen. Die graphische Oberfläche lässt sich innerhalb von Windows über die Kommandozeileneingabe (cmd) starten: (C:\ pentaho\psw-ce-3.5.0\schema-workbench\workbench.bat Pentaho BI-Server Der Server stellt eine Web-Oberfläche bereit, innerhalb welcher Reports erstellt und Ad-hoc- Analysen durchgeführt werden. Darüber hinaus bietet der Server eine Nutzer- und Rollenverwaltung. Der Server lässt sich innerhalb von Windows ebenfalls über die Kommandozeileneingabe (cmd) starten: (C:\ pentaho\biserver-ce-4.8.0-stable\biserver-ce\startpentaho.bat Pentaho Plugin Saiku Das Pentaho-Plugin stellt eine intuitive Drag&Drop-Oberfläche innerhalb des BI-Servers zur Verfügung, über die Ad-hoc-Analysen basierend auf den modellierten OLAP-Cubes und den Daten aus dem Data-Warehouse durchgeführt werden können. http:/localhost:8081/pentaho/ Übungsdateien und Tabellenschema Die Quell- und Vorlagen-Dateien finden Sie im Verzeichnis C:\ pentaho\ubungsdateien: Anbieter.asc, Produkte.asc, Vertrieb.asc, Umsatz.csv schema_praktikum6_studenten.xml Auch das vorgegebene Tabellenschema ist als SQL-Datei abgelegt: tabellenanlegen.sql 1
Aufgabe 1: ETL-Prozess Ziel dieser Aufgabe ist das Laden der Daten für Anbieter, Produkte, Vertrieb und Umsatz in die vorgegebenen Data-Warehouse-Tabellen. 1. SQL DEVELOPER starten und anmelden:user: gruppea; password: gruppea 2. Führen Sie die Datei C:\Pentaho\Ubungsdateien\Tabellenanlegen.sql aus. Überprüfen, ob die Tabellen angelegt wurden. 3. Pentaho Data Integration starten mit dem Aufruf: (C:\ pentaho\pdi-ce-4.4.0-stable\data-integration\spoon.bat) dann cancel und close klicken 4. Über Menü >File >New Transformation anlegen 5. Über Menü >File >Save speichern Sie das ETLprozess-Modell auf ihrem Laufwerk Hier müssen Sie ein ETL-prozessmodel erstellen (siehe Abbildung A) Für die Modellierung können Sie sich an den nachfolgenden Schritten orientieren: 6. Fügen Sie aus dem INPUT einen Transformationsbaustein CSV-Input hinzu (siehe Abbildung 1), indem Sie mit der linken Maustaste gedrückt auf die rechte Fläche (Feld) ziehen Bearbeiten Sie den Baustein, indem Sie einen Doppelclick darauf machen Geben Sie dem Schritt einen sinnvollen Namen(stepname): Anbieter Input Wählen Sie die Datei C:\Pentaho\Ubungsdateien\Anbieter.asc\ als Quelle aus. (Lassen Sie die Datei Anbieter.asc mit Hilfe eines Editors anzeigen, wie die Felder und die Daten aussehen; d.h. ob die Daten mit einem Semikolon oder einer Komma getrennt sind) Delimeter (Trennzeichen) und Enclosure (Ende und Anfangszeichen) setzen Get Fields aufrufen und die Daten (einschließlich Struktur) in der Vorschau überprüfen und dann preview clicken, um zu sehen, ob die Daten richtig übernommen werden; d.h. ob die Daten unter den richtigen Attributen stehen. Dann OK klicken. Fügen Sie aus dem OUTPUT einen Baustein Table Output hinzu (Table Output ziehen ) 7. Nun verbinden Sie beide Input- und Output-Bausteine, indem Sie die Shift-Taste gedrückt halten, einen Baustein mit der Maus markieren und bei gedrückter Maustaste die Linie zum anderen Baustein ziehen Bearbeiten Sie den Baustein Table Output (Doppelclick) Geben Sie den entsprechenden Step Name ein: Anbieter Output Erstellen Sie eine neue Connection (Datenbankverbindung) und testen Sie, ob sie funktioniert. (Siehe Abbildung B Connection) Wählen Sie die richtigen Target Schema (gruppea) und Targe Table(Anbieter) aus Truncate table und Specify database field aktivieren Database field(register) clicken und dann Enterfieldmapping clicken Richtiges mapping vornehmen (Felder zueinander zuordnen add clicken) 8. Führen Sie die Transformation aus (Grüner Pfeil ganz links klicken) (Nun sollten die Daten aus der Textdatei (Anbieter.asc) in die Tabelle ANBIETER übernommen werden. Überprüfen Sie dies, indem Sie zu SQLDEVELOPER wechseln und schauen, ob die Daten in die Tabelle ANBIETER übernommen wurde.) 9. Erstellen Sie nun die weiteren Transformationsschritte für die Dateien Produkte, Vertrieb. (entsprechend den Punkten 5 bis 7 ) (siehe Abbildung A ETL-Prozessmodell) 10. Nun erstellen Sie Transformationsschritt für die Datei Umsatz. (siehe ETL_prozzes- Für_umsatz.pdf auf der Homepage von Orkunoglu) 11. Abnahme des ETL-Prozesses 12. ETL-Prozess starten und Überprüen Sie die Ergebnisse in der Datenbank (SQL Developer) 2
Aufgabe 2: Würfelschema Ziel der zweiten Aufgabe ist die Erstellung eines logischen OLAP-Würfel-Schemas als Vorbereitung für die anschließende Auswertung der Daten. 1. Pentaho Schema Workbench starten (C:\pentaho\\psw-ce-3.5.0\schema-workbench\ workbench. bat Öffnen Sie die Datei C:\pentaho\Ubungsdateien\schema_praktikum6_studenten.xml Connection (siehe Abbildung Seite 5) : Option Connect Test OK Die Datei enthält bereits das logische Grundgerüst (Schema) für den Daten-Würfel, die Dimensionen Datum und Umsatz. Ihre Aufgabe ist die Erweiterung dieses Schemas, um die drei fehlenden Dimensionen Anbieter, Produkt und Vertrieb (einschließlich ihrer Hierarchien und Hierarchieelemente): (siehe Anhang Tabelle 1 Übersicht Dimensionen, Seite 4) 2. Dimension anlegen (Rechtsclick auf Cube add dimension) o name o foreign key Hierarchie wird automatisch mit angelegt. Mit Doppelklick öffnen Sie die Dimension und benennen Sie die Hierarchie um (z.b. Anbieter Hierarchie) 3. Referenztabelle anlegen (Rechtsclick auf Hierarchie add table) o Schema (gruppea) o Name (Referenz auf die entsprechende Tabelle) 4. Hierarchie bearbeiten Folgendes Attribut ist explizit zu setzen o Primary Key 5. Hierarchieelemente anlegen (Rechtsclick auf Hierarchie add level) Folgen Sie bei der Modellierung der Hierarchie der Vorgabe aus Tabelle 1 (Seite 4) o name o column (Referenz auf das Feld in der Tabelle) 6. Nun die anderen Dimensionen anlegen 7. Abnahme des Schemas (Abbildung Würfelschema) 8. Pentaho BI-Server starten: Mit C:\pentaho\biserver-ce-4.8.0-stable\biserver-ce\start-pentaho.bat 9. Zurück zum Workbench und Würfel-Schema auf dem Server bereitstellen Schema_Name (hda1) mit Return bestätigen und (über Menü File Publish) URL:http:/localhost:8081/pentaho/ publishpasswort gruppea Pentaho Credentials User : joe Password : password Location h_da Publish Setting h_da dann ok HINWEIS: Der Cube wird auf dem Webserver zur Verfügung gestellt. Der Eintrag wird in die Datei Datasources.xml im Verzeichnis C:\pentaho\biserver-ce-4.8.0-stable\biserver-ce\pentaho_solution\ system\olap gemacht(kontrol) 3
Aufgabe 3: Ad-hoc-Analyse 1. Starten Sie den Pentaho BI Server Rufen Sie http://localhost:8081/pentaho im Browser auf Loggen Sie sich mit den folgenden Nutzerdaten ein: o Benutzername: joe o Passwort: password 2. Öffnen Sie das OLAP-Plugin Saiku (Links Oben Icon Werkzeuge ) 3. Wählen Sie nun das von Ihnen erstellte Würfel-Schema aus dem h_da aus 4. Folgende Auswertungen durchführen 1. Umsatz nach Quartal für das Jahr 2000 o Detaillieren nach Quartal-Monaten o Produktreihe hinzufügen o Achsen vertauschen 2. Produkte anzeigen nach verschiedenen Dimensionskategorien o Alle Produktreihen für das Jahr 2001 o Produktreihe Bergsteigerausrüstung für alle Jahre o Produktreihe Campingausrüstung nur für Deutschland o Produktreihe Golfausrüstung für Nordeuropa im Jahr 2001 3. Absatzgebiete anzeigen nach verschiedenen Dimensionskategorien o Alle Produkte nach Vertrieb Mitteleuropa o Campingausrüstung nach Vertrieb Nordamerika o Alle Produkte nach Vertrieb Nord-/Lateinamerika für das Jahr 2001 4. Anbieter anzeigen nach verschiedenen Dimensionskategorien o Alle Anbieter von Golfausrüstung in Belgien o Alle Anbieter mit allen Produkten im Jahr 2001 absteigend sortiert anzeigen o Wie groß ist der Umsatz im Jahr 2000 für Zelte in Mitteleuropa gewesen 5. Graphische Darstellung o Kuchendiagramm für den Umsatz nach Absatzregion o Kuchendiagramm für den Umsatz nach Produktreihe 6. Verschachtelte Darstellung o Versuchen Sie die Daten so darzustellen, wie sie im 2. Praktikum (PowerPlay Transformer) in der Aufgabe 6a dargestellt wurden. o Vergleichen Sie, ob die Ergebnisse korrekt sind. 7. Frei Aufgaben 1.Formulieren und stellen Sie drei Aufgaben dar 8. Abnahme Anhang Produkt Vertrieb Anbieter Produktreihe Absatzgebiet Anbieterland Produkttyp Absatzland Produktname Vertriebsbüro Name Vertriebsbeauftragten Tabelle 1: Übersicht Dimensionen 4
Abbildung A ETL-Prozessmodell Abbildung B Connection 5