ENTERPRISE open source stefan MÜLLER christopher KELLER PENTAHO UND JEDOX BUSINESS INTELLIGENCE-LÖSUNGEN DATA WAREHOUSING // REPORTING // ANALYSE // PLANUNG
Inhalt Vorwort................................................................ IX 1 Business Intelligence im Überblick............................... 1 1.1 Business Intelligence: die Verwandlung von Daten in Informationen......... 1 1.2 Data Warehouse: das zentrale Datenlager des Unternehmens................ 4 1.3 Reporting und Dashboards: die maßgeschneiderte Verteilung von Informationen.................................................... 11 1.4 Online Analytical Processing: mit Daten würfeln das Business verstehen...... 14 1.5 Data Mining: unbekanntes Wissen in den Daten entdecken................. 20 1.6 Open Source trifft BI: vom Nischen- zum Mainstream-Player................ 21 1.7 Zusammenfassung................................................... 25 2 Pentaho: Business- und Big-Data-Analysen....................... 27 2.1 Pentaho im Überblick................................................. 27 2.2 Warum Pentaho?..................................................... 30 2.3 Community vs. Enterprise............................................. 32 2.4 Community oder Enterprise Edition im Unternehmenseinsatz............... 34 2.5 Zusammenfassung................................................... 35 3 Los geht s: Pentaho installieren und konfigurieren............... 37 3.1 Installation Pentaho BA-Server......................................... 37 3.2 Zugriff auf die User Console........................................... 43 3.3 Verwaltung der Lizenzen.............................................. 46 3.4 Anlage von Datenverbindungen........................................ 46 3.5 Sicherheitseinstellungen.............................................. 49 3.6 Einrichtung der E-Mail-Dienste......................................... 50 3.7 Zusammenfassung................................................... 50
VI Inhalt 4 Pentaho User Console............................................ 51 4.1 Überblick der Pentaho User Console.................................... 51 4.2 Reporting........................................................... 56 4.3 Scheduling.......................................................... 58 4.4 Interactive Reporting................................................. 59 4.5 Analyzer Reports..................................................... 62 4.6 Dashboards......................................................... 73 4.7 Marketplace......................................................... 77 4.8 Mobile.............................................................. 78 4.9 Zusammenfassung................................................... 82 5 Pentaho Data Integration......................................... 83 5.1 Pentaho Data Integration im Überblick.................................. 83 5.2 Aufbau eines Star-Schemas mit Pentaho Data Integration................... 92 5.3 Big Data und Pentaho Data Integration.................................. 114 5.4 Data Mining und Pentaho Data Integration............................... 134 5.5 Zusammenfassung................................................... 136 6 Pentaho Reporting................................................ 137 6.1 Pentaho Report Designer.............................................. 137 6.1.1 Überblick des Report Designers.................................. 138 6.2 Definition von Datenquellen und Abfragen im Report Designer.............. 146 6.3 Entwicklung des ersten Berichts........................................ 150 6.4 Erweiterte Berichtsfunktionen am Beispiel eines MDX-Berichts.............. 163 6.5 Berichtsverteilung mit Pentaho......................................... 171 6.6 Reportentwicklung für Big Data Stores................................... 177 6.7 Pentaho Interactive Reporting.......................................... 181 6.8 Metadaten für Reporting und Analysen.................................. 187 6.9 Zusammenfassung................................................... 193 7 Pentaho Analysis................................................. 195 7.1 Mondrian im Überblick............................................... 195 7.2 OLAP-Würfel mit der Pentaho Schema Workbench erstellen................. 199 7.3 Bessere Performance mit dem Aggregation Designer erreichen.............. 213 7.4 Flexible Analysen für Big Data Analytics................................. 219 7.5 Zusammenfassung................................................... 229 8 Pentaho Dashboards von Self Service bis maßgeschneidert.... 231 8.1 Self Service Dashboards für Endanwender mit dem Pentaho Dashboard Designer........................................... 232 8.2 Maßgeschneiderte Dashboards mit den Pentaho CTools.................... 241 8.3 Zusammenfassung................................................... 253
Inhalt 9 Jedox: Self Service BI und Performance Management............ 255 9.1 Jedox: Self Service BI und Performance Management...................... 256 9.2 Versionsübersicht.................................................... 259 10 Los geht s: Jedox installieren und konfigurieren.................. 261 10.1 Installationsvarianten................................................. 261 10.2 Exemplarische Installation aller Komponenten............................ 263 10.3 Konfiguration des Servers für den Zugriff externer Clients.................. 269 11 Installations verzeichnis & Ordner strukturen..................... 273 12 Jedox for Excel.................................................... 275 12.1 Add-in mit dem OLAP-Server verbinden................................. 277 12.2 Der Dialog Ansicht einfügen.......................................... 279 12.3 Datenfunktionen..................................................... 284 12.4 Der Dialog Elemente einfügen........................................ 288 12.5 Entwicklung von Datenstrukturen Modeller............................. 292 12.5.1 Erstellen einer neuen Datenbank................................. 293 12.5.2 Anlegen der Dimensionen....................................... 294 12.5.3 Erstellen eines Würfels......................................... 301 12.6 Dateneingabe........................................................ 302 12.6.1 Splashing..................................................... 302 12.6.2 Import-Assistent............................................... 304 13 Jedox Web........................................................ 309 14 Jedox Web Datei-Manager....................................... 313 14.1 Funktionsweise Datei-Manager......................................... 313 14.2 Funktionsweise Arbeitsmappe......................................... 315 14.3 Entwicklung von Berichten............................................ 319 14.3.1 Anlegen des Berichts (inkl. Überschriften)......................... 321 14.3.2 Anlegen der Combo-Boxen...................................... 322 14.3.3 Anlegen des Datenbereichs...................................... 330 14.3.4 Platzieren des DynaRanges und des Datenbereichs.................. 336 14.3.5 Einbinden des Diagramms...................................... 345 14.3.6 Einbinden der individuellen Bilder............................... 349 14.4 Weitere Funktionen.................................................. 349 14.4.1 Hilfreiche Zusatzfunktionen im Web.............................. 349 14.4.2 Verwendung von Variablen und benannten Bereichen............... 351 14.4.3 Macro-Engine................................................. 356 VII
VIII Inhalt 15 Berichts-Manager................................................. 359 15.1 Funktionsweise Berichts-Manager...................................... 359 15.2 Erweiterte Berichtserstellung.......................................... 361 16 ETL-Manager...................................................... 363 16.1 ETL-Menü........................................................... 365 16.2 ETL-Komponenten.................................................... 366 16.2.1 Verbindungen................................................. 366 16.2.2 Extraktion.................................................... 368 16.2.3 Transformation................................................ 376 16.2.3.1 Transformationsschritt Field Transform.................. 377 16.2.3.2 Transformationsschritt Table Join....................... 381 16.2.3.3 Transformationsschritt Table Transform.................. 382 16.2.3.4 Transformationsschritt Table View...................... 387 16.2.3.5 Transformationsschritt Tree FH......................... 387 16.2.3.6 Weitere Transformationen............................... 390 16.2.4 Laden........................................................ 391 16.2.5 Job.......................................................... 395 16.2.6 Variablen..................................................... 397 16.3 Beispiel ETL-Prozess.................................................. 400 17 Task- und OLAP-Manager......................................... 411 17.1 Task-Manager....................................................... 411 17.1.1 Batch PDF.................................................... 411 17.1.2 ETL Jobs...................................................... 414 17.2 OLAP-Manager...................................................... 415 18 System-Manager.................................................. 417 18.1 Grundlegende Optionen............................................... 417 18.2 Benutzerberechtigungen.............................................. 418 19 Jedox Mobile...................................................... 425 20 Potenziale von Pentaho und Jedox zusammenführen............. 429 20.1 Pentaho und Jedox in der Gegenüberstellung............................. 429 20.2 Pentaho und Jedox im Zusammenspiel................................... 431 20.3 Zusammenfassung................................................... 432 Index.................................................................. 433
1 Business Intelligence im Überblick Business-Intelligence-(BI-)Systeme haben in den letzten Jahren massive Verbreitung in Unternehmen gefunden. Der zielgerichteten Bereitstellung von Informationen kommt in Zeiten steigenden Wettbewerbs und immer kürzer werdenden Entscheidungszyklen eine strategische Bedeutung zu. Begünstigt durch das explosive Wachstum an Daten bei gleich zeitig immer niedrigeren Kosten für die Speicherung von Informationen wird Business Intelligence auch in den kommenden Jahren eine wichtige Rolle für die Entwicklung eines besseren Geschäftsverständnisses spielen. Das erste Kapitel des vorliegenden Buchs führt allgemein in das Konzept von Business Intelligence ein. Im ersten Abschnitt lesen Sie, was Unternehmen motiviert, in Business Intelligence zu investieren und entsprechende Systeme zu implementieren. In den folgen den Abschnitten erhalten Sie Informationen zu den Teilbereichen von Business Intelligence: von der Entwicklung eines Data Warehouse über die gerichtete und ungerichtete Analyse von Unternehmensdaten bis hin zu ihrer Verteilung in Form von Berichten und Dashboards. Diese Begrifflichkeiten und Konzepte bilden die Grundlage der späteren Kapitel, in denen ich vorstelle, wie man eine vollständige Business-Intelligence-Anwendung mit open-sourcebasierten Werkzeugen aufbaut. Open Source Business Intelligence ist auch das Thema des letzten Abschnitts dieses Kapitels. Hier werden die Vorteile dieses Ansatzes und einige Marktteilnehmer vorgestellt. 1.1 Business Intelligence: die Verwandlung von Daten in Informationen Kennen Sie die Situation, dass für die Bereitstellung von Berichten immer die IT-Abteilung herangezogen wird? Ist für Sie die Auswertung von Geschäftskennzahlen sehr zeitauf wendig und kostenintensiv? In vielen Unternehmen ist es Usus, für Besprechungen Reports mit unterschiedlichen Datenbeständen heranzuziehen, ganz davon zu schweigen, dass sich die Datenbestände meistens über mehrere Datenquellen und Systeme verteilen. Solche Situationen erschweren es, aussagekräftige Berichte zu erstellen und die dazugehörigen Daten zu analysieren. Doch gerade Geschäftsdaten stellen die Grundlage für unternehme rische Entscheidungen von großer Tragweite dar.
2 1 Business Intelligence im Überblick Früher waren Begrifflichkeiten wie IT-basierte Managementunterstützung, Manage ment-support-systeme oder Management-Informationssysteme weit verbreitet. Heute hat sich dafür der Begriff Business Intelligence (BI) eingebürgert. Business Intelligence ist ein Sammelbegriff für eine große Zahl unterschiedlicher Techno lo gien, sodass es eigentlich keine einheitliche Definition des Begriffes gibt. In meinen Augen beschreibt das folgende Zitat die Ideen und Gemeinsamkeiten, die den unterschiedlichen Ansätzen zugrunde liegen, sehr gut: Business Intelligence (BI) as Business Intelligence is getting the right information to the right people at the right time to support better decision making and gain competitive advantages. (J. Waite) Waite geht auf die Business-Perspektive des Themas ein. Business Intelligence soll es ermöglichen, Informationen so gut wie möglich zu verwalten. Jeder Mitarbeiter soll maß geschneidert aufbereitete Informationen immer dann zur Verfügung haben, wenn er eine Entscheidung treffen muss. Ziel ist es also, immer einen Entscheidungsprozess zu unter stützen und Wettbewerbsvorteile für ein Unternehmen zu generieren. Schauen wir uns eine andere Definition an: Business Intelligence is the process of transforming data into information and, through discovery into knowledge. (W. Behme) Dieser Satz beleuchtet eher die technische Perspektive von Business Intelligence. Daten aus den operativen Systemen werden eingesammelt, durch entsprechende Aufbereitungspro zesse in Informationen verwandelt und schließlich im Unternehmen verteilt. BI hat in den letzten Jahren nicht ohne Grund ein so großes Marktinteresse erfahren. Aus löser waren z. B. ungeeignete Reporting- und Analysefunktionalitäten von anderen (ins besondere ERP-)Systemen, mit denen man nur mit großem Aufwand Berichte und Auswer tungen erstellen konnte. Daneben hat die Notwendigkeit zugenommen, Daten aus mehreren (oft unterschiedlichen) Vorsystemen konsolidieren zu müssen, um einen umfassenden Überblick zu gewinnen (z. B. Konzernreporting). Auch wirtschaftlicher Druck hat dazu ge führt, dass viele Unternehmen ihre Prozesse und Organisation durch besseres Zahlen material optimieren wollen. Auf Anwenderseite gibt es einen weiteren wichtigen Grund: Man wollte auf Geschäftsdaten und Analysen über vertraute, nichttechnische Frontends wie Excel oder Portale zugreifen können, die auch Fachanwendern und nicht nur der IT das Arbeiten mit Daten ermöglichen. Bis vor einiger Zeit gab es auch noch die Anforderung, die operativen Transaktionssysteme zu entlasten. Dieser Performancegrund ist aber durch die ständig günstiger und leistungsfähiger werdende Hardware kaum noch relevant. Die Auswertung von unternehmerischem Zahlenmaterial geschieht durch analytische In formationssysteme, die auf einen konsolidierten Datenbestand (oftmals in Form sogenann ter Cubes ) zugreifen. Je größer das Unternehmen ist, desto mehr Daten entstehen. Dazu kommt, dass aufgrund von heterogenen IT-Landschaften Daten aus verschiedenen Vorsys temen integriert werden müssen. Das stellt nicht nur hohe technische Anforderungen, sondern auch semantische, z. B. die Normierung von Daten wie Euro und Dollar in einem globalen Umsatzreport. Natürlich sind diese Informationen ohne eine entsprechende Aufbe reitung nicht wirklich nützlich für die Geschäftsführung oder den Vorstand eines Unterneh mens. Bearbeitet und verändert man sie aber unter Verwendung von BI-Systemen, bekom men sie einen Bezug zueinander und sind in Entscheidungsprozessen einsetzbar.
1.1 Business Intelligence: die Verwandlung von Daten in Informationen 3 Ich übertreibe nicht, wenn ich sage, dass BI-Systeme mit wenigen Ausnahmen ein Muss für alle Managementebenen sind. Denn: Entscheider erhalten dadurch einen einfachen Zu gang zu Kennzahlen, Berichten und Scorecards und können selber Analysen mit zeitlicher Betrachtung durchführen. Führungskräfte haben spezielle Anforderungen, die BI-Systeme gut erfüllen können: Schnelligkeit, Einfachheit der Nutzung, Gebrauchstauglichkeit für IT-fremde Personen, Datenqualität, stetige Aktualität, Verlässlichkeit, Integrität und Kon sistenz. In Abhängigkeit von den individuellen Anforderungen kann die Architektur eines BI-Sys tems unterschiedliche Formen haben. Im Folgenden beschreibe ich einen Ansatz, den man in der Praxis häufig antrifft. Bild 1.1 Eine Referenzarchitektur für Business Intelligence Die zu verarbeitenden Daten liegen in der Regel in unterschiedlichen Quellsystemen. Dabei kann es sich um die operativen Systeme handeln, wie bspw. das ERP- oder das CRM-System. Neben diesen internen Informationen können allerdings auch externe Daten wie Marktund Wettbewerbsinformationen für Analysen und Auswertungen interessant sein. Diese Schicht der Quellsysteme ist durch eine große Heterogenität der Daten geprägt. Diese Daten zu integrieren, zu bereinigen und zu standardisieren ist eine der wesentlichen Aufgaben von Business-Intelligence-Lösungen. In der zweiten Schicht der Business-Intel ligence-architektur, der Integrationsschicht, werden daher zeit- oder eventgesteuert die sogenannten Extraktions-, Transformations- und Ladeprozesse (ETL-Prozesse) zur Aufbe reitung und Veredelung der Daten ausgeführt. Ziel der ETL-Prozesse ist ein sogenannter Data Storage Layer mit dem Data Warehouse (DW). Dazu wird typischerweise eine relationale Datenbank eingesetzt, um die Daten zu speichern. Die zentrale Aufgabe der Datenbank ist es, performante Abfragen über sehr große Datenmengen zu ermöglichen. Konfrontiert mit explosionsartigem Datenwachstum und damit den Grenzen relationaler Datenspeicherung finden in dieser Schicht unter dem Stichwort Big Data neue Technologien Einzug. Ein bekannter Vertreter ist das Hadoop-
4 1 Business Intelligence im Überblick Framework mit seinem MapReduce-Algorithmus zur Speicherung und Verarbeitung riesi ger Datenmengen. Die Funktionalitäten der unterschiedlichen BI-Anwendungen werden in der Output-Schicht oder im Output Layer abgebildet. Die Technologie des Online Analytical Processing (OLAP) erlaubt eine multidimensionale Sicht auf die Daten und damit flexible und performante Analysen. Auch nicht IT-affine Anwender können dadurch eigene Auswertungen erstellen, Ansichten filtern oder Operationen zur Generierung von Detailansichten (sogenannte Drilldowns) durchführen. Neben solchen hochdynamischen Ansichten für Poweruser werden in dieser Schicht auch weniger flexible, aber hochformatierte Standardberichte für die ver schiedenen Berichtsempfänger erstellt. Data-Mining-Anwendungen erlauben mittels statis tischer Funktionen, neue Muster in den Datenbeständen des Data Warehouse zu erkennen. Diese Methoden lassen Sie nicht nur in die Vergangenheit blicken, sondern ermöglichen es auch, Prognosen über zukünftige Entwicklungen zu treffen. Business-Intelligence-Systeme bieten vielfältige Frontends für Anwender. Je nach Anbieter können die Analysen, Berichte oder Dashboards im Browser, in Excel oder in anderen Desk top-werkzeugen angezeigt werden. Die Referenzarchitektur wird uns durch das ganze Buch begleiten. Anhand eines prakti schen Beispiels werde ich ihre Schichten beschreiben und erklären, welchen Zweck sie erfüllen. Zuerst möchte ich aber noch ein wenig auf die einzelnen Technologien eingehen, die sich in einem BI-System verbergen. In den nächsten Abschnitten wird es daher um Kon zepte wie Data Warehouse, OLAP etc. gehen. 1.2 Data Warehouse: das zentrale Datenlager des Unternehmens Das Data Warehouse ist das zentrale Datenlager im Unternehmen und der Dreh- und Angel punkt innerhalb einer BI-Architektur. Über die unterschiedlichen operativen Systeme sind steuerungsrelevante Informationen über Lieferanten, Prozesse, Produkte, Kunden und das sonstige Unternehmensumfeld verstreut. Diese Systeme speichern die Informationen in un terschiedlichen Datenbanken und -formaten. Auch externe Informationen werden im Nor malfall nicht zentral, sondern im ganzen Unternehmen verteilt gespeichert. Das bedeutet, dass diese Daten für Berichte und Auswertungen zum einen konsolidiert und zum anderen aufbereitet werden. Mitarbeiter greifen für diese Aufgaben in der Regel auf Tabellenkalkulationen und andere Office-Software zurück. Diese Anwendungen sind populär, aber mit einigen Nachteilen be haftet: Einerseits findet der Zugriff auf die Datenquellen durch die verschiedenen Abteilun gen unkoordiniert statt. Kennzahlen werden nach unterschiedlichen Berechnungsvorschrif ten berechnet, sodass es bei Besprechungen zwangsläufig zu Diskussionen über die Zahlen kommt. Insgesamt ist der Informationsfluss von den Quellen bis zum Managementbericht meistens sehr intransparent und wenig standardisiert.
1.2 Data Warehouse: das zentrale Datenlager des Unternehmens 5 Andererseits sind diese Tätigkeiten mit einem hohen Arbeitsaufwand verbunden. Nicht sel ten sitzen mehrere Mitarbeiter an der Erstellung der Berichte und Auswertungen. Sind viele manuelle Einzelschritte nötig, um z. B. einen Report zu erstellen, führt das zu einer hohen Fehleranfälligkeit und schwer zu pflegenden Berichtssystemen. Erschwerend kommt dazu, dass viele operative Quellen nur schwer zugänglich sind und deshalb spezielle, technische Vorkenntnisse nötig sind, um die gewünschten Informationen aus den Datenbanken zu be kommen. Das Data-Warehouse-Konzept setzt an diesen Schwachpunkten der herkömmlichen Samm lung betrieblicher Informationen an. Doch Vorsicht, nicht jede Datensammlung im Unter nehmen ist ein Data Warehouse! Ein Data Warehouse muss gewissen Ansprüchen an Flexi bilität und Leistungsfähigkeit bei Auswertungen genügen. Der Data-Warehouse-Experte Inmon hat für eine derartige Datensammlung die folgende Definition parat: A data warehouse is a subject-oriented, integrated, time-variant, non-volatile collection of data in support of management's decision making process. Subject-oriented bedeutet, dass die Daten nach bestimmten Themen innerhalb des unter nehmerischen Umfeldes organisiert werden. Man will also beispielsweise alles über seine Produkte oder Lieferanten auswerten. Das Attribut integrated bezieht sich auf die Zusammenführung von Daten aus verschie denen Quellen in ein gemeinsames Datenmodell. Im Data Warehouse werden also Daten aus dem ERP- oder CRM-System ebenso integriert wie Informationen aus externen Daten quellen. Ein weiterer wichtiger Aspekt eines Data Warehouse wird durch das Adjektiv time-variant ausgedrückt. Dahinter verbirgt sich die Vorstellung, dass die integrierten Daten langfristig gespeichert werden, sodass auch Auswertungen mit historischen Informationen möglich sind. Eine Zeitdimension mit unterschiedlichen Aggregationen ist eigentlich obligatori scher Bestandteil eines jeden Data Warehouse und erlaubt den Anwendern, die Entwick lung einer Kennzahl über eine bestimmte Zeit zu analysieren. Non-volatile beschreibt die persistente Speicherung der Daten im Warehouse. Die Daten werden per se nicht gelöscht oder geändert. Nimmt man Änderungen an den Daten vor, passiert das lediglich über das Laden über ETL-Prozesse. Übergeordnetes Ziel eines Data Warehouse ist die Unterstützung von Entscheidungspro zessen des Managements. Mit diesem Anspruch grenzt sich das Data Warehouse in vielen Punkten von operativen Systemen ab. Oft werden BI- oder DW-Initiativen mit dem Argu ment konfrontiert, dass alle Daten ohnehin im ERP-System stünden. Diese Argumentation vernachlässigt aber die unterschiedliche Motivation der Systeme. Diese Tabelle zeigt die wesentlichen Unterschiede zwischen einem Data Warehouse und operativen Datenquellen: