Peter Gluchowski Christian Schieder BARC Software-Evaluation Open Source Business Intelligence Acht quelloffene Werkzeuge für Reporting, OLAP und Data Mining im Vergleich ISBN: 978-3-937818-41-2 Unter Mitarbeit von Mario Ettelt Sebastian Flad Melanie Herbig Karsten Neumann Alexander Widera Ein Studie des Business Application Research Center in Zusammenarbeit mit der Technischen Universität Chemnitz Copyright BARC 2009
Autoren Prof. Dr. Peter Gluchowski ist seit 2006 Inhaber der Professur für Wirtschaftsinformatik II, insb. Systementwicklung und Anwendungssysteme in Wirtschaft und Verwaltung, an der Technischen Universität Chemnitz. Seine Lehr- und Forschungsaktivitäten konzentrieren sich auf den praktischen Aufbau dispositiver bzw. analytischer Systeme zur Entscheidungsunterstützung. Als Mitbegründer verschiedener Beratungsunternehmen im BI- Umfeld konnte er vielfältige Praxiserfahrungen sammeln, die in zahlreichen Veröffentlichungen zu diesem Themenkreis dokumentiert sind. Christian Schieder ist seit 2006 wissenschaftlicher Mitarbeiter am Lehrstuhl für Wirtschaftsinformatik II, insb. Systementwicklung und Anwendungssysteme in Wirtschaft und Verwaltung, an der Technischen Universität Chemnitz. Er hat sich auf die Bereiche Open Source BI und Operational BI spezialisiert und kann auf eine Reihe von Publikationen und Vorträgen in diesen und angrenzenden Themenfeldern der Business Intelligence Forschung zurückblicken. Zusammen mit Industriepartnern arbeitet er an verschiedenen Projekten für innovative Lösungen im BI-Bereich. Weitere Informationen zur Professur und den Autoren sind verfügbar unter: http://www.tu-chemnitz.de/wirtschaft/wi2/ BARC 2009 II
Inhaltsverzeichnis Autoren... II Management Summary... III Inhaltsverzeichnis... V Abbildungsverzeichnis... IX Tabellenverzeichnis... XIV 1 Einleitung... 1 1.1 Wegweiser durch die Studie... 2 1.2 Rahmenbedingungen und Methodik... 3 2 Einführung in Business Intelligence... 5 2.1 Business Intelligence-Begriffsverständnis... 6 2.2 Architektur von BI-Systemen... 8 2.3 Literaturhinweise... 10 3 Einführung in Open Source Software... 11 3.1 Historischer Abriss... 13 3.2 Lizenzmodelle... 15 3.3 Literaturhinweise... 19 4 Markt und Trends... 21 4.1 Markt für Business Intelligence... 22 4.2 Markt für Open Source Business Intelligence... 23 4.3 Literaturhinweise... 26 5 Open Source Reporting Werkzeuge... 27 5.1 Marktüberblick Open Source Reporting Tools... 28 5.2 Beschreibungs- und Bewertungskriterien Open Source Reporting Tools... 31 5.3 Eclipse BIRT... 35 5.3.1 Anbieterprofil... 35 5.3.2 Referenzen... 36 5.3.3 Produktprofil... 36 5.3.4 Architektur... 38 5.3.5 Funktionsumfang... 39 5.3.6 Bewertung... 53 5.3.7 Entwicklungstrend... 55 5.3.8 Weitere Informationen... 56 5.4 Jasper Reporting... 59 BARC 2009 V
5.4.1 Anbieterprofil... 59 5.4.2 Referenzen... 60 5.4.3 Produktprofil... 60 5.4.4 Architektur... 61 5.4.5 Funktionsumfang... 63 5.4.6 Bewertung... 82 5.4.7 Entwicklungstrend... 84 5.4.8 Weitere Informationen... 85 5.5 Pentaho... 88 5.5.1 Anbieterprofil... 88 5.5.2 Referenzen... 89 5.5.3 Produktprofil... 89 5.5.4 Architektur... 92 5.5.5 Funktionsumfang... 93 5.5.6 Bewertung... 104 5.5.7 Entwicklungstrend... 106 5.5.8 Weitere Informationen... 107 5.6 Vergleichende Bewertung... 108 5.7 Weitere Open Source Reporting Werkzeuge... 111 5.7.1 Agata Report... 112 5.7.2 DataVision... 115 5.7.3 OpenReports... 119 5.7.4 OpenRPT... 122 6 Open Source OLAP Werkzeuge... 125 6.1 Marktüberblick Open Source OLAP Werkzeuge... 128 6.2 Beschreibungs- und Bewertungskriterien Open Source OLAP Tools... 129 6.2.1 Allgemeine Kriterien... 129 6.2.2 Technologische Kriterien... 130 6.2.3 Benutzungsspezifische Kriterien... 131 6.3 jpivot / Mondrian... 133 6.3.1 Anbieterprofil... 133 6.3.2 Referenzen... 134 6.3.3 Produktprofil... 134 6.3.4 Architektur... 135 BARC 2009 VI
6.3.5 Funktionsumfang... 137 6.3.6 Bewertung... 150 6.3.7 Entwicklungstrend... 152 6.3.8 Weitere Informationen... 153 6.4 PALO... 155 6.4.1 Anbieterprofil... 155 6.4.2 Referenzen... 157 6.4.3 Produktprofil... 157 6.4.4 Architektur... 159 6.4.5 Funktionsumfang... 161 6.4.6 Bewertung... 173 6.4.7 Entwicklungstrend... 175 6.4.8 Weitere Informationen... 176 6.5 Vergleichende Bewertung... 178 6.5.1 Allgemeine Kriterien... 178 6.5.2 Technologische Kriterien... 179 6.5.3 Benutzungsspezifische Kriterien... 180 6.6 Weitere Open Source OLAP Werkzeuge... 182 6.6.1 Cubulus... 183 6.6.2 pocolap... 184 6.6.3 OpenOLAP for PostgreSQL/MySQL... 186 7 Open Source Data Mining Werkzeuge... 188 7.1 Marktüberblick... 189 7.2 Beschreibungs- und Bewertungskriterien Open Source Data Mining Werkzeuge... 193 7.2.1 Prozessspezifische Kriterien... 193 7.2.2 Projektspezifische Kriterien... 198 7.2.3 Toolspezifische Kriterien... 199 7.2.4 Bewertungsdesign... 201 7.3 KNIME... 203 7.3.1 Anbieterprofil... 203 7.3.2 Referenzen... 203 7.3.3 Produktprofil... 204 7.3.4 Architektur... 205 7.3.5 Funktionsumfang... 206 BARC 2009 VII
7.3.6 Bewertung... 213 7.3.7 Entwicklungstrend... 215 7.3.8 Weitere Informationen... 216 7.4 RapidMiner... 217 7.4.1 Anbieterprofil... 217 7.4.2 Referenzen... 217 7.4.3 Produktprofil... 218 7.4.4 Architektur... 219 7.4.5 Funktionsumfang... 220 7.4.6 Bewertung... 227 7.4.7 Entwicklungstrend... 229 7.4.8 Weitere Informationen... 232 7.5 WEKA... 233 7.5.1 Anbieterprofil... 233 7.5.2 Referenzen... 234 7.5.3 Produktprofil... 234 7.5.4 Architektur... 235 7.5.5 Funktionsumfang... 238 7.5.6 Bewertung... 253 7.5.7 Entwicklungstrend... 254 7.5.8 Weitere Informationen... 255 7.6 Vergleichende Bewertung... 256 7.7 Weitere Open Source Data Mining Werkzeuge... 259 BARC 2009 VIII
Abbildungsverzeichnis Abbildung 2-1: Schichtenmodell von BI: Bereitstellungs- und Analyse-/Präsentationsschicht... 8 Abbildung 2-2: Komponenten von BI-Systemen... 9 Abbildung 3-1: Verteilung der Lizenzen beim OS-Hoster Sourceforge.net... 18 Abbildung 4-1: TCO-Perfomance von BI-Implementierungen nach Herstellern... 24 Abbildung 5-1: Vergleich der relativen Downloadhäufigkeit von Open Source Reporting Tools 2007 und 2008... 29 Abbildung 5-2: Eclipse Report Designer... 37 Abbildung 5-3: BIRT im Eclipse-Umfeld... 38 Abbildung 5-4: Datenquelle in BIRT anlegen... 40 Abbildung 5-5: Abfrage einer Datenbank... 41 Abbildung 5-6: Berichtselemente... 41 Abbildung 5-7: Data Explorer... 42 Abbildung 5-8: Library Explorer... 42 Abbildung 5-9: Eigenschaften-Editor... 43 Abbildung 5-10: Report-Struktur und Übersicht über die verwendeten Elemente... 43 Abbildung 5-11: Geöffneter Report im BIRT Report Viewer... 44 Abbildung 5-12: Geöffneter Report in der Designer-Ansicht... 45 Abbildung 5-13: Anlegen einer neuen Datenquelle... 46 Abbildung 5-14: Expression Builder... 49 Abbildung 5-15: Navigator - Projekt-Übersicht... 52 Abbildung 5-16: Fehlermeldung in BIRT... 53 Abbildung 5-17: Bewertungsdiagramm Eclipse BIRT... 55 Abbildung 5-18: Architekturschema von JasperSoft Reporting... 62 Abbildung 5-19: Aufbau einer JRXML-Reportdefinition... 64 Abbildung 5-20: Konfigurationsmöglichkeiten von ireport... 65 Abbildung 5-21: Grafische Oberfläche von ireport... 67 Abbildung 5-22: JDBC-Datenbankverknüpfung... 69 Abbildung 5-23: Query Designer... 70 Abbildung 5-24: Sortierung und Filterung... 70 Abbildung 5-25: Einbinden von Datei-Datenquellen... 71 Abbildung 5-26: Anpassen von Datei-Datenquellen... 71 Abbildung 5-27: MDX-Abfrage... 72 Abbildung 5-28: Auswertung mit JasperAnalysis... 72 BARC 2009 IX
Abbildung 5-29: Einfügen von Sub-Datasets... 73 Abbildung 5-30: Expression Editor... 74 Abbildung 5-31: Diagramm-Auswahlfenster... 75 Abbildung 5-32: ireport Wizard... 78 Abbildung 5-33: JasperServer-Plugin... 79 Abbildung 5-34: Repository Managament in JasperServer... 79 Abbildung 5-35: Benutzerverwaltung in JasperServer... 80 Abbildung 5-36: JasperAnalysis in JasperServer... 81 Abbildung 5-37: Angepasste Abfrage mit JasperAnalysis... 82 Abbildung 5-38: Bewertungsdiagramm Jasper Reporting... 84 Abbildung 5-39: Komponenten der Pentaho Open BI Suite... 88 Abbildung 5-40: Pentaho-Reports in Druckausgabe... 90 Abbildung 5-41: Grafische Auswertungsmöglichkeiten... 91 Abbildung 5-42: Architektur von Pentaho BI Server... 92 Abbildung 5-43: Einstellungsmöglichkeiten... 94 Abbildung 5-44: Pentaho Report Designer... 95 Abbildung 5-45: Anbindung einer Datenquelle im Pentaho Report Designer... 98 Abbildung 5-46: Erstellen von Abfragen mit dem Query Builder... 98 Abbildung 5-47: MDX-Abfrage... 99 Abbildung 5-48: Diagrammtypen für die Auswertung von Daten... 100 Abbildung 5-49: Erstellen von Gruppierungen... 101 Abbildung 5-50: Erstellung eines Reports in sieben Schritten mit dem Report-Assistent. 102 Abbildung 5-51: Webbasiertes Front End... 103 Abbildung 5-52: Administrationsoberfläche... 103 Abbildung 5-53: Erstellen von Schedules per Web-Oberfläche... 104 Abbildung 5-54: Bewertungsdiagramm Pentaho Reporting... 106 Abbildung 5-55: Vergleichende Bewertung der betrachteten Reporting-Tools... 110 Abbildung 5-56: Screenshot einer Beispielanwendung mit AGATA REPORT... 112 Abbildung 5-57: Entwicklung der Downloadzahlen von AGATA REPORT im Zeitverlauf von Feb. 2006 Mai 2008... 114 Abbildung 5-58: Screenshot des Report Designers DATAVISION... 115 Abbildung 5-59: Entwicklung der Downloadzahlen von DataVision im Zeitverlauf von Jan. 2002 Mai 2008... 117 Abbildung 5-60: Screenshot einer Beispielanwendung mit OPENREPORTS... 119 Abbildung 5-61: Entwicklung der Downloadzahlen von Open Reports im Zeitverlauf von Juni 2002 Mai 2008... 121 BARC 2009 X
Abbildung 5-62: Screenshot einer Beispielanwendung mit OPENRPT... 122 Abbildung 5-63: Entwicklung der Downloadzahlen von OPENRPT im Zeitverlauf von Juni 2005 Mai 2008... 124 Abbildung 6-1: Exemplarisches Star Schema... 126 Abbildung 6-2: Würfeldarstellung eines multidimensionalen Datenmodells... 126 Abbildung 6-3: Architektur von Mondrian OLAP Server... 135 Abbildung 6-4: Benutzeroberfläche von jpivot... 137 Abbildung 6-5: Drill down durch eine Dimension... 138 Abbildung 6-6: Drill Position und seine Wirkung... 139 Abbildung 6-7: Drill Member und seine Wirkung... 139 Abbildung 6-8: Drill Replace und seine Wirkung... 139 Abbildung 6-9: Drill through für eine Kennzahl... 140 Abbildung 6-10: OLAP Navigator... 141 Abbildung 6-11: Kennzahlenauswahl mit dem OLAP Navigator... 141 Abbildung 6-12: Auswertung mit der Dimension Time als Filter... 142 Abbildung 6-13: Auswahl einzelner Dimensionselemente mit dem OLAP-Navigator... 143 Abbildung 6-14: Der MDX-Editor zum Bearbeiten der Abfrage... 144 Abbildung 6-15: Funktionen in der Toolbar zur Anpassung der Datendarstellung... 144 Abbildung 6-16: Sortieroptionen und Beispiele für das Sortieren einer Kennzahl in der Datentabelle... 145 Abbildung 6-17: Die Funktion "Übergeordnete Elemente auf Tabellenachsen anzeigen" 145 Abbildung 6-18: Vertauschen der Achsen einer Auswertung... 146 Abbildung 6-19: Diagrammoptionen und verfügbare Diagrammtypen... 147 Abbildung 6-20: Beispiele für die Diagrammgestaltung mit jpivot... 147 Abbildung 6-21: Druckoptionen... 148 Abbildung 6-22: Export der Auswertung nach Microsoft Excel... 148 Abbildung 6-23: Berechnung von Elternelementen bei Zugriffsbeschränkung... 150 Abbildung 6-24: Bewertungsdiagramm Mondrian-jPivot... 152 Abbildung 6-25: Microsoft Excel mit Palo-Plug-in... 159 Abbildung 6-26: Server- und Clientkomponenten in Palo... 160 Abbildung 6-27: Erzeugung eines Datenwürfels... 164 Abbildung 6-28: Anpassung einer Dimension... 164 Abbildung 6-29: Anlegen einer View... 165 Abbildung 6-30: Palo-Server Import-Assistent... 166 Abbildung 6-31: Auswertung in Microsoft Excel... 166 Abbildung 6-32: Abbildung von Hierarchien... 167 BARC 2009 XI
Abbildung 6-33: Ändern des Schnitts durch den Datenwürfel... 167 Abbildung 6-34: Ergebnis der Änderung... 168 Abbildung 6-35: Palo-Menü... 168 Abbildung 6-36: View aus Systemdatenbank von Palo-Server... 170 Abbildung 6-37: Meldung bei fehlerhaftem Verbindungsaufbau... 172 Abbildung 6-38: Palo-Server Administration... 172 Abbildung 6-39: Bewertungsdiagramm PALO... 175 Abbildung 6-40: Vergleichende Bewertung der betrachteten OLAP-Werkzeuge... 181 Abbildung 6-41: Screenshot einer Demoanwendung mit Cubulus... 183 Abbildung 6-42: Entwicklung der Downloadzahlen von Cubulus auf im Zeitverlauf von März 2007 Mai 2008... 184 Abbildung 6-43: Screenshot einer Demoanwendung mit pocolap... 185 Abbildung 6-44: Entwicklung der Downloadzahlen von pocolap im Zeitverlauf von Jan. 2004 Mai 2008... 186 Abbildung 6-45: Entwicklung der Downloadzahlen von OpenOLAP for MySQL im Zeitverlauf von Mai 2006 Mai 2008... 187 Abbildung 7-1: Einsatzgebiete von Data Mining 2006 und 2007... 189 Abbildung 7-2: Downloadhistorie von Weka... 190 Abbildung 7-3: Umfrageergebnis über den Einsatz von Open Source DM-Tools 2007 vs. 2008... 191 Abbildung 7-4: Downloadhistorie von RapidMiner... 192 Abbildung 7-5: Cross-Industry Standard Process for Data Mining (CRISP-DM)... 193 Abbildung 7-6: Umfrageergebnis über genutzte Methodologie für Data Mining August 2007... 195 Abbildung 7-7: Umfrageergebnis genutzte Data Mining Verfahren März 2007... 198 Abbildung 7-8: Architekturschema von Knime... 205 Abbildung 7-9: Knime Workbench... 206 Abbildung 7-10: SQL-Query und Data-View... 207 Abbildung 7-11: Statistische Auswertung des Dateninputs... 208 Abbildung 7-12: Knime-Workflow... 212 Abbildung 7-13: Generiertes Entscheidungsbaummodell... 212 Abbildung 7-14: Bewertung von Knime... 214 Abbildung 7-15: Architekturschema von RapidMiner... 219 Abbildung 7-16: GUI RapidMiner... 220 Abbildung 7-17: Editor-Ansicht von RapidMiner... 221 Abbildung 7-18: Ergebnisansicht von RapidMiner... 222 BARC 2009 XII
Abbildung 7-19: SQL-Anfrageerstellungsunterstützung... 223 Abbildung 7-20: Anfrageergebnisvorschau... 224 Abbildung 7-21: Ergebnispräsentation Entscheidungsbaum... 226 Abbildung 7-22: Bewertung RapidMiner... 228 Abbildung 7-23: Komponenten der Pentaho Open BI Suite... 233 Abbildung 7-24: Architekturschema von Weka... 235 Abbildung 7-25: Weka-Explorer... 236 Abbildung 7-26: Weka-Experimenter... 236 Abbildung 7-27: Weka-KnowledgeFlow... 237 Abbildung 7-28: Weka-SimpleCLI... 237 Abbildung 7-29: Weka - ArffViewer... 238 Abbildung 7-30: Weka - SQLViewer... 239 Abbildung 7-31: Weka - Preprocess... 240 Abbildung 7-32: Weka - Arff-Format... 243 Abbildung 7-33: Weka - Beispiel-Modell... 249 Abbildung 7-34: Bewertung Weka... 254 Abbildung 7-35: Vergleichende Bewertung der Open Source Data Mining Tools... 256 Abbildung 7-36: Umfrageergebnis zu eingesetzten Open Source DM-Tools 2007 und 2008 im Vergleich... 259 BARC 2009 XIII
Tabellenverzeichnis Tabelle 1: Bewertete Lösungen und Releasestände... IV Tabelle 5-1: Integrierte Funktionen... 50 Tabelle 5-2: Dokumente zu Eclipse BIRT... 57 Tabelle 5-3: Verfügbare Abschnitte für Reports... 66 Tabelle 5-4: Dokumente zu Jasper... 86 Tabelle 5-6: Dokument zu Pentaho Reporting... 107 Tabelle 6: Dokumente zu... 107 Tabelle 6-2: Ressourcen zu Mondrian... 153 Tabelle 6-3: Ressourcen zu jpivot... 154 Tabelle 6-4: Informationsquellen zu Palo-Produkten... 162 Tabelle 6-5: Rechtsobjekte und Rechte von Palo... 170 Tabelle 6-6: Ressourcen zu Palo... 177 Tabelle 7-1: Unterstützte Datenformate Knime... 207 Tabelle 7-2: Übersicht Transformationsmöglichkeiten (Auszug)... 208 Tabelle 7-3: Übersicht zu unterstützten Data Mining Verfahren in Knime... 209 Tabelle 7-4: Ressoucen zu Knime... 216 Tabelle 7-5: Versionsvergleich... 230 Tabelle 7-6: Ressourcen zu RapidMiner... 232 Tabelle 7-7: Weka - Dateninputformate... 242 Tabelle 7-8: Weka - Filter... 245 Tabelle 7-9: Weka - Methoden und Algorithmen... 248 Tabelle 7-10: Weka - Modellspeicherung, -wertung, -visualisierung... 251 Tabelle 7-11: Ressourcen zu WEKA... 255 BARC 2009 XIV