Data Mining in SAP NetWeaver BI

Ähnliche Dokumente

Data Mining in SAP NetWeaver BI

Information-Design-Tool

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

OutlookExAttachments AddIn

Updatehinweise für die Version forma 5.5.5

DOKUMENTATION VOGELZUCHT 2015 PLUS

2. Die eigenen Benutzerdaten aus orgamax müssen bekannt sein

Lizenzen auschecken. Was ist zu tun?

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

SJ OFFICE - Update 3.0

Die Dateiablage Der Weg zur Dateiablage

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

«/Mehrere Umfragen in einer Umfrage durchführen» Anleitung

Artikel Schnittstelle über CSV

white sheep GmbH Unternehmensberatung Schnittstellen Framework

Live Update (Auto Update)

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Kostenstellen verwalten. Tipps & Tricks

1. Zuerst muss der Artikel angelegt werden, damit später die Produktvarianten hinzugefügt werden können.

Die neue Datenraum-Center-Administration in. Brainloop Secure Dataroom Service Version 8.30

Access Grundlagen für Anwender. Susanne Weber. 1. Ausgabe, 1. Aktualisierung, Juni 2013

KURZANLEITUNG CLOUD OBJECT STORAGE

Tutorial Windows XP SP2 verteilen

Auswertung erstellen: Liste mit -

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

Modul Bildergalerie Informationen zum Bearbeiten des CMS-Systems für den SV Oberteisendorf

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch zum Excel Formular Editor

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

MailUtilities: Remote Deployment - Einführung

Musterlösung für Schulen in Baden-Württemberg. Windows Basiskurs Windows-Musterlösung. Version 3. Stand:

Zur Bestätigung wird je nach Anmeldung (Benutzer oder Administrator) eine Meldung angezeigt:

Speichern. Speichern unter

Collax -Archivierung

Einstellungen im Internet-Explorer (IE) (Stand 11/2013) für die Arbeit mit IOS2000 und DIALOG

Kurzeinführung Excel2App. Version 1.0.0

So importieren Sie einen KPI mithilfe des Assistenten zum Erstellen einer Scorecard

Kommunikations-Management

Anleitung - Archivierung

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Postfach aufräumen und archivieren

Import, Export und Löschung von Zertifikaten mit dem Microsoft Internet Explorer

Datensicherung. Beschreibung der Datensicherung

Frankieren in Microsoft Word mit dem E Porto Add in der Deutschen Post

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

3 Windows als Storage-Zentrale

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Lizenz-Server überwachen

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

FastViewer Remote Edition 2.X

Mediumwechsel - VR-NetWorld Software

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Outlook 2000 Thema - Archivierung

Anleitung fürs Webmail

-Inhalte an cobra übergeben

TEAMWORK-Uploader. Dokumentenaustausch mit dem PC

Kurzanleitung fu r Clubbeauftragte zur Pflege der Mitgliederdaten im Mitgliederbereich

Brainloop Dox Häufig gestellte Fragen

Mediumwechsel - VR-NetWorld Software

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

PKV- Projektanlage Assistent

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

Anleitungen zum Publizieren Ihrer Homepage

SANDBOXIE konfigurieren

Data Mining-Modelle und -Algorithmen

Strategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand

Individuelle Formulare

Anleitung zur Erstellung einer Batchdatei. - für das automatisierte Verbinden mit Netzlaufwerken beim Systemstart -

Powermanager Server- Client- Installation

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

DeltaVision Computer Software Programmierung Internet Beratung Schulung

Leitfaden zur Installation von Bitbyters.WinShutdown

1. Software installieren 2. Software starten. Hilfe zum Arbeiten mit der DÖHNERT FOTOBUCH Software

Medea3 Print-Client (m3_print)

VisiScan 2011 für cobra

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

ERP Cloud Tutorial. E-Commerce ECM ERP SFA EDI. Backup. Klassifikationen erfassen und importieren.

Outlook Web App 2010 Kurzanleitung

DPV Datenbankexport für eigene Auswertungen DBF nach Excel mit Filterung der Daten (über MSQuery)

FuxMedia Programm im Netzwerk einrichten am Beispiel von Windows 7

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

BSV Software Support Mobile Portal (SMP) Stand

Anleitung zum Login. über die Mediteam- Homepage und zur Pflege von Praxisnachrichten

SafeRun-Modus: Die Sichere Umgebung für die Ausführung von Programmen

Zentrale Installation

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Kleines Handbuch zur Fotogalerie der Pixel AG

Stammdatenanlage über den Einrichtungsassistenten

Arbeitsabläufe FinanzProfiT Version 4.25

Einkaufslisten verwalten. Tipps & Tricks

2. Word-Dokumente verwalten

UpToNet Workflow Workflow-Designer und WebClient Anwendung

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

3. GLIEDERUNG. Aufgabe:

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Transkript:

Martin Kießwetter, Dirk Vahlkamp Data Mining in SAP NetWeaver BI Bonn Boston

Auf einen Blick 1 Einleitung... 11 2 Aufgaben und Ziele des Data Mining... 17 3 Werkzeuge des Data Mining in SAP NetWeaver BI... 39 4 Unüberwachtes Lernen... 149 5 Überwachtes Lernen... 225 6 Neue Data-Mining-Verfahren für SAP NetWeaver BI... 281 7 Ausblick... 333 A Daten für das Fallbeispiel... 339 B Literaturverzeichnis... 365 C Die Autoren... 369

Inhalt 1 Einleitung... 11 2 Aufgaben und Ziele des Data Mining... 17 2.1 Was ist Data Mining?... 17 2.2 Data Mining, KDD und Business Intelligence... 20 2.3 KDD-Prozessmodelle... 22 2.4 Übersicht Data-Mining-Verfahren... 27 2.5 Erfolgreiche Anwendung von Data Mining... 30 2.6 Datenanalyse in SAP NetWeaver BI... 32 2.7 Zusammenfassung... 37 3 Werkzeuge des Data Mining in SAP NetWeaver BI 39 3.1 Die APD Workbench... 40 3.1.1 Aufbau der APD Workbench... 41 3.1.2 Eingangsdaten für eine Analyse: Datenquellen... 46 3.1.3 Durchführung einer Analyse: Transformationen... 59 3.1.4 Ergebnisdaten einer Analyse: Datenziele... 72 3.1.5 Ein einfaches Beispiel für einen Analyseprozess... 77 3.1.6 Standardfunktionen zur Datenanalyse... 107 3.2 Sonderfunktionalitäten in der APD Workbench... 113 3.2.1 Individuelle Anwendungshierarchien... 114 3.2.2 Versteckte Funktionen... 117 3.2.3 Verwaltung neuer Anwendungen... 120 3.3 Data Mining Workbench... 123 3.3.1 Aufbau der DM Workbench... 123 3.3.2 Verwaltung der Data-Mining-Modelle... 125 3.3.3 Anlegen eines Data-Mining-Modells... 127 3.3.4 Modellergebnisse eines Data-Mining- Modells... 130 3.4 Integration in die Datenbewirtschaftung... 130 3.4.1 Einsatz von Jobs (Hintergrundverarbeitung)... 133 3.4.2 Analyseprozess ausführen mit ABAP... 137 7

Inhalt 3.4.3 Aufruf aus einer Prozesskette... 143 3.4.4 Empfehlungen... 146 3.5 Zusammenfassung... 147 4 Unüberwachtes Lernen... 149 4.1 Die Clusteranalyse... 149 4.1.1 Anwendungsbeispiele für eine Clusteranalyse... 150 4.1.2 Ähnlichkeit und Kompaktheit... 152 4.1.3 Ablauf einer Clusteranalyse... 156 4.1.4 Verfahrensvarianten einer Clusteranalyse... 158 4.1.5 Konfiguration einer Clusteranalyse in SAP NetWeaver BI... 159 4.1.6 Durchführung einer Clusteranalyse in SAP NetWeaver BI... 163 4.1.7 Neue Zuordnungen einer trainierten Clusteranalyse... 172 4.2 Die ABC-Analyse... 176 4.2.1 Anwendungsbeispiele für eine ABC-Analyse... 177 4.2.2 Ablauf einer ABC-Analyse... 180 4.2.3 Konfiguration einer ABC-Analyse in SAP NetWeaver BI... 182 4.2.4 Durchführung einer ABC-Analyse in SAP NetWeaver BI... 185 4.3 Das Scoring-Verfahren... 193 4.3.1 Anwendungsbeispiele für ein Scoring- Verfahren... 194 4.3.2 Ablauf eines Scoring-Verfahrens... 195 4.3.3 Konfiguration eines Scoring-Verfahrens in SAP NetWeaver BI... 197 4.3.4 Durchführung eines Scoring-Verfahrens in SAP NetWeaver BI... 202 4.4 Die Assoziationsanalyse... 207 4.4.1 Anwendungsbeispiele für eine Assoziationsanalyse... 208 4.4.2 Ablauf einer Assoziationsanalyse... 209 4.4.3 Konfiguration einer Assoziationsanalyse in SAP NetWeaver BI... 213 8

Inhalt 4.4.4 Durchführung einer Assoziationsanalyse in SAP NetWeaver BI... 215 4.5 Zusammenfassung... 221 5 Überwachtes Lernen... 225 5.1 Der Entscheidungsbaum... 225 5.1.1 Anwendungsbeispiele für einen Entscheidungsbaum... 226 5.1.2 Aufbau eines Entscheidungsbaums... 227 5.1.3 Konfiguration eines Entscheidungsbaums in SAP NetWeaver BI... 233 5.1.4 Analyse mit einem Entscheidungsbaum in SAP NetWeaver BI... 237 5.2 Die Regressionsanalyse... 243 5.2.1 Anwendungsbeispiele für eine Regressionsanalyse... 245 5.2.2 Berechnung einer einfachen Regressionsanalyse... 246 5.2.3 Güte einer Regressionsanalyse... 248 5.2.4 Modellierung einer Regressionsanalyse... 250 5.2.5 Konfiguration einer Regressionsanalyse in SAP NetWeaver BI... 253 5.2.6 Durchführung einer Regressionsanalyse in SAP NetWeaver BI... 257 5.3 Integriertes Gesamtbeispiel... 262 5.3.1 Ausgangssituation und Zielsetzung... 262 5.3.2 Training des Entscheidungsbaums Analyseschritt 1a... 267 5.3.3 Training des Regressionsmodells Analyseschritt 1b... 273 5.3.4 Anwendung der trainierten Modelle Analyseschritt 2... 275 5.4 Zusammenfassung... 278 6 Neue Data-Mining-Verfahren für SAP NetWeaver BI... 281 6.1 Evolutionäre Algorithmen... 281 6.1.1 Das Vorbild der Evolution... 282 6.1.2 Wie funktioniert ein evolutionärer Algorithmus?... 285 9

Inhalt 6.1.3 Erfolgreiche Anwendung und Modellierung... 289 6.1.4 Varianten evolutionärer Algorithmen... 292 6.2 Clusteranalyse mit Mutations-Selektionsverfahren... 293 6.2.1 Modellierung des Mutations- Selektionsverfahrens... 293 6.2.2 Implementierung in SAP NetWeaver... 295 6.2.3 Integration in den APD... 301 6.2.4 Ergebnisse des Clustering Problem 6A... 304 6.3 Clusteranalyse mit Threshold Accepting... 307 6.3.1 Modellierung des Threshold-Accepting- Verfahrens... 308 6.3.2 Implementierung in SAP NetWeaver... 308 6.3.3 Ergebnisse des Clustering Problem 6A... 309 6.4 Neuronale Netze... 310 6.4.1 Wie funktioniert ein neuronales Netz?... 311 6.4.2 Erfolgreiche Anwendungen... 312 6.5 Clusteranalyse mit einer selbstorganisierenden Karte (SOM)... 313 6.5.1 Wie funktioniert eine SOM?... 315 6.5.2 Implementierung in SAP NetWeaver... 319 6.5.3 Ergebnisse des Clustering Problem 6B... 321 6.5.4 Ergebnisse des Clustering Problem 6C... 325 6.5.5 Ergebnisse des Clustering Problem 6D... 328 6.6 Zusammenfassung... 330 7 Ausblick... 333 Anhang... 337 A Daten für das Fallbeispiel... 339 A.1 Daten des Integrationsbeispiels für das Problem 5C... 339 A.2 Funktionsbaustein Clustering Mutations- Selektionsverfahren... 343 A.3 Funktionsbaustein Clustering SOM... 354 B Literaturverzeichnis... 365 B.1 Literaturempfehlungen... 365 B.2 Quellen... 366 C Die Autoren... 369 Index... 371 10

Die rasante Entwicklung des SAP Business Warehouse zu einem zentralen Baustein in SAP NetWeaver 2004s ermöglicht eine komfortable Nutzung von Data-Mining-Verfahren in SAP NetWeaver BI. Gleichzeitig erfordern zunehmende Flexibilität und Geschwindigkeit in der Gestaltung von Geschäftsprozessen eine analytische Unterstützung durch Data-Mining-Verfahren. 1 Einleitung Computergestützte Planung und Entscheidungsunterstützung rücken durch die zunehmende Globalisierung der Märkte und die enorm ansteigenden Mengen zu verarbeitender Daten immer stärker in das Zentrum des Handelns der Unternehmen. Innerhalb weniger Jahre hat die SAP AG auf diese Entwicklung reagiert. Das SAP Business Information Warehouse (SAP BW) hat sich rasant von einer schlichten Berichtslösung für die ERP-Software der SAP zu einer umfassenden und komplexen Suite für Business Intelligence entwickelt. Mit der Technologieplattform SAP NetWeaver positioniert sich SAP zusätzlich nicht mehr nur als reiner Lösungsanbieter, sondern auch als Technologieanbieter. Besonders die Thematik Enterprise Service Oriented Architecture (Enterprise SOA) d. h. die betriebswirtschaftliche Umsetzung einer serviceorientierten IT-Architektur wird von SAP mit allen inhaltlichen und technologischen Konsequenzen entschlossen verfolgt. SAP NetWeaver 2004s Von besonderer Bedeutung für die Themenstellung dieses Buches ist jedoch der Umstand, dass SAP mit SAP NetWeaver 2004s einen deutlichen Entwicklungsschritt in der Bereitstellung von analytischen Businesswerkzeugen im Rahmen von Business Intelligence gemacht hat. Neben einer Erweiterung der Funktionalitäten des Reporting-Werkzeugs Business Explorer (kurz BEx) kann SAP in Net- Weaver 2004s jetzt ein breites Spektrum an Entwicklungswerkzeugen anbieten, die eine effiziente Bereitstellung der durch Business Intelligence analysierten und aufbereiteten Informationen ermögli- 11

1 Einleitung chen. Gleichzeitig haben auch die in SAP NetWeaver 2004s implementierten Data-Mining-Verfahren einen hohen Reifegrad erreicht. Geschichte des Data Mining in SAP Net- Weaver BI Einsatzgebiete Data Mining Die ersten Data-Mining-Verfahren, die auf die Daten der SAP-Systeme zugreifen konnten, waren externe Verfahren von Drittanbietern. Über eine Third-Party-Schnittstelle konnten Data-Mining-Produkte wie z. B. der Intelligent Miner von IBM an SAP BW angeschlossen werden. Sukzessiv wurden in SAP BW in den letzten Jahren immer neue Data-Mining-Verfahren von SAP implementiert. Das Spektrum an Verfahren, die Möglichkeiten zum modulübergreifenden Einsatz und die Integration in grafische Entwicklungswerkzeuge haben in SAP NetWeaver 2004s einen vorläufigen Höhepunkt erreicht. Die Einsatzgebiete von Data Mining erstrecken sich im geschäftlichen Umfeld inzwischen auf viele Bereiche und Branchen. Eine häufige Anwendung findet Data Mining im Customer Relationship Management (CRM) und im Marketing. Mit den Verfahren des Data Mining werden Kundenbeziehungen effizienter organisiert und effektiv auf- und ausgebaut. Besonders in den Branchen Banken, Versicherungen und Handel wird Data Mining bereits intensiv zur Bewertung der finanziellen Situation eines Kunden, zur Ermittlung neuer Produkte und zur Analyse und Prognose des Kaufverhaltens eines Kunden verwendet. Data Mining wird aber auch in vielen anderen Gebieten eingesetzt, z. B. zur Untersuchung von Krankheitsverläufen, zur Verbesserung der diagnostischen Früherkennung oder zur Auswertung von Satellitenaufnahmen, um die im jeweiligen Kontext wichtigen Inhalte automatisiert entdecken zu können. Data Mining für das Internet Ein stark wachsender weiterer Anwendungsbereich für Data Mining ist das Internet. Wenn Sie im Internet schon einmal etwas gekauft haben, z. B. ein Buch, wird Ihnen sicherlich aufgefallen sein, dass Ihnen während und nach dem Kauf weitere Produkte angeboten werden. Dieses Angebot wird Ihnen mit dem Titel Produkte, die andere Kunden gekauft haben, die auch dieses Buch gekauft haben präsentiert. Hinter dieser Analyse steckt ein Data-Mining-Verfahren, das aus allen Käufen die für Sie»interessantesten«Produkte zusammenstellt, um Sie zu einem weiteren Kauf zu verführen. 12

Einleitung 1 Wenn Sie einen Spam-Filter zum Filtern unerwünschter E-Mails installiert haben, haben Sie in dieser Software ein Data-Mining-Verfahren implementiert, das eine linguistische Analyse der an Sie geschickten E-Mails durchführt. Die Lösung dieser Aufgabenstellung erfolgt durch spezialisierte Verfahren des inzwischen eigenständigen Forschungsgebiets des Text Mining. Text Mining in Spam-Filtern Die Aufgaben, die mit Data Mining gelöst werden können, sind vielfältig und facettenreich. In diesem Buch werden wir uns mit der Anwendung von Data-Mining-Verfahren zur Lösung von Aufgabenstellungen in geschäftlichen Vorgängen befassen. Dazu werden wir die in SAP NetWeaver BI implementierten Verfahren detailliert darstellen und anwenden. Das Buch ist sowohl für Anfänger als auch für Fortgeschrittene im Bereich SAP NetWeaver BI geeignet. Die Beschreibungen und Erklärungen der Werkzeuge in SAP NetWeaver BI sind nicht nur für Anwender von Data-Mining-Verfahren interessant, sondern können auch bei der Lösung anderer Analyseaufgaben sinnvoll eingesetzt werden. Da zur Anwendung der teilweise durchaus anspruchsvollen Algorithmen in den Data-Mining-Verfahren auch ein entsprechendes Hintergrundwissen benötigt wird, haben wir uns bemüht, bei der Motivation und Herleitung dieser Verfahren diese»so unkompliziert wie möglich und so mathematisch wie nötig«darzustellen. Dieses Buch soll kein Fachbuch nur für Data-Mining-Verfahren sein, sondern soll Ihnen als Anwender die einfache und unkomplizierte Nutzung von Data Mining und die nahtlose Integration in SAP NetWeaver BI näher bringen. Dazu haben wir zusätzlich viele Beispiele aufgeführt, die Sie problemlos selbstständig durchführen können. Dieses Buch ist in fünf Hauptkapitel gegliedert: Zielgruppe und Ziel des Buches Aufbau des Buches In Kapitel 2, Aufgaben und Ziele des Data Mining, werden die Grundlagen für alle weiteren Kapitel erläutert. Wir stellen Ihnen verschiedene Prozesse zur Anwendung von Data Mining vor und geben Ihnen einen Überblick über die Verfahren, die in diesem Buch beschrieben und angewandt werden. Zusätzlich haben wir in einem kleinen Exkurs die für eine Datenanalyse benötigten statistischen Kennzahlen zusammengefasst und erklärt. Kapitel 3, Werkzeuge des Data Mining in SAP NetWeaver BI, beschreibt detailliert die Anwendung der für den Einsatz von Data 13

1 Einleitung Mining benötigten Werkzeuge in SAP Net Weaver BI. Es handelt sich einerseits um die Data Mining Workbench ein Werkzeug zur Definition Ihrer Data-Mining-Modelle und andererseits um die Analyseprozessdesigner-Workbench. Mit letzterem Werkzeug können Sie komfortabel in einer grafischen Benutzeroberfläche (ähnlich einem Workflow) die Datenversorgung, die Berechnung eines Data- Mining-Modells und die Ergebnisaufbereitung steuern. In Kapitel 4, Unüberwachtes Lernen, und Kapitel 5, Überwachtes Lernen, erläutern wir detailliert die Data-Mining-Verfahren von SAP NetWeaver BI. Diese Verfahren unterscheiden wir anhand der Charakteristik des unüberwachten bzw. überwachten Lernens. Unüberwachtes Lernen bedeutet für ein Verfahren die schwere Aufgabe, einen Sachverhalt zu analysieren, ohne dass vorab Zielwerte bekannt sind. Beim überwachten Lernen sind dagegen diese Zielwerte vorab bekannt. Dies kann z. B. bei Datensätzen einer Befragung die Information sein, ob ein Kunde ein Produkt gekauft hat oder nicht. Kapitel 6, Neue Data-Mining-Verfahren für SAP NetWeaver BI, beschließt dieses Buch mit der Implementierung von zwei neuen Data-Mining-Verfahren. Diese Verfahren wurden von uns prototypisch entwickelt, um Ihnen die Möglichkeiten zu zeigen, wie Sie individuell eigene Verfahren in SAP NetWeaver BI entwickeln und wie Sie ein neues Verfahren in die bestehenden Werkzeuge in SAP NetWeaver BI integrieren können. Den Abschluss des Buches bildet ein Ausblick auf die zukünftige Entwicklung des zunehmend analytisch geprägten Business Intelligence. Im Anhang finden Sie Anmerkungen, Listings zu den prototypisch implementierten Data-Mining-Verfahren sowie Literaturempfehlungen zu ausgewählten Themenstellungen. Download von www.sap-press.de Alle Beispiele, die wir in diesem Buch darstellen, können Sie bei SAP PRESS (www.sap-press.de) herunterladen. Wir hoffen, dass dieses Buch eine anregende Lektüre für Sie sein wird und wir Ihnen neue Impulse und Sichtweisen zur Lösung von Problemen aus dem geschäftlichen Umfeld vermitteln können. 14

Einleitung 1 Danksagung Wir möchten uns an dieser Stelle für die Unterstützung des bi2b- Teams bedanken, das uns bei der Bewältigung verschiedener Aufgaben geholfen hat. Ein besonderer Dank gilt Prof. Dr. Karl Kießwetter für das unermüdliche Korrekturlesen und die hartnäckigen Diskussionen bei heiklen Fragestellungen. Das größte Dankeschön gebührt natürlich unseren Familien für das Verständnis und die Unterstützung während der parallel zum normalen Berufsalltag immer bis tief in die Nacht dauernden Analyse-, Test- und Schreibphasen. Vielen Dank, Leon und Luna, Elke und Jasmin! 15

In diesem Kapitel geht es um die praktische Arbeit mit SAP NetWeaver BI. Zunächst stellen wir Ihnen die Werkzeuge vor, die uns SAP in SAP NetWeaver BI für den Einsatz von Data-Mining-Verfahren zur Verfügung stellt. Anschließend erfahren Sie, wie Sie ein Data-Mining-Verfahren anwenden können. 3 Werkzeuge des Data Mining in SAP NetWeaver BI Die Güte eines Data-Mining-Verfahrens hängt maßgeblich von der Qualität der Eingangsdaten ab. Aus diesem Grund gehören die Aufbereitung, Zusammenfassung und Bereitstellung der Eingangsdaten zu den wichtigsten und schwierigsten Aufgaben im Data-Mining- Prozess. Mithilfe der Analyseprozessdesigner-Workbench (APD Workbench) werden in SAP NetWeaver BI analytische Prozesse modelliert. Die APD Workbench stellt hierfür einen Werkzeugkasten für die Bereitstellung, Transformation und Analyse von Eingangsdaten sowie die Speicherung des Analyseergebnisses zur Verfügung. Zusätzlich werden mithilfe der APD Workbench die erstellten analytischen Prozesse verwaltet, ausgeführt und überwacht. Hierbei gilt es zu beachten, dass ein Analyseprozess nicht zwingend eine Data-Mining- Methode beinhalten muss, aber jede Data-Mining-Methode nur in einem Analyseprozess ausgeführt werden kann. Konfiguration und Verwaltung der einzelnen Data-Mining-Modelle erfolgen in SAP NetWeaver BI in der Data Mining Workbench (DM Workbench). Die DM Workbench stellt einen speziellen Werkzeugkasten mit unterschiedlichen Data-Mining-Methoden zur Verfügung, die entsprechend der individuellen Anforderungen angewandt werden können. Der Schwerpunkt der DM Workbench liegt im Bereich der Modellierung von Data-Mining-Verfahren, die in einem Analyseprozess in der APD Workbench ausgeführt werden können. 39

3 Werkzeuge des Data Mining in SAP NetWeaver BI In den folgenden Abschnitten werden die Funktionen der APD Workbench und der DM Workbench dargestellt. Die APD Workbench wird anhand eines einfachen Beispiels erläutert. Zusätzlich werden Ihnen Möglichkeiten aufgezeigt, wie Sie Analyseprozesse der APD Workbench in die automatisierte Datenbewirtschaftung und Ablaufsteuerung integrieren können. 3.1 Die APD Workbench Eigenschaften der APD Workbench Eingangsdaten, Verarbeitungsvorschrift und Zielstruktur Die APD Workbench dient zum Erforschen und Identifizieren von versteckten und/oder komplexen Beziehungen in Datenstrukturen. Hierfür werden in der APD Workbench unterschiedliche Transformationsmethoden und die Ansteuerung von Data-Mining-Verfahren angeboten. Darüber hinaus zeichnet sich die APD Workbench durch eine einfache und intuitive Bedienbarkeit aus: Die zur Auswahl angebotenen Funktionen können sehr einfach per Drag & Drop zu einem Analyseprozess zusammengesetzt werden. Mit der APD Workbench können Sie jeden denkbaren Prozessablauf gestalten und eine oder mehrere Transformationen durchführen. Dabei geht es um die Verarbeitung von strukturierten Eingangsdaten (Datenquelle) mit einer definierten Verarbeitungsvorschrift (Transformation) in eine Zielstruktur (Datenziel). Eine Verarbeitung kann nicht nur ein komplexes Data-Mining-Verfahren sein, sondern auch eine selbst programmierte ABAP-Routine, eine einfache Aggregation oder eine Filterung von Daten. Ein Analyseprozess verläuft in drei Prozessphasen, die in den Abschnitten 3.1.2 bis 3.1.4 genauer beschrieben werden: 1. Datenquelle In diesem Schritt werden die Quellen, aus denen die zu analysierenden Daten extrahiert werden, festgelegt. 2. Transformation In diesem Schritt werden die Verarbeitungsvorschriften für die Aufbereitung und Analyse der Daten festgelegt. 3. Datenziel In diesem Schritt wird definiert, wie und wo die Ergebnisdaten für die Präsentation und Analyse gespeichert werden. 40

Die APD Workbench 3.1 Bevor wir auf diese Prozessschritte genauer eingehen, werden wir uns zuerst mit dem Aufbau und der Bedienung der APD Workbench beschäftigen. 3.1.1 Aufbau der APD Workbench Die APD Workbench besteht aus einer intuitiven, grafischen Benutzeroberfläche, die zur Erstellung, Ausführung und Überwachung der einzelnen Analyseprozesse dient (Erstellung u. a. mit Drag & Drop). Die APD Workbench können Sie über die Transaktion RSANWB oder den Menüpfad Spezielle Analyseverfahren Analyseprozess modellieren aufrufen. Erstellung per Drag & Drop 1 3 6 2 4 5 Abbildung 3.1 Die Analyseprozessdesigner-Workbench (APD Workbench) Abbildung 3.1 gibt Ihnen einen Überblick über die APD Workbench. Sie ist in verschiedene Bereiche unterteilt: Aufbau der APD Workbench Menüleiste In der Menüleiste werden alle Standardfunktionen der APD Workbench angeboten, um einen Analyseprozess zu bearbeiten: Anlegen, Ändern, Prüfen, Aktivieren, Löschen und Einplanen. Drucktastenleiste In der Drucktastenleiste finden Sie die wichtigsten Funktionen in Form von Icons, die Sie direkt ausführen können. Navigationsbereich Der Navigationsbereich besteht ebenfalls aus einer Drucktasten- 41

3 Werkzeuge des Data Mining in SAP NetWeaver BI leiste und einer hierarchischen Baumstruktur. In der Baumstruktur werden die einzelnen Analyseprozesse einer Anwendung (Kategorie) angezeigt. Mithilfe der Drucktastenleiste oder der rechten Maustaste können Sie Analyseprozesse innerhalb einer existierenden Anwendung anlegen. Sie können in diesem Bereich auch nach einem bereits angelegten Analyseprozess suchen. Mithilfe der Funktionstaste Vollbild ein/aus können Sie den Navigationsbereich ein- und ausblenden. Modellierungsbereich Im Modellierungsbereich erstellen Sie per Drag & Drop den benötigten Analyseprozess. Kopfdaten Die Informationen zum aktuell ausgewählten Analyseprozess werden in den Kopfdaten angezeigt. Statuszeile In der Statuszeile werden Warnungen und Fehlermeldungen angezeigt, die bei der Aktivierung, Ausführung oder Änderung des Analyseprozesses auftreten. Nicht erweiterbar Anwendungen (Kategorien) Eine Besonderheit im Navigationsbereich ist der Sachverhalt, dass die bestehenden fünf Anwendungen von SAP fest vorgegeben werden und im Standard nicht veränderbar oder erweiterbar sind. Derzeit liefert SAP folgende Anwendungen aus: CRM-Attribute füllen [CRM_ATTRIBUTES] Zielgruppen für BW-Umfragen anlegen [STATISFACTION_TGT] Berechnung der Wichtigkeiten [STATISFACTION_SVY] Prognose Modelltraining [RT_MDL_TRAIN] Allgemein [GENERIC] Unterhalb der einzelnen Anwendungen können Sie einen beliebigen Analyseprozess anlegen. Je nachdem, in welcher Anwendung Sie das tun, werden in Abhängigkeit von der Anwendung unterschiedliche Funktionen für die Prozessgestaltung angeboten. Sonderfunktionen In Abschnitt 3.2 zeigen wir Ihnen, wie Sie dennoch die Analyseprozesse nach Ihren individuellen Vorstellungen strukturieren und gestalten können. 42

Die APD Workbench 3.1 Nachfolgend werden wichtige Aspekte für die Verwaltung und Einstellung auf der Ebene des einzelnen Analyseprozesses erläutert. Das Versionierungskonzept (Objektversion) ermöglicht eine parallele Verwaltung von unterschiedlichen Einstellungen zu einem Analyseprozess. Es können die folgenden Versionen existieren: Versionierungskonzept Eine aktive Version liegt vor, wenn der Analyseprozess gespeichert und aktiviert wurde. Ein Analyseprozess kann nur mit dem Versionsstatus ausgeführt werden. Eine Content-Version liegt vor, wenn der Analyseprozess von SAP im Standard ausgeliefert wurde. Diese Version existiert parallel zur aktiven Version und dient nur zu einem Versionsvergleich. Eine überarbeitete Version liegt vor, wenn eine Veränderung an einem bestehenden Analyseprozess vorgenommen und nur gespeichert wurde. Diese Änderung kann mit der aktiven oder Content-Version verglichen werden. In den Kopfdaten zum aktuell ausgewählten Analyseprozess (siehe Abbildung 3.1) werden der technische Name, die Bezeichnung, die Zuordnung zur Anwendung und die Version, d. h. der aktuelle Versionsstatus, angezeigt. In der Menüleiste sind die Funktionen Analyseprozess, Bearbeiten, Springen, Hilfsmittel, Umfeld, System und Hilfe verfügbar. Über den Menübereich Umfeld können Sie direkte Absprünge zur Data Mining Workbench, zur Data Warehousing Workbench etc. nutzen. Im Menübereich Hilfsmittel können Sie die Funktion XML- Analyseprozess-Export und -Import nutzen. Das Verfahren SAP Change and Transport System (CTS) steht ebenso zur Verfügung. Die Performance-Einstellungen für die Verarbeitung großer Datenmengen im Analyseprozess finden Sie im Menü Springen Performance Einstellungen (siehe Abbildung 3.2). Transportwesen Performance- Einstellungen Abbildung 3.2 Performance-Einstellungen 43

3 Werkzeuge des Data Mining in SAP NetWeaver BI Default- Einstellung Temporäre Tabellen Als Default-Einstellung für die Performance wird bei der Neuanlage eines Analyseprozesses die Verarbeitung der kompletten Daten im Hauptspeicher aktiviert. Diese Verarbeitungsart wird nur für kleine Datenmengen empfohlen. Bei größeren Datenmengen führt diese Einstellung zu einem Speicherüberlauf, der unweigerlich einen Programmabbruch 1 verursacht. In diesem Fall deaktivieren Sie im Nachhinein diese Einstellung. Wenn die Performance-Einstellung deaktiviert ist, werden für die Verarbeitung der Daten vom System Tabellen generiert, in denen diese Daten während der Verarbeitung nur temporär gespeichert werden. Diese temporären Tabellen beginnen mit dem technischen Namen /BIC/000AP. Im Menü Umfeld finden Sie die Funktion Temporäre Tabellen bereinigen, mit der Sie diese temporären Tabellen inklusive Inhalt löschen können (siehe Abbildung 3.3). Abbildung 3.3 Löschen temporärer Tabellen von Analyseprozessen Mithilfe der Funktionstaste Eigenschaften (siehe Abbildung 3.4) erhalten Sie Informationen zum Analyseprozess in Bezug auf Verantwortlichen, Kennung, letzte Änderung etc. Anwendbare Funktionen je Anwendung Im Bereich Funktionsauswahl werden alle zur Verfügung stehenden Funktionen für die Modellierung eines Analyseprozesses in Form von Icons angeboten. Die Art und die Anzahl der zur Verfügung stehenden Funktionen variieren von Anwendung zu Anwendung. In Abhängigkeit von der ausgewählten Anwendung werden nur die dieser Anwendung zugeordneten Funktionen angeboten. 1 Programmabbruch STORAGE_PARAMETERS_WRONG_SET mit Warning: EM- Memory exhausted: Workprocesses gets PRIV 44

Die APD Workbench 3.1 1 2 Abbildung 3.4 Kopfdaten eines Analyseprozesses Die Funktionen sind entsprechend der drei Analyseprozessphasen Datenquellen, Transformation und Datenziele in Gruppen unterteilt. Einen Überblick über die zur Verfügung stehenden Funktionen bekommen Sie durch die Anzeige der Legende im System oder in Abbildung 3.5. Die Data-Mining-Funktionen werden ausführlich in den Kapiteln 4, Unüberwachtes Lernen, und 5, Überwachtes Lernen, beschrieben. An dieser Stelle verzichten wir deshalb auf eine Beschreibung. Legende der Funktionen Datenquellen Transformationen Datenziele Attribute eines Merkmals lesen Daten aus InfoProvider lesen Daten ü ber Query lesen Daten aus Datei lesen Daten aus Datenbanktabelle lesen Datenmenge einschr ä nken Daten aggregieren Daten aus mehreren Datenquellen zusammenf ü hren ( Join ) Spalten ausblenden (Projektion) Daten sortieren Liste in Datensatz transformieren Datensatz in Liste transformieren ABAP Routine Data-Mining-Verfahren Attribute eines Merkmals ä ndern Daten direkt in DataStore-Objekt schreiben CRM-Attribute aktualisieren Data-Mining-Modelle trainieren Abbildung 3.5 Legende Datenquellen, Transformationen und Datenziele (ohne Data-Mining-Methoden) In der APD Workbench wird die sprachenabhängige Pflege der Texte für die Anwendungen nicht unterstützt. Hier müssen Sie sich im Vor- Besonderheiten/ Einschränkungen 45

3 Werkzeuge des Data Mining in SAP NetWeaver BI hinein überlegen, in welcher Sprache die Texte hinterlegt werden, da diese für jede Anmeldesprache angezeigt werden. Im Bereich der automatischen Datenbewirtschaftung existiert zurzeit kein Prozesstyp für die Integration eines Analyseprozesses in eine Prozesskette. Es besteht jedoch die Möglichkeit, einzelne Analyseprozesse mit dem Prozesstyp ABAP-Programm in eine Prozesskette zu integrieren. Hierfür benutzten Sie den ABAP-Report RSAN_ PROCESS_EXECUTE. Eine detaillierte Erläuterung der Anwendungen des ABAP-Reports RSAN_PROCESS_EXECUTE im Zusammenhang mit Prozessketten erhalten Sie in Abschnitt 3.4. Darüber hinaus sollten Sie beachten, dass Analyseprozesse nicht in der Datenflussanzeige aufgeführt werden und der Verwendungsnachweis nur aus der Richtung APD Workbench zu anderen Objekten funktioniert. In den folgenden Abschnitten erläutern wir Ihnen die einzelnen Funktionalitäten, die Sie für die Modellierung der Analyseprozessphasen Datenquellen, Transformationen und Datenziele anwenden können. 3.1.2 Eingangsdaten für eine Analyse: Datenquellen In der ersten Analyseprozessphase definieren Sie die Datenbereitstellung von strukturierten Eingangsdaten, die Sie im Analyseprozess verarbeiten wollen. Die Eingangsdaten können aus einer oder mehreren Datenquellen bereitgestellt werden. Die zentrale Fragestellung lautet: Wie können Eingangsdaten aus verschiedenen Datenquellen einem Analyseprozess zugeführt werden? Anwendung Allgemein Zuerst müssen Sie die Ihren Anforderungen entsprechende Anwendungskategorie identifizieren, da jede Anwendung in der APD Workbench unterschiedliche Funktionen zur Modellierung eines Analyseprozesses bereitstellt. In der Regel benutzen Sie die Anwendung Allgemein. Die anderen in der APD Workbench zur Verfügung stehenden Anwendungen verwenden Sie z. B. bei spezifischen Analyseprozessen zur Füllung der CRM-Attribute, bei der Anlage von Zielgruppen für BW-Umfragen etc. Bei den nachfolgenden Erläuterungen wird davon ausgegangen, dass Sie die Anwendung Allgemein ausgewählt haben. 46

Die APD Workbench 3.1 Derzeit werden von SAP folgende Datenquellentypen angeboten: Attribute eines Merkmals lesen Daten aus InfoProvider lesen Daten über Query lesen Daten aus einer Datei lesen Daten aus Datenbanktabelle lesen Die Anlage eines neuen Analyseprozesses kann aus der hierarchischen Baumstruktur heraus erfolgen oder über eine der Funktionstasten. Im ersten Schritt werden Sie vom System aufgefordert, den anzulegenden Analyseprozess einer Anwendung zuzuordnen. Anschließend werden im Funktionsbereich die der Anwendung zugeordneten Funktionen für die Modellierung angeboten. Sie können per Drag & Drop einen einzelnen Datenquellentyp in den Modellierungsbereich ziehen. Anschließend werden Sie vom System aufgefordert, die notwendigen Eigenschaften des ausgewählten Datenquellentyps zu pflegen. Jedem Analyseprozess muss mindestens eine Datenquelle zugeordnet werden. Sie können aber einem Analyseprozess problemlos mehr als eine Datenquelle zuordnen. Die Datenquellen werden im Analyseprozess mit einem Quadrat gekennzeichnet, das sich auf dem Icon des jeweiligen Datenquellentyps oben links befindet. Nachfolgend machen wir Sie mit den Eigenschaften der einzelnen Datenquellentypen vertraut. Zuordnung zu einer Anwendung Mehr als eine Datenquelle Datenquellentyp Attribute eines Merkmals lesen Der Datenquellentyp Attribute eines Merkmals lesen wird für die Datenbereitstellung von Eingangsdaten aus einem Merkmal mit Stammdaten benutzt. Sie können alle aktiven Stammdaten und die zugeordneten zeitabhängigen und zeitunabhängigen Attribute als strukturierte Eingangsdaten von einem ausgewählten Merkmal lesen. Die Datenselektion erfolgt auf Basis der Stammdatentabellen /BI0/P bei BI-Content-Objekten oder /BIC/P bei individuellen Kundenobjekten. Alle notwendigen Einstellungen werden auf der Registerkarte Datenquelle vorgenommen (siehe Abbildung 3.6). Sie müssen eine Beschreibung eingeben und das auszulesende Merkmal hinterlegen. Registerkarte»Datenquelle«47

3 Werkzeuge des Data Mining in SAP NetWeaver BI Abbildung 3.6 Attribute eines Merkmals lesen Datenquelle Stichtag Es werden die zum jeweiligen Ausführungszeitpunkt, d. h. die zum Stichtag gültigen zeitabhängigen Attribute, gelesen. Die Bereitstellung der Eingangsdaten wird technisch über eine Tabellenverknüpfung mit der Datenbankfunktion Left Outer Join realisiert. Als Eingangsdaten werden alle Datensätze der als»links«spezifizierten Stammdatentabelle /BI0/P oder /BIC/P gelesen. Hierbei sollten Sie berücksichtigen, dass auch der im Standard erzeugte Initialdatensatz der Stammdatentabelle /BI0/P oder /BIC/P gelesen wird. Datenquellentyp Daten aus InfoProvider lesen Der Datenquellentyp Daten aus InfoProvider lesen wird für die Datenbereitstellung von Eingangsdaten aus einem InfoProvider benutzt. Entsprechend der SAP BW-Kategorisierung von InfoProvidern können Sie die Eingangsdaten aus folgenden physischen oder virtuellen InfoProvidern lesen: Physische InfoProvider 1. InfoCube 2. DataStore-Objekt (DSO) 3. InfoObject (Merkmal) als InfoProvider Virtuelle InfoProvider 1. MultiProvider 2. InfoSet 48

Die APD Workbench 3.1 Die Unterscheidung in physische und virtuelle InfoProvider basiert darauf, ob der InfoProvider die Daten speichert oder nicht. Die physischen InfoProvider besitzen eine oder mehrere Tabellen, in denen Daten gespeichert werden. Die virtuellen InfoProvider hingegen besitzen keine Daten, sondern beziehen diese aus physischen Info- Providern zur Laufzeit. Alle notwendigen Einstellungen werden auf den Registerkarten Datenquelle und Feldauswahl vorgenommen. Auf der Registerkarte Datenquelle hinterlegen Sie eine Beschreibung und den auszulesenden InfoProvider (siehe Abbildung 3.7). Registerkarte»Datenquelle«Abbildung 3.7 Daten aus InfoProvider lesen Datenquelle Auf der Registerkarte Feldauswahl werden in Abhängigkeit vom ausgewählten InfoProvider alle verfügbaren Merkmale (siehe Abbildung 3.8) und Kennzahlen angezeigt. Als Nächstes wählen Sie die notwendigen Merkmale und Kennzahlen aus und ordnen diese den entsprechenden Gruppierungen zu. Die Eingangsdaten werden auf Basis der ausgewählten Merkmale und Kennzahlen aus dem Info- Provider gelesen und in Form einer einfachen Tabelle bereitgestellt. Bei der Datenübertragung vom InfoProvider werden die Merkmale und Kennzahlen als einzelne und unabhängige Felder verarbeitet. Das hat zur Folge, dass Abhängigkeiten der Merkmale oder Kennzahlen nicht berücksichtigt werden. Beispiele sind eine Klammerung oder die Zuordnung der Währungseinheit. Registerkarte»Feldauswahl«Keine Berücksichtigung von Abhängigkeiten 49

3 Werkzeuge des Data Mining in SAP NetWeaver BI 3 1 4 2 Abbildung 3.8 Daten aus InfoProvider lesen Feldauswahl Aggregationsverhalten von Kennzahlen Die Aggregation (Verdichtung) der Kennzahlen über die ausgewählten Merkmale erfolgt nach dem Standardaggregationsverhalten der Kennzahl. Eine zugeordnete Ausnahmeaggregation wird nicht berücksichtigt. Um diese abbilden zu können, müssen Sie die benötigten Bezugsmerkmale bei der Auswahl berücksichtigen und in einem nachfolgenden Analyseprozessschritt die Ausnahmeaggregation nachbilden. Hierfür stehen die Transformationstypen Daten aggregieren oder ABAP-Routine zur Verfügung. Weitere Aspekte, die Sie bei der Verwendung des Datenquellentyps Daten aus InfoProvider lesen berücksichtigen müssen, sind: InfoCube Merkmal als Info-Provider Aus einem InfoCube werden nur diejenigen aktiven Daten selektiert, die einen verbuchten Request mit dem Status Request ist für das Reporting verfügbar besitzen. Für den Fall, dass der InfoCube ein oder mehrere Aggregate einsetzt, wird vom System geprüft, ob die Abfrage kongruent ist. Wenn ja, werden die Eingangsdaten aus dem Aggregat gelesen. Im Fall Merkmal als InfoProvider werden alle aktiven Daten aus der Stammdatentabelle selektiert. Es muss darauf geachtet werden, dass der Attributsänderungslauf durchgeführt und beendet wurde, da ansonsten nicht die aktuellen Daten selektiert werden. 50

Die APD Workbench 3.1 Beim DataStore-Objekt (DSO) vom Typ Standard werden alle Daten aus der aktiven Tabelle selektiert. Beim DSO-Typ direktes Schreiben werden alle gespeicherten Daten aus der aktiven Tabelle selektiert. InfoObjects vom Typ ausschließlich Attribut werden nicht als Auswahlfeld vom InfoProvider dargestellt. Beim Umgang mit Bestandskennzahlen muss berücksichtigt werden, dass das Bezugsmerkmal der zeitlichen Aggregation (Zeitbezugsmerkmal) immer mit als Merkmal ausgewählt wird. Wenn in der Bestandsparameterpflege weitere gültigkeitsbestimmende Merkmale ausgewählt wurden, müssen diese ebenfalls zu den ausgewählten Merkmalen hinzugefügt werden. Außerdem ist in diesem Zusammenhang zu beachten, dass die Bestände für alle Perioden im ausgewählten Zeitraum zurückgeliefert werden. In einem nachgelagerten Filter muss eine Einschränkung für das Zeitbezugsmerkmal hinterlegt werden. Dabei wird nur genau ein Intervall oder eine Liste von Einzelwerten unterstützt. Andere Einschränkungen für das Zeitbezugsmerkmal führen beim Ausführen zu einem Fehler. DataStore-Objekt InfoObject-Typ»ausschließlich Attribut«Bestandskennzahlen Datenquellentyp Daten über Query lesen Der Datenquellentyp Daten über Query lesen wird für die Datenbereitstellung von Eingangsdaten aus einer BW Query benutzt. Das Query-Ergebnis einer OLE DB for OLAP-fähigen BW Query wird als Eingangsdaten bereitgestellt. Bei der Verwendung dieses Datenquellentyps können Sie aufgrund der hohen Flexibilität bezüglich der Query-Erstellung verschiedene Fehlermeldungen in der APD Workbench erhalten. Im OSS finden Sie eine Reihe von Hinweisen, die sich auf die richtige Verwendung 2 oder auf auftretende Performance- Probleme beziehen. Aus diesem Grund führen wir die wichtigsten Hinweise für den Umgang mit dem Datenquellentyp auf. Die Query, die im Datenquellentyp verwendet werden kann, muss die Query-Eigenschaft externen Zugriff auf die Query zulassen besitzen. Diese Einstellung können Sie im Query Designer durch die Aktivierung im Menü Queryeigenschaften Erweitert Freigabe für OLE DB for OLAP (ODBO) vornehmen. OLE DB for OLAP 2 Hinweise 794257; 751577; 919614 51

3 Werkzeuge des Data Mining in SAP NetWeaver BI Alle notwendigen Einstellungen werden auf den Registerkarten Datenquelle und Erweiterte Einstellungen vorgenommen. Registerkarte»Datenquelle«Auf der Registerkarte Datenquelle vergeben Sie eine Beschreibung. Im zweiten Schritt erfolgt die Auswahl der Query, die das Query- Ergebnis als Eingangsdaten bereitstellt (siehe Abbildung 3.9). Abbildung 3.9 Daten über Query lesen Datenquelle Query-Variante Performance Denken Sie daran, dass Sie nur ODBO-fähige Queries verwenden können. In der Praxis hat sich die Anlage einer separaten Rolle bewährt, in der nur ODBO-fähige Queries gespeichert werden. Queries mit Variablen benötigen eine Variante. Die Variante wird im Query-Monitor angelegt, den Sie mit der Transaktion RSRT aufrufen. Bevor Sie die Varianten anwenden können, müssen Sie mindestens zwei Hinweise beachten. 3 Wenn Sie mit dem Datenquellentyp große Eingangsdatenmengen verarbeiten wollen, raten wir Ihnen, sich vorher intensiv mit dem Umgang sowie dem Performance-Verhalten zu beschäftigen. Von der Bereitstellung des Query-Ergebnisses bis zur Datenselektion aus einem InfoProvider sind folgende Schnittstellen betroffen: Analyseprozess OLAP BAPI OLE DB for OLAP OLAP Prozessor 3 Hinweise 999694; 973844; 605208 52

Die APD Workbench 3.1 Zu diesem Thema finden Sie im OSS eine Reihe von nützlichen Hinweisen, die Sie unbedingt beachten sollten. Im nächsten Schritt werden wir die Einstellungen erläutern, die Sie auf der Registerkarte Erweiterte Einstellungen vornehmen können. Hierbei handelt es sich ausschließlich um spezifische Performance- Einstellungen (siehe Abbildung 3.10). Registerkarte»Erweiterte Einstellungen«Abbildung 3.10 Daten über Query lesen Erweiterte Einstellungen Durch die Aktivierung der Eigenschaft Datenbeschaffung in Pakete aufteilen können Sie über die weiteren Eigenschaften Partitionierungsmerkmal und Paketgröße die zu verarbeitenden Datenmengen aufteilen. Entsprechend der angegebenen Paketgröße werden einzelne Teilmengen mit Merkmalswerten des Partitionierungsmerkmals erzeugt. Die Query wird für jedes der Pakete ausgeführt. Bei der Wahl des Partitionierungsmerkmals und der Paketgröße müssen Sie abwägen zwischen einer geringen Anzahl von Paketen, also einer größeren Belastung des Hauptspeichers, oder einer hohen Anzahl von Paketen, also einem deutlich höheren Verwaltungsaufwand. Zusätzlich zur eben genannten Möglichkeit können Sie die Datenbeschaffung technisch parallelisieren durch die Einbindung mehrerer zur Verfügung stehender Server. Die Last der Verarbeitung kann über mehrere Server optimiert werden. Partitionierungsmerkmal Parallelisierung Datenquellentyp Daten aus einer Datei lesen Der Datenquellentyp Daten aus einer Datei lesen wird für die Datenbereitstellung von Eingangsdaten aus einer flachen Datei benutzt. Das Verfahren unterstützt das Einlesen von Dateien im ASCII-Format (American Standard Code for Information Interchange) oder Excel-CSV-Format (Comma Separated Value). Die Dateiablage 53

3 Werkzeuge des Data Mining in SAP NetWeaver BI kann entweder auf dem Applikationsserver oder dem lokalen Rechner (Client Workstation) erfolgen. Alle notwendigen Einstellungen werden auf den Registerkarten Datenquelle und CSV Datei Eigenschaften vorgenommen. Registerkarte»Datenquelle«Auf der Registerkarte Datenquelle müssen Sie eine Beschreibung eingeben und zwischen Client Workstation oder Applikationsserver wählen (siehe Abbildung 3.11). Abbildung 3.11 Daten aus einer Datei lesen Client Workstation Client Workstation Nur in Testphase anwenden Die Methode Daten lesen von Client Workstation können Sie für das Einlesen von Dateien anwenden, die sich auf Ihrem lokalen Rechner befinden. Bei der Eingabe von Verzeichnispfad und Dateiname können Sie die F4-Taste nutzen, um zur einzulesenden Datei navigieren zu können. Nach Abschluss der Auswahl wird automatisch der vollständige Pfad übertragen. Die Methode Daten lesen von Client Workstation wird in der Regel nur in der Testphase benutzt. Der Grund hierfür ist der anwenderabhängige Verweis auf das Verzeichnis inklusive Datei. Nehmen wir an, Sie hätten einen Analyseprozess erstellt und würden dafür eine Datei von Ihrem lokalen Rechner aus dem Verzeichnis C:\Temp\ test01.txt einlesen. Würde Ihr Analyseprozess vom Arbeitsplatz eines Kollegen ausgeführt, versuchte dieser Analyseprozess, die einzulesende Datei vom Verzeichnis C:\Temp\test01.txt auf dem Rechner Ihres Kollegen einzulesen. Der Analyseprozess funktioniert somit nur auf Ihrem Rechner bzw. auch auf dem Rechner des Kollegen, wenn das gleiche Verzeichnis und die gleiche Datei vorhanden sind. Aus diesem Grund ist die Methode auch für die Hintergrundverarbeitung unbrauchbar. 54

Die APD Workbench 3.1 Für die Hintergrundverarbeitung können Sie ausschließlich die Methode Daten lesen vom Applikationsserver verwenden. Bei der Methode können Sie zwischen zwei Varianten auswählen, der Dateiablage im AL11-Verzeichnis und der Verwendung von logischen Namen (siehe Abbildung 3.12). Applikationsserver Abbildung 3.12 Daten aus einer Datei lesen Applikationsserver Zuerst aktivieren Sie die Methode Daten lesen vom Applikationsserver. Anschließend müssen Sie die einzulesende Datei eingeben. Hier werden Sie über die F4-Taste vom System unterstützt. Als Nächstes werden Sie durch ein Pop-up aufgefordert, zwischen den Varianten AL11-Files oder Log. Filenamen zu wählen. Mit der Variante AL11-Files können Sie eine Datei, die auf dem Applikationsserver abgelegt ist, einlesen. Sie werden zum Einstiegsbildschirm des AL11-Verzeichnisses geführt. Von dort können Sie in das Verzeichnis navigieren, in dem die einzulesende Datei abgelegt ist. Durch einen Doppelklick auf die einzulesende Datei erfolgt die Auswahl. Anschließend wählen Sie in einem Pop-up die Funktion Filename übernehmen aus, und der komplette Verweis wird in das Eingabefeld Datei übertragen. Die zweite Variante Log. Filenamen ist eine Erweiterung der ersten Variante mit der Verwendung von so genannten Platzhaltern (Variablen) für die Verzeichnisangabe und den Dateinamen. Durch die Verwendung von Platzhaltern können Sie wesentlich flexibler in Variante AL11-Files Platzhalter (Variablen) 55

3 Werkzeuge des Data Mining in SAP NetWeaver BI Bezug auf die Gestaltung von täglich einzulesenden Dateien agieren. Die Voraussetzung dafür ist die Existenz eines logischen Pfads und Dateinamens im System, da der logische Pfad dem logischen Dateinamen zugeordnet wird. Nachfolgend ein Beispiel aus der Praxis: Täglich werden Vertriebskennzahlen in Form einer ASCII-Datei dem Analyseprozess zur Verarbeitung auf dem Applikationsserver bereitgestellt. Damit die Verarbeitung automatisiert werden kann, werden ein logischer Pfad und ein logischer Dateiname verwendet. 4 Logischer Pfad Für den logischen Pfad sind die in Tabelle 3.1 aufgeführten Parameterwerte hinterlegt. Parameter Logischer Pfad Bezeichnung Syntax-Gruppe Physischer Pfad Parameterwerte LOCAL_UPLOAD_SD Lokales Verzeichnis für Download und Upload DOS (alle MS-DOS-gleichen Dateisysteme) C:\<SYSID>\UPDOWN\<FILENAME> Tabelle 3.1 Definition logischer Pfad Auf dem Applikationsserver im Laufwerk C existiert ein Verzeichnis mit dem Namen der R/3-Anwendung laut SY-SYSID und dem Unterverzeichnis Updown, in dem Dateien abgelegt sind. Logischer Dateiname Für den logischen Dateinamen sind die in Tabelle 3.2 genannten Parameterwerte hinterlegt. Parameter Logische Datei Bezeichnung Physische Datei Datenformat Arbeitsgebiet Logischer Pfad Parameterwerte TAEGLICHE_VERTRIEBS_WERTE Tägliche Verkaufszahlen SALEDY<DAY> ASC (ASCII-Format) SD (Vertrieb) LOCAL_UPLOAD_SD Tabelle 3.2 Definition logischer Dateiname 4 Transaktion FILE 56

Die APD Workbench 3.1 Aus dem oben genannten logischen Verzeichnis kann regelmäßig eine Datei im ACSII-Format für den Analyseprozess des Vertriebs eingelesen werden, die den Dateinamen, bestehend aus SALEDY und dem aktuellen Tagesdatum, besitzt. Mit den Einstellungen auf der Registerkarte CSV Datei Eigenschaften können Sie die Trennzeichen für den Datensatzseparator und die Trennung Feldname/InfoObject verändern. Der Default-Wert für den Datensatzseparator ist das Semikolon (;) und für die Trennung Feldname/InfoObject der Doppelpunkt (:) (siehe Abbildung 3.13). Registerkarte»CSV Datei Eigenschaften«Abbildung 3.13 Daten aus einer Datei lesen CSV-Datei-Eigenschaften Die einzulesende Datei muss entsprechend den Systemanforderungen in der ersten Zeile eine Beschreibung der einzulesenden Struktur besitzen. Die Strukturbeschreibung basiert auf den technischen Namen von InfoObjects, die jeweils durch den Datensatzseparator (;) voneinander getrennt aufgeführt werden. Die Verarbeitung der Datei erfolgt im System entsprechend der ABAP-MOVE-Logik. Die einzulesenden Daten werden in typengerechte Felder übertragen und im internen Dateiformat als Eingangsdaten bereitgestellt. Bei der Zuweisung zwischen den Feldern der Datei und dem InfoObject findet eine automatische Typenkonvertierung statt. Beachten Sie, dass als internes Dateiformat zur Datumsdarstellung YYMMDD geliefert werden muss und numerische Werte von links mit Nullen bis zum Erreichen der Feldlänge automatisch aufgefüllt werden. Als Beispiel: Dateiaufbau Datenformate 11. November 2006 = 20061111 achtstelliges numerisches Feld 5555 = 00005555 Bei der Verarbeitung einer Datei, die aus mehreren gleichartigen Feldtypen besteht, können Sie problemlos mit der angebotenen Trennung Feldname/InfoObject arbeiten. In der Umsetzung folgt daraus, dass Sie durch die Verwendung des Doppelpunkts innerhalb Gleichartige Feldtypen 57

3 Werkzeuge des Data Mining in SAP NetWeaver BI der Strukturbeschreibung mit demselben InfoObject unterschiedliche Feldnamen zuordnen können. Bei der Verwendung führen Sie zuerst den Feldnamen an, dann den Doppelpunkt und anschließend das InfoObject <Feldname>:<InfoObject>. In der Praxis ist diese Funktion sehr hilfreich, wenn Sie beispielsweise eine Liste mit n gleichen Textfeldern einlesen möchten. 0NUMBER;NAME:TEXT30;NACHNAME:TEXT30 Datenquellentyp Daten aus Datenbanktabelle lesen Der Datenquellentyp Daten aus Datenbanktabelle lesen wird für die Datenbereitstellung von Eingangsdaten aus einer transparenten Tabelle oder über einen Datenbank-View benutzt. Bei diesem Verfahren können Sie alle im Data Dictionary aktivierten transparenten Tabellen und Datenbank-Views lesen. Registerkarte»Datenquelle«Alle notwendigen Einstellungen werden auf der Registerkarte Datenquelle vorgenommen. Zuerst geben Sie eine Beschreibung ein und anschließend den Namen der einzulesenden Tabelle oder des View (siehe Abbildung 3.14). Abbildung 3.14 Daten aus Datenbanktabelle einlesen Data Dictionary Über die F4-Taste können Sie zur Auswahl der Tabellen oder der Views navigieren. Hierbei müssen Sie im Pop-up-Fenster den Tabellentyp auswählen, bevor die im Data Dictionary aktiven Tabellen oder Views zur Auswahl gelistet werden. 58

Die APD Workbench 3.1 Im nächsten Abschnitt beschreiben wir Ihnen die in der APD Workbench angebotenen Transformationen für die Verarbeitung der Eingangsdaten. 3.1.3 Durchführung einer Analyse: Transformationen In der zweiten Analyseprozessphase definieren Sie die Transformationen (Verarbeitungsvorschriften) für die Aufbereitung und die Analyse der strukturierten Eingangsdaten, die Sie in der ersten Analyseprozessphase eingelesen haben. Die zentrale Fragestellung lautet: Welche Transformationen sind in welcher Reihenfolge für die Aufbereitung und die Analyse notwendig? Derzeit werden die nachfolgenden Transformationstypen von SAP bereitgestellt: Datenmenge einschränken Daten aggregieren Daten aus mehreren Quellen zusammenführen (Join) Spalten ausblenden Daten sortieren Liste in Datensatz transformieren Datensatz in Liste transformieren ABAP-Routinen Der Vollständigkeit wegen werden auch die dem Data-Mining- Bereich zugeordneten Transformationstypen aufgeführt: ABC-Klassifikation Weighted Table Scoring Regressionsanalyse Vorhersage mit Entscheidungsbaum Vorhersage mit Clustermodell Vorhersage mit Data-Mining-Methoden von Drittanbietern Nachdem Sie Datenquellen in Ihren Analyseprozess integriert haben, ziehen Sie den einzubindenden Transformationstyp in den Modellierungsbereich. Zunächst verbinden Sie die zu verarbeitenden Eingangsdaten vom Datenquellentyp mit der einzubindenden Transformation. Anschließend können Sie die Eigenschaften pflegen, indem Modellierung der Transformationstypen 59

3 Werkzeuge des Data Mining in SAP NetWeaver BI Sie einen Doppelklick auf das Icon ausführen oder mit der rechten Maustaste das Kontextmenü öffnen und Eigenschaften auswählen. Reihenfolgen von Transformationen Innerhalb eines Analyseprozesses können Sie Transformationen in beliebiger Reihenfolge einbinden. Hierbei liefert jeweils die vorangegangene Transformation die Eingangsdaten für die nachfolgende Transformation. Die Transformationen werden im Analyseprozess mit einem Dreieck gekennzeichnet, das sich oben links auf dem Icon der Transformation befindet. Nachfolgend machen wir Sie mit den einzelnen Eigenschaften der Transformationstypen vertraut. Transformationstyp Datenmenge einschränken Der Transformationstyp Datenmenge einschränken wird für die Ermittlung von Teilmengen benutzt. Die Transformation entspricht der Definition von Selektionsbedingungen im SAP-System. In Abhängigkeit von der benötigten Teilmenge definieren Sie die notwendigen Selektionseinschränkungen. Basierend auf den Eingangsdaten, wird die entsprechende Teilmenge ermittelt und dem nächsten Verarbeitungsschritt bereitgestellt. Alle notwendigen Einstellungen werden auf den Registerkarten Feldauswahl und Filterbedingungen vorgenommen. Registerkarte»Feldauswahl«Auf der Registerkarte Feldauswahl wählen Sie aus den verfügbaren Feldern (siehe Abbildung 3.15) der Eingangsdaten die für die Definition der Selektionsbedingung notwendigen Felder aus. Diese werden als zu filternde Felder gekennzeichnet. 2 1 Abbildung 3.15 Datenmenge einschränken Feldauswahl 60