Austauschformate für Data Mining und OLAP

Größe: px
Ab Seite anzeigen:

Download "Austauschformate für Data Mining und OLAP"

Transkript

1 Studiengang: Informatik Prüfer: Betreuer: Prof. Dr. B. Mitschang Dipl. Inform. Holger Schwarz begonnen am: 19. November 2000 beendet am: 18. Mai 2001 CR-Klassifikation: H.2.7, H.4.2 Studienarbeit Nr Austauschformate für Data Mining und OLAP Björn Stadler Institut für Parallele und Verteilte Höchstleistungsrechner Universität Stuttgart Breitwiesenstraße D Stuttgart

2 Inhaltsverzeichnis 1 Einleitung Inhalt dieser Arbeit Gliederung Grundlagen Data Warehousing Online Analytic Processing (OLAP) Data Mining Anwendungsszenarien Anwendungsszenarien für Data Mining Anwendungsszenarien für OLAP Szenarien für die integrierte Anwendung Informationsanforderungen Anforderungen von Data Mining Techniken Aprori Algorithmus für Assoziationsregeln Clustering Klassifikation mittels Entscheidungsbäumen Regression Anforderungen von OLAP Operationen Data Mining und OLAP Tools IBM Intelligent Miner for Data Darwin Micro Strategy Agent Katalog der Informationsanforderungen OLAP als Basis für Data Mining Data Cubes und Relationale Strukturen Anforderungen nachfolgender Data Mining Schritte Data Mining als Basis für OLAP

3 ii INHALTSVERZEICHNIS Klassifikation Clustering Abhängigkeitsanalyse Regression Tabellarischer Überblick Austauschformate Extensible Markup Language (XML) Predictive Model Markup Language (PMML) Struktur eines PMML Dokumentes Beschreibende Informationen zum Dokument Data Dictionary und Mining Schema Klassifikation - Entscheidungsbäume Clustering Assoziationsregeln Regression Bewertung in Hinblick auf die Informationsanforderungen DB2 Intelligent Miner Scoring Services Überblick über die Funktionalität Zusätzliche Funktionalität nach ISO SQL/MM Bewertung in Hinblick auf die Informationsanforderungen OLE DB für Data Mining Funktionalität von OLE DB für Data Mining Bewertung in Hinblick auf die Informationsanforderungen OLE DB für OLAP Funktionalität von OLE DB für OLAP Multidimensional Expressions (MDX) Bewertung in Hinblick auf die Informationsanforderungen Zusammenfassung Vorschlag für ein erweitertes Austauschformat Data Dictionary Basisdaten Mining Schema, Klassifikation und Abhängigkeitsanalyse Clustering Regression Materialisierte Data Mining Ergebnisse OLAP-Ergebnisse Übersicht

4 INHALTSVERZEICHNIS iii 8 Zusammenfassung 74 A TPC-H 76 B Definition des erweiterten Austauschformates 78 C Document Type Definition (DTD) für PMML 83 Literaturverzeichnis 90

5 Abbildungsverzeichnis 2.1 Architektur eines Data Warehouses Ein multidimensionaler Datenraum Roll-up und Drill-down Slicing und Dicing Star Schema eines Data Warehouses Snowflake Schema eines Data Warehouses Beispiel eines Data Cube Darstellung eines Data Cube als Star Schema Abbildung eines Data Cube auf Relationen Beispiel eines Entscheidungsbaumes Beispiel eines XML Dokumentes XML Entities Grundstruktur eines PMML Dokumentes PMML Header Informationen PMML Data Dictionary und Mining Schema Beispiel einer PMML Definition eines Entscheidungsbaumes Beispiel eines Entscheidungsbaumes Beispiel einer PMML Definition eines Clusteringmodells Beispiel einer PMML Definition von Assoziationsregeln Beispiel einer PMML Definition eines Regressionsmodells Ablauf der DB2 Intelligent Miner Scoring Services SQL Beispielanweisung für die Anwendung eines Klassifikationsmodells Vorgehensweise bei OLE DB für Data Mining Anweisungen bei OLE DB MDX-Anweisungen Vorgehensweise bei OLE DB für OLAP Beispiel eines Star Schemas Elemente des Data Dictionary Beispiel eines Data Dictionary

6 ABBILDUNGSVERZEICHNIS v 7.4 Elemente für die Darstellung von Basisdaten Beispiel für die Darstellung von Basisdaten Elemente für die Darstellung von Clustern Elemente für die Darstellung von Ergebnissen einer Regression Elemente für die Darstellung materialisierter Ergebnisse Elemente für die Definition eines OLAP-Ergebnisses A.1 Schema des Benchmarks TPC-H

7 Tabellenverzeichnis 5.1 Darstellung eines Baumes durch Regeln Assoziationsregeln und deren Darstellung Informationsanforderungen von Data-Mining-Techniken Informationsanforderungen von OLAP-Operationen Ergebnisfunktionen der DB2 Data Mining Scoring Services Funktionen zur Definition des Mining Schemas Funktionen zur Definition von Data Mining Modellen Rowsets in OLE DB for OLAP Eine Kreuztabelle als Darstellung eines OLAP Cubes Informationsanforderungen und Austauschformate für Data Mining Informationsanforderungen von Data-Mining-Methoden Informationsanforderungen von OLAP-Operationen

8 Kapitel 1 Einleitung Durch das operationale Geschäft fallen in den Unternehmen unserer Wirtschaft täglich riesige Mengen an Daten an, die in Datenbanken gespeichert werden. Man denke hier beispielsweise am die Datenmengen, die von Telefongesellschaften verwaltet werden müssen, um jedem Kunden seine Telefongespräche korrekt in Rechnung stellen zu können. Man geht davon aus, dass in den gesammelten Datenbeständen der Unternehmen wertvolles Wissen implizit enthalten ist. Dieses Wissen könnte nutzbringend eingesetzt werden, um das Unternehmen besser am Markt zu positionieren, seinen Marktanteil bei bestimmten Produkten zu steigern oder seine Produktionsabläufe zu optimieren und damit Geld zu sparen. Daneben fallen die Kosten für die Datenspeicherung kaum ins Gewicht. Grundsätzlich kann das neu erworbene Wissen das Management bei seiner Entscheidungsfindung unterstützen. In diesem Zusammenhang spricht man oft vom Decision Support. Aufgrund der wachsenden Größe der verfügbaren Datenmengen ist es Fachleuten ohne Rechnerunterstützung nicht mehr oder nur stark eingeschränkt möglich, Analysen durchzuführen und die Ergebnisse übersichtlich darzustellen. Die Analyse erinnert stark an das Schürfen nach Gold in einem riesigen Gebirge aus Daten. Mit viel Glück stößt man auf Gold, das heißt, nutzbringendes Wissen wird entdeckt. Daher steigt der Bedarf an Systemen, die die Analyse der Datenbestände automatisch durchführen. Techniken dafür stellen Data Mining und Online Analytic Processing (OLAP) zur Verfügung. Da damit zu rechnen ist, dass die Datenbestände in den nächsten Jahren vor allem in den datenintensiven Branchen, wie der Telekommunikation oder dem Handel, weiter stark wachsen werden, wird sich der Trend zu Analysewerkzeugen noch weiter verstärken. 1.1 Inhalt dieser Arbeit Beim Decision Support ergeben sich häufig Fragestellungen, die nicht durch Anwendung einer einzelnen Analysemethode ausreichend beantwortet werden können, sondern nur

9 2 KAPITEL 1. EINLEITUNG durch den kombinierten Einsatz mehrerer Techniken. Hierzu ist es notwendig, dass die verwendeten Werkzeuge ihre Teil- oder Zwischenergebnisse untereinander austauschen können. Dadurch wird zum Beispiel die weitere Analyse eines Data-Mining-Ergebnisses mit Hilfe eines OLAP-Tools ermöglicht. Bisher ist es meist nur möglich, Ergebnisse per Hand von einem Tool in ein anderes zu übernehmen. Dies kann durch Eintragen einer Filterbedingung, die vor der Analyse auf die Basisdaten angewandt wird, erfolgen. Dieser Vorgehensweise sind jedoch durch die Komplexität der Ergebnisse Grenzen gesetzt. Außerdem können sich bei der Übertragung per Hand leicht Fehler einstellen, in deren Folge die gesamte Analyse wiederholt werden muss. Daher ist es notwendig, Möglichkeiten zu schaffen, durch die die wesentlichen Informationen auf elektronischem Weg ausgetauscht werden können. Wie dies bewerkstelligt werden kann, zeigt ein Blick auf weitverbreitete Office Produkte. Hier ist es ohne Probleme möglich, Daten aus der Tabellenkalkulation in die Textverarbeitung zu übernehmen. Zu beachten ist jedoch, dass es bei OLAP und Data Mining oft notwendig ist, Komponenten verschiedener Hersteller zu koordinieren. In dieser Arbeit wird im Folgenden untersucht, wo der gemeinsame Einsatz von OLAPund Data-Mining-Analysen notwendig ist und welche Informationen ausgetauscht werden müssen, um eine integrierte Anwendung beider Techniken zu ermöglichen. 1.2 Gliederung In Kapitel zwei werden die grundlegenden in dieser Arbeit verwendeten Begriffe Data Warehousing, Data Mining sowie Online Analytic Processing (OLAP) erläutert. Dabei werden auch die Basistechniken des Data Mining beschrieben. Kapitel drei stellt zunächst Szenarien für die Anwendung von Data Mining, sowie für den Einsatz von OLAP-Techniken dar. Darauf aufbauend werden Anwendungsszenarien für die Kooperation beider Techniken entwickelt. In den Kapiteln vier und fünf werden die Informationsanforderungen für den gemeinsamen Einsatz von Data-Mining- und OLAP-Tools dargestellt. Dabei werden zunächst in Kapitel vier die Anforderungen von Data-Mining-Techniken anhand von Algorithmen, sowie die Anforderungen von OLAP-Operationen ermittelt. Abschließend wird untersucht, ob Data-Mining- beziehungsweise OLAP-Werkzeuge zusätzliche Informationen benötigen. Kapitel fünf dient der Zusammenstellung der in Kapitel vier festgestellten Informationsanforderungen. In Kapitel sechs werden bereits bestehende Austauschmechanismen vorgestellt. Dazu gehören Methoden, die bereits in der Industrie eingesetzt werden können, sowie Mecha-

10 1.2. GLIEDERUNG 3 nismen, die im Rahmen des neuen SQL Standards diskutiert werden. In diesem Kapitel werden die vorgestellten Austauschformate auch im Hinblick auf die Informationsanforderungen analysiert. Das folgende Kapitel sieben dient der Darstellung eines erweiterten Austauschformates, welches die in den Kapiteln vier und fünf aufgestellten Anforderungen weitgehend erfüllt. Am Schluss folgt eine Zusammenfassung der Ergebnisse dieser Arbeit.

11 Kapitel 2 Grundlagen Decision Support beinhaltet Methoden und Techniken zur Analyse großer Datenmengen. Die durch die Analysen gewonnenen Informationen helfen dem Management, Entscheidungen zu fällen. Der Prozess der Informationsgewinnung wird oft als Knowledge Discovery in Databases (KDD) bezeichnet [FU + 96]. Dazu gehört neben der eigentlichen Wissensextraktion im Analyseschritt mit Hilfe verschiedener Werkzeuge, wie Data Mining oder OLAP, eine Vorbereitungsphase. Diese Phase dient der Integration verschiedener Datenquellen mit unterschiedlichen Schemata, sowie zur Säuberung der Datenbestände, das bedeutet, inkonsistente Daten werden entfernt [HK00]. In diesem Kapitel werden die in diesem Zusammenhang wichtigen Begriffe Data Warehousing, sowie die verschiedenen Analysemethoden des Data Mining und Online Analytic Processing (OLAP) vorgestellt. 2.1 Data Warehousing Daten in operationalen Datenbanksystemen liegen in einer für eine schnelle und unkomplizierte Datenanalyse nicht geeigneten Form vor. Bei den Online Transactional Processing (OLTP) Systemen liegt die Hauptaufgabe in der Verarbeitung von Transaktionen, wie zum Beispiel in verschiedensten Buchungssystemen. Diese Systeme sind auf einen möglichst hohen Durchsatz optimiert, das bedeutet, es sollen möglichst viele Transaktionen pro Zeiteinheit durchgeführt werden. Weiter werden OLTP-Systemen durch kleine Datenmengen pro Transaktion charakterisiert. Sie arbeiten nur auf dem aktuellen Zustand des Datenbestandes [Wag00]. Die geschäftliche Datenanalyse hingegen konzentriert sich nicht auf die einzelnen Geschäftsvorfälle, sondern untersucht für das Management interessante Kerngrößen, wie beispielsweise Verkaufstrends. Datenanalysen im Decision Support sind oft sehr zeitaufwendige Operationen. Zudem werden für Analysen über längere Zeiträume historische Daten benötigt, die durch ein

12 2.1. DATA WAREHOUSING 5 OLTP-System nicht zur Verfügung gestellt werden können. Schon aus diesen Gründen werden die für die Analyse notwendigen Daten in einem seperaten Datenspeicher bereitgestellt. Abbildung 2.1: Architektur eines Data Warehouses (aus [HK00]) Außerdem sind unternehmensweite Datenbestände vor allem in Großunternehmen auf mehrere OLTP-Systeme für Buchhaltung oder Produktion aufgeteilt, die von unterschiedlichen Abteilungen gepflegt werden. Da diese Datenbanken auch auf unterschiedlichen, nicht zwangsläufig kompatiblen, Schemata basieren, müssen die Daten vorverarbeitet werden. Dazu gehört die Extraktion der für die Analyse notwendigen Daten aus den jeweiligen Quellsystemen in ein einheitliches Format für die Weiterverarbeitung, die Transformation der Daten, insbesondere die Fehlerkorrektur und Beseitigung von Inkonsistenzen, sowie letztendlich das Laden der Daten, die Indexerstellung und Aktualisierung der Datenbestände, vergleiche Abbildung 2.1. Eine auf diese Weise vorbereitete und thematisch strukturierte Datensammlung nennt man Data Warehouse. Oft werden jedoch auch die Anwendungen, die auf dieser vorbereiteten Datensammlung arbeiten, als Data Warehouse bezeichnet. Ein Data Warehouse wird gewöhnlich in einem multidimensionalen Schema modelliert [HK00].

13 6 KAPITEL 2. GRUNDLAGEN 2.2 Online Analytic Processing (OLAP) Unter Online Analytic Processing (OLAP) versteht man Technologien und Werkzeuge, die die ad-hoc-analyse von mehrdimesionalen Datenmodellen in einem Data Warehouse erlauben. Mehrdimensionale Datenmodelle lassen sich als Datenraum (Data Cube) darstellen, wobei jede Achse durch eine Dimension des Datenmodells aufgespannt wird. Der Datenraum enthält dabei in der Regel numerische Werte, wie Verkaufszahlen oder Umsätze, die zu den Dimensionen in Beziehung stehen. Dadurch lassen sich Werte eindeutig lokalisieren. Im dreidimensionalen Raum kann man sich den Datenraum anschaulich als Würfel vorstellen. Die Dimensionen ihrerseits sind in Hierarchien angeordnet, Verkaufszahlen lassen Abbildung 2.2: Ein multidimensionaler Datenraum (nach [HK00]) sich zum Beispiel nach Städten, Staaten und Kontinenten anordnen und zusammenfassen. Dadurch wird es möglich, entlang der einzelnen Hierarchien zu abstrahieren oder zu konkretisieren. Abbildung 2.2 zeigt einen Data Cube für Verkaufszahlen. Der Datenraum enthält Dimensionen für die Adresse der Geschäfte (Address), für das Produkt (Item), sowie für den Zeitbezug (Time). Grundsätzlich lassen sich auf einem mehrdimensionalen Datenmodell folgende Operationen definieren [HK00]: Roll-up: Abstraktion einer Dimension, das bedeutet Übergang zu einer höheren Abstraktionsebene derselben Dimension. Dabei werden die Daten im Datenraum entlang der Dimension aggregiert. Abbildung 2.3(a) zeigt eine Roll-up Operation entlang der Dimension Address. Hier findet ein Übergang von Städten zu Staaten statt.

14 2.2. ONLINE ANALYTIC PROCESSING (OLAP) 7 Drill-down: Konkretisierung einer Dimension, das heißt Übergang zu einer Ebene niedrigerer Abstraktion innerhalb derselben Dimension. Dabei werden die im Datenraum dargestellten Daten detaillierter. In Abbildung 2.3(b) wird eine Drill-down Operation entlang der Dimension Time von Quartalen hin zu Monaten gezeigt. (a) Roll-up (b) Drill-down Abbildung 2.3: OLAP-Operationen (nach [HK00]). Die Operationen beziehen sich auf den Data Cube in Abbildung 2.2. Slicing: Unter Slicing versteht man das Herausschneiden einer Scheibe aus einem Datenwürfel, das bedeutet, eine Dimension wird auf einen bestimmten Wert eingeschränkt. Der Datenwürfel wird bei dieser Operation um eine Dimension verkleinert. Im Beispiel in Abbildung 2.4(a) wird die Dimension Address ausgeblendet. Dicing: Dicing bedeutet das Herausschneiden eines Teilwürfels, mit anderen Worten, eine oder mehrere Dimensionen werden auf ein Wertintervall eingeschränkt. Das Ergebnis dieser Operation ist wiederum ein Datenwürfel. Abbildung 2.4(b) zeigt ein Beispiel dieser Operation. Man unterscheidet OLAP-Systeme in Hinblick auf das von ihnen verwendete Datenbanksystem. Einserseits gibt es Systeme, die ein mehrdimensionales Datenbanksystem zum Speichern der Datenstrukturen verwenden. Diese werden MOLAP, multidimensionales

15 8 KAPITEL 2. GRUNDLAGEN (a) Slicing (b) Dicing Abbildung 2.4: OLAP-Operationen (nach [HK00]). Die Operationen beziehen sich auf den Data Cube in Abbildung 2.2. OLAP, genannt. Auf der anderen Seite greifen viele OLAP-Systeme auf die bewährte relationale Datenbanktechnologie zurück. Bei diesen ROLAP, relationales OLAP, genannten Systemen, muss die OLAP eigene multidimensionale Stuktur auf ein Relationenschema des Datenbanksystems abgebildet werden. Eine Lösung besteht darin, das mehrdimensionale Schema in Fakten, darunter versteht man die im Data Cube enthaltenen numerischen Werte, die die Grundlage der Analyse bilden, und Dimensionen aufzuteilen. Daraus ergibt sich ein Schema, das in seiner Gestalt einem Stern (star schema, siehe Abbildung 2.5) oder einer Schneeflocke (snowflake schema, siehe Abbildung 2.6) ähnelt. Abbildung 2.5: Star Schema eines Data Warehouses mit einer Faktentabelle Sales und vier Dimensionstabellen Time, Item, Branch und Location (nach [HK00]). Unterschiede zwischen den Schemata ergeben sich in den Dimensionstabellen. Das Snowflake Schema weist einen höheren Normalisierungsgrad auf als das Star Schema. Die Normalisierung führt zum Aufteilen der Dimensionstabellen in mehrere Tabellen durch Berücksichtigung der Hierarchien innerhalb der Dimensionen. Dadurch werden Redundanzen und

16 2.3. DATA MINING 9 Abbildung 2.6: Snowflake Schema eines Data Warehouses mit einer Faktentabelle Sales. Im Vergleich zu dem Star Schema in Abbildung 2.5 wurden die Dimensionstabellen Item und Location jeweils in zwei Tabellen aufgeteilt (nach [HK00]). Anomalien beim Einfügen, Ändern und Löschen verhindert [Bus01, HK00, Wag00]. 2.3 Data Mining Unter Data Mining versteht man eine Reihe verschiedener Techniken und Methoden, um relevante Informationen weitgehend automatisch aus einer Menge von Daten zu extrahieren. Die Data-Mining-Techniken erzeugen Modelle, mit deren Hilfe Daten analysiert und prognostiziert werden können. Einsatzgebiete dieser Techniken sind vor allem die klassische Markt- oder Risiokoanalyse, beispielsweise die Warenkorbanalyse, aber auch etwas ausgefallenere Gebiete, wie die Astronomie oder die Biologie. Man unterscheidet im Data Mining zwischen beschreibenden (deskriptiven) und vorhersagenden Techniken [FU + 96, HK00, Ora99, Kim00]. In diesem Abschnitt werden vier Data-Mining-Techniken erläutert, die als Basis für die weiteren Untersuchungen dieser Arbeit dienen. Bei diesen handelt es sich um die im Allgemeinen mit dem Begriff Data Mining assoziierten Techniken. Suche nach Abhängigkeiten Mit der Abhängigkeitsanalyse oder Association rule mining wird die Suche nach interessanten Beziehungen und Abhängigkeiten zwischen Variablen bezeichnet. Man unterscheidet strukturelle und quantitative Abhängigkeiten. Strukturelle Abhängigkeit bedeutet,

17 10 KAPITEL 2. GRUNDLAGEN es besteht zwischen zwei Variablen eine Abhängigkeit, beispielsweise kann zwischen dem Kauf eines Rechners und dem eines Druckers eine Abhängigkeit bestehen. Die Wichtigkeit der Abhängigkeit, das heißt, mit welcher Wahrscheinlichkeit sie auftritt, wird mit der quantitativen Abhängigkeit ausgedrückt. Im vorigen Beispiel könnte die Abhängigkeit zwischen Rechner und Drucker mit einer Wahrscheinlichkeit von 80% eintreten. Die Abhängigkeitsanalyse gehört zu den beschreibenden Techniken. Eine klassische Anwendung der Abhängigkeitsanalyse ist die Warenkorbanalyse. Hierbei wird jeder Warenkorb durch eine Transaktion repräsentiert. Ziel der Analyse ist es, Waren oder Warengruppen zu identifizieren, die häufig zusammen gekauft oder verkauft werden. Clustering Die zweite deskriptive Technik, Clustering oder Segmentierung genannt, versucht eine Objektmenge in interessante, beziehungsweise sinnvolle Teilmengen oder Klassen zu unterteilen. Dabei soll die Ähnlichkeit der Objekte innerhalb der Klassen gemessen an einem Distanz- oder Ähnlichkeitsmaß möglichst groß sein, gleichzeitig sollen sich aber Objekte aus unterschiedlichen Klassen auch möglichst deutlich unterscheiden. Die Segmentierung wird häufig verwendet, um Kunden in Zielgruppen für Marketingaktivitäten zu unterteilen. Klassifikation Bei der Klassifikation werden die einzelnen Objekte einer Datensammlung in vordefinierte Klassen eingeordnet. Anhand einer Beispielmenge, zum Beispiel historische Daten, mit bekanntem Klassenattribut wird ein Klassifikationsmodell entwickelt. Mit Hilfe dieses Modells wird versucht, die bestehenden Daten und deren Verhalten in der Zukunft zu verstehen. Damit gehört die Klassifikation zu den vorhersagenden Techniken. Die Klassifikation unterscheidet sich vom Clustering (siehe oben) durch die Verwendung vordefinierter Klassen. Sie findet bespielsweise bei der Risikoabschätzung von Versicherungen und Banken Verwendung. Mögliche Darstellungsformen des Modells sind zum Beispiel Entscheidungsbäume oder Klassifikationsregeln. Regression Die Regressionsanalyse gehört zu den statistischen Analyseverfahren. Ähnlich der Klassifikation wird mit Hilfe der Regression versucht, Werte vorherzusagen oder abzuschätzen. Allerdings findet die Regression im Gegensatz zur Klassifikation nicht bei kategorischen, sondern bei kontinuierlichen numerischen Werten Anwendung. Sie wird zur Analyse von Beziehungen zwischen einem abhängigen Attribut (Regressand) und einer Menge unabhängiger Attribute (Regressoren) verwendet. Anhand von Beispieldaten wird eine Annäherungsfunktion in Abhängigkeit von Attributen als Modell für ein anderes kontinuierliches

18 2.3. DATA MINING 11 Attribut berechnet. Oft wird hierzu ein lineares Modell verwendet, jedoch sind auch polynomiale Modelle gebräuchlich, da Zusammenhänge durch lineare Modelle oft zu stark vereinfacht werden. Ein Vorteil dieser Analysemethode ist die gut untersuchte mathematische Grundlage.

19 Kapitel 3 Anwendungsszenarien In diesem Kapitel sollen Anwendungsszenarien für den gemeinsamen Einsatz von Data- Mining- und OLAP-Werkzeugen bei der Bearbeitung komplexer Aufgaben beschrieben werden. Dazu werden zunächst Szenarien für die Anwendung von Data-Mining- beziehungsweise OLAP-Techniken vorgestellt. Anhand dieser Szenarien werden in einem weiteren Abschnitt Möglichkeiten für den integrierten Einsatz beider Methoden dargestellt. 3.1 Anwendungsszenarien für Data Mining Data Mining findet in einer großen Bandbreite von Anwendungen Verwendung, von Finanzdienstleistern über die klassische Industrie bis hin zur Astronomie. Verallgemeinernd lässt sich feststellen, dass Data Mining immer dort eingesetzt wird, wo große Mengen an Daten möglichst automatisch analysiert werden sollen. In diesem Abschnitt werden einige der in der Industrie häufig anzutreffenden Anwendungsfelder für Data-Mining-Techniken näher vorgestellt. Bei der Auswahl wurde darauf geachtet, dass zu jeder, der in Kapitel 2 betrachteten Methoden mindestens ein Szenario in den hier beschriebenen Anwendungen enthalten ist [IBM96, FU + 96]. Klassifikation Marketing dient Unternehmen unter anderem dazu, ihre Bekanntheit und damit ihren Marktanteil zu vergrößern. Da dies jedoch mit Kosten für Druck, Porto oder Sonderangebote verbunden ist, sind Unternehmen daran interessiert, ihre Marketingstrategie zielgerichtet auf einzelne Kundengruppen zu optimieren und damit die Kosten zu beschränken. Durch Marketing sollen Kunden an das Unternehmen gebunden werden, sowie neue Kunden hinzugewonnen werden. Data Mining stellt die dafür benötigten Analysemethoden, zum Beispiel die Klassifikation, zur Verfügung.

20 3.1. ANWENDUNGSSZENARIEN FÜR DATA MINING 13 Beispielsweise interessiert Hersteller von Fertigprodukten, wie Haushaltsgeräten, die Frage, welche Haushalte ein bestimmtes Produkt kaufen würden, und deshalb in eine Werbekampagnie einbezogen werden sollen. Das Ziel einer solcher Analyse ist es, ein Modell zu erstellen, mit dessen Hilfe die Zielgruppe für eine bestimmte Werbeaktion ermittelt werden kann [IBM96]. Ein großes Kreditkartenunternehmen konnte auf diese Weise die Kosten für eine Werbeaktion um 95% senken [Ora99]. Banken führen eine Risikoanalyse (auch Risk-Management genannt) durch, um ein Modell für die Kreditwürdigkeit ihrer Kunden zu erstellen. Damit ist die Kreditvergabe nicht mehr nur von der Einschätzung eines Sachbearbeiters abhängig, sondern lässt sich an objektiven Kriterien überprüfen. Anhand der persönlichen Daten des Kunden, wie Alter oder Einkommen, wird dieser einer Klasse mit geringem, mittleren oder hohem Risiko zugeordnet. Eine führende Bank konnte so die Rate der Fehleinschätzungen um 35% senken. [Ora99] Suche nach Abhängigkeiten Eine weitere wichtige Data-Mining-Anwendung ist die Warenkorbanalyse (Market-Basket- Analysis). Sie dient dazu, festzustellen, welche Produkte häufig zusammen gekauft oder bestellt werden. Erkenntnisse daraus können zum Beispiel in die Anordnung von Supermarktregalen einfließen, so dass häufig zusammen gekaufte Produkte räumlich nahe beieinander zu finden sind. Die Abhängigkeitanalyse (Association Rule Discovery) liefert die dafür geeignete Methodik [FU + 96, HK00]. Die Ergebnisse einer Warenkorbanalyse lassen sich auch zur Überarbeitung der Produktpalette eines Unternehmens verwenden. Produkte oder Dienstleistungen, die häufig gemeinsam erworben werden, bieten sich geradezu dazu an, im Paket angeboten zu werden (Cross-Selling). Beispielsweise kann ein Telekommunikationsunternehmen seinen Kunden einen Festnetz-, Mobilnetz- und Internetanschluß im Paket anbieten [Ora99]. Ein klassisches Beispiel für Cross Selling sind Versicherungen. Reiseversicherungen werden üblicherweise im Paket angeboten. Darin enthalten sind oft eine Auslandskrankenversicherung, eine Reisegepäckversicherung sowie eine Reiserücktrittsversicherung. Online Buchhändler nutzen die Warenkorbanalyse dazu, ihren Kunden bei einer Bestellung Bücher zu empfehlen, die von anderen Kunden zusätzlich zu den gerade bestellten Büchern erworben wurden. Regression Unternehmen im Pharmagroßhandel sind daran interessiert, für jede Apotheke, eine Umsatzprognose zu erstellen, beziehungsweise ein Modell zu errechnen, anhand dessen die Prognose erstellt werden kann. Die Basis dafür liefern demographische Daten über die Region der Apotheke, wie zum Beispiel die Einwohnerzahl oder die Anzahl der Ärzte und

21 14 KAPITEL 3. ANWENDUNGSSZENARIEN Krankenhausbetten in der Region. Die Prognose kann mit Hilfe der Regression berechnet werden. Diese Technik liefert ein mathematisches Modell, mit welchem sich die Apotheken anschließend bezüglich des erwarteten Umsatzes klassifizieren lassen. Umsatzstarke Apotheken können dann mit zielgerichtetem Marketing direkt angesprochen werden, um sie dem eigenen Kundenstamm hinzuzufügen [Kim00]. Clustering Unternehmen sind daran interessiert, loyale Kunden zu haben, das heißt, Kunden an sich zu binden. Mit Hilfe von Clustering können innerhalb einer Kundendatenbank Informationen gefunden werden, die die Wahrscheinlichkeit, dass ein Kunde wiederholt bei demselben Unternehmen einkauft, stark beeinflussen. Mit anderen Worten, es wird ermittelt, was Kunden, die mehrmals bei demselben Unternehmen einkaufen, gemeinsam haben, beipielsweise Ausbildung, Alter, Einkommen oder ähnliches. Fluglinien benutzen Data-Mining-Techniken, um Probleme bei bestimmten Flugzeugtypen zu diagnostizieren und vorherzusagen. Mit Hilfe von Clustering lassen sich verschiedene Fehlergruppen ableiten [FU + 96]. 3.2 Anwendungsszenarien für OLAP Mit Hilfe von OLAP-Werkzeugen werden typischerweise Fragestellungen beantwortet, die sich auf die Betrachtung von numerischen Daten auf verschiedenen Abstraktionsebenen beziehen. Ihre weiteste Verbreitung finden OLAP-Werkzeuge im Finanz- und Marketingbereich. Vor allem Industriezweige mit hohem Datenaufkommen, wie Hersteller von Gebrauchsgütern, Finanzdienstleister oder Transportunternehmen, gehören zu den typischen Anwendern [Bus01]. Im Folgenden sollen einige Beispiele näher betrachtet werden: Ähnlich wie Data Mining wird OLAP oft zur Marketinganalyse eingesetzt. So lässt sich zum Beispiel die Akzeptanz neuer Produkte am Markt analysieren, indem die Verkaufszahlen von Produkten, die in den letzten sechs bis neun Monaten eingeführt wurden, mit denen älterer Produkte verglichen werden, welche schon seit mehreren Jahren angeboten werden. Auf diese Weise lassen sich diejenigen Regionen ermitteln, in denen das Produkt schneller akzeptiert wurde als in anderen. Anschließend kann untersucht werden, ob das Verkaufsverhalten für die Region typisch ist, das heißt wurden neue Produkte in dieser Region schon immer gut oder schlecht angenommen. Eventuell lassen sich daraus auch Ursachen für atypisches Verhalten entdecken [Bus01]. Durch OLAP-Analysen lässt sich die Wirksamkeit von Werbeaktionen überprüfen. So kann zum Beispiel der Umsatz eines Produktes in einer Marktregion, in der geworben

22 3.3. SZENARIEN FÜR DIE INTEGRIERTE ANWENDUNG 15 wird, mit dem Umsatz in einer Region ohne Werbung verglichen werden. Die Fragestellung dabei lautet, ob es eine Korrelation zwischen Werbeaktion und den Verkaufszahlen gibt [Bus01]. Unternehmen können auf leichte Art feststellen, welche Kunden für große Umsätze sorgen, beziehungsweise welche Artikel sich sehr schlecht oder besonders gut verkaufen. Zu den Aufgaben der Profitability Analysis gehört auch die Ermittlung der für das Unternehmen profitablen Regionen oder Marktsegmente [Bus01, Wag00]. 3.3 Szenarien für die integrierte Anwendung In diesem Abschnitt soll dargestellt werden, inwiefern sich die integrierte Anwendung von Data-Mining- und OLAP-Werkzeugen für typische Anwendungen eignet, beziehungsweise inwieweit sich Vereinfachungen durch die gemeinsame Nutzung beider Techniken erzielen lassen. OLAP als Basis für Data Mining Durch die Verwendung von OLAP-Werkzeugen lässt sich die Bestimmung einer Basisdatenmenge für Data Mining vereinfachen. Zwar bieten Data-Mining-Tools eine Filterfunktion, mit der die Datenmenge für die Analyse eingeschränkt werden kann, doch lässt sich sich dieser Schritt durch ein OLAP-Werkzeug mit einer vorherigen Analyse verbinden. Falls beispielsweise eine Warenkorbanalyse auf den Daten der profitablen Regionen durchgeführt werden soll, können durch eine OLAP-Analyse interaktiv zuerst die gesuchten Regionen ermitteln werden, die anschließend durch Data-Mining-Anwendungen weiter untersucht werden sollen. Diese Vorgehensweise kann auf alle anderen Data-Mining-Methoden, wie Clustering, Klassifikation oder Regression, übertragen werden [Han97]. Clustering als Basis für OLAP Mit Hilfe von Clustering können Kundengruppen aus einer Kundendatenbank gebildet werden. OLAP-Analysen können anschließend auf jedem auf diese Weise gebildeten Segment durchgeführt werden. Beispielsweise kann so festgestellt werden, welches Kaufverhalten für bestimmte Kundengruppen charakteristisch ist. Der Hauptumsatz einer Kundengruppe könnte zum Beispiel ausschließlich in bestimmten Monaten eines Jahres liegen, Mitglieder anderer Kundengruppen kaufen möglicherweise nur an bestimmten Wochentagen ein. Diese Analyse kann anschließend als Grundlage für Marketingstrategien dienen [Han97].

23 16 KAPITEL 3. ANWENDUNGSSZENARIEN Klassifikation als Basis für OLAP Auf ähnliche Weise kann auch eine Klassifikation als Data-Mining-Ergebnis Grundlage für weitere OLAP-Analysen sein. Der Unterschied zum Clustering (siehe oben) liegt in den vordefinierten Klssen, die bei der Klassifikation verwendet werden. Das Ergebnis einer Klassifikation lässt sich als Baum darstellen, wobei jeder Blattknoten eine Klasse repräsentiert. Jeder dieser Blattknoten seinerseits kann für weitere OLAP- Analysen als Data Cube auf einem bestimmten Abstraktionsniveau betrachtet werden. So können die im Data Mining Prozess entstandenen Klassen, beispielsweise bei einer Risikoanalyse einer Bank, anschließend durch verschiendene Aggregationen näher untersucht werden [Han97]. Regression als Basis für OLAP Die Regression als Data-Mining-Technik dient der Erstellung eines Modells zur Vorhersage meist numerischer Werte auf der Basis bereits vorhandener Werte. Das Ergebnis dieser Technik ist eine mathematische Funktion als Modell. Beispielsweise lassen sich Verkaufszahlen für das laufende Jahr auf der Basis der Ergebnisse vergangener Jahre prognostizieren. Die mit Hilfe des Modells ermittelten Werte können OLAP-Anwendungen als Grundlage weiterer Aggregationen dienen. Angenommen, es werden monatliche Umsätze für einzelne Artikel je Marktregion prognostiziert, so können aus diesen Zahlen Annahmen für den Gesamtumsatz einer Region oder einer Produktgruppe aggregiert werden. Weiter kann der voraussichtliche Verlauf des Umsatzes eines Artikels über das gesamte Jahr untersucht werden [Han97]. Assoziationsregeln als Basis für OLAP Assoziationregeln als Ergebnis einer Anhängigkeitsanalyse lassen sich kaum als Grundlage für nachfolgende OLAP-Analysen verwenden, da sich die Regelmenge als Data-Mining- Ergebnis in ihrer Struktur stark von der Struktur eines Data Cube bei OLAP-Analysen unterscheidet [Han97]. Vorstellbar wäre allenfalls, Abstraktionen, beziehungsweise weitere Analysen, auf denjenigen Datensätzen der Basisdatenmenge durchzuführen, die eine bestimmte Assoziationsregel erfüllen. So kann untersucht werden, ob Assoziationsregeln in allen Marktregionen gleichermassen stark ausgeprägt sind. Die Assoziationsregeln sind in diesem Fall in ihrer Verwendung Filtern ähnlich, die die Basisdatenmenge einschränken. Angenommen, man erhält die Assoziationsregel {Badekleidung} {Handtuch, Sonnenbrille} als Ergebnis einer Abhängigkeitsanalyse. Die Basisdatenmenge für die folgende OLAP-Analyse kann auf Transaktionen eingeschränkt werden, die die Produkte Badekleidung, Handtuch und Sonnenbrille enthalten. In der OLAP-Analyse kann untersucht werden, ob die Produkte nur in bestimmten Regionen gemeinsam in Transaktionen auftreten, oder ob das nur in einer Region der Fall ist.

24 Kapitel 4 Informationsanforderungen Mit Informationsanforderungen werden in diesem Kapitel Anforderungen an den Austausch von Informationen über Teilergebnisse zwischen Data-Mining- und OLAP-Tools bezeichnet. Mit anderen Worten: in diesem Kapitel wird beschrieben, welche Informationen Data-Mining-Techniken beziehungsweise OLAP-Operationen erhalten müssen, um eine Datenmenge zu bearbeiten, die zuvor mit Hilfe der jeweils anderen Technik analysiert wurde. Zunächst werden die Informationsanforderungen von Data-Mining-Methoden und OLAP- Operationen betrachtet, bevor abschließend Data-Mining- beziehungsweise OLAP-Werkzeuge in Hinblick auf Informationsanforderungen untersucht werden. 4.1 Anforderungen von Data Mining Techniken In diesem Abschnitt sollen die Informationsanforderungen der in Kapitel 2 vorgestellten Data-Mining-Techniken mit Hilfe von Algorithmen für die einzelnen Methoden näher betrachtet werden. In den Betrachtungen wird nicht berücksichtigt, dass die Eingabe für die Algorithmen möglicherweise aus einem Data Cube eines OLAP-Tools bestehen können. Dieser Aspekt wird im nächsten Kapitel näher untersucht Aprori Algorithmus für Assoziationsregeln Die Suche nach Assoziationsregeln der Form A B wird im Allgemeinen durch zwei Maßzahlen gesteuert, welche Support und Confidence genannt werden. In der Literatur finden sich noch weitere Maßzahlen für die Steuerung der Suche. Unter Support versteht man den Anteil der Tupel an der Datenmenge, die die Attributmenge {A, B} enthalten. Mit Confidence bezeichnet man die prozentuale Häufigkeit, mit der bei Zutreffen von A auch B zutrifft, mit anderen Worten confidence = P (B A). Im Folgenden wird der Ablauf des Apriori Algorithmus, dem Basisalgorithmus zur Ermittlung von frequent Itemsets, als

25 18 KAPITEL 4. INFORMATIONSANFORDERUNGEN Beispiel betrachtet. Dieser Algorithmus wurde gewählt, um die Analyse der Informationsanforderungen nicht durch zahlreiche Optimierungen zu erschweren. Der Ablauf des Algorithmus kann in zwei Phasen unterteilt werden: Die erste Phase dient der Ermittlung von k-teilmengen (candidate k-itemsets), damit sind Teilmengen der Kardinalität k gemeint. Elemente der k-teilmengen werden durch Kombination von Elementen der (k-1)-teilmenge erzeugt. Die Konstruktion der candidate Itemsets entspricht der Konstruktion der Potenzmenge über der Attributmenge und ist daher sehr rechenzeitintensiv. Betrachtet werden dabei aber nur frequent Itemsets, das heißt Teilmengen, deren Support eine untere Schranke s min überschreitet. Alle anderen Teilmenge werden nicht betrachtet, da aus Teilmengen, die nicht zu den frequent Itemsets gehören, keine frequent Itemsets erzeugt werden können. Als Anfangsmenge, auch 1-Itemset genannt, dient die Menge der Attribute. Assoziationsregeln müssen mindestens zwei Elemente enthalten, da sowohl für die rechte Seite der Regel als auch für die linke Seite ein Element notwendig ist. In der zweiten Phase werden die Assoziationsregeln berechnet. Dazu werden alle frequent Itemsets mit mindestens zwei Elementen betrachtet. Für jedes dieser Itemsets werden alle nichtleeren Teilmengen gebildet. Jede dieser Teilmengen bildet die linke Seite, der Rest des Itemsets die rechte Seite einer möglichen Assoziationsregel. Die entstandenen Regeln müssen anschließend noch daraufhin untersucht werden, ob sie eine untere Schranke c min für die Confidence überschreiten [HK00]. Anhand des Algorithmus lassen sich die folgenden Informationsanforderungen identifizieren: Die Ausgangsattributmenge (1-Itemset), das heißt, die für die Suche relevante Menge an Attributen, muss bekannt sein. Diese lässt sich aus den verwendeten Transaktionen ermitteln. Der Algorithmus muss die Menge der Transakionen, die zur Berechnung von Assoziationsregeln herangezogen werden soll, kennen. Dabei ist darauf zu achten, dass zudem bekannt ist, welche Datensätze zu einer Transaktion gehören, beispielsweise ist die Identifikation mit Hilfe einer Transaktions-ID möglich. Die minimale untere Schranke für Support s min, sowie für Confidence c min muss spezifiziert werden. Da dem Data-Mining-System oft ein Data Warehouse zugrunde liegt, müssen auch Hierarchien, auch als Taxonomien bezeichnet, bei den einzelnen Dimensionen mit betrachtet werden. Der Algorithmus muss wissen, auf welcher Abstraktionsebene Assoziationsregeln gesucht werden, beispielsweise können anstatt von Einzelprodukten auch Produktgruppen bei einer Warenkorbanalyse betrachtet werden. In Bezug auf die Laufzeit sind für die Abhängigkeitsanalyse bessere Algorithmen als der

26 4.1. ANFORDERUNGEN VON DATA MINING TECHNIKEN 19 Apriori Algorithmus bekannt, diese haben jedoch dieselben Informationsanforderungen und wurden daher nicht weiter betrachtet. Andere Algorithmen für die Suche nach Assoziationsregeln sind zum Beispiel in [HK00] beschrieben Clustering Man unterscheidet viele verschiedene Methoden, Cluster zu bestimmen, im Folgenden werden nur partitioning Methods und hierarchical Methods als klassische Verfahren betrachtet [HK00]. Partitioning Methods Diese Methoden versuchen eine Menge von n Objekten in k verschiedene Cluster zu unterteilen, wobei gilt: k n. Weiter muss erfüllt sein, dass jedes Objekt zu genau einem Cluster gehört und jeder dieser Cluster mindestens ein Objekt enthält. Die Algorithmen der Partitioning Methods erzeugen eine initiale Partionierung durch zufälliges Auswählen von k Objekten als zukünftige Segmentzentren. Anschließend werden alle Objekte iterativ ihrer Ähnlichkeit nach den k Segmenten zugeordnet, wobei nach jedem Schritt ein neues Segmentzentrum berechnet wird, das den Cluster repräsentiert. Die Algorithmen enden, sobald sich keine Änderungen mehr bei der Berechnung der Segmente ergeben. Als Ähnlichkeitsmaße werden in der Regel Minkowski-Distanzen oder als Spezialfall einer solchen die Euklidische Distanz verwendet. Beispielalgorithmen sind der k-means oder der k-medoids Algorithmus [HK00]. Hierarchical Methods Bei diesen Clustering-Techniken werden die Objekte in einem Baum von Segmenten gruppiert. Die Verfahren können in bottom-up und top-down Methoden unterschieden werden. Beim bottom-up Verfahren repräsentiert zu Beginn jedes Objekt ein eigenes Segment, welches Schritt für Schritt auf einem Ähnlichkeitsmaß basierend mit weiteren Segmenten zu größeren Segmenten verschmolzen wird. Top-down Verfahren gehen von einem einzelnen initialen Cluster aus, der zu Beginn alle Objekte enthält. Dieses Segment wird nach und nach in kleinere Klassen aufgeteilt [HK00]. Informationsanfoderungen Für die betrachteten Algorithmen ergeben sich die im Folgenden beschriebenen Informationsanforderungen. Die Menge der Objekte, die partitioniert werden soll, muss definiert werden. Dabei muss bekannt sein, anhand welchen Attributs die Objekte identifiziert werden können, eine Möglichkeit dafür ist die Verwendung einer Objekt-ID.

27 20 KAPITEL 4. INFORMATIONSANFORDERUNGEN Zudem muss die Menge der Attribute der Objekte, die in die Berechnung der Segmentierung anhand eines Distanz- oder Ähnlichkeitsmaßes einbezogen werden soll, bekannt sein. Schließlich muss bei den partitioning Methods noch die genaue Anzahl k der Ergebnissegmente spezifiziert werden Klassifikation mittels Entscheidungsbäumen Entscheidungsbäume gehören zu den am häufigsten verwendenten Methoden zur Klassifikation. Die Algorithmen erzeugen anhand einer schon klassifierten Testdatenmenge ein Modell zur Klassifikation neuer Objekte. Das erzeuge Modell wiederum kann dann zur Einordnung nicht klassifizierter neuer Daten benutzt werden. Der Basisalgorithmus der Decision Tree Induction zur Erzeugung eines Entscheidungsbaumes basierend auf einer Testdatenmenge läuft in den folgenden Schritten ab. Die Teilschritte beziehen sich auf die Knoten des Baumes. 1. Der Algorithmus startet mit einem Entscheidungsbaum, welcher nur aus einem einzelnen Knoten besteht, der die Testmenge an Objekten repräsentiert. 2. Falls alle Objekte zur selben Klasse gehören, wird der Knoten zum Blatt und mit dem Klassennamen gekennzeichnet. 3. Andernfalls muss für die Objekte dasjenige Testkriterium beziehungsweise Testattribut bestimmt werden, das die Objekte anhand eines Unterscheidungsmaßes möglichst gut in verschiedene Klassen trennt. Mögliche Maße sind beispielsweise die Entropie, ein Maß für den Informationsgehalt, der Chi-Quadrat-Abstand oder ein Gini-Index. Das verwendete Maß hängt vom Algorithmus ab. 4. Für jeden Wert des Testattributs wird eine Verzweigung im Baum erzeugt und die Objekte anhand des Testattributs auf die neuen Knoten verteilt. Kontinuierliche, insbesondere numerische Attribute, wie Alter müssen in diskrete Intervalle unterteilt sein. 5. Anschließend wird der Algorithmus rekursiv auf alle neu entstandenen Knoten angewandt, wobei jedes Attribut nur einmal als Unterscheidungsattribut verwendet werden kann. 6. Eine Rekursion des Algorithmus endet, falls alle Objekte zur selben Klasse gehören (siehe oben), die gesamte Testmenge verteilt wurden oder schon alle Attribute als Unterscheidungskriterium verwendet worden sind. Ausreißer oder fehlende Daten führen zu stark verzweigten Entscheidungsbäumen, die schwer zu interpretieren sind. Abhilfe schafft hier die Festlegung einer Mindestanzahl von

28 4.1. ANFORDERUNGEN VON DATA MINING TECHNIKEN 21 Tupeln innerhalb der Klassen oder die Beschränkung der Baumtiefe und damit der Verzweigungszahl [HK00]. Aus dem Algorithmus lassen sich die folgenden Informationsanforderungen ableiten: Die Testmenge, auf der der Algorithmus arbeiten soll, muss festgelegt werden. Darunter ist die Objektmenge zur Erzeugung des Modells zu verstehen. Die Definition des geforderter Verzweigungsgrades des Baumes ist notwendig, das heißt, soll ein Binärbaum oder ein Baum höheren Verzweigungsgrades erzeugt werden. Eventuell muss die Baumtiefe beschränkt werden oder eine Mindestzahl von Objekten pro Klasse festgelegt werden. Dies stellt eine Erweiterung des oben beschriebenen Basisalgorithmus dar. Falls neue Objekte mit Hilfe eines bekannten Modells klassifiziert werden sollen, muss dieses Modell in geeigneter Form übergeben werden. Dafür ist der oben beschriebene Algorithmus jedoch nicht geeignet. Ein Entscheidungsbaum kann durch Regeln, welche jeweils einen Weg von der Wurzel des Baumes zu einem Blatt beschreiben, dargestellt werden. Der Verzweigungsgrad, beziehnungsweise die Baumtiefe ist dann durch das Klassifikationsmodell vorgegeben. Eine andere Möglichkeit, Klassifikationsmodelle zu erstellen, liegt in der Verwendung von neuronalen Netzen, die hier jedoch nicht weiter betrachtet werden. Neuronale Netze stellen nach Beendigung ihrer Trainingsphase eine Art black box dar. Die Klassifikation neuer Objekte findet auf eine nicht erkennbare Art zwischen dem Ein- und dem Ausgang des Netzes statt. Das Schema, nach dem die Klassifikation abläuft, ist von außen nicht zu erkennen. Daher lassen sich die Informationsanforderungen, die beim Klassifizieren neuer Objekte mit Hilfe eines bestehenden Netzes entstehen, nicht ermitteln Regression Die Regression gehört zu den statistischen Data-Mining-Methoden. Ihr Ziel ist, anhand einer Testdatenmenge ein Modell für kontinuierliche Attribute zu konstruieren, das dieses Attribut als Funktion anderer Attribute darstellt. Das erzeugte Modell soll es ermöglichen, unbekannte Werte mit Hilfe schon bekannter Größen abzuschätzen. Ein Anwendungsbereich ist beispielsweise die Vorhersage von Verkaufszahlen eines Produktes in Abhängigkeit vom Produktpreises. Häufig können solche Fragestellungen durch linearer Regression beantwortet werden. Dabei wird die Zielgröße y durch eine lineare Gleichung der Form y = a 0 + a 1 x 1 + a 2 x a n x n in Abhängigkeit bekannter Größen x k dargestellt. Die Koeffizienten a k der Gleichung können zum Beispiel durch die Methode der kleinsten Fehlerquadrate anhand der Testdaten bestimmt werden. Denkbar wären bei komplizierten Problemstellungen auch nichtlineare Verfahren, die dann aber komplexere Berechnungen erfordern [HK00].

29 22 KAPITEL 4. INFORMATIONSANFORDERUNGEN An Informationen benötigen die verschiedenen Algorithmen für die Berechnung einer Funktion, das heißt zur Modellbildung, die Testdaten und die gewünschte Zielgröße. Zudem muss spezifiziert werden, welche Attribute als Eingangsgrößen x k der Funktion verwendet werden sollen. Falls die ermittelte Funktion angewendet werden soll, muss die Eingabedatenmenge, die Objekte, auf die die Funktion angewandt werden soll, definiert werden. Außerdem muss die Funktion selbst in geeigneter Weise an den Algorithmus übergeben werden. 4.2 Anforderungen von OLAP Operationen Typische OLAP-Operation, wie Roll-up oder Dicing, benötigen einen Data Cube als abstrakte Datenstruktur. Möglicherweise muss eine solche Struktur erst aus einer relationalen Tabellenstruktur erzeugt werden. Dies ist immer dann der Fall, wenn Data-Mining- Ergebnisse als Eingabe für ein OLAP-Tool verwendet werden. Dieser Aspekt wird im folgenden Kapitel untersucht. OLAP-Systeme werden meist in ROLAP- und MOLAP-Systeme unterschieden. Diese Unterscheidung wurde in Abschnitt 2.2 ausführlich dargestellt. Daher werden in diesem Abschnitt die Informationsanforderungen unter Berücksichtigung dieses Aspekts diskutiert. Roll-up und Drill-down Bei der Roll-up und der Drill-down Operation handelt sich sich um reine Aggregationsoperationen. MOLAP-Systeme unterstützen durch die Verwendung multidimensionaler Datenbanken die abstrakte Sichtweise eine Data Cube direkt. Für die Durchführung der Operationen Roll-up und Drill-down muss der Data Cube bekannt sein, der als Grundlage für die Operationen verwendet werden soll. Zudem müssen die Dimensionshierarchien der zu analysierenden Data Cube verfügbar sein Beim Navigieren über die verschiedenen Abstraktionsebenen werden die Daten beim RO- LAP aus der Faktentabelle der Dimension entsprechend aggregiert dargestellt. Diese Operationen benötigen als Hauptinformation, welcher Teil der Faktentabelle in die Betrachtung einbezogen werden soll. Beispielsweise kann es für einen Finanzdienstleister von Interesse sein, nur Buchungen mit einem besonderen Muster, das eventuell mit Hilfe von Data-Mining-Techniken gefunden wurde, zu untersuchen. Zusätzlich muss die aktuelle Abstraktionsebene bekannt sein, um die darauffolgende oder darunterliegende Ebene zu ermitteln. Bei beiden Systemvarianten muss bekannt sein, auf welche Weise, das bedeutet, mit Hilfe welcher Funktion, Daten beim Übergang von einer Abstraktionsebene zu einer Ebene höherer Abstraktion aggregiert werden müssen.

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08 Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements von Stephanie Wilke am 14.08.08 Überblick Einleitung Was ist ITIL? Gegenüberstellung der Prozesse Neuer

Mehr

Aufgabe 1: [Logische Modellierung]

Aufgabe 1: [Logische Modellierung] Aufgabe 1: [Logische Modellierung] a) Entwerfen Sie für das von Ihnen entworfene Modell aus Aufgabe 2 des 1. Übungsblattes ein Star-Schema. b) Entwerfen Sie für das vorangegangene Modell einen Teil eines

Mehr

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung

Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung Management Briefing Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung Erhalten Sie die Einblicke, die Sie brauchen, um schnell auf Nachfrageschwankungen reagieren zu können Sales and

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Predictive Modeling Markup Language. Thomas Morandell

Predictive Modeling Markup Language. Thomas Morandell Predictive Modeling Markup Language Thomas Morandell Index Einführung PMML als Standard für den Austausch von Data Mining Ergebnissen/Prozessen Allgemeine Struktur eines PMML Dokuments Beispiel von PMML

Mehr

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9 Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9 1 Allgemeine Beschreibung "Was war geplant, wo stehen Sie jetzt und wie könnte es noch werden?" Das sind die typischen Fragen, mit denen viele Unternehmer

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

FastBill Automatic. Dokumentation Versand. FastBill GmbH. Holteyer Straße 30 45289 Essen Telefon 0201 47091505 Telefax 0201 54502360

FastBill Automatic. Dokumentation Versand. FastBill GmbH. Holteyer Straße 30 45289 Essen Telefon 0201 47091505 Telefax 0201 54502360 FastBill GmbH Holteyer Straße 30 45289 Essen Telefon 0201 47091505 Telefax 0201 54502360 FastBill Automatic Dokumentation Versand 1 Inhaltsverzeichnis: 1. Grundlegendes 2. Produkteinstellungen 2.1. Grundeinstellungen

Mehr

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche etutor Benutzerhandbuch Benutzerhandbuch XQuery Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 06.03.2006 Fertigstellung der ersten Version Inhaltsverzeichnis:

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht Thomas Kreuzer ec4u expert consulting ag Karlsruhe Schlüsselworte: Kampagnenmanagement Praxisbericht Siebel Marketing Oracle BI - ec4u

Mehr

Kostenstellen verwalten. Tipps & Tricks

Kostenstellen verwalten. Tipps & Tricks Tipps & Tricks INHALT SEITE 1.1 Kostenstellen erstellen 3 13 1.3 Zugriffsberechtigungen überprüfen 30 2 1.1 Kostenstellen erstellen Mein Profil 3 1.1 Kostenstellen erstellen Kostenstelle(n) verwalten 4

Mehr

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze Ihre Interessentendatensätze bei inobroker Wenn Sie oder Ihre Kunden die Prozesse von inobroker nutzen, werden Interessentendatensätze erzeugt. Diese können Sie direkt über inobroker bearbeiten oder mit

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Kapitalerhöhung - Verbuchung

Kapitalerhöhung - Verbuchung Kapitalerhöhung - Verbuchung Beschreibung Eine Kapitalerhöhung ist eine Erhöhung des Aktienkapitals einer Aktiengesellschaft durch Emission von en Aktien. Es gibt unterschiedliche Formen von Kapitalerhöhung.

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

teischl.com Software Design & Services e.u. office@teischl.com www.teischl.com/booknkeep www.facebook.com/booknkeep

teischl.com Software Design & Services e.u. office@teischl.com www.teischl.com/booknkeep www.facebook.com/booknkeep teischl.com Software Design & Services e.u. office@teischl.com www.teischl.com/booknkeep www.facebook.com/booknkeep 1. Erstellen Sie ein neues Rechnungsformular Mit book n keep können Sie nun Ihre eigenen

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

3. GLIEDERUNG. Aufgabe:

3. GLIEDERUNG. Aufgabe: 3. GLIEDERUNG Aufgabe: In der Praxis ist es für einen Ausdruck, der nicht alle Detaildaten enthält, häufig notwendig, Zeilen oder Spalten einer Tabelle auszublenden. Auch eine übersichtlichere Darstellung

Mehr

Avira Management Console 2.6.1 Optimierung für großes Netzwerk. Kurzanleitung

Avira Management Console 2.6.1 Optimierung für großes Netzwerk. Kurzanleitung Avira Management Console 2.6.1 Optimierung für großes Netzwerk Kurzanleitung Inhaltsverzeichnis 1. Einleitung... 3 2. Aktivieren des Pull-Modus für den AMC Agent... 3 3. Ereignisse des AMC Agent festlegen...

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Klassendiagramme Ein Klassendiagramm dient in der objektorientierten Softwareentwicklung zur Darstellung von Klassen und den Beziehungen,

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Finanzdienstleistungen

Finanzdienstleistungen Methodenblatt Finanzdienstleistungen Ein Quiz für junge Leute Zeit Material 30 bis 40 Minuten beiliegende Frage und Auswertungsbögen Vorbereitung Das Satzergänzungs oder Vier Ecken Spiel aus Projekt 01

Mehr

Zwischenablage (Bilder, Texte,...)

Zwischenablage (Bilder, Texte,...) Zwischenablage was ist das? Informationen über. die Bedeutung der Windows-Zwischenablage Kopieren und Einfügen mit der Zwischenablage Vermeiden von Fehlern beim Arbeiten mit der Zwischenablage Bei diesen

Mehr

Beschreibung des MAP-Tools

Beschreibung des MAP-Tools 1. Funktionen des MAP-Tool 2. Aufbau des MAP-Tools 3. Arbeiten mit dem MAP-Tool Beschreibung MAP-Tool.doc Erstellt von Thomas Paral 1 Funktionen des MAP-Tool Die Hauptfunktion des MAP-Tools besteht darin,

Mehr

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER Inhalt 1 Einleitung... 1 2 Einrichtung der Aufgabe für die automatische Sicherung... 2 2.1 Die Aufgabenplanung... 2 2.2 Der erste Testlauf... 9 3 Problembehebung...

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing.

Beschreibung und Bedienungsanleitung. Inhaltsverzeichnis: Abbildungsverzeichnis: Werkzeug für verschlüsselte bpks. Dipl.-Ing. www.egiz.gv.at E-Mail: post@egiz.gv.at Telefon: ++43 (316) 873 5514 Fax: ++43 (316) 873 5520 Inffeldgasse 16a / 8010 Graz / Austria Beschreibung und Bedienungsanleitung Werkzeug für verschlüsselte bpks

Mehr

Anwenderdokumentation AccountPlus GWUPSTAT.EXE

Anwenderdokumentation AccountPlus GWUPSTAT.EXE AccountPlus Inhaltsverzeichnis Inhaltsverzeichnis Anwenderdokumentation AccountPlus GWUPSTAT.EXE (vorläufig) ab Version 6.01 INHALTSVERZEICHNIS...1 1 ALLGEMEINES...2 2 INSTALLATION UND PROGRAMMAUFRUF...2

Mehr

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN Karlsruhe, April 2015 Verwendung dichte-basierter Teilrouten Stellen Sie sich vor, in einem belebten Gebäude,

Mehr

Dokumentation von Ük Modul 302

Dokumentation von Ük Modul 302 Dokumentation von Ük Modul 302 Von Nicolas Kull Seite 1/ Inhaltsverzeichnis Dokumentation von Ük Modul 302... 1 Inhaltsverzeichnis... 2 Abbildungsverzeichnis... 3 Typographie (Layout)... 4 Schrift... 4

Mehr

Folgeanleitung für Klassenlehrer

Folgeanleitung für Klassenlehrer Folgeanleitung für Klassenlehrer 1. Das richtige Halbjahr einstellen Stellen sie bitte zunächst das richtige Schul- und Halbjahr ein. Ist das korrekte Schul- und Halbjahr eingestellt, leuchtet die Fläche

Mehr

Kommunikations-Management

Kommunikations-Management Tutorial: Wie importiere und exportiere ich Daten zwischen myfactory und Outlook? Im vorliegenden Tutorial lernen Sie, wie Sie in myfactory Daten aus Outlook importieren Daten aus myfactory nach Outlook

Mehr

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit

Mehr

Erstellen von Business Intelligence mit Office XP und SQL 2000 Analysis Services

Erstellen von Business Intelligence mit Office XP und SQL 2000 Analysis Services Erstellen von Business Intelligence mit Office XP und SQL 2000 Analysis Services (Engl. Originaltitel: Building Business Intelligence with Office XP and SQL 2000 Analysis Services) In diesem Artikel wird

Mehr

Einleitung. Für wen ist dieses Buch

Einleitung. Für wen ist dieses Buch i Willkommen! Dieses Buch aus der Reihe Schritt für Schritt wurde so konzipiert, dass Sie mit dem Buch leicht und einfach die wesentlichen Aspekte beim Einsatz von vier der Microsoft Office 2016- Apps

Mehr

Speichern. Speichern unter

Speichern. Speichern unter Speichern Speichern unter Speichern Auf einem PC wird ständig gespeichert. Von der Festplatte in den Arbeitspeicher und zurück Beim Download Beim Kopieren Beim Aufruf eines Programms Beim Löschen Beim

Mehr

Synthax OnlineShop. Inhalt. 1 Einleitung 3. 2 Welche Vorteile bietet der OnlineShop 4

Synthax OnlineShop. Inhalt. 1 Einleitung 3. 2 Welche Vorteile bietet der OnlineShop 4 Inhalt 1 Einleitung 3 2 Welche Vorteile bietet der OnlineShop 4 3 Die Registrierung (Neukunden) 5 3.1 Privatkunden... 6 3.2 Firmenkunden... 7 4 Die Anmeldung (Bestandskunden) 8 5 Bestellvorgang 10 5.1

Mehr

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Tutorial: Wie erfasse ich einen Termin? In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können. Neben den allgemeinen Angaben zu einem

Mehr

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung

Mehr

Business Intelligence Praktikum 1

Business Intelligence Praktikum 1 Hochschule Darmstadt Business Intelligence WS 2013-14 Fachbereich Informatik Praktikumsversuch 1 Prof. Dr. C. Wentzel Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 14.10.2013 Business Intelligence Praktikum

Mehr

Anleitung zur Verwendung der VVW-Word-Vorlagen

Anleitung zur Verwendung der VVW-Word-Vorlagen Anleitung zur Verwendung der VVW-Word-Vorlagen v1.0. Feb-15 1 1 Vorwort Sehr geehrte Autorinnen und Autoren, wir haben für Sie eine Dokumentenvorlage für Microsoft Word entwickelt, um Ihnen die strukturierte

Mehr

Wirtschaftsinformatik

Wirtschaftsinformatik MEBRA-: Vertragsverwaltung (1/8) Die Spezial-Lösung auf Basis Microsoft Dynamics NAV (vorm. NAVISION) Mit der Vertragsverwaltung der MEBRA- rechnen Sie regelmäßig per Knopfdruck Ihre Verträge ab. Alle

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank In den ersten beiden Abschnitten (rbanken1.pdf und rbanken2.pdf) haben wir uns mit am Ende mysql beschäftigt und kennengelernt, wie man

Mehr

Beispiel Shop-Eintrag Ladenlokal & Online-Shop im Verzeichnis www.wir-lieben-shops.de 1

Beispiel Shop-Eintrag Ladenlokal & Online-Shop im Verzeichnis www.wir-lieben-shops.de 1 Beispiel Shop-Eintrag Ladenlokal & Online-Shop. Als Händler haben Sie beim Shop-Verzeichnis wir-lieben-shops.de die Möglichkeit einen oder mehrere Shop- Einträge zu erstellen. Es gibt 3 verschiedene Typen

Mehr

FlowFact Alle Versionen

FlowFact Alle Versionen Training FlowFact Alle Versionen Stand: 29.09.2005 Rechnung schreiben Einführung Wie Sie inzwischen wissen, können die unterschiedlichsten Daten über verknüpfte Fenster miteinander verbunden werden. Für

Mehr

Softwaretechnik (Allgemeine Informatik) Überblick

Softwaretechnik (Allgemeine Informatik) Überblick Softwaretechnik (Allgemeine Informatik) Überblick 1 Einführung und Überblick 2 Abstraktion 3 Objektorientiertes Vorgehensmodell 4 Methoden der Anforderungs- und Problembereichsanalyse 5 UML-Diagramme 6

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Access 2013. Grundlagen für Anwender. Susanne Weber. 1. Ausgabe, 1. Aktualisierung, Juni 2013

Access 2013. Grundlagen für Anwender. Susanne Weber. 1. Ausgabe, 1. Aktualisierung, Juni 2013 Access 2013 Susanne Weber 1. Ausgabe, 1. Aktualisierung, Juni 2013 Grundlagen für Anwender ACC2013 2 Access 2013 - Grundlagen für Anwender 2 Mit Datenbanken arbeiten In diesem Kapitel erfahren Sie was

Mehr

Speicher in der Cloud

Speicher in der Cloud Speicher in der Cloud Kostenbremse, Sicherheitsrisiko oder Basis für die unternehmensweite Kollaboration? von Cornelius Höchel-Winter 2013 ComConsult Research GmbH, Aachen 3 SYNCHRONISATION TEUFELSZEUG

Mehr

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum? Leitfaden zur Druckdatenerstellung Inhalt: 1. Download und Installation der ECI-Profile 2. Farbeinstellungen der Adobe Creative Suite Bitte beachten! In diesem kleinen Leitfaden möchten wir auf die Druckdatenerstellung

Mehr

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Second Steps in eport 2.0 So ordern Sie Credits und Berichte Second Steps in eport 2.0 So ordern Sie Credits und Berichte Schritt 1: Credits kaufen, um Zugangscodes generieren zu können Wählen Sie Credits verwalten und klicken Sie auf Credits kaufen. Geben Sie nun

Mehr

Bearbeiten elektronische Rechnungen (Invoices)

Bearbeiten elektronische Rechnungen (Invoices) Bearbeiten elektronische Rechnungen (Invoices) 1. Zweck des Programms: Die elektronischen Rechnungen können zur Zeit für folgenden Bereiche genutzt werden:.. Anzeige der Rechnungen mit den relevanten Werten..

Mehr

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems Name: Bruno Handler Funktion: Marketing/Vertrieb Organisation: AXAVIA Software GmbH Liebe Leserinnen und liebe Leser,

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Einstieg in Exact Online Buchungen erfassen. Stand 05/2014

Einstieg in Exact Online Buchungen erfassen. Stand 05/2014 Einstieg in Exact Online Buchungen erfassen Stand 05/2014 Einstieg und Grundprinzip... 2 Buchungen erfassen... 3 Neue Buchung eingeben... 4 Sonstige Buchungen erfassen... 8 Bestehende Buchungen bearbeiten

Mehr

ARCO Software - Anleitung zur Umstellung der MWSt

ARCO Software - Anleitung zur Umstellung der MWSt ARCO Software - Anleitung zur Umstellung der MWSt Wieder einmal beschert uns die Bundesverwaltung auf Ende Jahr mit zusätzlicher Arbeit, statt mit den immer wieder versprochenen Erleichterungen für KMU.

Mehr

Objektorientierter Software-Entwurf Grundlagen 1 1. Analyse Design Implementierung. Frühe Phasen durch Informationssystemanalyse abgedeckt

Objektorientierter Software-Entwurf Grundlagen 1 1. Analyse Design Implementierung. Frühe Phasen durch Informationssystemanalyse abgedeckt Objektorientierter Software-Entwurf Grundlagen 1 1 Einordnung der Veranstaltung Analyse Design Implementierung Slide 1 Informationssystemanalyse Objektorientierter Software-Entwurf Frühe Phasen durch Informationssystemanalyse

Mehr

Die Dateiablage Der Weg zur Dateiablage

Die Dateiablage Der Weg zur Dateiablage Die Dateiablage In Ihrem Privatbereich haben Sie die Möglichkeit, Dateien verschiedener Formate abzulegen, zu sortieren, zu archivieren und in andere Dateiablagen der Plattform zu kopieren. In den Gruppen

Mehr

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

AZK 1- Freistil. Der Dialog Arbeitszeitkonten Grundsätzliches zum Dialog Arbeitszeitkonten AZK 1- Freistil Nur bei Bedarf werden dafür gekennzeichnete Lohnbestandteile (Stundenzahl und Stundensatz) zwischen dem aktuellen Bruttolohnjournal und dem AZK ausgetauscht. Das Ansparen und das Auszahlen

Mehr

reimus.net GmbH RS-Bilanzanalyse Handbuch zum Excel-Tool

reimus.net GmbH RS-Bilanzanalyse Handbuch zum Excel-Tool reimus.net GmbH RS-Bilanzanalyse Handbuch zum Excel-Tool Inhaltsverzeichnis Abbildungsverzeichnis... 2 Detailbeschreibung... 3 Eingabemaske Bilanz... 4 Eingabemaske Gewinn- und Verlustrechnung... 5 Eingabemaske

Mehr

Excel Pivot-Tabellen 2010 effektiv

Excel Pivot-Tabellen 2010 effektiv 7.2 Berechnete Felder Falls in der Datenquelle die Zahlen nicht in der Form vorliegen wie Sie diese benötigen, können Sie die gewünschten Ergebnisse mit Formeln berechnen. Dazu erzeugen Sie ein berechnetes

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

Folgeanleitung für Fachlehrer

Folgeanleitung für Fachlehrer 1. Das richtige Halbjahr einstellen Folgeanleitung für Fachlehrer Stellen sie bitte zunächst das richtige Schul- und Halbjahr ein. Ist das korrekte Schul- und Halbjahr eingestellt, leuchtet die Fläche

Mehr

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb CashPro basiert auf Accesstechnologie 2003 und ist auch unter den aktuellen Accessversionen 2007 bis 2013 einsetzbar und Mehrbenutzerfähig.

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken. In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access Die Grundlagen der Datenbanken kurspc15 Inhaltsverzeichnis Access... Fehler! Textmarke nicht

Mehr

Handbuch Offline-Abgleich

Handbuch Offline-Abgleich Handbuch Offline-Abgleich Inhalt Handbuch Offline-Abgleich...1 Einleitung...3 Voraussetzungen...3 Aufruf des Offline-Abgleichs...3 Übersichtsseite...3 Wahl einer Liste...3 Wahl des Offline Abgleichs...4

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter 2 Inhaltsverzeichnis 1 Web-Kürzel 4 1.1 Einführung.......................................... 4 1.2 Web-Kürzel.........................................

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Instruktionsheft für neue Webshop Hamifleurs

Instruktionsheft für neue Webshop Hamifleurs Instruktionsheft für neue Webshop Hamifleurs Instruktionen für neue Webshop Hamifleurs Gehen Sie zu www.hamifleurs.nl. Klicken Sie auf Login Kunden und es erscheint der Bildschirm auf der nächsten Seite.

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Monitoring-Service Anleitung

Monitoring-Service Anleitung Anleitung 1. Monitoring in CrefoDirect Wie kann Monitoring über CrefoDirect bestellt werden? Bestellung von Monitoring beim Auskunftsabruf Beim Auskunftsabruf kann das Monitoring direkt mitbestellt werden.

Mehr

Softwareentwicklungspraktikum Sommersemester 2007. Grobentwurf

Softwareentwicklungspraktikum Sommersemester 2007. Grobentwurf Softwareentwicklungspraktikum Sommersemester 2007 Grobentwurf Auftraggeber Technische Universität Braunschweig

Mehr

Was ist clevere Altersvorsorge?

Was ist clevere Altersvorsorge? Was ist clevere Altersvorsorge? Um eine gute Altersvorsorge zu erreichen, ist es clever einen unabhängigen Berater auszuwählen Angestellte bzw. Berater von Banken, Versicherungen, Fondsgesellschaften und

Mehr

Schulberichtssystem. Inhaltsverzeichnis

Schulberichtssystem. Inhaltsverzeichnis Schulberichtssystem Inhaltsverzeichnis 1. Erfassen der Schüler im SBS...2 2. Erzeugen der Export-Datei im SBS...3 3. Die SBS-Datei ins FuxMedia-Programm einlesen...4 4. Daten von FuxMedia ins SBS übertragen...6

Mehr

Leichte-Sprache-Bilder

Leichte-Sprache-Bilder Leichte-Sprache-Bilder Reinhild Kassing Information - So geht es 1. Bilder gucken 2. anmelden für Probe-Bilder 3. Bilder bestellen 4. Rechnung bezahlen 5. Bilder runterladen 6. neue Bilder vorschlagen

Mehr

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof Bedienungsanleitung für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof Matthias Haasler Version 0.4 Webadministrator, email: webadmin@rundkirche.de Inhaltsverzeichnis 1 Einführung

Mehr