Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Größe: px
Ab Seite anzeigen:

Download "Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen"

Transkript

1 Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik verfasst von: Katja Weide Immatr.-Nr.: Studienfach: Wirtschaftspädagogik Semesterzahl: 6 Berlin, 31. August 2012

2 Inhaltsverzeichnis 1. Einleitung Data-Mining Begriffsdefinition Der Data Mining-Prozess Aufgaben und Methoden des Data Mining Entscheidungsbäume Begriffsdefinition / Arten Entscheidungsbaumverfahren Entscheidungsbäume als eine Methode zur Klassifizierung von Daten Klassifikation und Klassifikationsprozess Entscheidungsbaum-Klassifikation Induktion von Entscheidungsbäumen Entscheidungsbäume als eine Methode zur numerische Vorhersage Einführung und Begriffsbestimmung CART Algorithmus Baumoptimierung Entscheidungsbaumklassifikation - Versicherungsbeispiel Zusammenfassung Literaturverzeichnis Abbildungsverzeichnis

3 1. Einleitung Unternehmen müssen Datenmüll managen [Brunner, 2011]. Immer mehr Menschen beklagen Informationsüberflutung [Pepper, 2011]. Dies sind nur zwei Schlagzeilen aus einer Vielzahl von Alarmbotschaften die man immer öfter Lesen kann. Wir leben in einem Zeitalter indem immer mehr Nachrichten und andere Inhalte auf immer mehr Kanälen immer schneller auf die Menschen einprasseln. Die Datenmengen wachsen und der technische Fortschritt macht es möglich. So wird jeder Einkauf via Payback oder ähnlichem, jedes Telefongespräch mit Art, Dauer und Kosten und jede Kontobewegung dokumentiert und gespeichert. Jeder Schritt, den wir auf dieser Erde tun, erzeugt einen Datensatz in einer Datenbank [Witten & Frank, 2001, S.2] Diese umfangreichen Datenbestände beinhalten wertvolle Informationen für Entscheider. Doch das stetige Wachstum der Datenbestände macht den Zugriff auf die gewünschten Informationen immer schwieriger, eine manuelle Analyse von Hand wird immer zeitaufwendiger, immer personalintensiver und dadurch kostspieliger und für einen Menschen quasi unmöglich. Dies führte zu einer verstärkten Suche nach Verfahren zur automatisierten Informationsgewinnung. Ziel ist es, aus den großen Datenmengen die relevanten Informationen herauszuziehen. Dazu werden neben den konventionellen statistischen Verfahren wie Korrelation und Regression unter anderem auch Methoden aus den Bereichen Signaltheorie, Mustererkennung, Clusteranalyse und maschinelles Lernen angewandt. Diese Datenanalysemethoden werden unter dem Sammelbegriff Data Mining zusammengefasst. [Runkler, 2010] Ziel dieser Arbeit ist es, einen kurzen Einblick in den Data Mining-Prozess zu geben und die wichtigsten Data-Mining Aufgaben und Methoden vorzustellen. Speziell wird sich diese Arbeit auf die Methode des Entscheidungsbaums zur Klassifikation von Daten beziehen. In diesem Zusammenhang wird der Prozess des Baumaufbaus, die verschiedenen Arten und die Implementierung verschiedener Algorithmen zur Baumgenerierung erläutert. Abschließend wird im letzten Kapitel nochmal die Wirkungsweise eines Algorithmus für die Erstellung eines Klassifikationsbaums an einem Beispiel verdeutlicht. 3

4 2. Data-Mining 2.1 Begriffsdefinition Vor dem Hintergrund der zunehmenden Bedeutung der Information als Wettbewerbsvorteil sowie der zu beobachtenden Technologiedynamik entwickelte sich als Reaktion auf die Problematik der immer größer werdenden Datenbestände die Forschungseinrichtung Data Mining. Data Mining hat in den letzten Jahren eine Reihe von Anwendungsprogrammen hervorgebracht, die Unternehmen darin unterstützen sollen aus Ihren riesigen Datenmengen wertvolle Erkenntnisse zu gewinnen, die oftmals bares Geld wert sind. Der Lohn reicht von immensen Einsparungen bei Mailings oder in der Fertigung über den Schutz vor finanziellen Risiken bis hin zur Umsatzsteigerung durch Erkenntnisse bei Verbundverkäufen [Wiedmann, Buckler & Buxel, 2001, S. 18]. Wie bereits beschrieben, ist Data Mining die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten. [Fayyad, et. al, 1996] Dabei werden grundsätzlich zwei Vorgehensweisen unterschieden. Die klassische und in der Statistik am häufigsten angewandte Methode ist die, dass zuerst eine Hypothese aus einem Datenzusammenhang aufgestellt wird, die dann mit Hilfe der Daten und Algorithmen entweder bestätigt oder verworfen wird. Ein anderer Ansatz ist der, dass aus Daten Hypothesen berechnet werden, die für einen Entscheider interessant sein können. Bevor jedoch mit den Daten gerechnet werden kann, müssen die relevanten Merkmalsträger sowie ihre Merkmale ausgewählt werden. [Alpar & Niedereichholz, 2000] Die Berechnungen stellen also somit nur einen Teilschritt im gesamten Prozess der Erkennung von Datenmustern dar. Somit ist Data Mining in diesem Kontext nur als ein Schritt im Knowledge Discovery in Databases 1 (KDD oder Data Mining-Prozess), bei welchem Hypothesen gesucht beziehungsweise bewiesen werden, zu verstehen. 1 KDD ist der nichttriviale Prozess der Identifizierung von gültigen, neuen, potenziell nützlichen und schließlich verständlichen Mustern in Daten.[Fayyad et.al, 1996] 4

5 2.2 Der Data Mining-Prozess Um die Suche nach nützlichen Informationen in einem Datenberg sinnvoll zu gestalten und den Prozess des Data Minings zu starten, sollte zunächst ein klares Ziel also ein konkreter Anlass für Data Mining bestehen. Das kann beispielsweise der Bedarf nach Preisdiskrimminierung, die Erklärung von Planabweichungen, der Entwurf neuer Projekte oder Dienstleistungen oder ähnliches sein. Unter den zahlreichen Modellen des Data Mining-Prozesses wird an dieser Stelle auf das Modell nach Fayyad et al. zurückgegriffen, welches nachfolgend kurz vorgestellt wird. Der Prozess des Data Minings nach Fayyad et al. (1996) ist in fünf Phasen untergliedert: Der Auswahl der Daten aus einem vorhandenen Datenbestand (Selection), der Vorverarbeitung (Prepocessing), bei dem die Daten, falls notwendig, gereinigt und fehlende Werte behandelt werden und der Transformation (Transformation). Hier werden beispielsweise bei Bedarf Datenbereiche verändert, Daten normiert, quantitative Daten in kategoriale Daten 2 umgewandelt, neue Datenfelder durch Aggregation oder andere Berechnungen generiert. Diese ersten drei Schritte sind in der Regel algorithmisch nicht sehr komplex, nehmen aber im Prozess des Data Mining 75-85% der Gesamtanstrengungen in Anspruch. [Alpar & Niedereichholz, 2000] Nach der Aufbereitung der Daten erfolgt dann der vierte Schritt, das Data Mining. Wie im vorherigen Abschnitt 2.1 definiert und beschrieben wurde, wird an dieser Stelle nach Mustern in Daten gesucht. Die gefundenen Muster müssen schließlich interpretiert und evaluiert werden, bevor geeignete Aktionen beschlossen werden können. [Alpar & Niedereichholz 2000, Seite 7,8] Die unten stehende Darstellung fasst noch einmal die einzelnen Schritte dieses Prozesses zusammen und verdeutlicht die Interaktionen der einzelnen Phasen mit dem Benutzer und bilden die zahlreichen Rückkopplungen ab. [Wissensexploration, 2012] 2 Kategoriale Daten haben im Gegensatz zu metrischen Daten keine intervallskalierten numerischen Werte, die Rechenoperationen zulassen. Kategoriale Merkmale werden durch Nominal- und Ordinalskalen beschrieben, etwa die Antworten zu Fragen nach Geschlecht, Wohnort oder Ausmaß der persönlichen Zufriedenheit. [Statista, 2012] 5

6 Abbildung 1: Data Mining / KDD Prozess (in Anlehnung an Fayyad et. al, 1996, S. 41) 2.3 Aufgaben und Methoden des Data Mining Data Mining ist die Anwendung effizienter Algorithmen um in einer vorhandenen Datenbank nach interessanten Mustern zu suchen. Darauf aufbauend können zwei Teilziele definiert werden: die Vorhersage und die Beschreibung. [Fayyad, et. al, 1996] Die Aufgabe des Data Mining besteht darin, Daten derart zu analysieren, dass Muster und deren Strukturmodelle erkannt werden. [Petersohn, 2005, S. 11] Bei der Prognose / Vorhersage werden ausgehend von den Rohdaten neue Muster oder Regeln extrahiert. Beispielsweise wird in Kundendaten einer Bank die Kreditwürdigkeit eines Kunden als zu vorhersagende Variable definiert. Diese Kreditwürdigkeit könnte in Form einer logischen Regel aus den anderen Kundenattributen erklärt werden: Kreditwürdigkeit ist hoch, wenn Haushaltseinkommen größer als x EUR pro Monat und keine Kontosperre im letzten Quartal und.... Aufgrund dieser Regeln kann die Kreditwürdigkeit von neuen Kunden anhand ihrer persönlichen Merkmale eingeschätzt werden. Zusammengefasst geht es bei der Prognose um die Vorhersage von zukünftigen Entscheidungen beziehungsweise Werten. Ein Konzept zur numerischen Vorhersage stellen dabei die Regressionsbäume dar. Bei der Beschreibung / Klassifikation werden eher verständliche Muster oder Abhängigkeiten in den Daten gesucht. Ein typisches Beispiel hierfür ist eine Warenkorbanalyse, wobei Gruppen von Produkten gefunden werden, die häufig gemeinsam gekauft werden. Diese Beziehungen zwischen den einzelnen Produkten können durch Wenn/Dann-Regeln beschrieben werden. 6

7 Bei der Klassifikation sollen Objekte aufgrund ihrer Attributwerte einer vorher bestimmten Klasse zugeordnet werden. Genauer soll hier eine Funktion gelernt werden die zukünftige Objekte aufgrund ihrer Attributwerte einer der vorher bestimmten Klassen zuweist. Die Funktion, welche als Klassifikator bezeichnet wird, kann in Form von Regeln ausgedrückt werden. Häufig werden die klassenbildenden Eigenschaften als Namensgeber der Klassen verwendet wie beispielsweise notleidende Kredite oder Leistungssportler. Methoden die hier eingesetzt werden, sind unter anderem die Diskriminanzanalyse und Entscheidungsbäume. Auf letzteres wird speziell in Kapitel 3 eingegangen. Die Unterscheidung zwischen beschreibenden und vorhersagenden Modellen ist jedoch nicht sehr ausgeprägt. Vorhersagende Modelle haben einerseits einen beschreibenden Charakter, andererseits werden beschreibende Modelle ebenfalls zu Vorhersage genutzt. Die weiteren Aufgaben des Data Mining seien im folgenden Abschnitt noch einmal kurz zusammengefasst Segmentierung: Daten segmentieren bedeutet, Daten nach bestimmten Kriterien zu selektieren und sie dadurch in unterschiedliche Gruppen aufzugliedern und zusammenzufassen. Voraussetzung für eine Segmentierung von Daten ist ein bereinigter Datensatz. Das bedeutet beispielsweise, dass für jedes Objekt das Selektionsmerkmal erfasst sein muss. Die Segmentierung ermöglicht es die so neu entstandene Gruppe adressatengerechter anzusprechen durch zum Beispiel zielgerichtete Werbeaktionen. Abhängigkeitsanalyse: Ziel der Abhängigkeitsanalyse ist es Beziehungen zwischen den Merkmalen eines Objekts zu identifizieren. Diese Beziehungen sind zeitpunktunabhängig. Das heißt Sie können sowohl zu einem bestimmten Zeitpunkt bestehen oder sich auf verschiedene Zeitpunkte beziehen. Zusätzlich zählt auch die Analyse von Zeitverläufen verschiedener Objekte in diesen Aufgabenbereich. [Oroszlan, n.d.] Abweichungsanalyse: Die Methode der Abweichungsanalyse steht im Gegensatz zu den oben beschriebenen Aufgaben. Demnach sollen mit dieser Methode Objekte gefunden werden, die den Merkmalsausprägungen der meisten anderen Objekte nicht entsprechen. Ziel ist es also die Ausreißer zu identifizieren und die Ursache für die Abweichung aufzuspüren. Wurde so ein Ausreißer erkannt und die Einflussfaktoren für die untypische 7

8 Merkmalsausprägung festgestellt, kann dieser Wert aus dem Datenbestand entfernt werden, sofern es sich um ein Objekt mit fehlerhaftem Wert handelt. Dies erhöht die Qualität des Datenbestandes. Wie man den obigen Beschreibungen der Aufgaben entnehmen konnte, lassen diese sich nicht immer klar voneinander abgrenzen. Zudem fallen die Aufgaben oft gemeinsam an, so dass bei einer konkreten Fragestellung im ersten Schritt eine Segmentierung vorgenommen wird um darauf folgend in jedem Segment eine Abhängigkeitsanalyse durchzuführen. [Alpar & Niedereichholz; 2000] Data Mining verwendet ein breites Spektrum an Methoden. Diese reichen von der Regressionsanalyse bis hin zur komplexen Anwendung von neuronalen Netzen. Die anschließende Abbildung gibt einen Überblick über die verschiedenen Data Mining Aufgaben und die ihnen zugeordneten Data Mining Methoden. Abbildung 2: Zuordnung von Data Mining Methoden zu Aufgaben (Wissensexploration, 2012) Die folgenden Ausführungen werden sich mit dem Aufgabengebiet der Klassifikation und Prognose auseinandersetzen. Im speziellen soll hier die Methode der Entscheidungsbäume vorgestellt werden. 8

9 3. Entscheidungsbäume 3.1 Begriffsdefinition / Arten Entscheidungsbäume sind geordnete, gerichtete Bäume, die der Darstellung von Entscheidungsregeln dienen. Sie veranschaulichen hierarchisch, aufeinanderfolgende Entscheidungen. Ihre Anwendungsgebiete umfassen dabei diverse Bereiche, in denen automatisch klassifiziert wird oder aus Erfahrungswissen formale Regeln hergeleitet oder dargestellt werden. Die Einsatzgebiete reichen von der Diagnosemedizin über die Finanzanalyse bis hin zur Astronomie. Grundsätzlich lassen sich Entscheidungsbäume in zwei Varianten unterteilen: die Klassifikationsbäume und die Regressionsbäume. Klassifikationsbäume zeigen eine Auswahl von diskreten Klassen und deren Beziehungen untereinander. Dagegen dienen Regressionsbäume der Prognose und ordnen jedem Objekt einen stetigen Wert zu. Somit liegt bei Regressionsbäumen eine quantitative Variable als abhängige Zielgröße vor. [Bankhofer & Vogel, 2008] Häufig wird hier auch von geordneten und ungeordneten Attributen gesprochen, wobei ein geordnetes Attribut ist, welches kontinuierliche beziehungsweise numerische Werte besitzt und ein ungeordnetes Attribut dagegen diskrete oder auch kategorische Werte. Es gibt einige Algorithmen, die entweder nur mit geordneten oder nur mit ungeordneten Variablen arbeiten können. [Duhme, 2006] Besitzt jeder Knotenpunkt des Baumes höchstens zwei Verzweigungen, das heißt wird an jeder Wurzelverzweigung eine eindeutige Entscheidung abgefragt, so spricht man von einem binären Entscheidungsbaum. Bei nicht- binären Bäumen sind in der Regel die Anzahl der Verzweigungen an einem Knoten identisch mit der Anzahl der verschiedenen Ausprägungen eines Attributs. Eine weitere Unterteilung von Entscheidungsbäumen, die man in der Literatur findet, ist die Unterscheidung zwischen univariaten, multivariat-lineare und nicht-linearen Entscheidungsbäumen. Dabei sind die univariaten Entscheidungsbäume, bei denen an jedem Knoten nur ein Attribut getestet wird, eine sehr beliebte Art, die beispielsweise im Basisalgorithmus ID3 und dann auch in der Weiterentwicklung, im C4.5, verwendet wird. Bei den multivariaten Bäumen wird an jedem Knoten nicht nur ein Attribut getestet, sondern eine Linearkombination aus mehreren Attributen. Werden hingegen an den Knoten nicht- Linearkombinationen aus mehreren Attributen getestet, so nennt man diesen Baum nicht- linearer Entscheidungsbaum. 9

10 3.2 Entscheidungsbaumverfahren Nun sind Entscheidungsbäume leicht anzuwenden, deutlich schwieriger ist es aber Sie per Hand zu erzeugen. Insbesondere wenn die Zahl der Attribute groß und das Wissen um die Zusammenhänge vage ist. Die Konstruktion kann so sehr aufwendig und langwierig sein. Wenn jedoch bereits klassifizierte Daten vorliegen, kann man eine automatische Erzeugung eines Entscheidungsbaumes versuchen. Zur Generierung solcher Entscheidungsbäume wurden verschiedene Algorithmen entwickelt. Die Verfahren variieren dabei darin, nach welchem Kriterium die Unterteilung anhand der Attributwerte vorgenommen wird. Häufig implementierte Baumtypen sind sogenannte CARTs (Classification and Regression Trees), CHAIDs (Chi-Sqare Automatic Interaction Detectors), sowie der ID3-Algorithmus (Iterative Dichotomiser 3). Der Ablauf bei all diesen Verfahren ist immer der gleiche bis auf das Attributauswahlverfahren, wodurch die Unterteilung des Baumes gesteuert wird. Dabei trennen die CART-Bäume nach dem Informationsgehalt 3. Die CHAID-Bäume verwenden den CHI-Quadrat-Unabhängigkeitstest, um den Attributwert auszuwählen, der von dem Zielattribut die größte Abhängigkeit hat. Der Auswahlalgorithmus von ID3 basiert auf einem Maß für den Informationsgehalt eines Attributs, genannt Information Gain. Dieses Maß stützt sich auf die Größe Entropie, ein Maß für die Unordnung. Ein niedriger Wert für die Entropie des Baums entspricht einem hohen Informationsgehalt des Baums, ein hoher Wert einem kleinen Informationsgehalt. Der größte Informationsgehalt wird bei einem Entropiewert von 0 erreicht. Also muss die Entropie des Baums möglichst sein. [Krahl, Windheuser & Zick, 1998] Die drei genannten Algorithmen sind Verfahren, die mit Hilfe des Top-Down- Verfahrens Entscheidungsbäume generieren. Im Allgemeinen können die Entscheidungsbaumverfahren aus der TDIDT-Familie (Top-Down-Induction-of- Decision-Trees) in zwei Klassen eingeteilt werden: Klassifikationsbaumverfahren und Regressionsbaumverfahren. Eine Auswahl verschiedener Algorithmen und deren Einsatzgebiet ist in der folgenden Abbildung 3 dargestellt. 3 In der Regel handelt es sich bei diesem Auswahlmaß um den Gini-Index 10

11 Ausgewählte Entscheidungsbaumverfahren Abbildung 3: System und Entwicklung ausgewählter Entscheidungsbaumverfahren TDIDT [in Anlehnung an Petersohn, 2005] Klassifikationsbäume ID3 CHAID C4.5 NewID Regressionsbäume CART M5 Abbildung 3: System und Entwicklung ausgewählter Entscheidungsbaumverfahren (in Anlehnung an Petersohn (2005)) 3.3 Entscheidungsbäume als eine Methode zur Klassifizierung von Daten Klassifikation und Klassifikationsprozess Im Data Mining werden vielfältige Methoden angewandt um Beziehungen, Regelmäßigkeiten oder Ähnlichkeiten in den vorhandenen Datenbeständen zu entdecken. Eines dieser Konzepte ist die Klassifikation, die Datensätze in verschiedene Klassen einteilt. Zudem kann die Klassifikation dazu genutzt werden, fehlende Attributwerte vorherzusagen. Dabei laufen die Klassifikationsverfahren grundsätzlich in zwei Schritte ab. Im ersten Schritt, der Lernphase, wird mittels eines Algorithmus ein Modell auf Grundlage von Trainingsdaten 4 erstellt, welches zu Merkmalskombinationen die zugehörige Klasse angeben kann. Kurz gesagt, wird also in dieser Phase der Klassifikator erstellt. In der zweiten Phase wird dieses Modell angewendet um zu Klassifizieren. Bevor dieses jedoch genutzt werden kann, muss die Klassifikationsgenauigkeit des Modells abgeschätzt werden. Erst wenn das Modell eine e Fehlerwahrscheinlichkeit besitzt, kann es eingesetzt werden um zukünftige, unklassifizierte Daten in Klassen zu gruppieren. Typischerweise wird das aus dem ersten Schritt hervorgebrachte Modell in Form von Klassifikationsregeln, Entscheidungsbäumen oder mathematischen Formeln dargestellt. Die Entscheidungsbäume sind dabei in der Data Mining Umgebung ein sehr attraktives Klassifikationsmodell. Aufgrund seiner intuitiven Repräsentation sind Sie für den Leser besonders gut nachvollziehbar und interpretierbar. Für Ihre Konstruktion werden vom Benutzer keinerlei Eingabeparameter benötigt und 4 vorklassifizierte Lernstichprobe 11

12 verglichen mit anderen Methoden, können Sie in einer relativ kurzen Zeit erzeugt werden. Einen weiteren Vorteil stellt die hohe Genauigkeit, der durch Entscheidungsbäume erstellten Modelle, dar Entscheidungsbaum-Klassifikation Die Entscheidungsbaum-Klassifikation liefert explizites Wissen zur Klassifikation in Form eines Entscheidungsbaumes. Durch die Erstellung eines Entscheidungsbaumes als Klassifikator erhält man als Ergebnis eine Schablone, die es ermöglicht neue beziehungsweise zusätzliche Datensätze in das vorhandene Regelsystem, das aus einer ausgewählten Menge von Datensätzen (Trainingsmenge) produziert wurde, einzuordnen [Humer, 2004, S. 36].Wie der Name schon andeutet handelt es sich bei einem Entscheidungsbaum um einen Klassifikator mit einer baumartigen Struktur, welcher aus einer Wurzel, Kanten, Knoten und Blättern besteht. Dabei ist jedem Blatt eine Klasse zugeordnet und jedem inneren Knoten ein Attribut (Merkmal). Die Nachfolger der inneren Knoten werden über Kanten erreicht, denen jeweils ein Wert des zu dem Knoten gehörenden Merkmals zugeordnet ist. Die Klassifikation eines Objektes mit einem Entscheidungsbaum wird so vorgenommen, dass man von der Wurzel ausgehend die Anweisungen in den jeweils erreichten inneren Knoten prüft und je nach vorliegender Ausprägung den entsprechenden Verzweigungen folgt. Das Klassifikationsergebnis steht fest, sobald das Objekt durch einen Blattknoten eindeutig klassifiziert wurde. Entscheidungsbäume verfolgen das Ziel einen zugrundeliegenden Datensatz mit Hilfe gegebener Merkmale in immer kleiner werdende Klassen zu zerlegen, so dass am Ende die Blätter des Baumes hinsichtlich der Zielvariablen so homogen wie möglich sind. Die Abbildungen 4 und 5 zeigen dazu ein Beispiel. Abbildung 4: Trainingsdaten Versicherungskunden 12

13 Knoten Kanten Blatt Abbildung 5: Entscheidungsbaum Versicherungskunden Dieser Baum repräsentiert eine beispielhafte Klassifikation von Versicherungskunden. Es soll beurteilt werden, in welche Schadensklasse ein Versicherungskunde eingestuft werden kann. Die Entscheidung wird dabei vom Geschlecht und Alter des Kunden sowie dem Fahrzeugtyp des Versicherten beeinflusst. Als Trainingsdaten wurden acht Kunden mit unterschiedlichen Merkmalskombinationen ausgewählt, für die bekannt war, welche Schadenshöhe in der Versicherungszeit angefallen ist. Anhand dieser Trainingsdaten ist der abgebildete Entscheidungsbaum ermittelt worden. Mit seiner Hilfe kann nun ein neuer Kunde anhand seiner Merkmalsausprägungen Geschlecht, Alter und Fahrzeugtyp in eine Risikoklasse eigeordnet werden und somit der Versicherungsbeitrag darauf abgestimmt werden Induktion von Entscheidungsbäumen Die Induktion von Entscheidungsbäumen ist eine sehr bekannte Technik zur Erzeugung von Klassifikatoren und soll im nächsten Abschnitt noch einmal als Basisalgorithmus kurz beschrieben werden. Der Basisalgorithmus ist ein Verfahren, welches ein Entscheidungsbaum nach den Top-Down-Ansatz aufbaut und nach dem Prinzip teile und herrsche arbeitet. Die Methode wählt die Attribute nach dem Wert aus, der ihnen vom Auswahlmaß zugeschrieben wird. Das heißt, in jedem Knoten wird mit einer informationstheoretischen Kennzahl (Auswahlmaß) entschieden, anhand welches Attributs die nächste Verzweigung geschehen soll. Anschließend wird für jede vorkommende Ausprägung dieses Attributs eine Verzweigung gebildet und der Algorithmus mit denjenigen Trainingsdaten rekursiv fortgesetzt, die diese Ausprägungen besitzen. Die Rekursion bricht ab, wenn entweder alle Fälle einer 13

14 Teilmenge zu der gleichen Klasse gehören, wenn kein Attribut zu einer Verbesserung der Klassifikation führt oder keine weiteren Merkmale für einen Test zur Verfügung stehen. [Borgelt & Kruse, n.d.] Der Basisalgorithmus kann jedoch nur auf kategorische Attribute angewendet werden. Ein Grund dafür, diesen Algorithmus auf verschiedene Weisen weiter zu entwickeln. Die wesentlichen Verbesserungen beziehen sich dabei auf die Ausweitung der Einsatzmöglichkeiten auch bei kontinuierlichen Merkmalen, sowie den Einsatz neuer informationstheoretischer Kennzahlen (z.b. Gini Index anstelle von Information Gain) und Pruning Verfahren zur Optimierung des Entscheidungsbaumes. Zudem wurden spezielle Entscheidungsbaumverfahren für den Einsatz bei großen Datenmengen entwickelt. (SLIQ; SPRINT) [Loss, 2002] 3.4 Entscheidungsbäume als eine Methode zur numerische Vorhersage Einführung und Begriffsbestimmung Bisher haben wir uns mit der Frage beschäftigt, welcher Klasse ein Objekt aufgrund seiner Merkmale zuzuordnen ist. Überwiegend haben wir uns dabei mit nominalen Daten auseinandergesetzt. In diesem Abschnitt werden wir numerische Datensätze betrachten. Genauer gesagt wollen wir mit Hilfe geeigneter Methoden Zusammenhänge zwischen einzelnen Merkmalen aufdecken, mit dem Ziel eine Funktion zu generieren, die es uns ermöglicht Funktionswerte für neue Argumente vorherzusagen. Ziel der numerischen Vorhersage ist also die Approximation einer Funktion aus Beispieldaten. Dabei sollen aus einer Reihe bekannter Instanzenbeschreibungen und Funktionswerte die Werte zukünftiger, bislang unbekannter Instanzenbeschreibungen berechnet werden [Cleve, 2011/12]. Von einer gegebenen Funktion ist lediglich eine Instanzenmenge bekannt, die aus Instanzenbeschreibungen, sowie zugehörigen Zielwerten besteht. Gesucht ist nun eine Funktion, die die Zusammenhänge zwischen den Instanzenbeschreibungen und den Zielwerten möglichst genau widerspiegelt. Folglich soll also der Fehler zwischen berechnetem und tatsächlichem Wert minimiert werden. Eine in der Statistik häufig implementierte Methode, um den funktionalen Zusammenhang zwischen einzelnen Merkmalen zu schätzen, ist die Regression. Zur Bestimmung einer Regressionsfunktion werden die Parameter eines Funktionsprototyps so bestimmt, dass der Fehler der Funktionsapproximation minimiert wird [Runkler, 2010, S.65]. Dabei werden in Abhängigkeit der verwendeten Funktionsprototypen verschiedene Regressionsverfahren unterschieden. 14

15 So wird beispielsweise bei der linearen Regression ein linearer Zusammenhang zwischen einer abhängigen und ein oder mehreren unabhängigen Variablen in Form einer linearen Funktion dargestellt. Es gibt Problemstellungen, bei denen sich die Daten nicht durch ein lineares Modell darstellen lassen. Häufig kommt dann das Entscheidungsbaumverfahren zur Vorhersage numerischer Werte zum Einsatz. Die bisher betrachteten Entscheidungsbaumalgorithmen dienten hauptsächlich der Beschreibung und Vorhersage nominaler Kategorien. Für die Prognose numerischer Werte, wie beispielsweise die zu erwartende Performance eines Computers anhand ausgewählter Konfigurationsdaten, können die gleichen Baum und Regeldarstellungen verwendet werden wie bei der Klassifikation. Dabei enthalten die Blattknoten des Baumes einen numerischen Wert, der den Durchschnitt aller Trainingsmengenwerte darstellt, auf die das Blatt oder die Regel anzuwenden sind. Die Entscheidungsbäume mit den gemittelten numerischen Werten in den Blättern bezeichnet man als Regressionsbäume. [Witten & Frank; 2001] Die Blätter des Baums sind Zahlen die das durchschnittliche Ergebnis der Instanzen darstellen, die das Blatt erreichen [Witten & Frank, 2001]. Im Vergleich zur Regressionsgleichung ist der Regressionsbaum größer und komplexer und aufgrund seiner Größe auch komplizierter zu handhaben und zu interpretieren. Jedoch sind seine Prognosen häufig auch viel genauer CART Algorithmus Regressionsbäume sind spezielle Entscheidungsbäume, die stetige Klassen verarbeiten können. Die Bäume werden mit Hilfe effektiver Splittingalgorithmen erzeugt. Dabei wird die Wahl des Verzweigungstests an einem Knoten durch ste Fehlerquadrat- Berechnungen ermittelt. Ein bekanntes Verfahren zur Generierung von Entscheidungsbäumen mit kontinuierlichen Variablen ist CART (Classifikation and Regression Tree-Algorithmus). Um Prognosen realisieren zu können, bietet CART die Möglichkeit stetige Klassen zuzuweisen. Der CART Algorithmus funktioniert dabei ähnlich wie das Klassifikationsbaumverfahren. [Seib, 2008] Die Attributauswahl wird durch Maximierung des Informationsgehalts gesteuert. Dazu wird zu jedem Attribut ein Schwellwert gesucht, der eine optimale Trennung der Daten in Bezug auf die Klassifikation zulässt. Allgemein lässt sich formulieren: 15

16 Je höher der Informationsgehalt eines Attributs in bezug auf die Zielgröße, desto weiter oben im Entscheidungsbaum findet sich dieses. Eine Eigenart der CART- Bäume ist die Tatsache, dass durch die Teilung der Attribute durch einen festen Schwellwert nur Binärbäume erzeugt werden können. [Petersohn, 2005] Ein wesentlicher Nachteil des CART Algorithmus besteht darin, dass dieser nur Prognoseaufgaben lösen kann, die sich auch als Klassifikationsproblem formulieren lassen. 3.5 Baumoptimierung Der größte Vorteil von Entscheidungsbäumen liegt in der Einfachheit der Wissensrepräsentation. Probleme kann es jedoch geben, wenn Sie aufgrund großer Datenmengen und vieler Entscheidungskriterien unübersichtlich werden. Um solche Problem zu beheben, wurden Algorithmen entwickelt, die verhindern, dass Entscheidungsbäume zu stark anwachsen und somit ihre leichte Verständlichkeit verlieren. Diese Algorithmen arbeiten mit sogenannten Pruning- Verfahren. Pruning kommt aus dem englischen und bedeutet das Entästen, Beschneiden oder Zurückstutzen eines Baumes. Das Verfahren bewirkt, dass ein erzeugter Entscheidungsbaum so verkleinert wird, indem einige Entscheidungsknoten, die nur einen en Anteil an der Klassifikationsgüte haben, entfernt werden. Damit löst das Pruning das Problem des Overfittings 5, wodurch der Entscheidungsbaum seine Generalisierbarkeit für die Anwendung auf neue Daten verlieren würde. [Duhme, 2006] Beim Pruning werden verschiedene statistische Methoden angewandt, die Anomalien wie beispielsweise Ausreißer aufdecken und die entsprechenden Verästelungen eines Baumes entfernen. Dadurch entstehen Bäume, die eine schnellere Klassifikation mit einer eren Fehlerwahrscheinlichkeit ermöglichen. Beim tree pruning (Baumbeschneidung) existieren zwei Ansätze, das Prepruning und das Postpruning. Das Prepruning findet vor und während der Konstruktionsphase des Baumes statt. Durch eine gezielte Vorauswahl der für das Training vorgesehenen Daten und die Anwendung von Regeln soll verhindert werden, dass der Baum zu komplex wird. Mögliche Regeln können dabei die Limitierung der Baumtiefe oder die Beschränkung 5 Mit Overfitting wird das Problem beschrieben, bedeutungslose Regelmäßigkeiten in den Daten zu entdecken. Overfitting tritt in immer dann auf, wenn die Trainingsdaten Rauschen bzw. Fehler enthalten oder wenn die Trainingsdaten keine repräsentative Stichprobe der Grundgesamtheit bilden 16

17 der Knotenbildung durch eine vorgegebene Mindestanzahl von Beobachtungen in der nächsten Ebene, sein. [Hüftle, 2006] Somit ist Prepruning der Versuch, während des Baumbildungsverfahrens zu entscheiden, wann die Entwicklung von Unterbäumen eingestellt werden sollte. Der Vorteil dieses Ansatzes liegt auf der Hand: die Einsparung von Arbeit und Zeit für die Erstellung von Unterbäumen, die im Nachhinein wieder verworfen werden. Jedoch hat auch das Postpruning, bei dem der fertige Baum anschließend zurückgestutzt wird, einige Vorteile zu bieten. So gibt es Situationen in denen zwei Attribute für sich allein genommen keinen Beitrag zu leisten scheinen, zusammen aber eine hohe Vorhersagekraft besitzen. Es tritt also eine Art Kombinationseffekt auf, bei dem die korrekte Kombination der beiden Attributwerte sehr informativ ist, während jedes Attribut für sich allein nicht viel aussagt. [Witten & Frank, 2001] 4. Entscheidungsbaumklassifikation - Versicherungsbeispiel Eine wesentliche Aufgabe des Data Minings ist die Klassifikation von Daten. Dafür werden unter anderem die Entscheidungsbäume als ein Verfahren der Klassifikation vorgestellt. Bisher haben wir uns dafür den Basisalgorithmus (ID3) zur Induktion von Entscheidungsbäumen genauer angesehen. Wie eingangs erwähnt, hat dieser Algorithmus einige Schwächen, so kann er beispielsweise nur nominale / diskrete Daten verarbeiten. Eine Weiterentwicklung des ID3 ist der Algorithmus C4.5, der zur Bestimmung eines unbekannten kategorischen Attributwertes unter Benutzung beliebiger bekannter Attributwerte genutzt werden kann. Der Nachfolger von ID3 kann also numerische und nominale Attribute als unabhängige Variable verarbeiten. Allerdings sind nur nominale Klassenwerte bestimmbar, so dass kontinuierliche Werte vorher diskretisiert werden müssen. Dies erfolgt über die attribute-subsetting-methode, bei dem die Attributwerte des stetigen Attributs aufsteigend sortiert werden, um dann anschließend einen Schwellenwert zu berechnen. Der Schwellenwert geht als Mittelwerte von jeweils zwei aufeinanderfolgenden Attributwerten in die Berechnung des Informationsgehalts ein und wird so für die binäre Aufspaltung des Baumes verwendet. [Petersohn, 2005] Betrachten wir hier nochmals unser Beispiel der Schadensklasseneinstufung der Versicherungskunden genauer: 17

18 Abbildung 6: Entscheidungstabelle Schadenshöhe - Problem Das Schadenshöhe-Problem umfasst eine sehr kleine Datenmenge. Sie fixieren acht Kunden einer Versicherung, die wiederum alle einzeln durch Ihre Eigenschaften (Attribute), Geschlecht, Alter, Fahrzeugtyp und Schadenshöhe charakterisiert werden. Ziel ist es, aus den vorhandenen Trainingsdaten ein Muster zu generieren, das es ermöglicht, Neukunden in eine Schadensklasse einzuordnen, um so die Versicherungsbeiträge besser anpassen zu können. Dazu soll ein Entscheidungsbaum mit der Zielvariablen Schadenshöhe erstellt werden. Das auf den ersten Blick sehr einfach erscheinende Versicherungskunden Beispiel demonstriert dabei schon eine etwas komplexere Form von Datenmengen. Sehen wir uns die Attribute der einzelnen Kunden an, fällt auf, dass wir hier mit gemischten Daten arbeiten müssen. Das Attribut Alter ist im Gegensatz zu den anderen beiden Merkmalen ein numerischer Wert. Damit können wir den Entscheidungsbaum nicht mit Hilfe des ID3 generieren sondern nutzen seinen Nachfolger, den C4.5. Dieser Algorithmus wird im Folgenden anhand der Beispieldaten kurz vorgestellt. Wir wissen, das Entscheidungsbaumverfahren ist ein rekursiv aufgebautes Verfahren. Wir beginnen oben und wählen dazu im ersten Schritt ein Attribut als Wurzelknoten und legen dann für jeden möglichen Wert eine Verzweigung an. Für den Wurzelknoten haben wir die Möglichkeit zwischen drei Attributen zu wählen, das Geschlecht, Alter und der Fahrzeugtyp. Um das Wurzel-Attribut zu bestimmen, ermitteln wir zunächst die bedingten Verteilungen der Schadenshöhe unter den zur Verfügung stehenden Versicherungskundenmerkmalen. Vorgestellt in der folgenden Abbildung: 18

19 Alter Geschlecht Fahrzeugtyp <=31 > 31 w m Coupé Van hoch hoch hoch hoch hoch hoch hoch hoch hoch Abbildung 7: bedingte Verteilungen und Bäume für die Kundenmerkmale Auf oberster Ebene bilden die bedingten Verteilungen Bäume, wie in Abbildung 7 dargestellt. Doch welches Attribut ist nun das Beste für die Aufteilung? Die Anzahl der - und hoch- Klassen ist in den Blättern angegeben. Blätter mit nur einer Klasse oder hoch werden nicht weiter unterteilt und die Rekursion wird für diesen Zweig beendet. Weil das Ziel ist, kleine und unkomplizierte Bäume anzulegen, soll dies natürlich so schnell wie möglich geschehen. In unserem Beispiel lässt sich der Wurzelknoten auf einen Blick identifizieren. Wir wählen das Attribut Geschlecht als Zerlegungsattribut an der Baumwurzel. Es ist die einzige Wahl, für die ein ungeordneter Knoten völlig rein ist, was einen wesentlichen Vorteil gegenüber den anderen beiden Attributen bedeutet. Nun wird für jeden möglichen Wert eine Verzweigung angelegt. Hier stellt sich nun aber die Frage: Wie wähle ich ein passendes Attribut, wenn ich keinen reinen Knoten habe und das beste Attribut nicht sofort erkennbar ist? An dieser Stelle kommen uns die zahlreich entwickelten Algorithmen zur Entscheidungsbaumgenerierung zur Hilfe. In unserem Fall, wie eingangs erläutert, der C4.5 Algorithmus. Der Auswahlalgorithmus von C4.5 basiert wie beim ID3 auf einem 19

20 Wert für den Informationsgehalt eines Attributs, genannt Information Gain. Dieser stützt sich auf die Größe Entropie, ein Maß für die Unordnung. Dabei kann als Auswahlmaß der Gini- Index oder auch die Entropie herangezogen werden. In unserem Beispiel werden wir unsere Konzentration auf den Gini- Index, der sogenannten quadratischen Entropie legen. Der Gini- Index gibt die Wahrscheinlichkeit an, dass bei der Auswahl zweier Objekte aus einer Klasse, die Zielvariable dieser beiden Objekte unterschiedliche Ausprägungen aufweist. [Bankhofer & Vogel, 2008] Anschaulich kann der Gini- Index gedeutet werden als die zu erwartende Verringerung der Fehlerklassifikationswahrscheinlichkeit. [Borgelt & Kruse, n.d.] Nehmen wir an, die Wahrscheinlichkeit ein Objekt mit der Ausprägung j bezüglich der Zielvariablen aus einer Klasse zu ziehen, beträgt p j. Dies wird offenbar mit einer Wahrscheinlichkeit von (1 p j ) nicht eintreffen. So ergibt sich nach dem Prinzip Ziehen ohne Zurücklegen die Wahrscheinlichkeit, zweimal ein Objekt mit dieser Ausprägung j bezüglich der Zielvariablen aus einer Klasse auszuwählen mitp j 2. Folglich kann der Gini- Index über die Gegenwahrscheinlichkeit formuliert werden n 2 mit G = 1 j=1 p j. Somit kann die beste Klassifizierung bei der Erzeugung eines Entscheidungsbaumes erreicht werden, indem der Gini- Index in den einzelnen Klassen so weit wie möglich reduziert wird, da dann die Verschiedenheit der Objekte in Bezug auf die Zielvariable innerhalb der jeweiligen Klassen am sten wird. [Bankhofer & Vogel, 2008] Wir wenden nun den Gini- Index auf unsere Beispieldaten an, um das am besten geeignete Attribut zur Entscheidung zwischen er und hoher Schadenshöhe herauszufinden. Dafür ermitteln wir im ersten Schritt den Gesamt Gini- Index für die Schadenshöhe (g/h) 6 der acht Versicherungskunden als Referenzwert der Unterschiedlichkeit der Objekte hinsichtlich der Zielvariablen in der Datenbasis. Die Wahrscheinlichkeit einen Kunden mit einer en Schadenshöhe aus der Datenmenge auszuwählen beträgt 62,50% (p g = 5 8 ). Damit berechnet sich die Wahrscheinlichkeit einen Kunden mit hohem Schadenspotenzial aus der Menge zu ziehen durch die Gegenwahrscheinlichkeit mit 37,50%( p h = 3 8 ). 6 g steht in diesem Fall für e Schadenshöhe und h für hohe Schadenshöhe 20

21 Die Wahrscheinlichkeiten eingesetzt in der Formel zur Berechnung des Gini-Index, ergibt einen Referenzwert vong = = = 0, Betrachten wir nun die Gini- Indizes der bedingten Verteilungen bezogen auf die Merkmale Alter, Geschlecht und Fahrzeugtyp. Die Ergebnisse der Berechnungen sind der folgenden Tabelle zu entnehmen. Attribute Alter (X 1 ) Geschlecht (X 2 ) Fahrzeugtyp (X 3 ) Attributausprägungen X 1 31 X 1 > 31 X 2 = m X 2 = w X 3 = Van X 3 = Coupé Bedingte Wahrscheinlichkeit p(g X i ) 0,50 0,75 0,25 1 0,375 0,50 Bedingte Wahrscheinlichkeit p(h X i ) 0,5 0,25 0,75 0 0,25 0,50 Gini-Index G Xi 0,50 0, , ,375 0,50 Gesamt Gini- Index Attribut 0, ,1875 0,4375 Tabelle 1: Berechnung Gini- Indizes der bedingten Verteilungen Ausgehend von den Resultaten in der Tabelle 1 kann nun eine Wahl für das Wurzel- Attribut getroffen werden. Wie bereits vermutet eignet sich das Merkmal Geschlecht am besten zur Entscheidung zwischen Kunden mit er und hoher Schadenshöhe. Der erste Knoten bewirkt so eine Reduktion der Unterschiedlichkeit von 0,46875 auf 0,1875. Da die Schadenshöhe für Frauen eindeutig ist, brauchen diese Kunden nun auch nicht weiter betrachtet werden. Für die männlichen Kunden hingegen muss erneut die bedingte Verteilung der Schadenshöhe bezüglich des Alters und des Fahrzeugtyps geprüft werden. Die fortgesetzte Anwendung dieses Konzeptes führt für das Schadenshöhe-Problem zu dem Entscheidungsbaum in der Abbildung 8. Der Prozess wird beendet, wenn die Daten nicht weiter zerlegbar sind. 7 Berechnungsbeispiel des Gini- Index der bedingten Verteilungen: G >31 = = 3 8 = 0,375 8 Berechnungsbeispiel des Gesamt Gini- Indizes des Attributs X i : G X 1 = 0, , = 0,

22 31 31 Abbildung 8: Entscheidungsbaum Schadenshöhe- Problem 5. Zusammenfassung Ziel der Datenanalyse ist es, aus großen Datenmengen Wissen zu extrahieren. Das heißt allgemein gültige, nicht triviale, neue und verständliche Muster zu erkennen. Dies geschieht in einem mehrstufigen Datenanalyse Prozess. Der erste Schritt ist die Bereinigung des Datenrohmaterials. Der nach der Datenvorverarbeitung zur Verfügung stehenden Datensatz wird anschließend mit verschiedenen Verfahren der Datenanalyse verarbeitet. Dabei spielen neben Visualisierungsverfahren auch reine Analysemethoden wie Regression, Prognose, Klassifikation und Clusteranalyse eine große Rolle. Im Rahmen dieser Arbeit wurden zwei Verfahren, die Klassifikation und Prognose näher vorgestellt. Bei der Klassifikation geht es um die Zuordnung von Objekten zu einer bestimmten Klasse. Ziel ist es mit Hilfe klassifizierter Merkmale Klassifikatoren zu entwickeln, mit denen sich neue Objekte auf Basis ihrer Merkmale in eine Klasse einordnen lassen. Entscheidungsbäume sind dabei eine Methode um diese Klassifizierungsfunktionen darzustellen. Entscheidungsbäume sind demnach Klassifikatoren mit einer hierarchischen Struktur, die an jeder Verzweigung nur ein einziges Merkmal zur Klassenunterteilung verwenden. Die optimalen Verzweigungsbedingungen können auf der Basis von Daten durch Maximierung des Informationsgewinns (Information gain) bestimmt werden. Für diskrete Daten dient hierzu der ID3- Algorithmus, für kontinuierliche Daten CART oder C

23 Bei der Prognose hingegen geht es um die Vorhersage von zukünftigen Entscheidungen beziehungsweise Werten. In Kapitel 3.4 wurde ein Konzept zur numerischen Vorhersage, die Regressionsbäume, vorgestellt. Im Anschluss an einer ausführlichen Beschreibung des Entscheidungsbaumaufbaus wurden Methoden aufgezeigt, die so genierten Klassifikatoren zu optimieren. Das sogenannte Pruning- Verfahren (Zurückschneiden des Baums), kann dabei sowohl während der Baumaufbauphase (Prepruning) als auch am fertigen Baum (Postpruning) vorgenommen werden. Die Vor- und Nachteile dieser beiden Methoden wurden in Kapitel 3.5 besprochen. Um die doch sehr theoretischen Ausführungen für den Leser leichter nachvollziehbar zu gestalten, wurde im letzten Kapitel ein Beispiel zur Anwendung und Induktion von Entscheidungsbäumen als Klassifikator ausgearbeitet und ausführlich vorgestellt. Ziel dieser Arbeit war es, den Leser einen Einblick in die Funktionsweise der Entscheidungsbäume zu vermitteln und dabei die Vielseitigkeit in Bezug auf die praktische Anwendbarkeit der Klassifikations- und Regressionsbäume herauszuarbeiten. 23

24 6. Literaturverzeichnis Alpar, P. & Niedereichholz, J. (2000). Einführung zu Data Mining. In P. Alper & J. Niedereichholz (Hrsg.), Data mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung (S. 3-26). Braunschweig: Vieweg. Bankhofer, U., & Vogel, J. (2008). Datenanalyse und Statistik: Eine Einführung für Ökonomen im Bachelor ; [Bachelor geeignet!] (1. Aufl.). Wiesbaden: Gabler. Borgelt, C. & Kruse, R. (n.d.). Attributwahlmaße für die Induktion von Entscheidungsbäumen: Ein Überblick. Zugriff am 23. August 2012 unter Brunner, W. (2011). Unternehmen müssen Datenmüll managen. Zugriff am 23. August 2011 unter Cleve, J. (2011/2012). Data Mining. Vorlesungsskript, Hochschule Wismar. Zugriff am 23. August 2012 unter Fayyad, U. M., Piatetsky-Shapiro,G., Smyth,P. & Uthurusamy,F. (1996). Advances in knowledge discovery and data mining. Menlo Park (Calif.) [etc.]: AAA/MIT Press. Duhme, M. (2006). Ansätze zur Konstruktion von Entscheidungsbäumen. Veröffentlichte Studienarbeit, TU Carolo-Wilhelmina zu Braunschweig. Krahl, D., Windheuser, U., & Zick, F.-K. (1998). Data Mining: Einsatz in der Praxis (1. Aufl.). Bonn: Addison-Wesley-Longman. Hüftle, M. (2006). Methoden zur Klassifikation. Zugriff am 23. August 2012 unter Humer. M. (2004). Kombiniertes Data Mining Klassifikation unter Verwendung von durch Clustering gewonnenen Hilfsinformationen. Diplomarbeit, Johannes-Kepler-Universität Linz. Zugriff am unter 24

25 Loss, D. (2002). Data Mining: Klassifikations und Clusteringsverfahren. Zugriff am 23. August 2012 unter Oroszlan, H. & Pipal, S. (n.d.). Data und Web Mining. Zugriff am 23. August unter er/dataundwebmining_endversion.pdf Pepper, C. (2011). Immer mehr Menschen beklagen Informations-Überflutung. Mindener Tagesblatt. Zugriff am 23. August 2012 unter Petersohn, H. (2005). Data mining: Verfahren, Prozesse, Anwendungsarchitektur. München: Oldenbourg. Runkler, T. A. (2010). Data-Mining: Methoden und Algorithmen intelligenter Datenanalyse ; mit 7 Tabellen (1. Aufl.). Wiesbaden: Vieweg, Teubner. Seib. E. (2008). Data Mining Methoden in der Simulation. Grin Verlag, 1. Auflage Statista. Lexikon: Zugriff am unter Wiedmann, K.-P., Buckler, F. & Buxel, H. (Hrsg.). (2001). Neuronale Netze im Marketing- Management: Praxisorientierte Einführung in modernes Data-Mining (1. Aufl.). Wiesbaden: Gabler. Wissensexploration. Der Prozess des Data Mining: Zugriff am 23. August 2012 unter Witten, I. H., & Frank, E. (2001). Data mining: Praktische Werkzeuge und Techniken für das maschinelle Lernen. München, Wien: Hanser. 25

26 7. Abbildungsverzeichnis Abbildung 1: Data Mining / KDD Prozess... 6 Abbildung 2: Zuordnung von Data Mining Methoden zu Aufgaben... 8 Abbildung 3: System und Entwicklung ausgewähler Entscheidungsbaumverfahren Abbildung 4: Trainingsdaten Versicherungskunden Abbildung 5: Entscheidungsbaum Versicherungskunden Abbildung 6: Entscheidungstabelle Schadenshöhe - Problem Abbildung 7: bedingte Verteilungen und Bäume für die Kundenmerkmale Tabelle 1: Berechnung Gini- Indizes der bedingten Verteilungen Abbildung 8: Entscheidungsbaum Schadenshöhe- Problem

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Zwei einfache Kennzahlen für große Engagements

Zwei einfache Kennzahlen für große Engagements Klecksen nicht klotzen Zwei einfache Risikokennzahlen für große Engagements Dominik Zeillinger, Hypo Tirol Bank Die meisten Banken besitzen Engagements, die wesentlich größer sind als der Durchschnitt

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem Fachbericht zum Thema: Anforderungen an ein Datenbanksystem von André Franken 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 2 Einführung 2 2.1 Gründe für den Einsatz von DB-Systemen 2 2.2 Definition: Datenbank

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

4. BEZIEHUNGEN ZWISCHEN TABELLEN

4. BEZIEHUNGEN ZWISCHEN TABELLEN 4. BEZIEHUNGEN ZWISCHEN TABELLEN Zwischen Tabellen können in MS Access Beziehungen bestehen. Durch das Verwenden von Tabellen, die zueinander in Beziehung stehen, können Sie Folgendes erreichen: Die Größe

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374 DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN Nr. 374 Eignung von Verfahren der Mustererkennung im Process Mining Sabrina Kohne

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining Ausgangssituation Kaizen Data Mining ISO 9001 Wenn andere Methoden an ihre Grenzen stoßen Es gibt unzählige Methoden, die Abläufe

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage Inhaltsverzeichnis 1. Anmeldung... 2 1.1 Startbildschirm... 3 2. Die PDF-Dateien hochladen... 4 2.1 Neue PDF-Datei erstellen... 5 3. Obelix-Datei

Mehr

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Jan Parthey, Christin Seifert. 22. Mai 2003

Jan Parthey, Christin Seifert. 22. Mai 2003 Simulation Rekursiver Auto-Assoziativer Speicher (RAAM) durch Erweiterung eines klassischen Backpropagation-Simulators Jan Parthey, Christin Seifert jpar@hrz.tu-chemnitz.de, sech@hrz.tu-chemnitz.de 22.

Mehr

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch Info@schaffer-consulting.ch Haben Sie gewusst dass... >

Mehr

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze Ihre Interessentendatensätze bei inobroker Wenn Sie oder Ihre Kunden die Prozesse von inobroker nutzen, werden Interessentendatensätze erzeugt. Diese können Sie direkt über inobroker bearbeiten oder mit

Mehr

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers Ist Excel das richtige Tool für FMEA? Einleitung Wenn in einem Unternehmen FMEA eingeführt wird, fangen die meisten sofort damit an,

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen. Instruktionen am Anfang von Experiment 1 (auf Papier ausgeteilt: grünmarkierte Textstellen zeigen den Instruktionstext in der jeweiligen Bedingung an; Kommentare sind gelb markiert.) Stellen Sie sich vor,

Mehr

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung Anleitung zur Daten zur Datensicherung und Datenrücksicherung Datensicherung Es gibt drei Möglichkeiten der Datensicherung. Zwei davon sind in Ges eingebaut, die dritte ist eine manuelle Möglichkeit. In

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere

Mehr

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt Inhaltsverzeichnis Aufgabe... 1 Allgemein... 1 Active Directory... 1 Konfiguration... 2 Benutzer erstellen... 3 Eigenes Verzeichnis erstellen... 3 Benutzerkonto erstellen... 3 Profil einrichten... 5 Berechtigungen

Mehr

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang 16 8307 Effretikon

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang 16 8307 Effretikon WinWerk Prozess 6a Rabatt gemäss Vorjahresverbrauch 8307 Effretikon Telefon: 052-740 11 11 Telefax: 052-740 11 71 E-Mail info@kmuratgeber.ch Internet: www.winwerk.ch Inhaltsverzeichnis 1 Ablauf der Rabattverarbeitung...

Mehr

Konzepte der Informatik

Konzepte der Informatik Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens

Mehr

Selbsttest Prozessmanagement

Selbsttest Prozessmanagement Selbsttest Prozessmanagement Zur Feststellung des aktuellen Status des Prozessmanagements in Ihrem Unternehmen steht Ihnen dieser kurze Test mit zehn Fragen zur Verfügung. Der Test dient Ihrer persönlichen

Mehr

Multicheck Schülerumfrage 2013

Multicheck Schülerumfrage 2013 Multicheck Schülerumfrage 2013 Die gemeinsame Studie von Multicheck und Forschungsinstitut gfs-zürich Sonderauswertung ICT Berufsbildung Schweiz Auswertung der Fragen der ICT Berufsbildung Schweiz Wir

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Insiderwissen 2013. Hintergrund

Insiderwissen 2013. Hintergrund Insiderwissen 213 XING EVENTS mit der Eventmanagement-Software für Online Eventregistrierung &Ticketing amiando, hat es sich erneut zur Aufgabe gemacht zu analysieren, wie Eventveranstalter ihre Veranstaltungen

Mehr

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192. Binäres und dezimales Zahlensystem Ziel In diesem ersten Schritt geht es darum, die grundlegende Umrechnung aus dem Dezimalsystem in das Binärsystem zu verstehen. Zusätzlich wird auch die andere Richtung,

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Approximation durch Taylorpolynome

Approximation durch Taylorpolynome TU Berlin Fakultät II - Mathematik und Naturwissenschaften Sekretariat MA 4-1 Straße des 17. Juni 10623 Berlin Hochschultag Approximation durch Taylorpolynome Im Rahmen der Schülerinnen- und Schüler-Uni

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Eine Logikschaltung zur Addition zweier Zahlen

Eine Logikschaltung zur Addition zweier Zahlen Eine Logikschaltung zur Addition zweier Zahlen Grundlegender Ansatz für die Umsetzung arithmetischer Operationen als elektronische Schaltung ist die Darstellung von Zahlen im Binärsystem. Eine Logikschaltung

Mehr

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben

Mehr

2.5.2 Primärschlüssel

2.5.2 Primärschlüssel Relationale Datenbanken 0110 01101110 01110 0110 0110 0110 01101 011 01110 0110 010 011011011 0110 01111010 01101 011011 0110 01 01110 011011101 01101 0110 010 010 0110 011011101 0101 0110 010 010 01 01101110

Mehr

Access Verbrecherdatenbank Teil 3

Access Verbrecherdatenbank Teil 3 Access Verbrecherdatenbank Teil 3 Allgemeines Im letzten Teil des Lehrgangs zu Microsoft Access erfährst du, wie man aus einer Datenbank Informationen herausfiltert, indem an Filter und Abfragen anwendet.

Mehr

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten Meet the Germans Lerntipp zur Schulung der Fertigkeit des Sprechens Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten Handreichungen für die Kursleitung Seite 2, Meet the Germans 2. Lerntipp

Mehr

4 Aufzählungen und Listen erstellen

4 Aufzählungen und Listen erstellen 4 4 Aufzählungen und Listen erstellen Beim Strukturieren von Dokumenten und Inhalten stellen Listen und Aufzählungen wichtige Werkzeuge dar. Mit ihnen lässt sich so ziemlich alles sortieren, was auf einer

Mehr

Beschreibung des MAP-Tools

Beschreibung des MAP-Tools 1. Funktionen des MAP-Tool 2. Aufbau des MAP-Tools 3. Arbeiten mit dem MAP-Tool Beschreibung MAP-Tool.doc Erstellt von Thomas Paral 1 Funktionen des MAP-Tool Die Hauptfunktion des MAP-Tools besteht darin,

Mehr

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten Berichte bieten die gleichen Möglichkeit zur Berechnung von Werten wie Formulare und noch einige mehr. Im Gegensatz zu Formularen bieten Berichte die Möglichkeit, eine laufende Summe zu bilden oder Berechnungen

Mehr

Whitepaper. Produkt: address manager 2003. David XL Tobit InfoCenter AddIn für den address manager email Zuordnung

Whitepaper. Produkt: address manager 2003. David XL Tobit InfoCenter AddIn für den address manager email Zuordnung combit GmbH Untere Laube 30 78462 Konstanz Whitepaper Produkt: address manager 2003 David XL Tobit InfoCenter AddIn für den address manager email Zuordnung David XL Tobit InfoCenter AddIn für den address

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

Berechnungen in Access Teil I

Berechnungen in Access Teil I in Access Teil I Viele Daten müssen in eine Datenbank nicht eingetragen werden, weil sie sich aus anderen Daten berechnen lassen. Zum Beispiel lässt sich die Mehrwertsteuer oder der Bruttopreis in einer

Mehr

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1 Zahlenwinkel: Forscherkarte 1 alleine Tipp 1 Lege die Ziffern von 1 bis 9 so in den Zahlenwinkel, dass jeder Arm des Zahlenwinkels zusammengezählt das gleiche Ergebnis ergibt! Finde möglichst viele verschiedene

Mehr

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN Karlsruhe, April 2015 Verwendung dichte-basierter Teilrouten Stellen Sie sich vor, in einem belebten Gebäude,

Mehr

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor: Ergebnisreport: mehrere Lehrveranstaltungen zusammenfassen 1 1. Ordner anlegen In der Rolle des Berichterstellers (siehe EvaSys-Editor links oben) können zusammenfassende Ergebnisberichte über mehrere

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006

!  # $  % & Nicki Wruck worldwidewruck 08.02.2006 !"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst

Mehr

www.easydatamining.com Analyse-Beispiel Banken

www.easydatamining.com Analyse-Beispiel Banken Data.Mining.Fox (DMF) von Easy.Data.Mining Eine beispielhafte Analyse für den Bereich Banken [0] Der Sinn & Zweck dieser Folien für Sie Einblick in die Welt des Data-Mining bei Easy.Data.Mining: Wie sieht

Mehr

Kommunikations-Management

Kommunikations-Management Tutorial: Wie importiere und exportiere ich Daten zwischen myfactory und Outlook? Im vorliegenden Tutorial lernen Sie, wie Sie in myfactory Daten aus Outlook importieren Daten aus myfactory nach Outlook

Mehr

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen? Pivot Tabellen PIVOT TABELLEN. Das Ziel: Basisdaten strukturiert darzustellen Jeden Tag erhalten wir umfangreiche Informationen. Aber trotzdem haben wir oft das Gefühl, Entscheidungen noch nicht treffen

Mehr

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand: 01.01.2011

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand: 01.01.2011 .procmailrc HOWTO zur Mailfilterung und Verteilung Stand: 01.01.2011 Copyright 2002-2003 by manitu. Alle Rechte vorbehalten. Alle verwendeten Bezeichnungen dienen lediglich der Kennzeichnung und können

Mehr

Kostenstellen verwalten. Tipps & Tricks

Kostenstellen verwalten. Tipps & Tricks Tipps & Tricks INHALT SEITE 1.1 Kostenstellen erstellen 3 13 1.3 Zugriffsberechtigungen überprüfen 30 2 1.1 Kostenstellen erstellen Mein Profil 3 1.1 Kostenstellen erstellen Kostenstelle(n) verwalten 4

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung

Mehr

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999 Mind Mapping am PC für Präsentationen, Vorträge, Selbstmanagement von Isolde Kommer, Helmut Reinke 1. Auflage Hanser München 1999 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 446 21222 0 schnell

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Kreativ visualisieren

Kreativ visualisieren Kreativ visualisieren Haben Sie schon einmal etwas von sogenannten»sich selbst erfüllenden Prophezeiungen«gehört? Damit ist gemeint, dass ein Ereignis mit hoher Wahrscheinlichkeit eintritt, wenn wir uns

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah Lernmaterial für die Fernuni Hagen effizient und prüfungsnah www.schema-f-hagen.de Sie erhalten hier einen Einblick in die Dokumente Aufgaben und Lösungen sowie Erläuterungen Beim Kauf erhalten Sie zudem

Mehr