Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Ähnliche Dokumente
Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Entscheidungsbaumverfahren

1 topologisches Sortieren

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Primzahlen und RSA-Verschlüsselung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Mining High-Speed Data Streams

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Zwei einfache Kennzahlen für große Engagements

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Data Mining: Einige Grundlagen aus der Stochastik

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Tutorial: Homogenitätstest

1 Mathematische Grundlagen

Data Mining-Modelle und -Algorithmen

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Data Mining-Projekte

Kapiteltests zum Leitprogramm Binäre Suchbäume

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Data Mining und maschinelles Lernen

2. Lernen von Entscheidungsbäumen

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Professionelle Seminare im Bereich MS-Office

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Informationsblatt Induktionsbeweis

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Zeichen bei Zahlen entschlüsseln

Jan Parthey, Christin Seifert. 22. Mai 2003

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Grundlagen der Theoretischen Informatik, SoSe 2008

Fortgeschrittene Statistik Logistische Regression

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Künstliche Intelligenz Maschinelles Lernen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Konzepte der Informatik

Selbsttest Prozessmanagement

Multicheck Schülerumfrage 2013

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Insiderwissen Hintergrund

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Berechnung der Erhöhung der Durchschnittsprämien

Die Optimalität von Randomisationstests

Approximation durch Taylorpolynome

Dokumentation. estat Version 2.0

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Eine Logikschaltung zur Addition zweier Zahlen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

2.5.2 Primärschlüssel

Access Verbrecherdatenbank Teil 3

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

4 Aufzählungen und Listen erstellen

Beschreibung des MAP-Tools

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Whitepaper. Produkt: address manager David XL Tobit InfoCenter AddIn für den address manager Zuordnung

15 Optimales Kodieren

Berechnungen in Access Teil I

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

! " # $ " % & Nicki Wruck worldwidewruck

Analyse-Beispiel Banken

Kommunikations-Management

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Theoretische Grundlagen der Informatik WS 09/10

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand:

Kostenstellen verwalten. Tipps & Tricks

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Lineare Gleichungssysteme

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Einfache Varianzanalyse für abhängige

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Kreativ visualisieren

Kapitel 3: Etwas Informationstheorie

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

Transkript:

Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik verfasst von: Katja Weide Immatr.-Nr.: 533560 Studienfach: Wirtschaftspädagogik Semesterzahl: 6 Berlin, 31. August 2012

Inhaltsverzeichnis 1. Einleitung... 3 2. Data-Mining... 4 2.1 Begriffsdefinition... 4 2.2 Der Data Mining-Prozess... 5 2.3 Aufgaben und Methoden des Data Mining... 6 3. Entscheidungsbäume... 9 3.1 Begriffsdefinition / Arten... 9 3.2 Entscheidungsbaumverfahren... 10 3.3 Entscheidungsbäume als eine Methode zur Klassifizierung von Daten... 11 3.3.1 Klassifikation und Klassifikationsprozess... 11 3.3.2 Entscheidungsbaum-Klassifikation... 12 3.3.3 Induktion von Entscheidungsbäumen... 13 3.4 Entscheidungsbäume als eine Methode zur numerische Vorhersage... 14 3.4.1 Einführung und Begriffsbestimmung... 14 3.4.2 CART Algorithmus... 15 3.5 Baumoptimierung... 16 4. Entscheidungsbaumklassifikation - Versicherungsbeispiel... 17 5. Zusammenfassung... 22 6. Literaturverzeichnis... 24 7. Abbildungsverzeichnis... 26 2

1. Einleitung Unternehmen müssen Datenmüll managen [Brunner, 2011]. Immer mehr Menschen beklagen Informationsüberflutung [Pepper, 2011]. Dies sind nur zwei Schlagzeilen aus einer Vielzahl von Alarmbotschaften die man immer öfter Lesen kann. Wir leben in einem Zeitalter indem immer mehr Nachrichten und andere Inhalte auf immer mehr Kanälen immer schneller auf die Menschen einprasseln. Die Datenmengen wachsen und der technische Fortschritt macht es möglich. So wird jeder Einkauf via Payback oder ähnlichem, jedes Telefongespräch mit Art, Dauer und Kosten und jede Kontobewegung dokumentiert und gespeichert. Jeder Schritt, den wir auf dieser Erde tun, erzeugt einen Datensatz in einer Datenbank [Witten & Frank, 2001, S.2] Diese umfangreichen Datenbestände beinhalten wertvolle Informationen für Entscheider. Doch das stetige Wachstum der Datenbestände macht den Zugriff auf die gewünschten Informationen immer schwieriger, eine manuelle Analyse von Hand wird immer zeitaufwendiger, immer personalintensiver und dadurch kostspieliger und für einen Menschen quasi unmöglich. Dies führte zu einer verstärkten Suche nach Verfahren zur automatisierten Informationsgewinnung. Ziel ist es, aus den großen Datenmengen die relevanten Informationen herauszuziehen. Dazu werden neben den konventionellen statistischen Verfahren wie Korrelation und Regression unter anderem auch Methoden aus den Bereichen Signaltheorie, Mustererkennung, Clusteranalyse und maschinelles Lernen angewandt. Diese Datenanalysemethoden werden unter dem Sammelbegriff Data Mining zusammengefasst. [Runkler, 2010] Ziel dieser Arbeit ist es, einen kurzen Einblick in den Data Mining-Prozess zu geben und die wichtigsten Data-Mining Aufgaben und Methoden vorzustellen. Speziell wird sich diese Arbeit auf die Methode des Entscheidungsbaums zur Klassifikation von Daten beziehen. In diesem Zusammenhang wird der Prozess des Baumaufbaus, die verschiedenen Arten und die Implementierung verschiedener Algorithmen zur Baumgenerierung erläutert. Abschließend wird im letzten Kapitel nochmal die Wirkungsweise eines Algorithmus für die Erstellung eines Klassifikationsbaums an einem Beispiel verdeutlicht. 3

2. Data-Mining 2.1 Begriffsdefinition Vor dem Hintergrund der zunehmenden Bedeutung der Information als Wettbewerbsvorteil sowie der zu beobachtenden Technologiedynamik entwickelte sich als Reaktion auf die Problematik der immer größer werdenden Datenbestände die Forschungseinrichtung Data Mining. Data Mining hat in den letzten Jahren eine Reihe von Anwendungsprogrammen hervorgebracht, die Unternehmen darin unterstützen sollen aus Ihren riesigen Datenmengen wertvolle Erkenntnisse zu gewinnen, die oftmals bares Geld wert sind. Der Lohn reicht von immensen Einsparungen bei Mailings oder in der Fertigung über den Schutz vor finanziellen Risiken bis hin zur Umsatzsteigerung durch Erkenntnisse bei Verbundverkäufen [Wiedmann, Buckler & Buxel, 2001, S. 18]. Wie bereits beschrieben, ist Data Mining die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten. [Fayyad, et. al, 1996] Dabei werden grundsätzlich zwei Vorgehensweisen unterschieden. Die klassische und in der Statistik am häufigsten angewandte Methode ist die, dass zuerst eine Hypothese aus einem Datenzusammenhang aufgestellt wird, die dann mit Hilfe der Daten und Algorithmen entweder bestätigt oder verworfen wird. Ein anderer Ansatz ist der, dass aus Daten Hypothesen berechnet werden, die für einen Entscheider interessant sein können. Bevor jedoch mit den Daten gerechnet werden kann, müssen die relevanten Merkmalsträger sowie ihre Merkmale ausgewählt werden. [Alpar & Niedereichholz, 2000] Die Berechnungen stellen also somit nur einen Teilschritt im gesamten Prozess der Erkennung von Datenmustern dar. Somit ist Data Mining in diesem Kontext nur als ein Schritt im Knowledge Discovery in Databases 1 (KDD oder Data Mining-Prozess), bei welchem Hypothesen gesucht beziehungsweise bewiesen werden, zu verstehen. 1 KDD ist der nichttriviale Prozess der Identifizierung von gültigen, neuen, potenziell nützlichen und schließlich verständlichen Mustern in Daten.[Fayyad et.al, 1996] 4

2.2 Der Data Mining-Prozess Um die Suche nach nützlichen Informationen in einem Datenberg sinnvoll zu gestalten und den Prozess des Data Minings zu starten, sollte zunächst ein klares Ziel also ein konkreter Anlass für Data Mining bestehen. Das kann beispielsweise der Bedarf nach Preisdiskrimminierung, die Erklärung von Planabweichungen, der Entwurf neuer Projekte oder Dienstleistungen oder ähnliches sein. Unter den zahlreichen Modellen des Data Mining-Prozesses wird an dieser Stelle auf das Modell nach Fayyad et al. zurückgegriffen, welches nachfolgend kurz vorgestellt wird. Der Prozess des Data Minings nach Fayyad et al. (1996) ist in fünf Phasen untergliedert: Der Auswahl der Daten aus einem vorhandenen Datenbestand (Selection), der Vorverarbeitung (Prepocessing), bei dem die Daten, falls notwendig, gereinigt und fehlende Werte behandelt werden und der Transformation (Transformation). Hier werden beispielsweise bei Bedarf Datenbereiche verändert, Daten normiert, quantitative Daten in kategoriale Daten 2 umgewandelt, neue Datenfelder durch Aggregation oder andere Berechnungen generiert. Diese ersten drei Schritte sind in der Regel algorithmisch nicht sehr komplex, nehmen aber im Prozess des Data Mining 75-85% der Gesamtanstrengungen in Anspruch. [Alpar & Niedereichholz, 2000] Nach der Aufbereitung der Daten erfolgt dann der vierte Schritt, das Data Mining. Wie im vorherigen Abschnitt 2.1 definiert und beschrieben wurde, wird an dieser Stelle nach Mustern in Daten gesucht. Die gefundenen Muster müssen schließlich interpretiert und evaluiert werden, bevor geeignete Aktionen beschlossen werden können. [Alpar & Niedereichholz 2000, Seite 7,8] Die unten stehende Darstellung fasst noch einmal die einzelnen Schritte dieses Prozesses zusammen und verdeutlicht die Interaktionen der einzelnen Phasen mit dem Benutzer und bilden die zahlreichen Rückkopplungen ab. [Wissensexploration, 2012] 2 Kategoriale Daten haben im Gegensatz zu metrischen Daten keine intervallskalierten numerischen Werte, die Rechenoperationen zulassen. Kategoriale Merkmale werden durch Nominal- und Ordinalskalen beschrieben, etwa die Antworten zu Fragen nach Geschlecht, Wohnort oder Ausmaß der persönlichen Zufriedenheit. [Statista, 2012] 5

Abbildung 1: Data Mining / KDD Prozess (in Anlehnung an Fayyad et. al, 1996, S. 41) 2.3 Aufgaben und Methoden des Data Mining Data Mining ist die Anwendung effizienter Algorithmen um in einer vorhandenen Datenbank nach interessanten Mustern zu suchen. Darauf aufbauend können zwei Teilziele definiert werden: die Vorhersage und die Beschreibung. [Fayyad, et. al, 1996] Die Aufgabe des Data Mining besteht darin, Daten derart zu analysieren, dass Muster und deren Strukturmodelle erkannt werden. [Petersohn, 2005, S. 11] Bei der Prognose / Vorhersage werden ausgehend von den Rohdaten neue Muster oder Regeln extrahiert. Beispielsweise wird in Kundendaten einer Bank die Kreditwürdigkeit eines Kunden als zu vorhersagende Variable definiert. Diese Kreditwürdigkeit könnte in Form einer logischen Regel aus den anderen Kundenattributen erklärt werden: Kreditwürdigkeit ist hoch, wenn Haushaltseinkommen größer als x EUR pro Monat und keine Kontosperre im letzten Quartal und.... Aufgrund dieser Regeln kann die Kreditwürdigkeit von neuen Kunden anhand ihrer persönlichen Merkmale eingeschätzt werden. Zusammengefasst geht es bei der Prognose um die Vorhersage von zukünftigen Entscheidungen beziehungsweise Werten. Ein Konzept zur numerischen Vorhersage stellen dabei die Regressionsbäume dar. Bei der Beschreibung / Klassifikation werden eher verständliche Muster oder Abhängigkeiten in den Daten gesucht. Ein typisches Beispiel hierfür ist eine Warenkorbanalyse, wobei Gruppen von Produkten gefunden werden, die häufig gemeinsam gekauft werden. Diese Beziehungen zwischen den einzelnen Produkten können durch Wenn/Dann-Regeln beschrieben werden. 6

Bei der Klassifikation sollen Objekte aufgrund ihrer Attributwerte einer vorher bestimmten Klasse zugeordnet werden. Genauer soll hier eine Funktion gelernt werden die zukünftige Objekte aufgrund ihrer Attributwerte einer der vorher bestimmten Klassen zuweist. Die Funktion, welche als Klassifikator bezeichnet wird, kann in Form von Regeln ausgedrückt werden. Häufig werden die klassenbildenden Eigenschaften als Namensgeber der Klassen verwendet wie beispielsweise notleidende Kredite oder Leistungssportler. Methoden die hier eingesetzt werden, sind unter anderem die Diskriminanzanalyse und Entscheidungsbäume. Auf letzteres wird speziell in Kapitel 3 eingegangen. Die Unterscheidung zwischen beschreibenden und vorhersagenden Modellen ist jedoch nicht sehr ausgeprägt. Vorhersagende Modelle haben einerseits einen beschreibenden Charakter, andererseits werden beschreibende Modelle ebenfalls zu Vorhersage genutzt. Die weiteren Aufgaben des Data Mining seien im folgenden Abschnitt noch einmal kurz zusammengefasst Segmentierung: Daten segmentieren bedeutet, Daten nach bestimmten Kriterien zu selektieren und sie dadurch in unterschiedliche Gruppen aufzugliedern und zusammenzufassen. Voraussetzung für eine Segmentierung von Daten ist ein bereinigter Datensatz. Das bedeutet beispielsweise, dass für jedes Objekt das Selektionsmerkmal erfasst sein muss. Die Segmentierung ermöglicht es die so neu entstandene Gruppe adressatengerechter anzusprechen durch zum Beispiel zielgerichtete Werbeaktionen. Abhängigkeitsanalyse: Ziel der Abhängigkeitsanalyse ist es Beziehungen zwischen den Merkmalen eines Objekts zu identifizieren. Diese Beziehungen sind zeitpunktunabhängig. Das heißt Sie können sowohl zu einem bestimmten Zeitpunkt bestehen oder sich auf verschiedene Zeitpunkte beziehen. Zusätzlich zählt auch die Analyse von Zeitverläufen verschiedener Objekte in diesen Aufgabenbereich. [Oroszlan, n.d.] Abweichungsanalyse: Die Methode der Abweichungsanalyse steht im Gegensatz zu den oben beschriebenen Aufgaben. Demnach sollen mit dieser Methode Objekte gefunden werden, die den Merkmalsausprägungen der meisten anderen Objekte nicht entsprechen. Ziel ist es also die Ausreißer zu identifizieren und die Ursache für die Abweichung aufzuspüren. Wurde so ein Ausreißer erkannt und die Einflussfaktoren für die untypische 7

Merkmalsausprägung festgestellt, kann dieser Wert aus dem Datenbestand entfernt werden, sofern es sich um ein Objekt mit fehlerhaftem Wert handelt. Dies erhöht die Qualität des Datenbestandes. Wie man den obigen Beschreibungen der Aufgaben entnehmen konnte, lassen diese sich nicht immer klar voneinander abgrenzen. Zudem fallen die Aufgaben oft gemeinsam an, so dass bei einer konkreten Fragestellung im ersten Schritt eine Segmentierung vorgenommen wird um darauf folgend in jedem Segment eine Abhängigkeitsanalyse durchzuführen. [Alpar & Niedereichholz; 2000] Data Mining verwendet ein breites Spektrum an Methoden. Diese reichen von der Regressionsanalyse bis hin zur komplexen Anwendung von neuronalen Netzen. Die anschließende Abbildung gibt einen Überblick über die verschiedenen Data Mining Aufgaben und die ihnen zugeordneten Data Mining Methoden. Abbildung 2: Zuordnung von Data Mining Methoden zu Aufgaben (Wissensexploration, 2012) Die folgenden Ausführungen werden sich mit dem Aufgabengebiet der Klassifikation und Prognose auseinandersetzen. Im speziellen soll hier die Methode der Entscheidungsbäume vorgestellt werden. 8

3. Entscheidungsbäume 3.1 Begriffsdefinition / Arten Entscheidungsbäume sind geordnete, gerichtete Bäume, die der Darstellung von Entscheidungsregeln dienen. Sie veranschaulichen hierarchisch, aufeinanderfolgende Entscheidungen. Ihre Anwendungsgebiete umfassen dabei diverse Bereiche, in denen automatisch klassifiziert wird oder aus Erfahrungswissen formale Regeln hergeleitet oder dargestellt werden. Die Einsatzgebiete reichen von der Diagnosemedizin über die Finanzanalyse bis hin zur Astronomie. Grundsätzlich lassen sich Entscheidungsbäume in zwei Varianten unterteilen: die Klassifikationsbäume und die Regressionsbäume. Klassifikationsbäume zeigen eine Auswahl von diskreten Klassen und deren Beziehungen untereinander. Dagegen dienen Regressionsbäume der Prognose und ordnen jedem Objekt einen stetigen Wert zu. Somit liegt bei Regressionsbäumen eine quantitative Variable als abhängige Zielgröße vor. [Bankhofer & Vogel, 2008] Häufig wird hier auch von geordneten und ungeordneten Attributen gesprochen, wobei ein geordnetes Attribut ist, welches kontinuierliche beziehungsweise numerische Werte besitzt und ein ungeordnetes Attribut dagegen diskrete oder auch kategorische Werte. Es gibt einige Algorithmen, die entweder nur mit geordneten oder nur mit ungeordneten Variablen arbeiten können. [Duhme, 2006] Besitzt jeder Knotenpunkt des Baumes höchstens zwei Verzweigungen, das heißt wird an jeder Wurzelverzweigung eine eindeutige Entscheidung abgefragt, so spricht man von einem binären Entscheidungsbaum. Bei nicht- binären Bäumen sind in der Regel die Anzahl der Verzweigungen an einem Knoten identisch mit der Anzahl der verschiedenen Ausprägungen eines Attributs. Eine weitere Unterteilung von Entscheidungsbäumen, die man in der Literatur findet, ist die Unterscheidung zwischen univariaten, multivariat-lineare und nicht-linearen Entscheidungsbäumen. Dabei sind die univariaten Entscheidungsbäume, bei denen an jedem Knoten nur ein Attribut getestet wird, eine sehr beliebte Art, die beispielsweise im Basisalgorithmus ID3 und dann auch in der Weiterentwicklung, im C4.5, verwendet wird. Bei den multivariaten Bäumen wird an jedem Knoten nicht nur ein Attribut getestet, sondern eine Linearkombination aus mehreren Attributen. Werden hingegen an den Knoten nicht- Linearkombinationen aus mehreren Attributen getestet, so nennt man diesen Baum nicht- linearer Entscheidungsbaum. 9

3.2 Entscheidungsbaumverfahren Nun sind Entscheidungsbäume leicht anzuwenden, deutlich schwieriger ist es aber Sie per Hand zu erzeugen. Insbesondere wenn die Zahl der Attribute groß und das Wissen um die Zusammenhänge vage ist. Die Konstruktion kann so sehr aufwendig und langwierig sein. Wenn jedoch bereits klassifizierte Daten vorliegen, kann man eine automatische Erzeugung eines Entscheidungsbaumes versuchen. Zur Generierung solcher Entscheidungsbäume wurden verschiedene Algorithmen entwickelt. Die Verfahren variieren dabei darin, nach welchem Kriterium die Unterteilung anhand der Attributwerte vorgenommen wird. Häufig implementierte Baumtypen sind sogenannte CARTs (Classification and Regression Trees), CHAIDs (Chi-Sqare Automatic Interaction Detectors), sowie der ID3-Algorithmus (Iterative Dichotomiser 3). Der Ablauf bei all diesen Verfahren ist immer der gleiche bis auf das Attributauswahlverfahren, wodurch die Unterteilung des Baumes gesteuert wird. Dabei trennen die CART-Bäume nach dem Informationsgehalt 3. Die CHAID-Bäume verwenden den CHI-Quadrat-Unabhängigkeitstest, um den Attributwert auszuwählen, der von dem Zielattribut die größte Abhängigkeit hat. Der Auswahlalgorithmus von ID3 basiert auf einem Maß für den Informationsgehalt eines Attributs, genannt Information Gain. Dieses Maß stützt sich auf die Größe Entropie, ein Maß für die Unordnung. Ein niedriger Wert für die Entropie des Baums entspricht einem hohen Informationsgehalt des Baums, ein hoher Wert einem kleinen Informationsgehalt. Der größte Informationsgehalt wird bei einem Entropiewert von 0 erreicht. Also muss die Entropie des Baums möglichst sein. [Krahl, Windheuser & Zick, 1998] Die drei genannten Algorithmen sind Verfahren, die mit Hilfe des Top-Down- Verfahrens Entscheidungsbäume generieren. Im Allgemeinen können die Entscheidungsbaumverfahren aus der TDIDT-Familie (Top-Down-Induction-of- Decision-Trees) in zwei Klassen eingeteilt werden: Klassifikationsbaumverfahren und Regressionsbaumverfahren. Eine Auswahl verschiedener Algorithmen und deren Einsatzgebiet ist in der folgenden Abbildung 3 dargestellt. 3 In der Regel handelt es sich bei diesem Auswahlmaß um den Gini-Index 10

Ausgewählte Entscheidungsbaumverfahren Abbildung 3: System und Entwicklung ausgewählter Entscheidungsbaumverfahren TDIDT [in Anlehnung an Petersohn, 2005] Klassifikationsbäume ID3 CHAID C4.5 NewID Regressionsbäume CART M5 Abbildung 3: System und Entwicklung ausgewählter Entscheidungsbaumverfahren (in Anlehnung an Petersohn (2005)) 3.3 Entscheidungsbäume als eine Methode zur Klassifizierung von Daten 3.3.1 Klassifikation und Klassifikationsprozess Im Data Mining werden vielfältige Methoden angewandt um Beziehungen, Regelmäßigkeiten oder Ähnlichkeiten in den vorhandenen Datenbeständen zu entdecken. Eines dieser Konzepte ist die Klassifikation, die Datensätze in verschiedene Klassen einteilt. Zudem kann die Klassifikation dazu genutzt werden, fehlende Attributwerte vorherzusagen. Dabei laufen die Klassifikationsverfahren grundsätzlich in zwei Schritte ab. Im ersten Schritt, der Lernphase, wird mittels eines Algorithmus ein Modell auf Grundlage von Trainingsdaten 4 erstellt, welches zu Merkmalskombinationen die zugehörige Klasse angeben kann. Kurz gesagt, wird also in dieser Phase der Klassifikator erstellt. In der zweiten Phase wird dieses Modell angewendet um zu Klassifizieren. Bevor dieses jedoch genutzt werden kann, muss die Klassifikationsgenauigkeit des Modells abgeschätzt werden. Erst wenn das Modell eine e Fehlerwahrscheinlichkeit besitzt, kann es eingesetzt werden um zukünftige, unklassifizierte Daten in Klassen zu gruppieren. Typischerweise wird das aus dem ersten Schritt hervorgebrachte Modell in Form von Klassifikationsregeln, Entscheidungsbäumen oder mathematischen Formeln dargestellt. Die Entscheidungsbäume sind dabei in der Data Mining Umgebung ein sehr attraktives Klassifikationsmodell. Aufgrund seiner intuitiven Repräsentation sind Sie für den Leser besonders gut nachvollziehbar und interpretierbar. Für Ihre Konstruktion werden vom Benutzer keinerlei Eingabeparameter benötigt und 4 vorklassifizierte Lernstichprobe 11

verglichen mit anderen Methoden, können Sie in einer relativ kurzen Zeit erzeugt werden. Einen weiteren Vorteil stellt die hohe Genauigkeit, der durch Entscheidungsbäume erstellten Modelle, dar. 3.3.2 Entscheidungsbaum-Klassifikation Die Entscheidungsbaum-Klassifikation liefert explizites Wissen zur Klassifikation in Form eines Entscheidungsbaumes. Durch die Erstellung eines Entscheidungsbaumes als Klassifikator erhält man als Ergebnis eine Schablone, die es ermöglicht neue beziehungsweise zusätzliche Datensätze in das vorhandene Regelsystem, das aus einer ausgewählten Menge von Datensätzen (Trainingsmenge) produziert wurde, einzuordnen [Humer, 2004, S. 36].Wie der Name schon andeutet handelt es sich bei einem Entscheidungsbaum um einen Klassifikator mit einer baumartigen Struktur, welcher aus einer Wurzel, Kanten, Knoten und Blättern besteht. Dabei ist jedem Blatt eine Klasse zugeordnet und jedem inneren Knoten ein Attribut (Merkmal). Die Nachfolger der inneren Knoten werden über Kanten erreicht, denen jeweils ein Wert des zu dem Knoten gehörenden Merkmals zugeordnet ist. Die Klassifikation eines Objektes mit einem Entscheidungsbaum wird so vorgenommen, dass man von der Wurzel ausgehend die Anweisungen in den jeweils erreichten inneren Knoten prüft und je nach vorliegender Ausprägung den entsprechenden Verzweigungen folgt. Das Klassifikationsergebnis steht fest, sobald das Objekt durch einen Blattknoten eindeutig klassifiziert wurde. Entscheidungsbäume verfolgen das Ziel einen zugrundeliegenden Datensatz mit Hilfe gegebener Merkmale in immer kleiner werdende Klassen zu zerlegen, so dass am Ende die Blätter des Baumes hinsichtlich der Zielvariablen so homogen wie möglich sind. Die Abbildungen 4 und 5 zeigen dazu ein Beispiel. Abbildung 4: Trainingsdaten Versicherungskunden 12

Knoten Kanten Blatt Abbildung 5: Entscheidungsbaum Versicherungskunden Dieser Baum repräsentiert eine beispielhafte Klassifikation von Versicherungskunden. Es soll beurteilt werden, in welche Schadensklasse ein Versicherungskunde eingestuft werden kann. Die Entscheidung wird dabei vom Geschlecht und Alter des Kunden sowie dem Fahrzeugtyp des Versicherten beeinflusst. Als Trainingsdaten wurden acht Kunden mit unterschiedlichen Merkmalskombinationen ausgewählt, für die bekannt war, welche Schadenshöhe in der Versicherungszeit angefallen ist. Anhand dieser Trainingsdaten ist der abgebildete Entscheidungsbaum ermittelt worden. Mit seiner Hilfe kann nun ein neuer Kunde anhand seiner Merkmalsausprägungen Geschlecht, Alter und Fahrzeugtyp in eine Risikoklasse eigeordnet werden und somit der Versicherungsbeitrag darauf abgestimmt werden. 3.3.3 Induktion von Entscheidungsbäumen Die Induktion von Entscheidungsbäumen ist eine sehr bekannte Technik zur Erzeugung von Klassifikatoren und soll im nächsten Abschnitt noch einmal als Basisalgorithmus kurz beschrieben werden. Der Basisalgorithmus ist ein Verfahren, welches ein Entscheidungsbaum nach den Top-Down-Ansatz aufbaut und nach dem Prinzip teile und herrsche arbeitet. Die Methode wählt die Attribute nach dem Wert aus, der ihnen vom Auswahlmaß zugeschrieben wird. Das heißt, in jedem Knoten wird mit einer informationstheoretischen Kennzahl (Auswahlmaß) entschieden, anhand welches Attributs die nächste Verzweigung geschehen soll. Anschließend wird für jede vorkommende Ausprägung dieses Attributs eine Verzweigung gebildet und der Algorithmus mit denjenigen Trainingsdaten rekursiv fortgesetzt, die diese Ausprägungen besitzen. Die Rekursion bricht ab, wenn entweder alle Fälle einer 13

Teilmenge zu der gleichen Klasse gehören, wenn kein Attribut zu einer Verbesserung der Klassifikation führt oder keine weiteren Merkmale für einen Test zur Verfügung stehen. [Borgelt & Kruse, n.d.] Der Basisalgorithmus kann jedoch nur auf kategorische Attribute angewendet werden. Ein Grund dafür, diesen Algorithmus auf verschiedene Weisen weiter zu entwickeln. Die wesentlichen Verbesserungen beziehen sich dabei auf die Ausweitung der Einsatzmöglichkeiten auch bei kontinuierlichen Merkmalen, sowie den Einsatz neuer informationstheoretischer Kennzahlen (z.b. Gini Index anstelle von Information Gain) und Pruning Verfahren zur Optimierung des Entscheidungsbaumes. Zudem wurden spezielle Entscheidungsbaumverfahren für den Einsatz bei großen Datenmengen entwickelt. (SLIQ; SPRINT) [Loss, 2002] 3.4 Entscheidungsbäume als eine Methode zur numerische Vorhersage 3.4.1 Einführung und Begriffsbestimmung Bisher haben wir uns mit der Frage beschäftigt, welcher Klasse ein Objekt aufgrund seiner Merkmale zuzuordnen ist. Überwiegend haben wir uns dabei mit nominalen Daten auseinandergesetzt. In diesem Abschnitt werden wir numerische Datensätze betrachten. Genauer gesagt wollen wir mit Hilfe geeigneter Methoden Zusammenhänge zwischen einzelnen Merkmalen aufdecken, mit dem Ziel eine Funktion zu generieren, die es uns ermöglicht Funktionswerte für neue Argumente vorherzusagen. Ziel der numerischen Vorhersage ist also die Approximation einer Funktion aus Beispieldaten. Dabei sollen aus einer Reihe bekannter Instanzenbeschreibungen und Funktionswerte die Werte zukünftiger, bislang unbekannter Instanzenbeschreibungen berechnet werden [Cleve, 2011/12]. Von einer gegebenen Funktion ist lediglich eine Instanzenmenge bekannt, die aus Instanzenbeschreibungen, sowie zugehörigen Zielwerten besteht. Gesucht ist nun eine Funktion, die die Zusammenhänge zwischen den Instanzenbeschreibungen und den Zielwerten möglichst genau widerspiegelt. Folglich soll also der Fehler zwischen berechnetem und tatsächlichem Wert minimiert werden. Eine in der Statistik häufig implementierte Methode, um den funktionalen Zusammenhang zwischen einzelnen Merkmalen zu schätzen, ist die Regression. Zur Bestimmung einer Regressionsfunktion werden die Parameter eines Funktionsprototyps so bestimmt, dass der Fehler der Funktionsapproximation minimiert wird [Runkler, 2010, S.65]. Dabei werden in Abhängigkeit der verwendeten Funktionsprototypen verschiedene Regressionsverfahren unterschieden. 14

So wird beispielsweise bei der linearen Regression ein linearer Zusammenhang zwischen einer abhängigen und ein oder mehreren unabhängigen Variablen in Form einer linearen Funktion dargestellt. Es gibt Problemstellungen, bei denen sich die Daten nicht durch ein lineares Modell darstellen lassen. Häufig kommt dann das Entscheidungsbaumverfahren zur Vorhersage numerischer Werte zum Einsatz. Die bisher betrachteten Entscheidungsbaumalgorithmen dienten hauptsächlich der Beschreibung und Vorhersage nominaler Kategorien. Für die Prognose numerischer Werte, wie beispielsweise die zu erwartende Performance eines Computers anhand ausgewählter Konfigurationsdaten, können die gleichen Baum und Regeldarstellungen verwendet werden wie bei der Klassifikation. Dabei enthalten die Blattknoten des Baumes einen numerischen Wert, der den Durchschnitt aller Trainingsmengenwerte darstellt, auf die das Blatt oder die Regel anzuwenden sind. Die Entscheidungsbäume mit den gemittelten numerischen Werten in den Blättern bezeichnet man als Regressionsbäume. [Witten & Frank; 2001] Die Blätter des Baums sind Zahlen die das durchschnittliche Ergebnis der Instanzen darstellen, die das Blatt erreichen [Witten & Frank, 2001]. Im Vergleich zur Regressionsgleichung ist der Regressionsbaum größer und komplexer und aufgrund seiner Größe auch komplizierter zu handhaben und zu interpretieren. Jedoch sind seine Prognosen häufig auch viel genauer. 3.4.2 CART Algorithmus Regressionsbäume sind spezielle Entscheidungsbäume, die stetige Klassen verarbeiten können. Die Bäume werden mit Hilfe effektiver Splittingalgorithmen erzeugt. Dabei wird die Wahl des Verzweigungstests an einem Knoten durch ste Fehlerquadrat- Berechnungen ermittelt. Ein bekanntes Verfahren zur Generierung von Entscheidungsbäumen mit kontinuierlichen Variablen ist CART (Classifikation and Regression Tree-Algorithmus). Um Prognosen realisieren zu können, bietet CART die Möglichkeit stetige Klassen zuzuweisen. Der CART Algorithmus funktioniert dabei ähnlich wie das Klassifikationsbaumverfahren. [Seib, 2008] Die Attributauswahl wird durch Maximierung des Informationsgehalts gesteuert. Dazu wird zu jedem Attribut ein Schwellwert gesucht, der eine optimale Trennung der Daten in Bezug auf die Klassifikation zulässt. Allgemein lässt sich formulieren: 15

Je höher der Informationsgehalt eines Attributs in bezug auf die Zielgröße, desto weiter oben im Entscheidungsbaum findet sich dieses. Eine Eigenart der CART- Bäume ist die Tatsache, dass durch die Teilung der Attribute durch einen festen Schwellwert nur Binärbäume erzeugt werden können. [Petersohn, 2005] Ein wesentlicher Nachteil des CART Algorithmus besteht darin, dass dieser nur Prognoseaufgaben lösen kann, die sich auch als Klassifikationsproblem formulieren lassen. 3.5 Baumoptimierung Der größte Vorteil von Entscheidungsbäumen liegt in der Einfachheit der Wissensrepräsentation. Probleme kann es jedoch geben, wenn Sie aufgrund großer Datenmengen und vieler Entscheidungskriterien unübersichtlich werden. Um solche Problem zu beheben, wurden Algorithmen entwickelt, die verhindern, dass Entscheidungsbäume zu stark anwachsen und somit ihre leichte Verständlichkeit verlieren. Diese Algorithmen arbeiten mit sogenannten Pruning- Verfahren. Pruning kommt aus dem englischen und bedeutet das Entästen, Beschneiden oder Zurückstutzen eines Baumes. Das Verfahren bewirkt, dass ein erzeugter Entscheidungsbaum so verkleinert wird, indem einige Entscheidungsknoten, die nur einen en Anteil an der Klassifikationsgüte haben, entfernt werden. Damit löst das Pruning das Problem des Overfittings 5, wodurch der Entscheidungsbaum seine Generalisierbarkeit für die Anwendung auf neue Daten verlieren würde. [Duhme, 2006] Beim Pruning werden verschiedene statistische Methoden angewandt, die Anomalien wie beispielsweise Ausreißer aufdecken und die entsprechenden Verästelungen eines Baumes entfernen. Dadurch entstehen Bäume, die eine schnellere Klassifikation mit einer eren Fehlerwahrscheinlichkeit ermöglichen. Beim tree pruning (Baumbeschneidung) existieren zwei Ansätze, das Prepruning und das Postpruning. Das Prepruning findet vor und während der Konstruktionsphase des Baumes statt. Durch eine gezielte Vorauswahl der für das Training vorgesehenen Daten und die Anwendung von Regeln soll verhindert werden, dass der Baum zu komplex wird. Mögliche Regeln können dabei die Limitierung der Baumtiefe oder die Beschränkung 5 Mit Overfitting wird das Problem beschrieben, bedeutungslose Regelmäßigkeiten in den Daten zu entdecken. Overfitting tritt in immer dann auf, wenn die Trainingsdaten Rauschen bzw. Fehler enthalten oder wenn die Trainingsdaten keine repräsentative Stichprobe der Grundgesamtheit bilden 16

der Knotenbildung durch eine vorgegebene Mindestanzahl von Beobachtungen in der nächsten Ebene, sein. [Hüftle, 2006] Somit ist Prepruning der Versuch, während des Baumbildungsverfahrens zu entscheiden, wann die Entwicklung von Unterbäumen eingestellt werden sollte. Der Vorteil dieses Ansatzes liegt auf der Hand: die Einsparung von Arbeit und Zeit für die Erstellung von Unterbäumen, die im Nachhinein wieder verworfen werden. Jedoch hat auch das Postpruning, bei dem der fertige Baum anschließend zurückgestutzt wird, einige Vorteile zu bieten. So gibt es Situationen in denen zwei Attribute für sich allein genommen keinen Beitrag zu leisten scheinen, zusammen aber eine hohe Vorhersagekraft besitzen. Es tritt also eine Art Kombinationseffekt auf, bei dem die korrekte Kombination der beiden Attributwerte sehr informativ ist, während jedes Attribut für sich allein nicht viel aussagt. [Witten & Frank, 2001] 4. Entscheidungsbaumklassifikation - Versicherungsbeispiel Eine wesentliche Aufgabe des Data Minings ist die Klassifikation von Daten. Dafür werden unter anderem die Entscheidungsbäume als ein Verfahren der Klassifikation vorgestellt. Bisher haben wir uns dafür den Basisalgorithmus (ID3) zur Induktion von Entscheidungsbäumen genauer angesehen. Wie eingangs erwähnt, hat dieser Algorithmus einige Schwächen, so kann er beispielsweise nur nominale / diskrete Daten verarbeiten. Eine Weiterentwicklung des ID3 ist der Algorithmus C4.5, der zur Bestimmung eines unbekannten kategorischen Attributwertes unter Benutzung beliebiger bekannter Attributwerte genutzt werden kann. Der Nachfolger von ID3 kann also numerische und nominale Attribute als unabhängige Variable verarbeiten. Allerdings sind nur nominale Klassenwerte bestimmbar, so dass kontinuierliche Werte vorher diskretisiert werden müssen. Dies erfolgt über die attribute-subsetting-methode, bei dem die Attributwerte des stetigen Attributs aufsteigend sortiert werden, um dann anschließend einen Schwellenwert zu berechnen. Der Schwellenwert geht als Mittelwerte von jeweils zwei aufeinanderfolgenden Attributwerten in die Berechnung des Informationsgehalts ein und wird so für die binäre Aufspaltung des Baumes verwendet. [Petersohn, 2005] Betrachten wir hier nochmals unser Beispiel der Schadensklasseneinstufung der Versicherungskunden genauer: 17

Abbildung 6: Entscheidungstabelle Schadenshöhe - Problem Das Schadenshöhe-Problem umfasst eine sehr kleine Datenmenge. Sie fixieren acht Kunden einer Versicherung, die wiederum alle einzeln durch Ihre Eigenschaften (Attribute), Geschlecht, Alter, Fahrzeugtyp und Schadenshöhe charakterisiert werden. Ziel ist es, aus den vorhandenen Trainingsdaten ein Muster zu generieren, das es ermöglicht, Neukunden in eine Schadensklasse einzuordnen, um so die Versicherungsbeiträge besser anpassen zu können. Dazu soll ein Entscheidungsbaum mit der Zielvariablen Schadenshöhe erstellt werden. Das auf den ersten Blick sehr einfach erscheinende Versicherungskunden Beispiel demonstriert dabei schon eine etwas komplexere Form von Datenmengen. Sehen wir uns die Attribute der einzelnen Kunden an, fällt auf, dass wir hier mit gemischten Daten arbeiten müssen. Das Attribut Alter ist im Gegensatz zu den anderen beiden Merkmalen ein numerischer Wert. Damit können wir den Entscheidungsbaum nicht mit Hilfe des ID3 generieren sondern nutzen seinen Nachfolger, den C4.5. Dieser Algorithmus wird im Folgenden anhand der Beispieldaten kurz vorgestellt. Wir wissen, das Entscheidungsbaumverfahren ist ein rekursiv aufgebautes Verfahren. Wir beginnen oben und wählen dazu im ersten Schritt ein Attribut als Wurzelknoten und legen dann für jeden möglichen Wert eine Verzweigung an. Für den Wurzelknoten haben wir die Möglichkeit zwischen drei Attributen zu wählen, das Geschlecht, Alter und der Fahrzeugtyp. Um das Wurzel-Attribut zu bestimmen, ermitteln wir zunächst die bedingten Verteilungen der Schadenshöhe unter den zur Verfügung stehenden Versicherungskundenmerkmalen. Vorgestellt in der folgenden Abbildung: 18

Alter Geschlecht Fahrzeugtyp <=31 > 31 w m Coupé Van hoch hoch hoch hoch hoch hoch hoch hoch hoch Abbildung 7: bedingte Verteilungen und Bäume für die Kundenmerkmale Auf oberster Ebene bilden die bedingten Verteilungen Bäume, wie in Abbildung 7 dargestellt. Doch welches Attribut ist nun das Beste für die Aufteilung? Die Anzahl der - und hoch- Klassen ist in den Blättern angegeben. Blätter mit nur einer Klasse oder hoch werden nicht weiter unterteilt und die Rekursion wird für diesen Zweig beendet. Weil das Ziel ist, kleine und unkomplizierte Bäume anzulegen, soll dies natürlich so schnell wie möglich geschehen. In unserem Beispiel lässt sich der Wurzelknoten auf einen Blick identifizieren. Wir wählen das Attribut Geschlecht als Zerlegungsattribut an der Baumwurzel. Es ist die einzige Wahl, für die ein ungeordneter Knoten völlig rein ist, was einen wesentlichen Vorteil gegenüber den anderen beiden Attributen bedeutet. Nun wird für jeden möglichen Wert eine Verzweigung angelegt. Hier stellt sich nun aber die Frage: Wie wähle ich ein passendes Attribut, wenn ich keinen reinen Knoten habe und das beste Attribut nicht sofort erkennbar ist? An dieser Stelle kommen uns die zahlreich entwickelten Algorithmen zur Entscheidungsbaumgenerierung zur Hilfe. In unserem Fall, wie eingangs erläutert, der C4.5 Algorithmus. Der Auswahlalgorithmus von C4.5 basiert wie beim ID3 auf einem 19

Wert für den Informationsgehalt eines Attributs, genannt Information Gain. Dieser stützt sich auf die Größe Entropie, ein Maß für die Unordnung. Dabei kann als Auswahlmaß der Gini- Index oder auch die Entropie herangezogen werden. In unserem Beispiel werden wir unsere Konzentration auf den Gini- Index, der sogenannten quadratischen Entropie legen. Der Gini- Index gibt die Wahrscheinlichkeit an, dass bei der Auswahl zweier Objekte aus einer Klasse, die Zielvariable dieser beiden Objekte unterschiedliche Ausprägungen aufweist. [Bankhofer & Vogel, 2008] Anschaulich kann der Gini- Index gedeutet werden als die zu erwartende Verringerung der Fehlerklassifikationswahrscheinlichkeit. [Borgelt & Kruse, n.d.] Nehmen wir an, die Wahrscheinlichkeit ein Objekt mit der Ausprägung j bezüglich der Zielvariablen aus einer Klasse zu ziehen, beträgt p j. Dies wird offenbar mit einer Wahrscheinlichkeit von (1 p j ) nicht eintreffen. So ergibt sich nach dem Prinzip Ziehen ohne Zurücklegen die Wahrscheinlichkeit, zweimal ein Objekt mit dieser Ausprägung j bezüglich der Zielvariablen aus einer Klasse auszuwählen mitp j 2. Folglich kann der Gini- Index über die Gegenwahrscheinlichkeit formuliert werden n 2 mit G = 1 j=1 p j. Somit kann die beste Klassifizierung bei der Erzeugung eines Entscheidungsbaumes erreicht werden, indem der Gini- Index in den einzelnen Klassen so weit wie möglich reduziert wird, da dann die Verschiedenheit der Objekte in Bezug auf die Zielvariable innerhalb der jeweiligen Klassen am sten wird. [Bankhofer & Vogel, 2008] Wir wenden nun den Gini- Index auf unsere Beispieldaten an, um das am besten geeignete Attribut zur Entscheidung zwischen er und hoher Schadenshöhe herauszufinden. Dafür ermitteln wir im ersten Schritt den Gesamt Gini- Index für die Schadenshöhe (g/h) 6 der acht Versicherungskunden als Referenzwert der Unterschiedlichkeit der Objekte hinsichtlich der Zielvariablen in der Datenbasis. Die Wahrscheinlichkeit einen Kunden mit einer en Schadenshöhe aus der Datenmenge auszuwählen beträgt 62,50% (p g = 5 8 ). Damit berechnet sich die Wahrscheinlichkeit einen Kunden mit hohem Schadenspotenzial aus der Menge zu ziehen durch die Gegenwahrscheinlichkeit mit 37,50%( p h = 3 8 ). 6 g steht in diesem Fall für e Schadenshöhe und h für hohe Schadenshöhe 20

Die Wahrscheinlichkeiten eingesetzt in der Formel zur Berechnung des Gini-Index, ergibt einen Referenzwert vong = 1 5 8 2 + 3 8 2 15 = = 0, 46875. 32 Betrachten wir nun die Gini- Indizes der bedingten Verteilungen bezogen auf die Merkmale Alter, Geschlecht und Fahrzeugtyp. Die Ergebnisse der Berechnungen sind der folgenden Tabelle zu entnehmen. Attribute Alter (X 1 ) Geschlecht (X 2 ) Fahrzeugtyp (X 3 ) Attributausprägungen X 1 31 X 1 > 31 X 2 = m X 2 = w X 3 = Van X 3 = Coupé Bedingte Wahrscheinlichkeit p(g X i ) 0,50 0,75 0,25 1 0,375 0,50 Bedingte Wahrscheinlichkeit p(h X i ) 0,5 0,25 0,75 0 0,25 0,50 Gini-Index G Xi 0,50 0,375 7 0,375 0 0,375 0,50 Gesamt Gini- Index Attribut 0,4375 8 0,1875 0,4375 Tabelle 1: Berechnung Gini- Indizes der bedingten Verteilungen Ausgehend von den Resultaten in der Tabelle 1 kann nun eine Wahl für das Wurzel- Attribut getroffen werden. Wie bereits vermutet eignet sich das Merkmal Geschlecht am besten zur Entscheidung zwischen Kunden mit er und hoher Schadenshöhe. Der erste Knoten bewirkt so eine Reduktion der Unterschiedlichkeit von 0,46875 auf 0,1875. Da die Schadenshöhe für Frauen eindeutig ist, brauchen diese Kunden nun auch nicht weiter betrachtet werden. Für die männlichen Kunden hingegen muss erneut die bedingte Verteilung der Schadenshöhe bezüglich des Alters und des Fahrzeugtyps geprüft werden. Die fortgesetzte Anwendung dieses Konzeptes führt für das Schadenshöhe-Problem zu dem Entscheidungsbaum in der Abbildung 8. Der Prozess wird beendet, wenn die Daten nicht weiter zerlegbar sind. 7 Berechnungsbeispiel des Gini- Index der bedingten Verteilungen: G >31 = 1 1 4 2 + 3 4 2 = 3 8 = 0,375 8 Berechnungsbeispiel des Gesamt Gini- Indizes des Attributs X i : G X 1 = 0,5 4 + 0,375 4 8 = 0,4375 21

31 31 Abbildung 8: Entscheidungsbaum Schadenshöhe- Problem 5. Zusammenfassung Ziel der Datenanalyse ist es, aus großen Datenmengen Wissen zu extrahieren. Das heißt allgemein gültige, nicht triviale, neue und verständliche Muster zu erkennen. Dies geschieht in einem mehrstufigen Datenanalyse Prozess. Der erste Schritt ist die Bereinigung des Datenrohmaterials. Der nach der Datenvorverarbeitung zur Verfügung stehenden Datensatz wird anschließend mit verschiedenen Verfahren der Datenanalyse verarbeitet. Dabei spielen neben Visualisierungsverfahren auch reine Analysemethoden wie Regression, Prognose, Klassifikation und Clusteranalyse eine große Rolle. Im Rahmen dieser Arbeit wurden zwei Verfahren, die Klassifikation und Prognose näher vorgestellt. Bei der Klassifikation geht es um die Zuordnung von Objekten zu einer bestimmten Klasse. Ziel ist es mit Hilfe klassifizierter Merkmale Klassifikatoren zu entwickeln, mit denen sich neue Objekte auf Basis ihrer Merkmale in eine Klasse einordnen lassen. Entscheidungsbäume sind dabei eine Methode um diese Klassifizierungsfunktionen darzustellen. Entscheidungsbäume sind demnach Klassifikatoren mit einer hierarchischen Struktur, die an jeder Verzweigung nur ein einziges Merkmal zur Klassenunterteilung verwenden. Die optimalen Verzweigungsbedingungen können auf der Basis von Daten durch Maximierung des Informationsgewinns (Information gain) bestimmt werden. Für diskrete Daten dient hierzu der ID3- Algorithmus, für kontinuierliche Daten CART oder C4.5. 22

Bei der Prognose hingegen geht es um die Vorhersage von zukünftigen Entscheidungen beziehungsweise Werten. In Kapitel 3.4 wurde ein Konzept zur numerischen Vorhersage, die Regressionsbäume, vorgestellt. Im Anschluss an einer ausführlichen Beschreibung des Entscheidungsbaumaufbaus wurden Methoden aufgezeigt, die so genierten Klassifikatoren zu optimieren. Das sogenannte Pruning- Verfahren (Zurückschneiden des Baums), kann dabei sowohl während der Baumaufbauphase (Prepruning) als auch am fertigen Baum (Postpruning) vorgenommen werden. Die Vor- und Nachteile dieser beiden Methoden wurden in Kapitel 3.5 besprochen. Um die doch sehr theoretischen Ausführungen für den Leser leichter nachvollziehbar zu gestalten, wurde im letzten Kapitel ein Beispiel zur Anwendung und Induktion von Entscheidungsbäumen als Klassifikator ausgearbeitet und ausführlich vorgestellt. Ziel dieser Arbeit war es, den Leser einen Einblick in die Funktionsweise der Entscheidungsbäume zu vermitteln und dabei die Vielseitigkeit in Bezug auf die praktische Anwendbarkeit der Klassifikations- und Regressionsbäume herauszuarbeiten. 23

6. Literaturverzeichnis Alpar, P. & Niedereichholz, J. (2000). Einführung zu Data Mining. In P. Alper & J. Niedereichholz (Hrsg.), Data mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung (S. 3-26). Braunschweig: Vieweg. Bankhofer, U., & Vogel, J. (2008). Datenanalyse und Statistik: Eine Einführung für Ökonomen im Bachelor ; [Bachelor geeignet!] (1. Aufl.). Wiesbaden: Gabler. Borgelt, C. & Kruse, R. (n.d.). Attributwahlmaße für die Induktion von Entscheidungsbäumen: Ein Überblick. Zugriff am 23. August 2012 unter http://borgelt.net/papers/mldmd_96.pdf Brunner, W. (2011). Unternehmen müssen Datenmüll managen. Zugriff am 23. August 2011 unter http://www.business-wissen.de/organisation/daten-und-informationen-inunternehmen-managen/ Cleve, J. (2011/2012). Data Mining. Vorlesungsskript, Hochschule Wismar. Zugriff am 23. August 2012 unter http://www.wi.hs-wismar.de/~cleve/vorl/dmining/dmcolor.pdf Fayyad, U. M., Piatetsky-Shapiro,G., Smyth,P. & Uthurusamy,F. (1996). Advances in knowledge discovery and data mining. Menlo Park (Calif.) [etc.]: AAA/MIT Press. Duhme, M. (2006). Ansätze zur Konstruktion von Entscheidungsbäumen. Veröffentlichte Studienarbeit, TU Carolo-Wilhelmina zu Braunschweig. Krahl, D., Windheuser, U., & Zick, F.-K. (1998). Data Mining: Einsatz in der Praxis (1. Aufl.). Bonn: Addison-Wesley-Longman. Hüftle, M. (2006). Methoden zur Klassifikation. Zugriff am 23. August 2012 unter http://134.169.42.157/methoden/klassmet/klassmet.pdf Humer. M. (2004). Kombiniertes Data Mining Klassifikation unter Verwendung von durch Clustering gewonnenen Hilfsinformationen. Diplomarbeit, Johannes-Kepler-Universität Linz. Zugriff am 23.08.2012 unter http://www.dke.jku.at/research/publications/mt0408.pdf 24

Loss, D. (2002). Data Mining: Klassifikations und Clusteringsverfahren. Zugriff am 23. August 2012 unter http://www.dirk-loss.de/dm-klass-cluster_dloss.pdf Oroszlan, H. & Pipal, S. (n.d.). Data und Web Mining. Zugriff am 23. August unter http://www.dke.univie.ac.at/semanticweb/history/ws0405/km_resources/studenten_hoeffer er/dataundwebmining_endversion.pdf Pepper, C. (2011). Immer mehr Menschen beklagen Informations-Überflutung. Mindener Tagesblatt. Zugriff am 23. August 2012 unter http://www.mindenertageblatt.de/blog_mt_intern/?p=1822 Petersohn, H. (2005). Data mining: Verfahren, Prozesse, Anwendungsarchitektur. München: Oldenbourg. Runkler, T. A. (2010). Data-Mining: Methoden und Algorithmen intelligenter Datenanalyse ; mit 7 Tabellen (1. Aufl.). Wiesbaden: Vieweg, Teubner. Seib. E. (2008). Data Mining Methoden in der Simulation. Grin Verlag, 1. Auflage Statista. Lexikon: Zugriff am 23.08.2012 unter http://de.statista.com/statistik/lexikon/definition/73/kategorial/ Wiedmann, K.-P., Buckler, F. & Buxel, H. (Hrsg.). (2001). Neuronale Netze im Marketing- Management: Praxisorientierte Einführung in modernes Data-Mining (1. Aufl.). Wiesbaden: Gabler. Wissensexploration. Der Prozess des Data Mining: Zugriff am 23. August 2012 unter http://wissensexploration.de/datamining-kdd-aufgaben-methoden.php Witten, I. H., & Frank, E. (2001). Data mining: Praktische Werkzeuge und Techniken für das maschinelle Lernen. München, Wien: Hanser. 25

7. Abbildungsverzeichnis Abbildung 1: Data Mining / KDD Prozess... 6 Abbildung 2: Zuordnung von Data Mining Methoden zu Aufgaben... 8 Abbildung 3: System und Entwicklung ausgewähler Entscheidungsbaumverfahren... 11 Abbildung 4: Trainingsdaten Versicherungskunden... 12 Abbildung 5: Entscheidungsbaum Versicherungskunden... 13 Abbildung 6: Entscheidungstabelle Schadenshöhe - Problem... 18 Abbildung 7: bedingte Verteilungen und Bäume für die Kundenmerkmale... 19 Tabelle 1: Berechnung Gini- Indizes der bedingten Verteilungen... 21 Abbildung 8: Entscheidungsbaum Schadenshöhe- Problem... 22 26