Julius-Maximilians-Universität Würzburg Institut für Mathematik. Data-Mining Ein Überblick. Diplomarbeit von Lena Schwemmlein

Transkript

1 Julius-Maximilians-Universität Würzburg Institut für Mathematik Data-Mining Ein Überblick Diplomarbeit von Lena Schwemmlein Betreuer: Prof. Dr. Michael Falk Abgabetermin: 07. Dezember 2011

2 Inhaltsverzeichnis 1 Einleitung 1 2 Data-Mining Die Denition Der Zusammenhang mit anderen Domänen Der Prozess Elementare Verfahren Naive-Bayes Entscheidungsbäume Splitting Pruning C CART Assoziationsanalyse Warenkorbanalyse Apriori-Algorithmus Distanzmaß-basierte Verfahren Nächste-Nachbarn-Klassikation Support-Vector-Machines Linear trennbare Daten Linear nicht trennbare Daten Kernelfunktionen Clusteranalyse Hierarchisch Partitionierend K-Means-Verfahren EM-Algorithmus Neuere Verfahren Ensemble-Methoden AdaBoost Schrittweise Vorwärtsmodellierung Exponentielle Verlustfunktion Neuronale Netze Perzeptron ii

3 Inhaltsverzeichnis Backpropagation Probleme Web-Mining Soziale Netze PageRank Die Geschichte des Data-Mining Die Erndung Der Hype Gegenwart und Zukunft Zusammenfassung 108 Literaturverzeichnis I iii

4 Abbildungsverzeichnis 2.1 Data-Mining als interdisziplinäres Gebiet CRISP-DM Ausschnitt aus den Irisdaten Naive-Bayes-Klassizierung mit RapidMiner Ergebnis der Naive-Bayes-Klassizierung Graphen Entscheidungsbaum-Klassizierung mit RapidMiner Ergebnis der Entscheidungsbaum-Klassizierung Entscheidungsbaum mit Gini-Index Assoziationsregeln der Wetterdaten mit RapidMiner Metainformation der Wetterdaten Auszug aus den Assoziationsregeln Die Wahl von k k-nn Klassikationsfehler des 1-NN-Verfahrens Beispiel für linear trennbare Daten im R Beispiel für linear nicht trennbare Daten im R Support-Vector-Machines Die Ergebnisse Hierarchisches Clustering Dendrogramm Die Wahl von K Das K-Means-Verfahren K-Means-Clustering EM-Clustering Klassizierung durch AdaBoost Ergebnis der Klassizierung durch AdaBoost Modell eines einschichtigen Perzeptrons Klassikation durch ein neuronales Netz Das Ergebnis Beispiel eines bipartiten Graphen Data-Mining bei Wikipedia Beispiel eines Netzwerks iv

5 Beispielverzeichnis 3.4 Naive-Bayes-Klassizierung der Krebsregisterdaten Klassizierung der Irisdaten durch C Klassizierung der Irisdaten durch CART Beispiel zu Support und Kondenz einer Assoziationsregel Assoziationsanalyse der Wetterdaten Klassizierung der Irisdaten durch k-nn SVM-Klassizierung der Weindaten Clusteranalyse mittels K-Means-Verfahren Clusteranalyse mittels EM-Verfahren AdaBoost mit Zahlendaten Neuronales Netz der Krebsregisterdaten PageRanks eines minimalen Netzwerks v

6 1 Einleitung We are drowning in information, but starving for knowledge. John Naisbett Fast unbemerkt hat sich ein neues Prinzip der Datenanalyse in Wirtschaft und Wissenschaft ausgebreitet und bereichert seitdem auch das alltägliche Leben: das Data-Mining. Es ndet sich bei jedem Einkauf, ob im realen Umfeld oder im Internet, als Eintrag in Suchmaschinen, aber auch in der Krebsforschung und der Entschlüsselung des menschlichen Genoms, um nur einige Beispiele zu nennen. In der Literatur wird ein Begri häug synonym zum Data-Mining gebraucht, die Wissensentdeckung oder Knowledge Discovery in Databases. Der genaue Unterschied zwischen diesen Bezeichnungen wird im nächsten Kapitel erläutert. Ziel dieser Arbeit ist es, aus einer mathematischen Perspektive heraus die verschiedenen Aspekte des Data-Minings zu betrachten. Den Schwerpunkt stellen dabei die benutzten Verfahren dar, welche aus meiner Sicht eine einfache Denition des Data-Mining liefern: Data-Mining besteht aus all den Verfahren, welche von Systemen benutzt werden, die sich selbst als dem Data-Mining zugehörig betrachten. Zunächst werden jedoch verschiedene andere Denitionsversuche erläutert sowie der Zusammenhang mit anderen Disziplinen und der Ablauf des Data-Mining-Prozesses erklärt. Den Hauptteil dieser Arbeit bilden dann die Kapitel 3 bis 5, welche sich mit typischen Verfahren des Data-Mining und deren Zusammenhang mit der Mathematik befassen. Hierbei werden in Kapitel 3 elementare Verfahren, welche seit Beginn des Data-Mining genutzt werden, in Kapitel 4 Verfahren, bei denen Distanzmaÿe eine besondere Rolle spielen, und in Kapitel 5 neuere Verfahren, die durch Entwicklungen im Computerwesen gefördert wurden, behandelt. Jedes dieser Kapitel besteht wiederum aus drei Abschnitten, wobei sich die ersten beiden dem sogenannten überwachten Lernen widmen, während der jeweils dritte dem unüberwachten Lernen angehört. Der Unterschied zwischen diesen 1

7 1 Einleitung Verfahrensgruppen wird zu Beginn des 3. Kapitels kurz dargestellt. Den Schlusspunkt jedes einzelnen Abschnitts bildet ein Beispiel in Form einer Anwendung des jeweiligen Verfahrens auf reale Daten. Zum Abschluss dieser Arbeit wird schlieÿlich die noch junge Geschichte des Data-Mining behandelt und mögliche Probleme erläutert. Um Begrie hervorzuheben, die einer weitere Erklärung innerhalb oder auÿerhalb dieser Arbeit bedürfen, werden diese Begrie kursiv wiedergegeben. Quellenangaben nden sich in eckigen Klammern, teilweise auch in Kombination mit dem in Kapitälchen genannten Autor des Werkes. Um die Herkunft der Quellen zu verdeutlichen, wird ein dreiteiliges Literaturverzeichnis verwendet. Im ersten Teil nden sich Werke, die dem aktuellen Forschungsstand entsprechen oder immer noch gültige Aussagen liefern. Sie werden durch eine einfache Zahl [..] zitiert. Der zweite Teil listet historische Werke auf und ist durch [H..] gekennzeichnet, während der dritte Teil Quellen aus dem Internet beinhaltet und durch [W..] kenntlich gemacht wird. 2

8 2 Data-Mining Laut Hannon [18] versteht man unter Data-Mining die Anwendung von Algorithmen, um versteckte Muster und unerwartete Beziehungen zwischen Elementen in einem umfangreichen Datensatz zu entdecken. Es entstand im Schnittpunkt von künstlicher Intelligenz und Statistik und ist in vielerlei Hinsicht die technologische Antwort auf das Problem des Informationsüberschusses: zu viele Texte, zu viele Daten und zu wenig Zeit, um alles verarbeiten zu können. Data-Mining-Systeme nden diejenigen Daten, die von Interesse sind, und präsentieren sie auf verständliche Art und Weise. Sie ermöglichen das, was Brancheninsider Wissensentdeckung (knowledge discovery) nennen: Sinn zu nden in etwas, was andernfalls eine nicht zu beherrschende Informationsmenge wäre. 2.1 Die Definition Obwohl die Forschung sich bereits über mehr als zwei Jahrzehnte erstreckt, ist Data- Mining immer noch ein vage deniertes Gebiet. Die Denition hängt stark von Hintergrund und Perspektive des Denierenden ab. Einer der ersten Denitionsversuche von Knowledge Discovery in Databases (KDD) nach Frawley et al. [11] lautet: Wissensentdeckung ist die nicht-triviale Extraktion von impliziter, vorher unbekannter und möglicherweise nützlicher Information aus Daten. Sei eine Datenmenge F gegeben, eine Sprache L und ein Kondenzmaÿ C, so denieren wir ein Muster als eine Aussage S in L, welche Beziehungen zwischen einer Teilmenge F S von F mit einer Sicherheit c beschreibt, so dass S in gewissem Sinne einfacher ist als die Aufzählung aller Daten in F S. Ein Muster, das entsprechend einem benutzer-denierten Maÿ interessant und sicher genug ist, wird Wissen genannt. Die Ausgabe eines Systems, das die Datenmenge überprüft und Muster dieser Art produziert, ist entdecktes Wissen. Um einen möglichst groÿe Bandbreite von Ansätzen abzudecken, ist diese Denition bewusst vage gehalten. Frawley et al. [11] leiten daraus zudem Data-Mining als einen 3

9 2 Data-Mining Schritt im Prozess des KDD ab, der aus bestimmten Data-Mining-Algorithmen besteht, die unter einigen akzeptablen Limitierungen der Berechnungsezienz eine bestimmte Aufzählung von Mustern E j aus F liefern. Laut Han und Kamber [17, S.15] zählen zu den grundsätzlichen Mustern, die gefunden werden können, die deskriptive Darstellung, Assoziationen und Korrelationen, Klassikation und Regression, Clustering sowie die Analyse von Ausreiÿern. Einige weitere Denitionen aus der Data-Mining-Literatur der Jahre lauten nach Friedman [13]: Denition 2.1 (Fayyad, 1996): Data mining is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. Denition 2.2 (Zekulin): Data mining is the process of extracting previously unknown, comprehensible, and actionable information from large databases and using it to make crucial business decisions. Denition 2.3 (Ferruzza): Data mining is a set of methods used in the knowledge discovery process to distinguish previously unknown relationships and patterns within data. Denition 2.4 (Parsaye, 1996): Data mining is a decision support process where we look in large data bases for unknown and unexpected patterns of information. Teilweise bezieht sich Data-Mining in diesen Denitionen auf den gesamten Prozess der Datenanalyse. Ursprünglich bezeichnete der Begri allerdings nur einen Schritt im Prozess des Knowledge Discovery in Databases (KDD). Da diese Wortschöpfung jedoch lediglich in den Bereichen künstliche Intelligenz und maschinelles Lernen beliebt war, während Datenbankforscher den Begri des Data-Mining in Wirtschaft und Medien bekannt machten, setzte sich dieser schlieÿlich als Bezeichnung für den gesamten Prozess durch [24]. Sichtbar wird die enge Verwandtschaft der beiden Begrie auch an dem gröÿten Fachblatt der Diziplin mit dem Titel Data Mining and Knowledge Discovery von Webb [W16]. Ein wichtiges Merkmal des Data-Mining ist das automatische Sammeln von umfangreichen Datensätzen, wie etwa Kundendaten. Durch sie können beispielsweise Energieversorger den Stromverbrauch ihrer Kunden vorhersagen. Die Hauptformen der Datenspeicherung für Data-Mining sind Datenbanken (DBMS), Data-Warehouses und Transak- 4

10 2 Data-Mining tionsdaten. Es sind aber auch andere Formen möglich, wie Datenströme, Datenfolgen, Graphen, Netzwerke, Text oder multimediale Daten. Die häugste Form ist das Data- Warehouse, eine ausführliche Diskussion ndet sich in Han und Kamber [17, Kap. 4]. Im Gegensatz zu den älteren operationalen Technologien verbindet es mehrdimensionale Information, was Querverweise möglich macht. Zusätzlich werden Data-Warehouses nicht auf Servern gespeichert, sondern über ein Storage-Area-Network, welches ein inkrementelles Vergröÿern des Speicherplatzes je nach Bedarf ermöglicht. Data-Mining wird hauptsächlich im kommerziellen Bereich angewandt, um Unternehmen die Entscheidungsndung zu erleichtern. Ein gutes Beispiel sind Kundenkarten im Einzelhandel, die groÿe Mengen an Daten sammeln und eine Vorhersage zur Kundentreue liefern können. Mit ihrer Hilfe ist es möglich, die Kundenbasis zu segmentieren, gezielt die Zufriedenheit der Kunden zu steigern und gleichzeitig die Werbungskosten des Unternehmens zu senken. Data-Miner entwickeln auÿerhalb der Forschung also Programme und Methoden, die Datenbanken automatisch oder halbautomatisch nach Regelmäÿigkeiten und Mustern durchsuchen, so dass Unternehmen wirtschaftlicher arbeiten können. Laut Witten und Frank [31, S.26] beschreiben Zyniker in diesem Zusammenhang Data- Mining oft als Summe aus Statistik und Marketing. Doch auch unter Statistikern genieÿt Data-Mining keinen besonders guten Ruf, da häug blind Muster gesucht und gefunden wurden, die eigentlich nicht existierten oder falsch interpretiert wurden [20, S.1 f.]. Näheres dazu in Abschnitt 2.2. Nach Witten und Frank [31, S.21] wird Data-Mining häug nur in Grenzfällen eingesetzt, während die klaren ja-/ nein-regionen durch statistische Methoden ermittelt werden. Data-Mining kann nicht nur zur Vorhersage genutzt werden, sondern auch lediglich einen deskriptiven Zweck erfüllen, wenn das Ziel ist, die eigenen Daten besser zu verstehen. Dies ist vor allem in Fällen sinnvoll, in denen keine klare Fragestellung vorhanden ist. Somit hilft Data-Mining Datensätze auszuwerten, die so groÿ und komplex sind, dass der Mensch sie auch mit Hilfe der Statistik nicht mehr in einem zeitlich sinnvollen Rahmen überschauen kann. Ein zentraler Punkt des Data-Mining ist die Auswahl eines passenden Algorithmus und des passenden Modells. Da die meisten Datensätze verzerrt sind, können sie in der Regel von mehreren verschiedenen Modellen erklärt werden. Um ein Modell auszuwählen, kann beispielsweise Occams Rasierklinge verwendet werden: die einfachste zufriedenstellende Theorie ist die Richtige. Ein Modell sollte auÿerdem weder zu schlecht (undert) an die Daten angepasst sein noch zu gut (overt). Approximiert das Modell sehr genau die bekannten Daten, so ist es in der Regel nicht allgemein genug, um erfolgreich mit neuen 5

11 2 Data-Mining Daten umzugehen. Ist die Struktur und Komplexität jedoch zu weit von den vorhandenen Daten entfernt, ist der Fehler auf den vorhandenen Daten relativ hoch. Kritisch ist ebenfalls die Einbindung von Domänenwissen. Information über die Daten selbst und darüber, wie sie gesammelt wurden, können natürlich den Wissensentdeckungsprozess nur unterstützen. Die Bereitstellung von Domänenwissen kann aber auch die Objektivität einschränken: Wir sehen, was wir erwarten zu sehen. Andererseits wenden viele ein, dass Algorithmen ausnützen müssen, was über eine Domäne schon bekannt ist, wenn sie signikante Entdeckungen machen sollen. Ob Hintergrundwissen ein Gewinn ist oder eine Bürde, ist Frawley et al. [11] zufolge bisher noch nicht endgültig geklärt. 2.2 Der Zusammenhang mit anderen Domänen Data-Mining entstand im Schnittpunkt mehrerer Gebiete und muss deshalb immer auch als interdisziplinäres Feld betrachtet werden. Wichtige Komponenten sind nach Friedman [13] das maschinelle Lernen und die Mustererkennung (pattern recognition), die die Grundlage für viele Algorithmen bereit stellen, ebenso wie Forschung in der Informatik zum Thema Datenbanken und Data-Warehouses den ezienten Umgang mit gespeicherten Daten ermöglicht. Während in der Mustererkennung und im maschinellen Lernen jedoch ganz allgemein nach verborgenen Strukturen gesucht wird, beschäftigt sich Data-Mining insbesondere mit für den Nutzer interessanten Strukturen. Viele Data- Mining-Methoden bauen auf Konzepten aus diesen Bereichen sowie aus dem der Statistik auf. Dabei haben alle ein gemeinsames Ziel: das Herausltern von Wissen aus riesigen Datenbanken. Informatik und Statistik sind nicht die einzigen Gebiete, die zum Data-Mining beitragen. Wichtige Methoden, Konzepte und Algorithmen stammen auch aus dem Information Retrieval, der künstlichen Intelligenz, Analyse von räumlichen oder zeitlichen Daten, Bioinformatik, Psychologie und Visualisierung [17, S.23]. Information Retrieval beschäftigt sich mit der Suche nach oder in Dokumenten. Indem man Modelle dieser Disziplin in das Data-Mining integriert, kann man besser mit den immer wichtiger werdenden Text- und multimedialen Daten umgehen [17, S.26 f.]. Die interdisziplinäre Natur der Data-Mining-Forschung und -Entwicklung trägt somit wesentlich zu dessen Erfolg und weitreichender Anwendung bei. 6

12 2 Data-Mining Abbildung 2.1: Data-Mining als interdisziplinäres Gebiet Data-Mining und Statistik Von besonderem Interesse sind Gemeinsamkeiten und Unterschiede zwischen Data- Mining und Statistik. Die Statistik untersucht die Sammlung, Analyse, Interpretation und Präsentation von Daten, weshalb sie eine inhärente Verbindung zum Data-Mining besitzt [17, S.23]. Unter einem statistischen Modell versteht man eine Menge von Funktionen, welche die Datenobjekte in einer Zielklasse im Sinn von Zufallsvariablen und zugeordneten Wahrscheinlichkeitsverteilungen beschreiben. Statistische Modelle werden oft genutzt, um Daten und Datenklassen zu modellieren. Insbesondere zwischen Data- Mining und Statistik fällt es deshalb schwer, eine klare Grenze zu ziehen, der Übergang erscheint vielmehr ieÿend. Man kann jedoch versuchen, einige Unterscheidungsmerkmale zu bestimmen, die mit Sicherheit eine starke Vereinfachung der Realität darstellen, aber dennoch eine gewisse Richtung aufzeigen. Laut Witten und Frank [31, S.27] geht Statistik in der Regel von statistischen Modellen aus und testet darauf basierende Hypothesen an den Daten. Im Data-Mining erstellt man hingegen Modelle auf Basis der Daten und durchsucht diese somit nach möglichen Hypothesen. Dies entspricht dem deduktiven versus induktiven Ansatz. Nach Han und Kamber [17, S.23 f.] können in Data-Mining-Aufgaben wie Beschreibung und Klassizierung auch statistische Modelle erzeugt werden, die dann das Ergebnis des Data-Mining darstellen. Alternativ können Data-Mining-Aufgaben auch auf statistischen Modellen aufbauen, indem beispielsweise verrauschte und fehlende Daten durch statistische Methoden modelliert werden. Sucht man dann nach Mustern in groÿen Datensätzen, 7

13 2 Data-Mining kann der Data-Mining-Prozess das Modell benutzen, um verrauschte und fehlende Werte zu identizieren. Statistische Methoden im Data-Mining anzuwenden, ist bei weitem nicht trivial, da die Skalierung der Methoden für groÿe Datensätze oft eine ernsthafte Herausforderung darstellt und viele statistische Methoden in der Programmierung hoch komplex sind. Im Gegensatz zur Statistik ist Data-Mining ohne die Entwicklung des Computers undenkbar. Zudem fordert die statistische Herangehensweise mehr Führung durch den Benutzer, sowohl was die Datenanalyse als auch die Interpretation der Ergebnisse angeht [11]. Während diese Unterschiede vor allem in den Anfangsjahren des Data-Mining klar erkennbar waren, haben sich die beiden Perspektiven der Datenanalyse laut Witten und Frank [31, S.27] mittlerweile angenähert. Es gibt einige Methoden, die sowohl von Data-Minern als auch Statistikern genutzt werden, etwa neuronale Netze, Regression, Nächste-Nachbarn und Clustering. Die meisten Data-Mining-Algorithmen arbeiten mit mathematischen Konzepten, wie Distanzmaÿen oder statistischen Tests. Statistische Methoden können nach Han und Kamber [17, S.24] auch benutzt werden, um Data-Mining-Ergebnisse zu verizieren. Beispielsweise kann nach Erstellung eines Klassikations- oder Regressionsmodells dieses Modell durch statistische Hypothesentests veriziert werden. Es gibt zudem Verfahren, die parallel im maschinellen Lernen und der Statistik entwickelt wurden. Das Paradebeispiel hierfür sind Entscheidungsbäume mit Classication and regression trees aus der Statistik und C4.5 aus dem maschinellen Lernen. Data- Mining-Methoden sollten nach Friedman [13] nicht als Ersatz für klassische Statistik betrachtet werden, sondern stellen vielmehr eine Erweiterung des Gebrauchs statistischer und graphischer Techniken dar. Dies ist insbesondere deshalb sinnvoll, da die Anzahl der Statistiker weit weniger schnell zunimmt als die zu analysierende Datenmenge. Zwar sind immer auch gut ausgebildete Analytiker notwendig, um Data-Mining korrekt auszuführen und relevante Informationen zu extrahieren, jedoch müssen diese nicht zwangsweise auf dem mathematischen Niveau eines Statistikers stehen. Schlieÿlich ist Data-Mining auch die Antwort auf zu wenig Zeit und Geld. Mehrere Entwicklungen aus der Statistik haben ihren Weg ins Data-Mining gefunden [7]: Generalisierte lineare Modelle weiten die Theorie linearer Modelle auch auf nichtlineare Modelle aus [H20, H23]. Der EM-Algorithmus erleichtert den Umgang mit fehlenden Daten, siehe Abschnitt und [H8]. 8

14 2 Data-Mining Resampling-Methoden beinhalten grundsätzlich ein gewisses Maÿ an Unsicherheit [H29]. Projection-Pursuit-Methoden erlauben eine nichtlineare Anpassung [H15]. Ensemble-Methoden befolgen das alte statistische Sprichwort in many counselors there is safety (Abschnitt 5.1). Trotzdem scheinen Statistiker Data-Mining oft nicht ernst zu nehmen. Ein möglicher Grund dafür könnte sein, dass Data-Mining-Programme aufgrund von Simpsons Paradoxon immer wieder falsche Aussagen treen. Dabei werden Teilergebnisse so ungünstig kombiniert, dass das Gesamtergebnis nicht die Realität widerspiegelt. Automatisierte Datenauswertungen beziehen auÿerdem in aller Regel nicht mit ein, wie der Datensatz zustande kam oder was als Domänenwissen bereits bekannt ist. Ist sich der Data-Mining- Anwender dieser Tatsache nicht bewusst, können hier Fehler entstehen. In der Statistik verlässt man sich hingegen weiterhin auf menschliche Kompetenz bei der Modellauswahl und bevorzugt vergleichsweise kleine Datensätze. Im Vergleich zu Data-Mining ist Statistik zudem enger mit Mathematik verknüpft und beschäftigt sich nur mit Methoden, die auch mathematisch abgesichert sind. Data-Mining handelt eher nach dem Motto: Was funktioniert und empirisch bewiesen ist, darf auch verwendet werden. Da Statistiker am ehesten um die Gefahren wissen, die unvorsichtige Datenauswertung mit sich bringt, sind sie gegenüber automatisierter Auswertung sicherlich am skeptischsten, während sich Wissenschaftler und Nutzer aus anderen Gebieten über eine relativ einfache Methodik freuen. 2.3 Der Prozess Der Data-Mining-Prozess kann durch verschiedene Modelle beschrieben werden, darunter das von Sas [W14] entworfene Semma sowie andere, betriebsinterne Systeme verschiedener Unternehmen. Wie in Piatetsky-Shapiro [W10] ersichtlich hat sich eine relative Mehrheit jedoch auf ein Schema festgelegt, den CRoss Industry Standard Process for Data-Mining, kurz CRISP-DM, welcher im Rahmen eines EU-Projekts von 1996 bis 1999 unter Mitwirkung von DaimlerChrysler und SPSS entwickelt wurde (siehe [W3]). Gemeinsam ist allen Darstellungsformen, dass sie eine iterative und interaktive Abfolge verschiedener Schritte bilden, zu denen immer die Vorbereitung der Daten, das eigentliche Data-Mining und die Auswertung und/oder Präsentation gehört. Zudem können in 9

15 2 Data-Mining Abbildung 2.2: CRISP-DM der Regel die einzelnen Stufen vertauscht oder ganz weggelassen werden. Parallele Verarbeitung mittels mehrerer Prozessoren und Sampling des Datensatzes sind mögliche Optionen. Wünschenswert ist die Einbindung von Domänenwissenschaftler. Die meiste Zeit nimmt mit 70 bis 90% der Gesamtzeit im Normalfall die Vorbereitungsphase in Anspruch. Für eine saubere Datenanalyse ist sie jedoch unabdingbar. Um nun einen konkreten Einblick in die Struktur des Data-Mining zu geben, folgt die detaillierte Betrachtung des CRISP-DM. Das Modell besteht, wie auch in Abbildung 2.2 zu sehen ist, aus sechs Phasen, welche nicht in fester Reihenfolge durchlaufen werden müssen. Die Pfeile in der Abbildung geben lediglich die häugsten und wichtigsten Abhängigkeiten an. Der äuÿere Kreis symbolisiert die zyklische Natur des eigentlichen Schemas: Die Anwendung des gelernten Wissens muss nicht zwangsweise das Ende des Data-Mining bedeuten. Es kann auch ein weiterer Wissensentdeckungsprozess folgen, der von dem bisher Gelernten protiert. Die einzelnen Schritte im Überblick: 1. Wirtschaftliches Verständnis Aus der Perspektive des Unternehmens heraus wird versucht, die Projektziele und -anforderungen zu verstehen, das konkrete Data-Mining-Problem zu denieren und einen vorläugen Plan zu erstellen. 10

16 2 Data-Mining 2. Datenverständnis Auf dieser Stufe ist das Hauptziel, erste Daten zu sammeln und sich mit ihnen vertraut zu machen. Konkret versucht man, Probleme der Datenqualität zu verstehen, erste Einblicke in die Daten zu erhalten oder interessante Teilmengen zu erkennen, um Hypothesen für verborgene Information zu formulieren. 3. Datenvorbereitung Hierunter fallen sämtliche Aktivitäten, die die rohen Daten in eine Form überführen, auf die man Modellierungswerkzeuge anwenden kann. Dazu gehört die Transformation und Reinigung der Daten, um Rauschen zu entfernen, sowie eventuell eine erste Auswahl geeigneter Daten und Attribute. 4. Modellierung Dies ist die eigentliche Data-Mining-Phase, in der verschiedene Verfahren zur Modellbildung ausgewählt und angewandt sowie eventuelle Parameter optimiert werden. In der Regel kann eine Problemstellung mit Hilfe mehrerer Verfahren gelöst werden, von denen einige die Daten bereits in einem bestimmten Format benötigen. 5. Evaluation Um sicherzugehen, dass die Unternehmensziele erreicht werden, folgt der Modellierung eine Auswertung des bisherigen Prozesses und des Modells selbst. Hierbei werden auch die interessanten Muster und noch ungeklärte Fragen bestimmt. Schlieÿlich wird aufgrund der gefundenen Muster eine Entscheidung gefällt. 6. Anwendung Am Ende des inneren Kreislaufs stehen die Organisation und Präsentation des Wissens in einem kundenfreundlichen Rahmen. Dies kann in der Form eines Berichts oder einer Implementierung eines wiederholbaren Data-Mining-Prozesses geschehen. Im Modellierungsschritt kann es passieren, dass tausende oder sogar Millionen Muster generiert werden. Man muss sich also die Frage stellen, ob all diese Muster interessant sind. Typischerweise ist das nicht so, sondern nur ein kleiner Anteil ist tatsächlich für einen Nutzer relevant. Das wirft einige ernst zu nehmende Fragen auf: Was macht ein Muster interessant? Kann ein Data-Mining-Verfahren alle interessanten Muster generieren? Kann es auch nur interessante Muster generieren? 11

17 2 Data-Mining Die erste Frage kann durch Han und Kamber [17, S.21 f.] beantwortet werden: Ein Muster ist interessant, falls es von Menschen leicht verstanden werden kann, mit einem bestimmten Maÿ an Sicherheit auch auf Testdaten valide ist, möglicherweise nützlich ist und noch unentdeckt. Hier herrscht Übereinstimmung mit den Denitionen Es existieren zudem einige objektive Maÿe für die Interessantheit von Mustern wie der Support und die Kondenz von Assoziationsregeln aus Denition Sie basieren auf der Struktur der entdeckten Muster und ihrer zugrunde liegenden Statistik. Ein Gegenbeispiel für ein interessantes Modell stammt von Michie [H22]: Der Algorithmus ID3 erstellte einen Entscheidungsbaum für ein Schachendspiel aus einer vollständigen Menge an Positionen. Der Baum war korrekt und rechenezient, aber gleichzeitig unverständlich für menschliche Schachexperten, und somit nicht interessant. Es gibt aber auch historische Erfolge, die sehr gute, interessante Muster lieferten. Der erste stammt von Feigenbaum et al. [H11], die mit dem Dendral-Projekt demonstrierten, dass wissensbasierte Systeme viel erreichen können. Sie untersuchten einen umfangreichen Datensatz chemischen Wissens auf komplexe Molekülstrukturen hin und schaten es mit Hilfe des von ihnen konstruierten Systems Meta-Dendral sowohl bekannte als auch unbekannte Regeln zur Massensprektrometrie von Molekülklassen zu entdecken. Die neu entdeckten Regeln wurden in der Chemieliteratur veröentlicht, was als Beleg für die gute Leistung von Meta-Dendral gewertet werden kann. Ein weiteres frühes Erfolgserlebnis gelang Michalski und Chilausky [H21], die mittels der generellen Lerntechnik AQ die Diagnose von Sojabohnenkrankheiten untersuchten. In Zusammenarbeit mit einem Experten wurden Regeln ermittelt, die die des Experten ausstachen, weshalb dieser, wo es nötig war, seine eigenen durch die von AQ gefundenen Regeln ersetzte. Die zweite Frage bezieht sich auf die Vollständigkeit eines Data-Mining-Algorithmus. Meist ist es unrealistisch und nicht ezient, alle möglichen Muster von einem Verfahren ausgeben zu lassen. Stattdessen sollte der Anwender Beschränkungen und Maÿe für die Interessantheit vorgeben, um die Suche zu fokussieren und die Vollständigkeit des Algorithmus zu sichern. Dies gilt beispielsweise für die Assoziationsregeln aus Abschnitt 3.3, bei denen minimaler Support und minimale Kondenz dafür sorgen, dass alle interessanten Regeln ausgegeben werden. Die letzte Frage hingegen, ob nur interessante Muster ausgegeben werden, ist ein Optimierungsproblem des Data-Mining. Natürlich wäre es sehr von Vorteil, wenn ein Verfahren von vornherein nur interessante Muster generiert. Damit müsste weder der Anwender noch das Data-Mining-Programm die erstellten Muster nach denen durchsuchen, die 12

18 2 Data-Mining auch interessant sind. Diesem Ansatz trägt das Prepruning von Entscheidungsbäumen in Abschnitt Rechnung. Jedes Verfahren verfügt über ein eigenes Maÿ für interessante Muster und ist mit dessen Hilfe letztlich in der Lage, nur die interessanten Muster auszugeben, auch wenn vielleicht mehr gefunden wurden. In den folgenden Kapiteln werden einige dieser Verfahren sowie ihre Maÿe für Interessantheit besprochen. 13

19 3 Elementare Verfahren Das eigentliche Data-Mining geschieht in Schritt 4 des CRISP-DM, in dem ein oder mehrere Verfahren auf die Daten angewandt werden. Diese Verfahren können grundsätzlich nach der Art der Zielvariablen unterschieden werden. Beim überwachten Lernen ( supervised) ist eine Zielvariable gegeben, beim unüberwachtes Lernen (unsupervised), zu dem beispielsweise die Assoziationsregeln aus Abschnitt 3.3 zählen, hingegen nicht. Zudem kann das überwachte Lernen aufgeteilt werden in Klassikation für kategoriale und Prädiktion für stetige Zielvariablen. Die Verfahren, welche in den nächsten drei Kapiteln behandelt werden, wurden aufgrund verschiedener Umfragen unter Data-Minern nach den besten, einussreichsten und meist verwendeten Algorithmen ausgewählt [W9, W11, 33]. Da die hier verwendeten überwachten Verfahren relativ einfach von Klassikation auf Prädiktion übertragen werden können, oder die Art der Zielvariablen keine Rolle spielt, wird hier hauptsächlich die erste Gruppe behandelt. Denition 3.1: Sei D = {(X i, Y i ) i = 1,..., n} ein typischer Datensatz zur überwachten Klassikation. Dann ist X := {X 1, X 2,..., X n } die Menge der m-dimensionalen Stichproben X i = (x i1, x i2,..., x im ), welche hier Instanzen heiÿen. Es werden m + 1 Merkmale A 1, A 2,..., A m+1 R mit diskreter (kategorialer) oder stetiger Ausprägung untersucht. Die abhängigen Merkmale A j, j = 1,..., m, nennt man Attribute. Die Zielvariable Y i sagt aus, welcher Klasse C k := {X i X Y i = k}, k K := {1,..., K}, die Instanzen angehören. i A 1... A m A m+1 1 x x 1m Y 1 2 x x 2m Y n x n1... x nm Y n 14

20 3 Elementare Verfahren Abbildung 3.1: Ausschnitt aus den Irisdaten Ein Beispiel ist der Iris ower-datensatz von Fisher [H13], ein beliebter Testdatensatz im Maschinellen Lernen aufgrund seiner linearen Trennbarkeit (siehe Abschnitt 4.2). Mit lediglich n = 150 Instanzen, m = 4 Attributen und K = 3 Klassen ist er zwar weitaus kleiner als in der Praxis verwendete Data-Mining-Datensätze, aber auch dementsprechend einfach zu interpretieren. Die Irisdaten bestehen aus jeweils 50 Beobachtungen dreier Arten von Schwertlilien (Iris), Iris Setosa, Iris Virginica und Iris Versicolor. Es wurden jeweils vier Attribute der Blüten erhoben: Die Länge und die Breite des Sepalum (Kelchblatt) und des Petalum (Kronblatt) in cm. Ziel des Data-Mining ist es, ein Modell zu erstellen, mit welchem die Zielvariable Y i möglichst gut durch ŷ i geschätzt wird. Es sollte also möglichst häug ŷ i = Y i gelten. Die Qualität des Klassizierers kann überprüft werden, indem man die Daten D vor der Modellierung in eine Trainingsmenge (training set) und eine Testmenge (test set) aufteilt, beispielsweise im Verhältnis 2:1. Die Modellierung erfolgt anhand der Trainingsdaten, während die Testmenge zur Überprüfung dient. Dabei kann etwa der Anteil der richtigen Zuordnungen innerhalb der Testmenge als Maÿ für die Anpassungsgüte dienen. Eine weitere Möglichkeit der Validation ist nach Han und Kamber [17, S.370 f.] die Kreuzvalidierung (cross-validation), die vor allem dann sinnvoll ist, wenn der Datensatz für eine Aufteilung in Test- und Trainingsdaten zu klein ist. Denition 3.2: Bei einer k-fachen Kreuzvalidierung wird der Datensatz D zufällig in k diskjunkte, etwa gleich groÿe Teilmengen D 1, D 2,..., D k partitioniert. Ein Data- 15

21 3 Elementare Verfahren Mining-Verfahren wird k-mal auf Trainingsdaten D\D i angewandt, wobei die Teilmenge D i als Testmenge dient, i = 1,..., k. Beispielsweise bilden im ersten Durchlauf D 2,..., D k zusammen die Trainingsmenge, während auf D 1 getestet wird. Somit wird hier im Gegensatz zu den Ensemble-Methoden aus Abschnitt 5.1 jede Instanz gleich häug benutzt. Im Fall der Klassikation dient als Maÿ für die Anpassungsgüte die Gesamtzahl an richtigen Klassikationen aus den k Iterationen, geteilt durch die Gesamtzahl an Instanzen n. Ist die Zielvariable stetig, wird der Gesamtfehler ebenfalls als Durchschnitt der einzelnen Verlustfunktionen berechnet. Ein Spezialfall der Kreuzvalidierung ist die Leave-One-Out-Kreuzvalidierung. Hierunter versteht man eine k-fache Kreuzvalidierung mit k = n, in jedem Durchlauf wird also lediglich eine Instanz aus der Gesamtmenge ausgelassen und zum Testen benutzt. Bei stratizierter Kreuzvalidierung wird der Datensatz D so in Teilmengen aufgeteilt, dass die Instanzen einer Teilmenge derselben Klassenverteilung folgen wie die Gesamtdaten. Im Allgemeinen wird aufgrund seiner geringen Verzerrung und Varianz eine stratizierte 10-fache Kreuzvalidierung empfohlen, um die Qualität eines Verfahrens zu messen. Ein Beispiel für die überwachte Klassikation aus Kamath [20, S.184] ist die Einteilung von Galaxien anhand des Merkmals doppelt gebogen, Y i = 1, oder nicht doppelt gebogen, Y i = 0. Jede Galaxie wird durch eine Instanz X i beschrieben, welche die jeweiligen Attributswerte sowie die Zielvariable Y i enthält. Mit Hilfe der vorhandenen Daten wird beispielsweise ein Entscheidungsbaum (siehe Abschnitt 3.2) erzeugt, der eine neu entdeckte Galaxie mittels ihrer Attributswerte in eine der beiden Klassen einstufen kann. 3.1 Naive-Bayes Naive-Bayes ist einer der ältesten formalen Klassikationsalgorithmen und doch kommt er nach Wu et al. [33] weiterhin häug zum Einsatz, vor allem bei der Klassikation von Texten und dem Herausltern von Spam Mails. Der Gründe dafür sind seine Einfachheit und gleichzeitig gute Leistungsfähigkeit. Im Data-Mining geht es oft darum, nicht die perfekte Lösung zu nden, sondern eine vergleichsweise Gute in angemessener Zeit. Dieses Bedürfnis kann die Naive-Bayes-Klassikation befriedigen. 16

22 3 Elementare Verfahren Satz 3.3 (Satz von Bayes). Seien A und B zwei Ereignisse mit A-priori-Wahrscheinlichkeiten P (A) und P (B) > 0 und P (B A) die Wahrscheinlichkeit für Ereignis B unter der Bedingung, dass A bereits eingetreten ist. Dann gilt P (A B) = P (B A)P (A). P (B) Sei analog zu Han und Kamber [17, S.350.] P (X i ) die Wahrscheinlichkeit der Instanz X i = (x i1, x i2,..., x im ), im Datensatz aufzutreten, und für k {1,..., K} H k : X i C k die Hypothese, dass die Instanz X i der Klasse C k angehört. Man möchte nun die A- posteriori-wahrscheinlichkeit P (H k X i ) bestimmen, dass die Hypothese H k für eine gegebene Instanz zutrit. Mit dem Satz von Bayes gilt P (H k X i ) = P (X i H k )P (H k ). (3.1) P (X i ) Der Naive-Bayes-Klassizierer schätzt die Zielvariable Y i, indem er diese A-posteriori- Wahrscheinlichkeiten P (H k X i ) über alle k maximiert. Bezeichnet arg max k f(k) := {k K f(k) maximal} das Argument des Maximum, so wird eine Instanz der Klasse C k, zugeordnet, für die k := arg max P (H k X i ) (3.2) k gilt. Das Argument des Minimum ist analog deniert. Die A-priori-Wahrscheinlichkeiten P (H k ) werden entweder als gleich wahrscheinlich angenommen oder durch k D /n geschätzt mit k D := n i=1 I(X i C k ) als Anzahl der Instanzen der Klasse C k in D. Dabei ist für eine Hypothese H 1, falls H wahr, I(H) := 0, sonst die Indikatorfunktion. Da zudem P (X i ) für alle Klassen konstant ist, gelingt die Schätzung der Zielvariablen statt aus (3.2) mit (3.1) durch ŷ i = arg max P (X i H k )P (H k ). k K 17

23 3 Elementare Verfahren Um den anderweitig immensen Rechenaufwand zu verringern, trit man hierfür die naive Annahme der bedingten Unabhängigkeit (class conditional independence): P (X i H k ) = m P (x ij H k ) (3.3) j=1 = P (x i1 H k ) P (x i2 H k )... P (x im H k ). Hiervon leitet sich der Name Naive-Bayes ab. Die Wahrscheinlichkeiten P (x ij H k ) können analog zu P (H k ) aus dem Datensatz D geschätzt werden. Liegt ein diskretes Attribut A j vor, so ist n i P (x ij H k ) = =1 I(x i j = x ij X i C k ) (3.4) k D die Wahrscheinlichkeit, dass die Instanz X i den Attributswert x ij enthält, falls sie der Klasse C k angehört. Ist A j hingegen stetig, so kann laut Hastie et al. [19, S.211] ein eindimensionaler Kerndichteschätzer verwendet werden. Alternativ ist nach Han und Kamber [17, S.352 f.] unter bestimmten Bedingungen die Annahme einer Normalverteilung N (µ, σ 2 ) möglich, deniert durch die Wahrscheinlichkeitsdichte f(x, µ, σ) = 1 ) ( σ 2π exp (x µ)2, µ, σ R. 2σ 2 Sei µ jk R der Mittelwert und σ jk R die Standardabweichung all derer Werte x i j, i = 1,..., n, im Attribut A j, für die X i C k gilt, so ist P (x ij H k ) = f(x ij, µ jk, σ jk ). Man betrachtet also jeweils die Instanzen einer Klasse C k und nimmt die Attributswerte {x i j, i = 1,..., n Y i = k} als normalverteilt an. Die Annahme der bedingten Unabhängigkeit ist besonders dann angebracht, wenn der Merkmalsraum eine hohe Dimension besitzt oder redundante und hoch korrelierte Attribute im Voraus entfernt wurden. In jedem Fall wird die Schätzung stark vereinfacht. Die Klassikation kann leicht auf sehr groÿe Datensätze angewandt werden, ist auch für unerfahrene Benutzer einfach zu interpretieren und arbeitet schnell und robust. Die Leistung des Naive-Bayes-Klassizierers ist laut Han und Kamber [17, S.353 f.] vergleichbar mit der von Entscheidungsbäumen (Abschnitt 3.2) und ausgewählten neuronalen Netzen (Abschnitt 5.2). Die Bayesrate B(D) := 1 n n i=1 I(ŷ i Y i ), also der Klassikationsfehler bei Bestimmung von ŷ i durch Naive-Bayes, ist theoretisch der minimale Fehler unter allen Verfahren. Dies kann in der 18

24 3 Elementare Verfahren Praxis jedoch nicht immer bestätigt werden. Eine Schwachstelle des Naive-Bayes-Verfahrens sind Wahrscheinlichkeiten, die den Wert Null annehmen, P (x ij H k ) = 0 für ein k K, 1 i n und 1 j m. Im Fall eines diskreten Attributs A j gilt dies nach Gleichung (3.4), falls I(x i j = x ij X i C k ) = 0 für alle i = 1,..., n. Von allen Instanz X i, die im Attribut A j den gleichen Wert annehmen wie X i, gehört also keine der Klasse C k an. Mit der bedingten Unabhängigkeit (3.3) folgt P (X i H k ) = 0, der Einuss aller anderen A-posteriori-Wahrscheinlichkeiten P (x ij H k ), j j, wird somit egalisiert. Die Instanz kann nicht C k zugeordnet werden, obwohl dies der wahren Klasse entspricht und alle anderen Attributswerte x ij darauf hindeuten, beispielsweise P (x ij H k ) > 0.9 für alle j j. Dieses Problem kann durch Verwendung des Laplace-Schätzers behoben werden. Dabei wird zu jedem Zähler aus (3.4) eine kleine Konstante addiert, was aufgrund der Gröÿe des Datensatzes einen insgesamt vernachlässigbaren Einuss auf die geschätzten Wahrscheinlichkeiten hat. Um die einzelnen Verfahren noch etwas genauer betrachten zu können, werden sie mit dem Programm RapidMiner von Mierswa et al. [22] auf einen Datensatz angewandt. Hierbei handelt es sich um ein frei erhältliches Data-Mining-System, dessen Operatoren in standardisiertem XML geschrieben sind. Es ist somit sowohl in der Lage, fremde Operatoren zu integrieren, als auch selbst zur Integration in andere Produkte geeignet. RapidMiner stellt mehr als 500 Operatoren für alle Schritte des Data-Mining-Prozesses (siehe Abschnitt 2.3) und eine graphische Benutzeroberäche bereit, in welcher die Operatoren angeordnet und nahezu beliebig verschachtelt werden können. Vor allem aber ist RapidMiner weltweit das beliebsteste Open-Source-System für Data-Mining. Beispiel 3.4: Eine Arbeitsgruppe des Instituts für Medizinische Biometrie, Epidemiologie und Informatik der Universität Mainz, des Deutschen Kinderkrebsregisters und des Krebsregisters Rheinland-Pfalz führte eine Evaluation des Krebsregisters NRW durch [W5]. Schwerpunkt der Evaluation war die Bewertung der Duplikaterkennung im Krebsregister NRW. Da für eine krebskranke Person mehrere Meldungen im Krebsregister eingehen, kann es zu Mehrfacheinträgen kommen, welche erkannt und bereinigt werden müssen. Im RapidMiner können die Krebsregisterdaten durch Naive-Bayes anhand des Merkmals Duplikat oder kein Duplikat klassiziert werden. Dazu werden die Daten zunächst im.csv- Format eingelesen und an einen Validierungsblock weitergegeben (siehe Abbildung 3.2a). Innerhalb des Validierungsblocks ndet eine Aufteilung der Daten statt, wobei der Naive- Bayes-Algorithmus 70% als Trainingsdaten zur Modellierung nutzt. In Abbildung 3.2b wird das erstellte Modell anschlieÿend auf die Testdaten angewandt und der Klassikationsfehler 19

25 3 Elementare Verfahren (a) Der gesamte Prozess (b) Die Validation Abbildung 3.2: Naive-Bayes-Klassizierung mit RapidMiner erhoben. Zuletzt gibt der Validierungsblock das Modell (mod), den Datensatz (tra) und den Leistungsindex (ave) aus. Abbildung 3.3 stellt die Ergebnisse der Naive-Bayes-Klassizierung dar. Es wurden verschiedene Verteilungsfunktionen erzeugt, die auch graphisch präsentiert werden können. In Abbildung 3.3a sind die Dichtefunktionen für das Attribut gemeinsame Postleitzahl zu sehen. Der Datenauszug zeigt, dass n = Instanzen mit m = 11 Attributen und einer zweiklassigen Zielvariablen erhoben wurden, wobei is_match=true bedeutet, dass ein Duplikat vorliegt. Die Attribute id_1 und id_2 bezeichnen die interne Kennung einer Person, deren zugehörige Daten auf Gleichheit überprüft werden. Dies geschieht mittels der restlichen Attribute, die für beide Kennungen den Vor- und Nachnamen sowie das Geschlecht, den Geburtstag 20

26 3 Elementare Verfahren und Wohnort vergleichen. Abschlieÿend wird ein Klassikationsfehler von 0% ausgegeben, die Naive-Bayes-Klassizierung arbeitet in diesem Fall also auÿerordentlich gut. (a) Verteilung der Daten (b) Auszug aus den Krebsregisterdaten (c) Klassikationsfehler Abbildung 3.3: Ergebnis der Naive-Bayes-Klassizierung 21

27 3.2 Entscheidungsbäume 3 Elementare Verfahren Zu den einfachsten und gleichzeitig beliebtesten Data-Mining-Algorithmen zählen laut Han und Kamber [17, S.331] neben Naive-Bayes die Entscheidungsbäume, da sie genau sind, einfach implementiert werden können und somit schnell sind. Sie erzeugen ein Modell, das für den Menschen einfach zu interpretieren ist, und besitzen eine eingebaute Dimensionsreduktion. Sie können deshalb auch gut mit hochdimensionalen Daten umgehen. Man kann nach Simovici und Djeraba [28, S.86.] einen Entscheidungsbaum zunächst im Sinne der Graphentheorie beschreiben. Unter einem Graph versteht man eine Menge von Objekten und die zwischen den Objekten bestehenden Verbindungen, die durch Linien repräsentiert werden. Haben diese Linien zudem eine Richtung, so handelt es sich um einen gerichteten Graphen und die Linien können durch Pfeile dargestellt werden. Denition 3.5: Ein (gerichteter) Graph ist ein Tupel G = (V, E) mit einer Menge von Knoten V und einer Menge von (gerichteten) Kanten E V V. Gerichtete Kanten sind Tupel (v, v ) mit v v, wobei v den Anfang der Kante darstellt und v das Ende. Ist der Graph ungerichtet, werden die Kanten als Mengen {v, v } dargestellt. Die Knoten eines Graphen können entlang seiner Kanten durchlaufen werden, wobei dies in einem gerichteten Graphen nur in eine Richtung möglich ist. Denition 3.6: Sei G ein Graph. Ein Weg in G ist eine Folge von Knoten w = (v 0, v 1, v 2,..., v n ), so dass die Kanten {v i, v i+1 } oder (v i, v i+1 ) für alle i in E enthalten sind, 0 i n 1. Die Länge von w ist n. Denition 3.7: Sei G ein Graph. Falls alle Knoten eines Weges w verschieden sind, so bezeichnet man w als Pfad, andernfalls als Zyklus. Ein Graph ohne Zyklen heiÿt azyklisch. Gibt es zwischen je zwei Knoten in G (mindestens) einen Pfad, so heiÿt der Graph zusammenhängend. Denition 3.8: Ein Baum T = (G, r) besteht aus einem Graph G = (V, E), der sowohl azyklisch als auch zusammenhängend ist, und einem Knoten r, der Wurzel heiÿt. 22

28 3 Elementare Verfahren Ein Baum kann sowohl ungerichtete als auch gerichtete Kanten besitzen. Nach Spreckelsen und Spitzer [29, S.121] ist ein gerichteter Baum wie folgt deniert. Denition 3.9: Ein gerichteter Baum T = (G, r) ist ein gerichteter Graph G = (V, E) mit Wurzel r, in dem es für jeden Knoten v r genau einen Pfad w = (r,..., v) gibt. Um einen Entscheidungsbaum denieren zu können, benötigt man schlieÿlich noch den Begri des Blatts. Denition 3.10: Ein Knoten l eines gerichteten Baumes T heiÿt Blatt, wenn keine Kante von ihm wegzeigt, (l, v) / E für alle v V. Abbildung 3.4 veranschaulicht die obigen Denitionen. Der Graph 3.4a besitzt ungerichtete Kanten, ist zyklisch und nicht zusammenhängend. Graph 3.4b besteht aus gerichteten Kanten, einem Zyklus in (A, B, C, A) und ist zusammenhängend. Abbildung 3.4c stellt einen gerichteten Baum T = (G, r) mit der Menge an Knoten und der Menge an gerichteten Kanten V = {A, B, C, D, E, F, G, H} E = {(A, B), (A, D), (A, E), (B, C), (B, G), (E, F ), (E, H)} (a) Ungerichteter Graph (b) Gerichteter Graph (c) (Entscheidungs-) Baum Abbildung 3.4: Graphen 23

29 3 Elementare Verfahren dar. Die Wurzel ist A, die Blätter sind C, G, D, F und H. Man kann zeigen, dass die beiden Denitionen eines Baumes, 3.8 und 3.9, äquivalent sind. Satz Sei T = (G, r) ein Baum mit Wurzel r. Die folgenden Aussagen sind äquivalent: 1. G ist zusammenhängend und azyklisch. 2. Je zwei Knoten v, v V, v v, sind durch genau einen Pfad verbunden. 3. Für jedes v V, v r, existiert genau ein Pfad (r,..., v). Beweis. (i) (ii): Sei G zusammenhängend und azyklisch und v, v zwei beliebige Knoten in V mit v v. Falls w und p zwei verschiedene Pfade sind, die v und v verbinden, so ist wp ein Zyklus in G, was der Azyklität widerspricht. Existiert kein Pfad zwischen v und v, so ist G nach Denition nicht zusammenhängend. Somit folgt (ii). (ii) (iii): Folgt sofort mit r V. (iii) (i): Sei T = (G, r) ein Baum und jeder Knoten v V, v r durch genau einen Pfad mit der Wurzel r verbunden. Angenommen G wäre nicht zusammenhängend, dann würden nach Denition 3.7 zwei Knoten in V existieren, die nicht durch einen Pfad verbunden sind. Dies steht jedoch im Widerspruch dazu, dass über r alle Knoten miteinander verbunden sind. Falls G nicht azyklisch ist, also einen Zyklus z = (v,..., v, v) enthält, so existieren zwei Pfade von v nach v, z 1 = (v,..., v ) und z 2 = (v, v ). Dies steht im Widerspruch zur Vorraussetzung. Somit folgt (i). Somit sind die Denitionen 3.8 und 3.9 äquivalent. Die Länge eines Pfades (r,..., v) bezeichnet man nach Simovici und Djeraba [28, S.95 f.] als Höhe h(v) und die Höhe des Baums T kann durch h(t ) := max v h(v) bestimmt werden. Um dies anschaulich zu machen, zeichnet man Bäume generell mit der Wurzel nach oben. In einem gerichteten Graphen wird v oberhalb von v gesetzt, falls (v, v ) eine Kante ist mit h(v) = h(v ) 1. Man nennt dann v den Vorgänger von v und v den Nachfolger von v. Man kann zudem Knoten in sogenannte Level L i einordnen mit L i := {v V h(v) = i}. In einem Baum T der Höhe H existieren H + 1 Level, da r L 0. Denition 3.12: Ein Binärbaum ist ein Baum T = (G, r), bei dem jeder Knoten maximal zwei direkte Nachfolger hat. In einem Binärbaum enthält ein Level L i maximal 2 i Knoten. Wird diese Zahl erreicht, bezeichnet man das Level als vollständig. Ein Binärbaum der Höhe H hat also maximal 2 H+1 1 Knoten. Binäre Entscheidungsbäume können mit Hilfe des Gini Index aus 24

30 3 Elementare Verfahren Denition 3.18 erstellt werden. Unter einem Entscheidungsbaum versteht man nach Spreckelsen und Spitzer [29, S.121] einen gerichteten Baum, dessen Knoten symbolisch für abzufragende Entscheidungskriterien stehen. Ein Entscheidungskriterium kann ein Attribut oder eine Kombination von Attributen sein, beispielsweise das Aussehen der Bindehaut. Die Kanten eines Entscheidungsbaumes symbolisieren die Alternativen, die zu einem Kriterium gehören, also Mengen von Attributswerten, wie normal, leicht gerötet, stark gerötet. Die Blätter eines Entscheidungsbaumes stehen für Entscheidungsergebnisse, wie Der Patient hat eine Bindehautentzündung. Möchte man nach Erstellung des Entscheidungsbaumes eine Instanz X i klassizieren, beginnt man bei der Wurzel und testet die Instanz nach dem ersten Kriterium A j, beispielsweise x ij < 1, x ij = 1 oder x ij > 1. Je nach Ergebnis wird sie an einen der Nachfolger von r weitergegeben, dort wiederum auf einem Entscheidungskriterium untersucht und weitergegeben. Dies wird so lange fortgeführt, bis die Instanz in einem Blatt angekommen ist und dort ein Klassenlabel ŷ i erhält. Der Weg, den die Instanz bis hierhin genommen hat, ist ein Pfad im Sinn von Denition 3.7. Die Erstellung eines Entscheidungsbaumes wird im nächsten Abschnitt genauer besprochen. Entscheidungsbäume wurden laut Han und Kamber [17, S.331] auf vielen Gebieten angewandt, wie etwa in der Medizin, Produktion, Finanzanalyse, Astronomie und Molekularbiologie. Von besonderem Interesse sind Bäume als Graphen in Gebieten wie Web- und Textmining sowie der Bioinformatik, da dort die Daten häug in Baumform vorliegen [28, S.92]. Graphentheorie wird im Data-Mining auch in der Clusteranalyse (Abschnitt 4.3) in Form von Dendogrammen zur Veranschaulichung hierarchischer Cluster verwendet, sowie zur Darstellung von neuronalen Netzen (Abschnitt 5.2) und der Hyperlinkstruktur des Internets (Abschnitt 5.3.2) Splitting Entscheidungsbäume zählen zu den überwachten Methoden, es existiert also eine Zielvariable Y i. Bei der Induktion von Entscheidungsbäumen kommt in der Regel ein gieriger Algorithmus zum Einsatz. Hierbei handelt es sich um Algorithmen wie das Gradientenverfahren aus Abschnitt 5.2.2, die schrittweise den Folgezustand auswählen, der zum momentanen Zeitpunkt den gröÿten Gewinn verspricht. Gierige Algorithmen nden zwar meist nicht die optimale Lösung, arbeiten dafür aber schnell. Die beiden Hauptfragen bei der Erstellung eines Entscheidungsbaumes sind die Auswahl eines geeigneten Attributs als Entscheidungskriterium und die Endgröÿe des Baumes, siehe Abschnitt

31 3 Elementare Verfahren Üblicherweise wird die Güte eines Entscheidungbaumes durch eine Aufteilung in Trainings- und Testdaten ermittelt. Dazu betrachtet man einen Knoten als eine Teilmenge v X der Trainingsdaten, wobei für die Wurzel r = X gilt. Um in einem Knoten v die enthaltenen Trainingsdaten X i v auf Tochterknoten aufzuteilen, wählt man nach Han und Kamber [17, S.336.] aus den Attributen A 1, A 2,..., A m als Entscheidungskriterium dasjenige aus, welches die Instanzen in möglichst reine, also gleichklassige Untermengen trennt. Diese Untermengen bilden die Nachfolger von v. Sie werden so lange nach dem gleichen Prinzip geteilt, bis die Knoten lediglich Instanzen einer Klasse enthalten oder ein anderes Kriterium die weitere Teilung verhindert. Beispielsweise wird generell festgelegt, wieviele Instanzen ein Knoten minimal enthalten muss. Für das automatische Auswählen des Teilungsattributs existieren mehrere mögliche Techniken, drei populäre Methoden sind die Folgenden Der Informationsgewinn Der Informationsgewinn (information gain) basiert auf der Informationstheorie nach Shannon und Weaver [H30], die sich mit dem Wert oder Informationsgehalt von Nachrichten beschäftigt. Ziel ist es, im Knoten v das Attribut zu nden, mit Hilfe dessen man bei einer Teilung den maximalen Informationsgewinn erhält. Denition 3.13: Die Entropie oder Information einer Menge v ist deniert als Info (v) := K p k log 2 (p k ). k=1 Hierbei stellt p k die Wahrscheinlichkeit dar, dass eine beliebige Instanz X i v der Klasse C k angehört, und kann wie in Abschnitt 3.1 durch k v / v aus den Daten geschätzt werden mit k v := n i=1 I(X i v X i C k ). Man benutzt die logarithmische Funktion zur Basis 2, da Information in bits kodiert ist. Angenommen, man möchte die Instanzen in v mit Hilfe eines diskret-wertigen Attributs A j = {a 1, a 2,..., a w } aufteilen. Es können maximal w disjunkte Untermengen von v gebildet werden, v z := {X i v x ij = a z }, z = 1,..., w, die den direkten Nachfolgern von v entsprechen. 26

32 3 Elementare Verfahren Denition 3.14: Sei v eine Menge von Instanzen, Info (v) die zugehörige Information und A j ein Attribut, so ist die bedingte Entropie des Attributs A j deniert als Info Aj (v) := w z=1 v z v Info (v z). Der Term v z / v agiert als Gewicht der z-ten Teilmenge nach Aufteilung auf dem Attribut A j. Je kleiner die bedingte Entropie ist, desto gröÿer ist die Reinheit der Teilmenge. Denition 3.15: Seien die Information und die bedingte Entropie eines Attributs A j auf der Menge v gegeben, so ist der Informationsgewinn deniert als die Dierenz zwischen der Entropie des Elternknotens und der bedingten Entropie der Kindknoten, Gain (A j ) := Info (v) Info Aj (v). Das Attribut A j mit dem höchsten Informationsgewinn wird als Teilungsattribut im Knoten v gewählt, es gilt arg max j Gain (A j ) = arg min j Info Aj (v). Falls das Attribut A j stetig ist, können statt der Attributswerte a z die Mittelpunkte P z zwischen benachbarten Werten als mögliche Teilungspunkte betrachtet werden. Man erhält dann mit einer festgesetzten Zahl w Teilmengen der Form v z := {X i v P z 1 < x ij P z }, z = 1,..., w Der Gewinnquotient Da der Informationsgewinn Attribute mit einer groÿen Wertemenge bevorzugt, wurde als Erweiterung der Gewinnquotient (gain ratio) eingeführt. Dazu wird eine Art Normalisierung in Form einer Teilungsinformation (split information) auf den Informationsgewinn angewandt. Sie ist empndlich dafür, wie breit und uniform das Attribut die Trainingsdaten teilt. Denition 3.16: Die Teilungsinformation einer Menge ist die potentielle Information, die durch die Teilung der Menge v in w disjunkte Teilmengen erzeugt wird, SplitInfo Aj (v) := w z=1 v z v log 2 ( ) vz. v 27

33 3 Elementare Verfahren Denition 3.17: Der Gewinnquotient ist deniert als GainRatio (A j ) := Gain (A j) SplitInfo Aj (v). Das Attribut mit dem maximalen Gewinnquotient wird als Teilungsattribut ausgewählt. Der Quotient wird jedoch instabil, wenn die Teilungsinformation sehr klein wird. Dies kann verhindert werden, indem man für das ausgewählte Attribut Gain (A j ) = max Gain (A j ), j = 1,..., m j fordert. Zudem bevorzugt der Gewinnquotient Teilungen, bei denen die entstehenden Nachfolgeknoten sehr unterschiedliche Gröÿe haben. Der Gewinnquotient kommt in dem Entscheidungsbaum-Verfahren C4.5 aus Abschnitt zum Einsatz Der Gini-Index Ein weiteres Kriterium zur Teilung von Mengen v ist der Gini-Index. Im Gegensatz zu den beiden bisherigen Kriterien ermöglicht er jedoch lediglich binäre Teilungen. Denition 3.18: Der Gini-Index misst die Unreinheit einer Menge v als Gini (v) := 1 K p 2 k. Hierbei stellt p k wieder die Wahrscheinlichkeit dar, dass eine Instanz aus v der Klasse C k angehört, und kann durch k v / v aus den Daten geschätzt werden. Sei ein diskretwertiges Attribut A j = {a 1, a 2,..., a w } gegeben. Um die beste Binärteilung auf A j zu nden, untersucht man alle 2 w möglichen Teilmengen T Aj A j. Je zwei mögliche disjunkte Nachfolger von v sind dann deniert als v 1 := {X i v x ij T Aj } und v 2 := {X i v x ij / T Aj }. Ist das Attribut hingegen stetig, so untersucht man analog zum Informationsgewinn alle möglichen Teilungspunkte P. In diesem Fall sind die Untermengen deniert als v 1 := {X i v x ij P } und v 2 := {X i v x ij > P }. Denition 3.19: Der bedingte Gini-Index von v auf einem Attribut A j ist gegeben durch Gini Aj (v) := v 1 v Gini (v 1) + v 2 v Gini (v 2). k=1 28

34 3 Elementare Verfahren Um das optimale Teilungskriterium zu bestimmen, minimiert man den Gini-Index für diskrete Attribute über alle möglichen Teilmengen, und für stetige Attribute über alle Teilungspunkte. Denition 3.20: Die Verringerung der Unreinheit, die durch eine Binärteilung auf A j verursacht wird, ist Gini (A j ) = Gini (v) Gini Aj (v). Das Attribut mit A j = arg max j Gini (A j ) = arg min j Gini Aj (v) wird als Teilungsattribut ausgewählt. Der Gini-Index ist verzerrt hinsichtlich vielwertiger Attribute und hat Schwierigkeiten, wenn die Anzahl der Klassen groÿ ist. Er tendiert auÿerdem dazu, Tests zu bevorzugen, die in gleichgroÿen Partitionen mit gleichgroÿer Reinheit in beiden Partitionen resultieren. Der Gini-Index wird im Entscheidungsbaum-Algorithmus CART aus Abschnitt als Teilungskriterium verwendet, dieser kann also nur binäre Entscheidungsbäume erstellen. Trotz ihrer Verzerrungen liefern die drei genannten Maÿe nach Han und Kamber [17, S.343 f.] in der Praxis gute Ergebnisse. Es existieren weitere Teilungskriterien, die beispielsweise auf dem χ 2 -Test auf Unabhängigkeit oder der minimalen Beschreibungslänge (minimum description length, MDL) basieren. Zudem gibt es Teilungskriterien, die multivariate Teilungen vornehmen können und somit eher breite Bäume erstellen. CART beispielsweise kann auch Linearkombinationen von Attributen verwenden. Die dadurch erzeugten Entscheidungsbäume sind jedoch schwerer zu interpretieren und rechenintensiver. Es wurde gezeigt, dass die Zeitkomplexität eines Entscheidungsbaumes generell exponentiell mit der Höhe des Baumes ansteigt, weshalb Teilungskriterien, die breite Bäume erzeugen, vielleicht zu bevorzugen sind. Einige Studien belegen jedoch, dass breite Bäume dazu tendieren, viele Blätter zu haben und höhere Fehlerraten. Trotz mehrerer vergleichender Studien konnte nicht gezeigt werden, dass ein Maÿ existiert, das in allen Fällen allen anderen signikant überlegen ist Pruning Neben dem Teilungskriterium muss noch ein weiteres Problem betrachtet werden. Lässt man den Baum bis zur vollständig korrekten Klassikation wachsen, ist das Modell nach Han und Kamber [17, S.344 f.] wahrscheinlich zu gut an die Trainingsdaten und ihre Verzerrungen angepasst und kann mit neuen Daten weniger gut umgehen. Um dies zu 29

35 3 Elementare Verfahren verhindern, kann man den Baum zurückschneiden, was auch als Pruning bekannt ist. Dabei wird der Baum entweder nicht voll erstellt oder wieder verkleinert, man unterscheidet zwischen Prepruning und Postpruning. Bei ersterem wird die weitere Teilung von Knoten durch ein Haltekriterium, wie die bereits besprochenen Teilungskriterien, verhindert. Sobald der Wert des Teilungskriteriums eine vorher festgelegte Schranke unterschreitet, endet der Teilungsalgorithmus an dieser Stelle und der betroene Knoten wird zum Blatt. Die Wahl eines Grenzwertes ist jedoch problematisch, da ein zu hoher Wert einen zu stark vereinfachten Baum entstehen lassen kann, während ein zu geringer Wert zu wenig Vereinfachung zur Folge hat. Deshalb verwendet man in der Regel das Postpruning, bei dem der Baum zunächst seine volle Gröÿe entfaltet und anschlieÿend zurückgeschnitten wird. Postpruning ist zwar rechenintensiver, verhindert aber auch, dass durch zu frühes Anhalten nachfolgende gute Teilungen nicht zustande kommen. Das Zurückschneiden eines Baumes erhöht dessen Fehlerrate auf den Trainingsdaten, steigert aber auf der anderen Seite die Leistungsfähigkeit auf unbekannten Instanzen. Zudem sind zurückgeschnittene Entscheidungsbäume kleiner und weniger komplex und somit einfacher zu verstehen. Ein Kriterium für Postpruning ist nach Hastie et al. [19, S.308] das von Breiman et al. für CART entwickelte Kosten-Komplexitäts-Pruning. Denition 3.21: Sei T 0 der gesamte Entscheidungsbaum und T T 0 ein Unterbaum, der durch Zurückschneiden erhalten wurde. Seien v 1,..., v E(T ) die Blätter von T und R ve ein Maÿ für Knotenreinheit. Das Kosten-Komplexitäts-Kriterium ist dann deniert als C α (T ) = E(T ) e=1 v e R ve + α E(T ). Im Fall der Regression wird der quadratische Fehler als Knotenreinheitsmaÿ verwendet, R ve = 1 v e X i v e ( Y i 1 v e X i v e Y i mit α = 0, 1,... und dem Mittelwert der stetigen Zielvariable Y i im Knoten v e als Schätzer für Y i. Handelt es sich bei Y i hingegen um eine diskrete Zielvariable, kommen mehrere Reinheitsmaÿe wie der oben genannte Gini-Index oder die Entropie in Frage. Eine weitere Möglichkeit ist der Klassikationsfehler ε(v e ) := 1 n v e i=1 I(X i v e ŷ i Y i ), wobei ŷ i durch den entsprechenden Entscheidungsbaum T bestimmt wurde. ) 2 30

36 3 Elementare Verfahren Um den besten zurückgeschnittenen Baum zu erhalten, sucht man zunächst den besten Baum T α für jedes α, also den Baum, der C α (T ) minimiert. Der Anpassungsparameter α reguliert die Baumgröÿe und wird schrittweise α = 0, 1, 2,... erhöht. Für groÿe α werden kleine Bäume bis hin zum Baumstumpf für ein maximales α ausgewählt, für α = 0 erhält man hingegen den gesamten Baum T 0 als besten Baum. Man kann laut Hastie et al. [19, S.308] zeigen, dass es für jedes α einen eindeutigen kleinsten Unterbaum T α gibt, der C α (T ) minimiert. Um T α zu nden, verwendet man das Weakest-Link-Pruning, bei dem sukzessive derjenige (innere) Knoten durch ein Blatt ersetzt wird, der den kleinsten Anstieg von e v e R ve verursacht, bis man beim Baumstumpf ankommt. Dadurch entsteht eine Folge von Unterbäumen, die T α enthalten muss, siehe [H2] oder [27] für Einzelheiten. Fünf- oder zehnfache Kreuzvalidierung (vgl. Denition 3.2) führt schlieÿlich zum besten α; man wählt dasjenige ˆα, welches die kreuzvalidierte Quadratsumme minimiert. Der Endbaum ist dann Tˆα. Eine weitere Gruppe von Postpruning-Kriterien fasst man nach Han und Kamber [17, S.345] unter dem Namen pessimistisches Pruning zusammen. Es wird im C4.5- Algorithmus des nächsten Abschnitts verwendet. Ebenso wie beim Kosten-Komplexitäts- Kriterium werden Fehlerratenschätzungen benutzt, jedoch nicht auf einer Menge von zurückgeschnittenen Bäumen, sondern den Trainingsdaten. Statt der Fehlerratenschätzung können Entscheidungsbäume auch auf Grundlage der bit-anzahl zurückgeschnitten werden wie beim MDL-Prinzip, das bereits in Abschnitt erwähnt wurde. Dabei wird die einfachste Lösung bevorzugt und es ist keine unabhängige Menge von Instanzen nötig im Gegensatz zum Cost-Complexity-Kriterium. Alternativ können Prepruning und Postpruning auch kombiniert werden. Abschlieÿend lässt sich feststellen, dass bisher keine Pruningmethode gefunden wurde, die allen anderen überlegen ist C4.5 Um 1980 entwickelte Quinlan den Entscheidungsbaum-Algorithmus ID3 (Iterative Dichotomiser 3 ), der wie seine Nachfolger C4.5 und See5/C5.0 auch zur Extraktion von Regeln aus dem Entscheidungsbaum in der Lage ist. Das Verfahren C4.5 ist neben CART aus Abschnitt der populärste Entscheidungsbaum-Algorithmus. Es erstellt laut Wu et al. [33] rekursiv einen Entscheidungsbaum nach dem Top-Down-Prinzip, beginnt also allgemein mit dem gesamten Datensatz D und unterteilt diesen dann immer weiter nach dem folgenden Muster: 31

37 3 Elementare Verfahren 1. Falls alle Instanzen X i aus dem Datensatz D der gleichen Klasse angehören oder D klein ist, ist der Baum ein Blatt, das als Klassenlabel ŷ i die häugste Klasse in D erhält, ŷ i = k := arg max k K n I(X i C k ), i = 1,..., n. i=1 2. Andernfalls werden zwei oder mehr Teilmengen der Werte eines diskreten oder stetigen Attributs A j als Ergebnisse eines Entscheidungskriteriums ausgewählt. Anhand dieser Teilmengen wird die Wurzel in Tochterknoten v 1, v 2,... aufgeteilt. 3. Die Schritte 1 und 2 werden rekursiv mit jedem Tochterknoten wiederholt. C4.5 kann das Entscheidungskriterium im 2. Schritt mittels zweier Möglichkeiten bestimmen, dem Informationsgewinn und dem üblicherweise verwendeten Gewinnquotient Tauchen bei der Teilung eines Knoten v fehlende Werte auf, so gibt C4.5 die betroenen Instanzen mit Wahrscheinlichkeiten, die die Aufteilung der Daten in v widerspiegeln, an die Tochterknoten von v weiter. Die Instanz X i wird zuletzt der Klasse zugeordnet, deren Anteil am gröÿten ist. Der erstellte Entscheidungsbaum T wird anschlieÿend zurückgeschnitten, um Überanpassung zu vermeiden. Hierbei wird nach Rothenberg [W12] das fehlerbasierte Pruning verwendet, eine Form des pessimistischen Pruning: 1. Sei v ein Knoten aus T, wobei man mit v = r beginnt. Seien zudem v 1, v 2,..., v w die Tochterknoten von v und v z mit z = arg max z v z hiervon der Mächtigste. 2. Berechne die Klassikationsfehler ε(v) = 1 v n i=1 I(X i v ŷ i Y i ) des Baums mit Wurzel v, ε(v z ) = 1 v z n i=1 I(X i v z ŷ i Y i ) des Baums mit Wurzel v z und ε(v = v e ) := 1 v n i=1 I(X i v ŷ i (e) Y i ), wenn v durch ein Blatt v e ersetzt und ein neues Klassenlabel ŷ i (e) bestimmt wird. 3. Berechne die obere Grenze des Kondenzintervalls ( ε o (V ) := ε(v ) + Φ 1 1 α ) ε(v )(1 ε(v )) 2 V 32

38 3 Elementare Verfahren für V = v, V = v z und V = {v = v e } und Φ 1 (x) als Inverse der Standardnormalverteilung mit dem gewünschten Signikanzniveau α. 4. Betrachte ε o := min{ε o (v), ε o (v z ), ε o (v = v e )} und falls ε o (v) = ε o gilt, wird der momentane Baum nicht verändert. ε o (v z ) = ε o gilt, wird v durch den Baum mit Wurzel v z ersetzt. ε o (v = v e ) = ε o gilt, wird v durch das Blatt v e ersetzt. Beispiel 3.22: Bereits in Abbildung 3.1 wurden die Irisdaten von Fisher [H13] angesprochen. Da es sich hierbei um einen kleinen Datensatz handelt, lassen sich mit seiner Hilfe sehr kleine Entscheidungsbäume veranschaulichen. Ziel ist es, einen Klassizierer zu nden, der die n = 150 Instanzen anhand ihrer m = 4 Attribute, Länge und Breite des Sepalum oder Petalum, klassiziert. Die Zielvariable enthält die Ausprägungen Iris Setosa, Iris Virginica und Iris Versicolor. Im RapidMiner werden die Daten fast identisch zum Naive-Bayes-Verfahren zuerst als Excel- Datei eingelesen und an einen Validierungsblock weitergegeben (siehe Abbildung 3.5a). Innerhalb des Validierungsblocks ndet eine Aufteilung der Daten in Trainings- und Testmenge im Verhältnis 7 : 3 statt. Aus der Trainingsmenge erstellt der Entscheidungsbaum-Algorithmus mit Hilfe des Gewinnquotienten das Modell und gibt dieses, wie in Abbildung 3.5b zu sehen ist, zur Auswertung auf den Testdaten weiter. Zuletzt gibt der Validierungsblock das Modell (mod), den Datensatz (tra) und den Klassikationsfehler (ave) aus. Abbildung 3.5 stellt (a) Der gesamte Prozess Abbildung 3.5: Entscheidungsbaum-Klassizierung mit RapidMiner 33

39 3 Elementare Verfahren die Ergebnisse der Entscheidungsbaum-Klassizierung dar. In Abbildung 3.5c ist der erstellte Entscheidungsbaum mit drei Entscheidungskriterien und vier Blättern zu sehen. Es fällt (b) Die Validation (c) Entscheidungsbaum mit Gewinnquotient Abbildung 3.5: Entscheidungsbaum-Klassizierung mit RapidMiner 34

40 3 Elementare Verfahren auf, dass lediglich zwei Attribute zur Klassikation benutzt werden: die Länge und die Breite des Petalums. Abbildung 3.5e veranschaulicht nochmals, dass das Attribut Petalumlänge eine sehr gute diskriminierende Wirkung hat. Dennoch liegt der Klassikationsfehler nur bei 6.67%, was wohl vor allem auf die geringe Gröÿe des Datensatzes zurückzuführen ist. (d) Auszug aus den Irisdaten (e) Verteilung der Irisdaten nach Petalumlänge (f) Der Klassikationsfehler Abbildung 3.5: Ergebnis der Entscheidungsbaum-Klassizierung 35

41 3 Elementare Verfahren CART Ein zweites beliebtes Entscheidungsbaum-Verfahren wurde 1984 von Breiman et al. in dem Buch Classication and regression trees (CART) veröentlicht. Es handelt sich laut Wu et al. [33] um einen binären, rekursiven Partitionsalgorithmus, der sowohl mit stetigen als auch diskreten Attributen und Zielvariablen umgehen kann. Der Entscheidungsbaum wird zu voller Gröÿe, also ohne Prepruning, entwickelt und anschlieÿend mit Hilfe des Kosten-Komplexitäts-Kriteriums aus Denition 3.21 zurückgeschnitten. Während im fehlerbasierten Pruning von C4.5 die Instanzen X i aus den Trainingsdaten stammen, greift man für das Kosten-Komplexitäts-Kriterium auf unabhängige Testdaten X i oder auf die Kreuzvalidierung zurück, um den optimalen Baum zu bestimmen. Existieren diese beiden Möglichkeiten nicht, so kann im CART der Entscheidungsbaum nicht zurückgeschnitten werden. Wie bereits erwähnt benutzt CART den Gini-Index und somit lediglich binäre Teilungen. Laut Breiman et al. [H2] ist dies zu bevorzugen, da binäre Teilungen den Datensatz langsamer fragmentieren und wiederholte Teilungen auf dem selben Attribut erlaubt sind. Eine schlechtere Interpretierbarkeit des resultierenden Entscheidungsbaumes wird durch eine verbesserte Leistung ausgeglichen. Der Gini-Index wird benutzt, da er schneller berechnet wird als der Informationsgewinn, spätere Versionen von CART stellen jedoch auch dieses Kriterium zur Verfügung. Einer der groÿen Vorteile von CART ist nach Wu et al. [33] der Umgang mit fehlenden Attributswerten x ij. Es besitzt hierfür einen vollautomatischen und hocheektiven Mechanismus, der 50% des Programmcodes ausmacht. Er ermöglicht es CART neue Instanzen zu klassizieren, die fehlende Werte enthalten, da für jeden Knoten ein Ersatz für den entsprechenden Entscheidungstest bestimmt wird. Dies ist unabhängig davon, ob die Trainingsdaten fehlende Werte enthalten oder nicht. Das Verfahren besteht darin, an jedem Knoten v alle nicht verwendeten Teilungsattribute A j, j j, auf ihre Eignung als Ersatztest zu überprüfen und entsprechend ihrer Klassikationsleistung einen Rang zuzuweisen. Ein Attribut A j, j j ist als Ersatztest für A j geeignet, wenn es eine bessere Klassikationsleistung auf dem Knoten v erbringt als das Standardkriterium. Wird der Knoten v in v 1 und v 2 aufgeteilt, so besteht das Standardkriterium darin, alle Instanzen X i v dem gröÿeren Tochterknoten max{ v 1, v 2 } zuzuordnen. Soll eine Instanz mit fehlendem Wert x i j im Knoten v klassiziert werden, so wird zunächst der Ersatztest A j mit dem höchsten Rang herangezogen. Fehlt auch dieser Attributswert x ij, so wird der zweite Ersatztest benutzt usw. Falls alle Werte für Ersatztests fehlen, kommt das Standardkriterium zum Einsatz. 36

42 3 Elementare Verfahren Neben dem guten Umgang mit fehlenden Werten ist ein weiterer Vorteil von CART, dass durch Linearkombination automatisch neue Attribute konstruiert werden können, um damit einen Knoten zu teilen. Auÿerdem ermöglicht es die Konstruktion von Wahrscheinlichkeitsbäumen, die ähnlich wie Entscheidungsbäume klassizieren. In Breiman et al. [H2] wurde gezeigt, dass der erwartete Klassikationsfehler für den gröÿtmöglichen Baum von oben durch die zweifache Bayesrate B(D) begrenzt wird. Beispiel 3.23: Um im RapidMiner einen Entscheidungsbaum zu erstellen, wird bezüglich der Struktur exakt der gleiche Prozess wie in Beispiel 3.22 durchgeführt. Das Teilungskriterium im Entscheidungsbaum-Operator ist nun allerdings der Gini-Index. Abbildung 3.6 stellt das Ergebnis der Entscheidungsbaum-Klassizierung dar: ein Entscheidungsbaum mit zwei Entscheidungskriterien und drei Blättern. Im Vergleich zu dem Entscheidungsbaum aus Abbildung 3.5c wurde ein Knoten durch ein Blatt ersetzt. Auf den Klassikationsfehler hat dies keine Auswirkung, er entspricht mit 6.67% dem Klassikationsfehler des durch C4.5 erstellten Baumes. Abbildung 3.6: Entscheidungsbaum mit Gini-Index 37

43 3.3 Assoziationsanalyse 3 Elementare Verfahren Ein grundlegendes Verfahren zum unüberwachten Auswerten eines Datensatzes ist die Assoziationsanalyse. Ziel ist nicht die Klassikation, sondern eine Beschreibung der Daten mit Hilfe von sogenannten Assoziationsregeln, also nicht-kausalen Zusammenhängen der Form wenn..., dann... zwischen den Attributen. Die gröÿte Herausforderung ist dabei nach Han und Kamber [17, S.247] die groÿe Anzahl an Kombinationen, die aus den Attributen gebildet werden können. Sei A = {A 1, A 2,..., A m } die Attributsmenge, dann erhält man ohne die leere Menge 2 m 1 Teilmengen von A. Bereits für m = 100 ergeben sich dadurch ungefähr 1, Teilmengen, die ein Computer speichern müsste, um sie vergleichen zu können. Verschiedene Algorithmen schaen es, diesen Rechenaufwand zu verringern, und machen so die Assoziationsanalyse möglich. Ein groÿer Vorteil der Assoziationsregeln liegt darin, dass aus einem unbekannten Datensatz kein Attribut ausgewählt werden muss, das sich zur Klassikation eignet. Zudem sind die erstellten Assoziationsregeln einfach und verständlich. Im Gegensatz zu Verfahren des überwachten Lernens existiert in der Assoziationsanalyse jedoch kein direktes Leistungsmaÿ wie der Klassikationsfehler. Da die Validierung der abgeleiteten Schlussfolgerungen also schwierig ist, sollte die Interpretation jeglicher erzeugter Regeln sorgfältig und unter Mitwirkung eines Domänenexperten geschehen Warenkorbanalyse Die Assoziationsanalyse entstammt ursprünglich der Analyse kommerzieller Daten. Speziell im Einzelhandel werden fortlaufend riesige Datensätze mit m 10 4 Attributen und n 10 8 Instanzen gesammelt [19, S.488], wobei die Attribute die Artikel eines Unternehmens und die Instanzen verschiedene Einkäufe oder Transaktionen darstellen. Diese Datensätze sollen benutzt werden, um die Ezienz von Werbung und Verkaufsstrategien zu steigern. Aufgabe der Warenkorbanalyse (market basket analysis) ist es, die Transaktionen zu analysieren und beispielsweise festzustellen, welche Artikel bevorzugt zusammen gekauft werden. Man sucht dazu Regeln der Form {I 1 I 2 } mit I 1 und I 2 als diskjunkte Teilmengen der Attributsmenge A. Die Regel besagt: Wenn ein Kunde die Artikel der Teilmenge I 1 kauft, dann kauft er auch die Artikel aus I 2. Die linke Seite der Regel I 1 bezeichnet man als Prämisse oder antecedent, die rechte Seite I 2 als Konklusion oder consequent. Sei A = {A 1, A 2,..., A m } das angebotene Sortiment und D = X = {X 1, X 2,..., X n } die Menge aller Transaktionen X i = (x i1, x i2,..., x im ) mit binomialen Attributswerten 38

44 3 Elementare Verfahren x ij {0, 1} für alle i, j. Die Beschränkung von x ij ist möglich, da jeder kategoriale Datensatz in Binärform transformiert werden kann. Intuitiv bedeutet x ij = 1, dass der Artikel A j in der Transaktion X i enthalten war, für x ij = 0 war er nicht enthalten. Der Index i {1,..., n} heiÿt auch transaction identier (TID). Die Warenkorbanalyse kann nach Simovici und Djeraba [28, S.274.] über häuge Itemmengen formalisiert werden. Denition 3.24: Sei A = {A 1, A 2,..., A m } und X = {X 1, X 2,..., X n } gegeben. Eine k-elementige geordnete Teilmenge I := {A j1,..., A jk } A mit j 1 <... < j k heiÿt k-itemmenge, k {1,..., m}, und das Mengensystem C k := {I A I = k} ist die Menge aller k-itemmengen. Der Support einer Itemmenge ist gegeben durch sup (I) := 1 n {X i X x ij = 1 A j I}. Der Support von I stellt somit den Anteil von Transaktionen an den gesamten Einkäufen dar, bei dem die Itemmenge I erworben wurde. In der Regel betrachtet man lediglich Itemmengen, die einen vorgegebenen minimalen Support min_sup erfüllen, also häug genug im Datensatz auftreten. Denition 3.25: Eine k-elementige Itemmenge I, die sup (I) > min_sup erfüllt, heiÿt häuge k-itemmenge. F k C k bezeichnet die Menge der häugen k-itemmengen und F die Menge aller häugen Itemmengen, F := m F k. k=1 Denition 3.26: Sei {I 1 I 2 } eine Assoziationsregel mit I 1, I 2 A, I 1 I 2 =. Dann sind der Support und die Kondenz dieser Regel deniert als sup (I 1 I 2 ) := sup (I 1 I 2 ) [0, 1], con (I 1 I 2 ) := sup (I 1 I 2 ) sup (I 1 ) [0, 1]. Der Support einer Regel wird benutzt, um Regeln zu entfernen, die selten auftreten, was auf zufälliges Vorkommen hindeuteten könnte. Die Kondenz einer Regel ist laut Hastie et al. [19, S.490] eine Annäherung an P (I 2 I 1 ) und misst die Glaubwürdigkeit der Folgerung, die durch die Regel getroen wird. Ziel der Assoziationsanalyse ist es, Regeln 39

45 3 Elementare Verfahren zu nden, deren Support und Kondenz vordenierte Werte min_sup und min_conf übersteigen. Beispiel 3.27: Betrachte die Itemmenge I = {Butter, Marmelade, Brot} und die Regel {I 1 I 2 } = {Butter, Marmelade Brot}. Ein Support dieser Regel von 3% bedeutet, dass Butter, Marmelade und Brot in 3 von 100 Fällen gemeinsam gekauft werden. Liegt zudem die Kondenz bei 82%, con (I 1 I 2 ) = 0.82, so ist in 82% der Transaktionen, die Butter und Marmelade enthalten, auch Brot vorhanden Apriori-Algorithmus Der Apriori-Algorithmus von Agrawal und Srikant [1] ist laut Han und Kamber [17, S.248] der grundlegende Algorithmus, um häuge Itemmengen und somit auch Assoziationsregeln zu nden. Der Name basiert darauf, dass das Verfahren bereits vorhandenes Wissen über häuge Itemmengen benutzt. Es werden iterativ die k-itemmengen verwendet, um die (k + 1)-Itemmengen zu bilden, wodurch die Rechenleistung deutlich verringert wird. Eine theoretische Grundlage hierfür ndet sich in Simovici und Djeraba [28, S.275.] Die gefundenen häugen Itemmengen werden anschlieÿend benutzt, um Assoziationsregeln zu erstellen. Lemma Sei X ein Transaktionsdatensatz mit Attributsmenge A. Seien I und J zwei Teilmengen von A, dann gilt I J sup (I) sup (J ). Beweis. Wegen I J gilt {j A j I} {j A j J } für j {1,..., m}, und daraus folgt wiederum {X i X x ij = 1 A j I} {X i X x ij = 1 A j J }, also mit Denition 3.24 sup (I) sup (J ). Das Lemma besagt insbesondere, dass die Obermenge J nur dann häug sein kann, wenn bereits I häug ist, aus sup (J ) min_sup folgt also direkt sup (I) min_sup. Satz Sei X ein Transaktionsdatensatz mit Attributsmenge A = {A 1, A 2,..., A m }. Ist J A eine (k + 1)-Itemmenge, k {2,..., m 1}, dann existiert eine eindeutige Methode, jedem J zwei k-elementige Itemmengen I, I A mit I I zuzuordnen. Für dieses Paar gilt I I C k 1 und J = I I. Beweis. Sei eine geordnete (k + 1)-elementige Itemmenge wie in Denition 3.24 gegeben als J = {A j1,..., A jk 1, A jk, A jk+1 } mit j 1 <... < j k 1 < j k < j k+1. Mit Hilfe von 40

46 3 Elementare Verfahren sogenannten Rymonbäumen [siehe 28, S.106] lassen sich dann immer zwei eindeutige, k- elementige Teilmengen konstruieren, I := J \{A jk } = {A j1,..., A jk 1, A jk+1 } C k und I := J \{A jk+1 } = {A j1,..., A jk } C k. Aus den Denitionen von I und I folgt direkt H := I I = {A j1,..., A jk 1 } C k 1 und I I = J. Somit gilt die Behauptung. Diese Aussage kann auf häuge Itemmengen übertragen werden. Satz Sei X ein Transaktionsdatensatz mit Attributsmenge A = {A 1, A 2,..., A m } und k {2,..., m 1}. Sei J F k+1 eine häuge (k + 1)-Itemmenge, dann exisiteren eine Itemmenge H und zwei Attribute A p und A q mit 1. J = H {A p, A q }, 2. H F k 1, 3. H {A p }, H {A q } F k. Beweis. Aus Satz 3.29 ist bereits bekannt, dass jede Itemmenge mit (k+1) Elementen als Vereinigung zweier Itemmengen I := {A j1,..., A jk 1, A jk+1 }, I := {A j1,..., A jk } A dargestellt werden kann, J = I I, so dass H := I I C k 1 gilt. Setze o.b.d.a. p = j k und q = j k+1, so ist die erste Behauptung bewiesen. Da zudem J eine häuge Itemmenge ist und H, I und I Teilmengen von J, folgt mit Lemma 3.28, dass auch diese Mengen häug sein müssen. Es gilt also H F k 1, I F k und I F k. Die Rechtfertigung für den Apriori-Algorithmus basiert auf Satz 3.30, da hiermit gesichert ist, dass die Kandidaten für häuge (k + 1)-Itemmengen aus den häugen k- Itemmengen generiert werden können. Ein Teil des Apriori-Algorithmus, genannt apriori_gen, besteht nun aus den folgenden zwei Schritten, die iterativ für k = 1, 2,... ausgeführt werden [17, S.249.]: 1. Seien I = {A p1,..., A pk }, I = {A q1,..., A qk } zwei Mengen aus F k, die in den ersten (k 1) Attributen übereinstimmen, p j = q j für alle j = 1,..., k 1. Dann bildet man J := I I C k+1 nur, falls p k < q k gilt. Diese Bedingung schlieÿt das Bilden von Duplikaten aus. 2. Da eine Itemmenge nach Lemma 3.28 nur häug sein kann, wenn ihre Teilmengen häug sind, reicht es zu testen, ob alle k-elementigen Teilmengen von J in F k enthalten sind. Ist dies nicht der Fall, wird J aus C k+1 entfernt. Der Apriori-Algorithmus testet anschlieÿend noch anhand des Datensatzes, ob die Itemmengen in C k+1 den minimalen Support min_sup erfüllen. Ist dies nicht der Fall, werden sie aus C k+1 entfernt. Hierdurch erhält man F k+1 und die Schritte können für das nächste k durchlaufen werden. Der Teilschritt apriori_gen stoppt, wenn keine weiteren häugen 41

47 3 Elementare Verfahren Obermengen gefunden werden können, F k = für ein k {1,..., m}, oder mit k = m die Attributsmenge A selbst erreicht ist. Die Menge aller häugen Itemmengen von A ist dann F = m k=1 F k. Aus ihr können nun alle Assoziationsregeln erstellt werden, deren Support und Kondenz vorgegebene Werte überschreiten. Dazu bildet man für jede Itemmenge J F alle nicht-leeren Teilmengen I 1 J und betrachtet Assoziationsregeln der Form {I 1 I 2 } mit I 2 := J \ I 1. Diese Regeln erfüllen bereits den minimalen Support, da sup (I 1 I 2 ) = sup (I 1 I 2 ) = sup (J ) gilt und J nach Denition eine häuge Itemmenge ist. Es muss also lediglich geprüft werden, ob die minimale Kondenz überschritten wird, con (I 1 I 2 ) = sup (J ) sup (I 1 ) min_conf. Da der Apriori-Algorithmus den vollständigen Datensatz laut Wu et al. [33] nur benötigt, um den Suppport der durch apriori_gen bestimmten Itemmengen zu überprüfen, muss der Datensatz lediglich k -mal eingelesen werden. Zudem zeigt Apriori eine gute Leistung bei der Auswahl an Kandidaten für häuge Itemmengen. Treten jedoch sehr viele häuge Itemmengen, groÿe Itemmengen oder ein sehr kleiner minimaler Support auf, ist der Apriori-Algorithmus noch sehr rechenintensiv. Der Grund dafür ist, dass sehr viele Itemmengen als Kandidaten für F generiert werden und diese groÿe Anzahl an Kandidaten durch wiederholtes Einlesen des Datensatzes überprüft werden muss. Man benötigt Itemmengen, um aus ihnen die häugen Itemmengen der Gröÿe 100 zu erhalten. Es wurden deshalb viele Versuche unternommen, bessere Algorithmen zur Assoziationsanalyse zu nden. Ein groÿer Anteil erzeugt ebenso wie der Apriori-Algorithmus Kandidaten für häuge Itemmengen. Die gröÿte Verbesserung stellt eine Methode namens FP-Growth, frequent pattern growth, dar, die ohne die Generierung von Kandidaten auskommt. Sie verfolgt ein Top-Down-Prinzip, indem zuerst der Datensatz in eine Struktur namens FP-Baum komprimiert wird, der die gesamte essentielle Information enthält. Anschlieÿend werden Teilmengen der komprimierten Daten einzeln analysiert und der Datensatz somit insgesamt nur zweimal eingelesen. FP-Growth ist eine Gröÿenordnung schneller als der Apriori-Algorithmus. Trotz ihres groÿen Erfolges hat die Assoziationsanalyse nach Fernandez [10, S.349] auch Nachteile. Für eine erfolgreiche Anwendung sind eine groÿe Anzahl an Transaktionen und Attribute mit ähnlichen Häugkeiten nötig. Ebenfalls kritisch ist die Wahl des minimalen Supports. Je höher er ist, desto weniger Rechenzeit wird benötigt, gleichzei- 42

48 3 Elementare Verfahren tig werden allerdings Regeln mit möglicherweise hoher Kondenz nicht entdeckt. Beispielsweise wird eine hochkondente Regel wie {Wodka Kaviar} nicht entdeckt, da die Verkaufszahlen von Kaviar zu niedrig sind. Des Weiteren sind die erstellten Regeln manchmal trivial oder unerklärlich sowie nicht immer nützlich. Beispiel 3.31: Der Wetterdatensatz, der ebenso zur Klassikation genutzt werden kann, eignet sich gut zur Assoziationsanalyse. In ihm werden verschiedene Bedingungen beschrieben - Bewölkung, Temperatur, Luftfeuchtigkeit und Wind - die dazu führen, dass ein Spiel gespielt werden kann oder nicht. Es handelt sich mit n = 14 um einen sehr kleinen Datensatz, dennoch können viele Assoziationsregeln extrahiert werden. Die Wetterdaten sind ein Beispieldatensatz des RapidMiner, weswegen sie über den Operator Retrieve direkt eingelesen werden können. Wie in Abbildung 3.7a zu sehen ist, wird anschlieÿend durch den Operator Set Role die Zielvariable Play zum Attribut erklärt. (a) Der gesamte Prozess (b) Die Vorverarbeitung Abbildung 3.7: Assoziationsregeln der Wetterdaten mit RapidMiner 43

49 3 Elementare Verfahren Da der Algorithmus FP-Growth nur mit binomialen Daten umgehen kann, ndet eine Vorverarbeitung der Attribute statt, die aus einer Diskretisierung und der Transformation in binäre Attribute besteht (Abbildung 3.7b). Die Abbildungen 3.8a und 3.8b zeigt die Metadaten vor und nach der Vorverarbeitung, also die Rolle, den Namen, den Typ und die Statistiken der jeweiligen Attribute. Man sieht deutlich, dass nach der Transformation keine Zielvariable mehr vorhanden ist (role=label) und alle Attribute von binomialem Typ sind. Zuletzt wählt FP-Growth alle Itemmengen mit min_sup = 0.10 aus, und der Operator AssociationRules erzeugt 55 Assoziationsregeln mit minimaler Kondenz min_conf = Ein Ausschnitt dieser Assoziationsregeln ist in Abbildung 3.9 zu sehen. (a) Die Wetterdaten vor der Transformation (b) Die Wetterdaten nach der Transformation Abbildung 3.8: Metainformation der Wetterdaten 44

50 3 Elementare Verfahren Abbildung 3.9: Auszug aus den Assoziationsregeln 45

51 4 Distanzmaß-basierte Verfahren In diesem Kapitel werden drei Verfahren behandelt, deren Leistung stark von dem Maÿ abhängen, mit welchem sie arbeiten. Ein Ähnlichkeits- oder Distanzmaÿ kommt dabei zum Einsatz, um die Ähnlichkeit oder Entfernung zweier Instanzen zu messen. Denition 4.1: Eine Abbildung d : X X R heiÿt Distanzmaÿ, falls 1. d(x, x) = 0 2. d(x, y) = d(y, x) für alle x, y X gilt. Möchte man die Distanz zweier Instanzen X i, X l für i, l {1,..., n} messen, so kann dies beispielsweise mittels der Manhattan-Distanz d 1 (X i, X l ) := m x ij x lj j=1 oder der euklidischen Distanz m d 2 (X i, X l ) := (x ij x lj ) 2 (4.1) für X i = (x i1, x i2,..., x im ), X l = (x l1, x l2,..., x lm ) X geschehen. Die Werte jedes Attributs werden typischerweise normalisiert, um zu verhindern, dass ein Attribut das Distanzmaÿ dominiert. Handelt es sich bei A j um ein stetiges Attribut, so kommt hierfür die Min-Max-Normalisation j=1 x ij = x ij min i x ij max i x ij min i x ij 46

52 4 Distanzmaÿ-basierte Verfahren in Frage. Für kategoriale Attribute können die entsprechenden Attributswerte in X i und X l einfach verglichen werden: 1 falls x ij x lj x ij x lj := (4.2) 0 falls x ij = x lj 4.1 Nächste-Nachbarn-Klassifikation Alle bisher besprochenen Methoden - Klassikation durch Naive-Bayes, Entscheidungsbäume und Assoziationsregeln - sind sogenannte gierige Lerner (eager learners), das heiÿt sie erstellen zuerst das gesamte Modell. Erhalten sie anschlieÿend neue Daten, beispielsweise als Testmenge, so ist das erzeugte Modell bereit, diese zu klassizieren. Im Gegensatz dazu modelliert ein Lazy-Learner nach Han und Kamber [17, S.422 f.] erst, wenn er die Testdaten erhält, die Trainingsdaten werden lediglich abgespeichert. Der rechenintensive Teil des Verfahrens ist also nicht die Verarbeitung der Trainingsdaten, sondern die der Testdaten. Lazy-Learning bietet wenig Einsicht in die grundlegende Struktur der Daten, stellt dafür aber ein inkrementelles Verfahren dar. Somit können neue Daten ohne Probleme nachträglich eingefügt werden. Dadurch gelingt es Abbildung 4.1: Die Wahl von k 47

53 4 Distanzmaÿ-basierte Verfahren Lazy-Learning komplexe Entscheidungsräume zu modellieren, die andere Algorithmen vor groÿe Probleme stellen. Der bekannteste Lazy-Learner ist die Nächste-Nachbarn-Klassikation, vor allem die Methode k-nearest neighbors (k-nn). Eingeführt wurde sie bereits in den frühen 1950ern, populär jedoch erst durch die Steigerung der Rechenleistung in den 1960er Jahren. Es handelt sich hierbei um einen der einfachsten Klassikationsalgorithmen, bei dem einer Testinstanz durch ihre k nächsten Nachbarn ein Klassenlabel zugeordnet wird. Er ermöglicht es, auf verschiedenen Bereichen des Merkmalsraumes R m verschiedene Modelle einzusetzen, die nur lokal gut arbeiten, jedoch nicht unbedingt global [20, S.185]. Im k-nn-algorithmus gibt es laut Wu et al. [33] drei wichtige Komponenten: die bereits klassizierten Trainingsdaten, das Distanzmaÿ und die Anzahl k der nächsten Nachbarn. Sei ein Datensatz D mit Testinstanz X l = (x l1, x l2,..., x lm ) und Trainingsdaten X i, i = 1,..., n, gegeben, die einer Klasse C z, z = 1,..., K, angehören. Dann befolgt der k-nn-algorithmus die folgenden Schritte: 1. Berechne die Entfernungen zwischen X l und allen Trainingsinstanzen X i X mit Hilfe eines Distanzmaÿes d(x l, X i ). 2. Bestimme die k nächsten Instanzen X i1, X i2,..., X ik, k n, mit d(x l, X i1 ) d(x l, X i2 )... d(x l, X ik )... d(x l, X in ). 3. Bestimme den Schätzer ŷ l der Klassenzugehörigkeit Y l als Mehrheitsklasse der k nächsten Nachbarn ŷ l := arg max z i k i=i 1 I(X i C z ), z {1,..., K}. Wenn die nächsten Nachbarn stark in ihrer Distanz variieren, kann diese sehr einfache Methode der Klassenauswahl problematisch sein. Ein besserer Ansatz, der zudem robuster gegenüber der Wahl von k ist, gewichtet den Einuss jeder Trainingsinstanz mit Hilfe ihrer Distanz zu X l, beispielsweise w i := 1/d(X l, X i ) 2. Man erhält somit ŷ l = arg max z i k i=i 1 w i I(X i C z ), z {1,..., K}. Fehlende Werte stellen für k-nn kein gröÿeres Problem da. Werden zwei Instanzen verglichen, von denen mindestens eines im Attribut A j einen fehlenden Wert aufweist, nimmt man generell die maximale Dierenz an [17, S.424]. Sei jedes Attribut auf [0, 1] skaliert. 48

54 4 Distanzmaÿ-basierte Verfahren Für diskrete Attribute wird die Distanz dann auf 1 gesetzt, falls einer oder beide Attributswerte in A j fehlen. Ist A j stetig und fehlt in beiden Instanzen X i und X l, wird die Distanz x lj x ij ebenfalls auf 1 gesetzt. Falls jedoch nur einer der beiden stetigen Attributswerte fehlt und der andere als x vj vorhanden und normalisiert ist, kann man x lj x ij durch max{ 1 x vj, x vj } bestimmen. Die Wahl eines geeigneten Distanzmaÿes ist hingegen schwieriger und sollte nach Wu et al. [33] immer von dem betrachteten Datensatz abhängen. Dasjenige Distanzmaÿ ist optimal, bei dem eine kleinere Entfernung zwischen zwei Instanzen eine gröÿere Wahrscheinlichkeit impliziert, dass diese zwei Instanzen der gleichen Klasse angehören. Einige Distanzmaÿe zeigen auf hoch-dimensionalen Daten eine weniger gute Leistung, wie etwa das euklidische (4.1), andere benötigen die Attribute in normalisierter Form, da sonst ein Attribut das gesamte Distanzmaÿ dominieren könnte. Den optimalen Wert für k erhält man experimentell [17, S.424 f.], indem man iterativ die Fehlerrate des Algorithmus auf einer unabhängigen Testmenge bestimmt. Der Wert mit der minimalen Fehlerrate wird schlieÿlich ausgewählt. Für zu kleine k ist das Verfahren in der Regel empndlich gegenüber fehlerhaften Daten. Ist k hingegen zu groÿ, werden möglicherweise zu viele Vektoren anderer Klassen miteinbezogen. Allgemein gilt, dass k mit der Anzahl an Instanzen n steigt. Der Klassikationsfehler des 1-NN-Verfahrens wird laut Cover und Hart [5] für n durch die zweifache Bayesrate B(D), das theoretische Minimum, beschränkt. Der Fehler der allgemeinen k-nn-methode nähert sich zudem asymptotisch der Bayesrate an und kann benutzt werden, um diese zu approximieren [33]. Genauer gilt nach Hastie et al. [19, S.465.] für den Klassikationsfehler des k-nächste-nachbarn-verfahrens, ε k-nn, bei Einteilung in K Klassen B(D) ε k-nn 2B(D) K K 1 B2 (D). Es existieren viele weitere Aussagen dieser Form, von denen einige in Ripley [27] dargestellt werden. Ein Nachteil von k-nn ist laut Han und Kamber [17, S.425] der hohe Zeitaufwand bei der Klassikation von Testdaten. Das 1-NN-Verfahren benötigt für n Trainingsinstanzen O(n) Vergleiche, um eine Testinstanz zu klassizieren. Sortiert man die Trainingsmenge vor und arrangiert die Instanzen in einem Suchbaum oder nach einem Indizierungsschema, kann die Zahl der Vergleiche auf O(log(n)) reduziert werden. Parallele Implementation kann die Rechenzeit sogar auf eine Konstante O(1) reduzieren, die unabhängig 49

55 4 Distanzmaÿ-basierte Verfahren von n ist. Um die Leistung zu steigern, kann man zusätzlich verrauschte Datenvektoren ausschlieÿen oder die Attribute so gewichten, dass verrauschte oder irrelevante Attribute weniger zu dem Modell beitragen. Das k-nächste-nachbarn-verfahren ist laut Wu et al. [33] besonders gut geeignet für multi-modale Klassen sowie Anwendungen, in denen Objekte viele Klassenlabel haben können. Beispielsweise übertraf k-nn bei einer Anwendung zur Genanalyse das SVM-Verfahren aus Abschnitt 4.2, was als wesentlich fortgeschrittenere Klassikations- Methode gilt. Eine deutliche Geschwindigkeitssteigerung erhält man durch das so genannte condensing, bei dem viele Datenvektoren ausgeschlossen werden, ohne dass die Klassikationsgenauigkeit eingeschränkt wird. Es ist auÿerdem möglich durch Ausschluÿ von Instanzen die Klassikationsgenauigkeit zu verbessern, was als editing bezeichnet wird. Beispiel 4.2: Das k-nächste-nachbarn-verfahren lässt sich gut anhand der Irisdaten veranschaulichen, die auch schon in Beispiel 3.22 zum Einsatz kamen. Ziel ist wieder, Testdaten anhand der m = 4 Attribute, Länge und Breite des Sepalum oder Petalum, einer der Klassen Iris Setosa, Iris Virginica und Iris Versicolor zuzuordnen. Dazu werden die Irisdaten in Abbildung 4.2a zunächst als Excel-Datei eingelesen und anschlieÿend an einen Operator weitergegeben, der iterativ das optimale k 20 bestimmt. Innerhalb des Optimierungs-Operators, in Abbildung 4.2b, werden die Daten in einem Validierungsblock in Trainings- und Testmenge im Verhältnis 1 : 9 aufgeteilt. Wie in Abbildung 4.2c zu sehen ist, werden die Trainingsdaten dann nach dem üblichen Schema an den k-nn-algorithmus übergeben sowie angewandt und ausgewertet. Als Ausgabe des gesam- (a) Prozess der k-nächsten Nachbarn Abbildung 4.2: k-nn 50

56 4 Distanzmaÿ-basierte Verfahren (b) Optimale Parameterwahl (c) Validierung Abbildung 4.2: k-nn ten Prozesses erhält man den Klassikationsfehler als Leistungsmaÿ sowie den optimalen Parameter. Das k-nn-verfahren wurde mit der euklidischen Distanz (4.1) und der Kosinus- Ähnlichkeit durchgeführt, die üblicherweise im Text-Mining verwendet wird. Sie ist deniert als d cos (X i, X l ) := m j=1 x ij x lj /( X i 2 X l 2 ) mit euklidischer Norm. 2. In beiden Fällen ergibt sich k = 1 als optimaler Parameter für das k-nächste-nachbarn-verfahren, die Klassikationsfehler sind jedoch, wie aus Abbildung 4.3 ersichtlich, recht unterschiedlich. (a) Mit euklidischer Distanz Abbildung 4.3: Klassikationsfehler des 1-NN-Verfahrens 51

57 4 Distanzmaÿ-basierte Verfahren (b) Mit Kosinus-Ähnlichkeit Abbildung 4.3: Klassikationsfehler des 1-NN-Verfahrens 4.2 Support-Vector-Machines Eines der robustesten und genauesten Verfahren mit einer guten theoretischen Grundlage ist Support-Vector-Machines (SVM). Dieser Algorithmus zur Klassikation oder Regression benutzt eine nicht-lineare Abbildung, um den ursprünglichen Datensatz in eine höhere Dimension zu transformieren, in welcher er in zwei Klassen getrennt werden kann. Wählt man eine angemessene Abbildung und eine genügend hohe Dimension, so gelingt diese Trennung laut Han und Kamber [17, S.408] immer. Grundlegende Forschung zu SVM erfolgte bereits in den 1960er Jahren, die erste Veröentlichung erschien jedoch erst Das SVM-Verfahren zeichnet sich dadurch aus, dass es nur wenige Trainingsdaten benötigt und gegenüber hochdimensionalen Datensätzen unempndlich ist. Zwar wird möglicherweise sehr viel Zeit benötigt, um ein SVM zu trainieren, doch auf der anderen Seite ist es weniger anfällig für Überanpassung als andere Verfahren und liefert eine kompakte Beschreibung des gelernten Modells. Der Anwendungsbereich von Support-Vector- Machines beinhaltet die Zuordnung von handgeschriebenen Zahlen, die Objekterkennung und die Identizierung eines Sprechers. Laut Wu et al. [33] zählt SVM mittlerweile fest zu den Standard-Data-Mining-Werkzeugen. Im Folgenden werden die theoretischen Grundlagen des SVM-Verfahrens nach Hastie et al. [19, S.418.] behandelt Linear trennbare Daten Sei zunächst ein zweiklassiger Datensatz D = {(X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n )} mit X i R m und Y i { 1, +1} gegeben. Dieser soll linear trennbar sein, das heiÿt, dass mindestens eine Hyperebene existiert, welche die Instanzen verschiedener Klassen im m-dimensionalen Vektorraum voneinander trennt. Da der Datensatz durch eine unendliche Anzahl an Hyperebenen geteilt werden kann, besteht das Ziel darin, die optimale 52

58 4 Distanzmaÿ-basierte Verfahren H Supportvektor M {X i Y i =+1} {X i Y i =-1} M Supportvektor Abbildung 4.4: Beispiel für linear trennbare Daten im R 2 Trennebene zu nden. Das SVM-Verfahren löst dieses Problem, indem es nach der Hyperebene mit dem gröÿten Rand sucht, wobei der Rand als die Fläche zwischen der Hyperebene und den nähesten Punkten aus dem Datensatz deniert ist. Sei H = {X : f(x) = X T β + β 0 = 0}, eine Hyperebene mit β R m, β = 1. Dabei bezeichne. eine durch ein Skalarprodukt.,. denierte Norm, x := x, x für x R m. Diese Norm induziert mit d(x, y) := x y für x, y R m eine Metrik, welche hier als Distanzmaÿ genutzt werden kann. Eine durch f(x) induzierte Klassikationsregel ist ŷ i = sign[x T i β + β 0 ]. (4.3) 53

59 4 Distanzmaÿ-basierte Verfahren Da die Daten linear trennbar sind, kann man eine Funktion f(x) = X T β + β 0 mit Y i f(x i ) > 0 für alle i nden. Ausgedrückt als Optimierungsproblem ergibt sich: max M (4.4) β,β 0, β =1 u.d.n. Y i (X T i β + β 0 ) M, i = 1,..., n. Die Breite des Randes (margin) ist dann 2M. Mit M = 1/ β ist das analoge Minimierungsproblem gegeben durch min β (4.5) β,β 0 u.d.n. Y i (X T i β + β 0 ) 1, i = 1,..., n. Trainingsinstanzen, die das Problem lösen, also die kürzeste Distanz zur Trennebene besitzen, werden Supportvektoren genannt. Sie sind somit die Instanzen, die am schwierigsten zu klassizieren sind und die meiste Information liefern. Sobald die Supportvektoren und die Hyperebene mit dem gröÿten Rand gefunden wurden, ist das Modell trainiert Linear nicht trennbare Daten Sind die Daten nicht linear trennbar, so existiert keine lineare Hyperebene, welche die Daten anhand ihrer beiden Klassen aufteilt. Stattdessen kommt es zu Überschneidungen der Klassen im Merkmalsraum R m. Das grundlegende Prinzip kann jedoch auf diesen Fall übertragen werden, indem man zuerst die Originaldaten mittels einer nicht-linearen Abbildung in einen höher-dimensionalen Raum transformiert und dort anschlieÿend eine lineare Trennebene ndet. Diese entspricht einer nicht-linearen Trennäche im ursprünglichen Raum. Der soft-margin-ansatz ermöglicht dem SVM zudem, mit Rauschen in den Trainingsinstanzen umzugehen. Man führt dazu eine Schlupfvariable ξ = (ξ 1, ξ 2,..., ξ n ) mit Komponenten ξ i 0 für alle i ein, deren Summe n i=1 ξ i von einer Konstante beschränkt wird. Diese Schlupfvariable erlaubt einigen Instanzen, innerhalb des Randes oder auf der falschen Seite der Hyperebene zu liegen. Es gibt zwei natürliche Arten, die Nebenbedingung aus (4.4) zu modizieren: Y i (X T i β + β 0 ) M ξ i (4.6) oder Y i (X T i β + β 0 ) M(1 ξ i ). (4.7) 54

60 4 Distanzmaÿ-basierte Verfahren Die beiden Variaten führen zu verschiedenen Lösungen, wobei die erste die absolute Distanz falsch klassizierter Daten betrachtet und die zweite die relative Distanz, welche sich mit der Breite des Randes ändert. Da Gleichung (4.7) im Gegensatz zur ersten Variante ein konvexes Optimierungsproblem liefert, wird sie in der Regel verwendet. Konvexität bedeutet, dass jedes lokale Optimum auch ein globales Optimum darstellt. Die Komponente ξ i der Schlupfvariablen steht für den Anteil, mit dem der Schätzer f(x i ) = X T i β + β 0 auf der falschen Seite des Randes liegt. Gilt ξ i > 1, so bedeutet das, dass X i durch f(x i ) falsch klassiziert wird. Indem man also die Summe n i=1 ξ i durch einen Wert Z beschränkt, setzt man damit die maximale Anzahl der falsch klassizierten Trainingsinstanzen auf Z. Somit folgt aus Gleichung (4.5) mit M = 1/ β das Optimierungsproblem min β u.d.n. Y i (X T i β + β 0 ) 1 ξ i i, ξ i 0 i, n i=1 ξ i Z. (4.8) H ζ 1 M ζ 2 ζ 3 {X i f (X i )=+1} {X i f (X i )=-1} M = 1/ β Abbildung 4.5: Beispiel für linear nicht trennbare Daten im R 2 55

61 4 Distanzmaÿ-basierte Verfahren Ein Beispiel für linear nicht trennbare Daten ist in Abbildung 4.5 zu sehen. Es gibt drei Instanzen, die sich auf der falschen Seite ihres Randes benden, wobei der Abstand zum jeweiligen Rand durch ζ i = Mξ i gekennzeichnet ist. Für die richtig liegenden Instanzen gilt ζ i = 0. Gleichung (4.8) stellt die übliche Form des Optimierungsproblems für den nicht trennbaren Fall dar. Es handelt sich um ein konvexes Optimierungsproblem, das mit Hilfe von Lagrange-Multiplikatoren gelöst werden kann. Um den Rechenaufwand zu verringern, formt man (4.8) in das quadratische Problem 1 min β,β 0 2 β 2 + C n ξ i (4.9) i=1 u.d.n. ξ i 0, Y i (X T i β + β 0 ) 1 ξ i i um, wobei der Kostenparameter C die Konstante Z in (4.8) ersetzt. Der trennbare Fall entspricht C =. Die primale Lagrange-Funktion, welche bezüglich β, β 0 und ξ i minimiert wird, ist deniert als L p := 1 2 β 2 + C n ξ i i=1 n α i [Y i (X T i β + β 0 ) (1 ξ i )] i=1 n µ i ξ i (4.10) i=1 mit Lagrange-Multiplikatoren α i, µ i 0. Um die Lagrange-Funktion zu minimeren, L werden die entsprechenden Ableitungen gleich null gesetzt, p = Lp β β 0 = Lp ξ i = 0, woraus β = 0 = n α i Y i X i (4.11) i=1 n α i Y i (4.12) i=1 α i = C µ i (4.13) folgt mit α i, µ i, ξ i 0 für alle i. Eingesetzt in (4.10) erhält man die duale Lagrange- Funktion L D := 1 n n n α i α i Y i Y i X i, X i + α i, (4.14) 2 i=1 i =1 welche eine untere Schranke für die Zielfunktion (4.9) in jedem möglichen Punkt liefert. Man maximiert L D unter den Nebenbedingungen 0 α i C und n i=1 α iy i = 0. Die i=1 56

62 4 Distanzmaÿ-basierte Verfahren Karush-Kuhn-Tucker Bedingungen zur Lösung des Optimierungsproblems beinhalten neben (4.11)-(4.13) zusätzlich α i [Y i (X i β + β 0 ) (1 ξ i )] = 0 (4.15) µ i ξ i = 0 (4.16) Y i (X T i β + β 0 ) (1 ξ i ) 0 (4.17) für i = 1,..., n. Die Gleichungen (4.11)-(4.17) charakterisieren zusammen eindeutig die Lösung für das primale (4.10) und duale (4.14) Optimierungsproblem. Aus (4.11) ergibt sich die Lösung für β in der Form ˆβ = n ˆα i Y i X i, i=1 wobei die Koezienten ˆα i nur für diejenigen i {1,..., n} einen positiven Wert annehmen, für die in (4.17) Gleichheit gilt. Die zugehörigen Instanzen X i stellen die Supportvektoren dar, da nur sie zu ˆβ beitragen. Einige der Supportvektoren liegen mit ˆξ i = 0 auf den Grenzen des Randes und werden wegen (4.13) und (4.16) charakterisiert durch 0 < ˆα i < C. Für den Rest gilt ˆξ i > 0, also mit (4.16) ˆµ i = 0 und somit ˆα i = C. Aus (4.15) folgt, dass jeder der Randpunkte benutzt werden kann, um nach β 0 aufzulösen, für numerische Stabilität wählt man aber in der Regel das Mittel aller Lösungen. Die Maximierung des dualen Problems (4.14) ist einfacher als die des primalen (4.10) und kann mit Standardtechniken erfolgen. Seien die Lösungen ˆβ 0 and ˆβ gegeben, dann kann man die Entscheidungsfunktion analog zu (4.3) schreiben als ŷ i = sign[ ˆf(X)] = sign[x T ˆβ + ˆβ0 ] Kernelfunktionen Das Optimierungsproblem (4.10) und seine Lösung kann so umgeformt werden, dass die eingehenden Instanzen nur als Skalarprodukte vorkommen. Dies wird auch als Kernel-Trick bezeichnet. Man benutzt dazu die transformierten Instanzen h(x i ) = (h 1 (X i ), h 2 (X i ),..., h Z (X i )) mit Basisfunktionen h z (X i ), z = 1,..., Z. Bei geeigneter 57

63 4 Distanzmaÿ-basierte Verfahren Wahl von h können die Skalarprodukte sehr günstig berechnet werden. Die Gleichung (4.14) hat mit transformierten Instanzen die Form L D = 1 2 n n α i α i Y i Y i h(x i ), h(x i ) + i=1 i =1 n α i. (4.18) i=1 Aus (4.11) folgt, dass man die Lösungsfunktion f(x) schreiben kann als f(x) = h(x) T β + β 0 n = α i Y i h(x), h(x i ) + β 0. (4.19) i=1 Wie zuvor kann β 0 bei gegebenem α i bestimmt werden, indem man Y i f(x i ) = 1 in (4.19) löst für jedes X i, für das 0 < α i < C gilt. Sowohl (4.18) als auch (4.19) beinhalten h(x) nur innerhalb des Skalarprodukts. Die Transformation h(x) wiederum muss nicht unbedingt bekannt sein. Wissen um die Kernelfunktion K(X, X ) := h(x), h(x ), welche die Skalarprodukte im transformierten Raum bestimmt, ist ausreichend. K sollte eine symmetrische, positiv (semi-)denite Funktion sein. Eine beliebte Wahl sind polynomiell, K(X, X ) = (1 + X, X ) d, RBF, K(X, X ) = exp( γ X X 2 ), und Tangens Hyperbolicus, K(X, X ) = tanh(κ 1 X, X + κ 2 ). Kernelfunktionen sind nach Han und Kamber [17, S.415] eng verwandt mit neuronalen Netzen, siehe Abschnitt 5.2. Beispielsweise liefern Support-Vector-Machines mit RBF-Kernel die gleiche Hyperebene zur Klassikation wie ein neuronales Netz, das als RBF-Netz bekannt ist. Das SVM-Verfahren mit sigmoidem Kernel ist äquivalent zum zweischichtigen neuronalen Netz, dem mehrschichtigen Perzeptron ohne verborgene Schichten (siehe Abschnitt 5.2.1). Die Auswahl eines geeigneten Kernel spielt für die Genauigkeit des SVM meist keine groÿe Rolle. Das SVM ndet im Gegensatz zu neuronalen Netzen immer eine globale Lösung. Obwohl bisher nur der zweiklassige Fall besprochen wurde, können SVM auch auf mehrklassige Zielvariablen angewandt werden. Ein einfacher Ansatz für K Klassen ist es, einen Klassizierer pro Klasse zu erstellen und einer Testinstanz die Klasse mit dem gröÿtem 58

64 4 Distanzmaÿ-basierte Verfahren positiven Abstand zur Hyperebene zuzuordnen. Zudem können auch stetige Zielvariablen behandelt werden und eine lineare Schätzfunktion erstellen. Auch hier werden die Supportvektoren durch Minimierung der Lagrange-Funktion bestimmt. Ein groÿes Forschungsziel von SVMs ist es, die Geschwindigkeit für Trainings- und Testphase zu verbessern, so das SVM besser mit sehr groÿen Datensätzen mit Millionen von Supportvektoren umgehen kann. Ein Ansatz hierzu besteht darin, groÿe Optimierungsprobleme in eine Reihe kleinerer aufzuspalten, so dass die Optimierung ezient gelingen kann [33]. Beispiel 4.3: Die Weinqualitätsdaten von Cortez et al. [4] bestehen aus einem Datensatz mit n = 4898 Weinproben der weiÿen Variante des portugiesischen Vinho Verde, und können sowohl zur Klassikation als auch zur Regression dienen. Es wurden m = 11 objektive Attribute wie PH-Wert, Zucker-, Sulfat- und Alkoholgehalt erhoben, die Zielvariable ist als Median von mindestens drei Bewertungen durch Weinexperten hingegen subjektiv. Die Bewertung der Weinqualität erfolgt durch eine Note zwischen 0 (sehr schlecht) und 10 (herausragend), wobei der überwiegene Teil der Weinproben keine auÿergewöhnlich gute oder schlechte, sondern eine durchschnittliche Bewertung erhielt. Im RapidMiner werden die Weindaten in Abbildung 4.6a zunächst als Excel-Datei eingelesen und anschlieÿend an einen Operator zur Vorverarbeitung weitergegeben. Innerhalb der Vorverarbeitung (Abbildung 4.6b) wird die numerische Zielvariable zuerst in eine binomiale tranformiert. Dies ermöglicht eine Klassikation durch die SVM-Methode anhand des Merkmals überdurchschnittliche Qualität, das heiÿt, der Wein erhielt eine Note von 7 aufwärts oder nicht. Zudem werden die Daten mittels einer Z-Transformation normalisiert, um den Prozess zu beschleunigen. Da das Entfernen von Ausreiÿern ebenfalls die Leistung des SVM- Verfahren günstig beeinusst, werden die Daten anschlieÿend in fünf Partitionen aufgeteilt, womit weniger Arbeitsspeicher verbraucht wird, und wieder zusammengefügt, nachdem die Ausreiÿer gefunden wurden. Der lter-operator kann nun die Ausreiÿer entfernen. Im abschlieÿenden Validierungsblock aus Abbildung 4.6c erstellt Support-Vector-Machines mit soft-margin-ansatz und radialem Kernel aus 70% der gelterten Daten ein Modell, welches auf Testdaten angewandt wird. Der gesamte Prozess gibt das Modell, den vorverarbeiteten Datensatz sowie den Klassikationsfehler aus. Abbildung 4.7 zeigt die Ergebnisse der SVM-Klassikation der Weindaten. Als Modell erhält man eine Zuordnung der Instanzen wie in Abbildung 4.7a. Hier bezeichnet function value den Wert des Schätzers f(x i ), gibt also den Abstand der entsprechenden Instanz von der Hyperebene wider, und alpha den Wert der Schlupfvariablen ξ i. Die Grenzen des Randes liegen 59

65 4 Distanzmaÿ-basierte Verfahren (a) Der SVM-Prozess (b) Die Vorverarbeitung (c) Die Validierung Abbildung 4.6: Support-Vector-Machines 60

66 4 Distanzmaÿ-basierte Verfahren bei function value = ±1, und die Trennebene bei function value = 0. Gilt alpha = 0, so ist die entsprechende Instanz richtig klassiziert und kein Supportvektor. Alle anderen Instanzen sind Supportvektoren und liegen mit Wahrscheinlichkeit abs(alpha) auf der falschen Seite der Randgrenzen. In Abbildung 4.7b ist ein Scatterplot der Daten zu sehen. Wie in allen anderen Scatterplots ist keine lineare Trennbarkeit der Daten erkennbar, die Klasse quality=true steht für überdurchschnittliche Weine, also solche mit einer Note von 7 oder besser. Die SVM-Methode mit radialem Kernel erreicht auf den Weindaten einen Klassikationsfehler von 12.09%, dies entspricht dem geringsten Klassikationsfehler aller bei RapidMiner verfügbaren Kernel. Im Vergleich zu anderen Verfahren schneidet Support-Vector-Machines (a) Auszug aus den Supportvektoren (b) Auszug aus den Daten Abbildung 4.7: Die Ergebnisse 61

67 4 Distanzmaÿ-basierte Verfahren (c) Der Klassikationsfehler Abbildung 4.7: Die Ergebnisse damit gut ab. Teilt man allen Instanzen das Label false zu, erhält man einen Klassikationsfehler von 19.32%. Das Naive-Bayes-Verfahren liefert 25.09%, ein Entscheidungsbaum mit Gini-Index 18.90%, die 1-NN-Methode mit euklidischer Distanz 14.94% und selbst die neuronalen Netze aus dem nächsten Kapitel erreichen maximal 17.03%. 4.3 Clusteranalyse Ebenso wie die Assoziationsregeln aus Abschnitt 3.3 gehört das Clustering zu den unüberwachten Verfahren, es gilt also D = X. Das Klassenlabel einer Instanz ist als unbekannt vorausgesetzt, da es möglicherweise zu teuer ist, Klassenlabel von Hand zuzuweisen. Man versucht stattdessen die Daten in natürliche Gruppen, so genannte Cluster, einzuteilen, so dass eine Instanz mit Mitgliedern ihres Clusters einen höheren Assoziationsgrad aufweist als mit Mitgliedern anderer Cluster. Clusteranalyse kann nicht nur zur Prädiktion genutzt werden, sondern auch zur deskriptiven Analyse, der Identikation von Ausreiÿern, oder um die Gröÿe des Datensatzes zu verringern. Zum Einsatz kommt das Clustering laut Han und Kamber [17, S.444] in verschiedenen Gebieten, wie Marktforschung, Biologie und Satellitenüberwachung. Weiterhin ist es mittlerweile in vielen statistischen Software-Paketen enthalten, wie Spss und Sas. Ein Problem des Clustering ist, dass der Term Cluster nicht eindeutig deniert ist. Auÿerdem ist weder die Anzahl K der Cluster vorgegeben, noch ein Maÿ für die Ähnlichkeit von Instanzen. Als Distanzmaÿ kommen die zu Beginn des Kapitels besprochenen in Frage, etwa in Form einer Ähnlichkeitsmatrix, welche die Distanz für je zwei Instanzen direkt bereit stellt. Kritisch ist zudem die Wahl des Clustering-Kriteriums, welches die Güte der 62

68 4 Distanzmaÿ-basierte Verfahren Partition misst. Man verwendet nach Kamath [20, S.179] hierzu für K Cluster häug die Fehlerquadratsumme C X i C X i 1 C X i C X i 2, (4.20) wobei C die Anzahl der Instanzen im Cluster C := {X i X i I k } mit Indexmenge I k {1,..., n} und Clusterbezeichner k {1,..., K} darstellt Hierarchisch Es existieren mehrere Möglichkeiten, einen Datensatz in Cluster einzuteilen. Eine ist das hierarchische Clustern, bei dem eine Folge von disjunkten Clustern erzeugt wird. Vorwissen über die Clusteranzahl ist nicht erforderlich. Hierarchische Methoden können agglomerativ (bottom-up) oder divisiv (top-down) arbeiten. Bei Ersterem beginnt man (a) k = n (b) k = n 3 (c) k = 3 (d) k = 1 Abbildung 4.8: Hierarchisches Clustering 63

69 4 Distanzmaÿ-basierte Verfahren mit einem Cluster pro Instanz (Abbildung 4.8a) und fügt die beiden Cluster mit kleinster Distanz schrittweise zusammen. Das Verfahren endet, wenn man bei dem gesamten Datensatz ankommt (Abbildung 4.8d) oder ein Haltekriterium greift. Divisive Verfahren arbeiten in genau umgekehrter Richtung. Ein Nachteil hierarchischer Methoden ist, dass ein Schritt nicht mehr rückgängig gemacht werden kann. Dies führt zu weniger Rechenaufwand, gleichzeitig können falsche Entscheidungen nicht mehr korrigiert werden. Ein Beispiel für ein hierarchisches Verfahren ist nach Falk et al. [8, S.277.] die Single- Linkage-Methode, auch minimum-distance- oder nächste-nachbarn-methode genannt. Hier ist die Distanz zweier beliebiger nicht-leerer Teilmengen C, C := {X i X i I k } deniert als D (C, C ) := min i, i d (X i, X i ) mit einem Distanzmaÿ d auf X. Es werden nun diejenigen Cluster vereinigt, die die geringste Distanz besitzen: ( ) D (C min, C min) := min D (C, C =C C ) = min min d (X i, X i ). C =C i, i Das agglomerative hierarchische Clustering produziert eine Folge von Clusterlösungen mit k = n,..., 1 Clustern. Um die optimale Clusteranzahl K zu nden, dient die folgende Regel als Haltekriterium. Sei ϕ(k) := D (k+1) (C min, C min), k = 1, 2,..., n 1, (4.21) die streng monoton fallende Funktion, welche die minimale Distanz zwischen zwei Clustern in der Partition (k+1) ausgibt. Die Cluster mit minimaler Distanz werden im nächsten Schritt vereinigt zu einem Cluster der Partition (k). Ist die Dierenz ϕ(k 1) ϕ(k) für den Schritt von K zu K 1 Clustern sehr groÿ, so sollte der Prozess mit K Clustern beendet werden. Eine Möglichkeit, hierarchische Cluster graphisch darzustellen, bietet sich mit Hilfe sogenannter Dendrogramme. Hierunter versteht man einen Baum, bei dem auf jeder Stufe zwei Instanzen oder Cluster vereinigt werden. Die vertikalen Linien stellen die Distanz d zweier Cluster dar, die aus den Instanzen mit Index i gebildet werden. 64

70 4 Distanzmaÿ-basierte Verfahren Partitionierend Abbildung 4.9: Dendrogramm Eine zweite Gruppe von Clusterverfahren sind partitionierende Methoden, bei denen die Partition als Clusterzahl vorgegeben ist und im Laufe des Verfahrens nicht mehr geändert werden kann. Die Instanzen werden zunächst zufällig in Cluster aufgeteilt und im weiteren Verlauf abhängig von der Ähnlichkeit innerhalb eines Clusters neu zugewiesen. Der Prozess endet, wenn keine Neuzuweisung von Instanzen mehr auftritt. Partitionierendes Clustering ist für groÿe Datensätze generell ezienter, erfordert aber eine vorherige Festlegung der Clusteranzahl. Da partitionierende Methoden lediglich sphärische Cluster nden können, wurden weitere Verfahren entwickelt, die auch beliebige Formen entdecken können. Die Clusterzentren können durch zufällige Auswahl bestimmt werden oder mittels einer durchdachten Strategie, etwa durch schrittweise Vorwärtszuordnung. Bei jedem Schritt wird ein neues Zentrum k so gewählt, dass die k 1 vorher ausgewählten Zentren ein Kriterium minimieren. Auf diese Weise können K Anfangszentren produziert werden. Für die Wahl der Clusterzahl existieren ebenfalls mehrere Möglichkeiten, von denen sich laut Fernandez [10, S.92] keine als global überlegen erwiesen hat. Zum einen können Statistiken benutzt werden, wie das Cubic-Clustering-Criterion (CCC), die Pseudo F- Statistik (PSF) oder die Gap-Statistik. Zum anderen kann man mittels eines Distanzmaÿes für Cluster ϕ(k) wie in Gleichung (4.21) urteilen. Angenommen es existieren verschiedene Lösungen eines partitionierenden Clusterverfahrens für k {1,..., n}, dann nehmen nach Hastie et al. [19, S.518 f.] 65

71 4 Distanzmaÿ-basierte Verfahren (a) K < K (b) K > K Abbildung 4.10: Die Wahl von K die Werte der Abbildung ϕ(k) mit steigendem k ab. Sei K der Schätzer für die wahre Clusteranzahl K und es gelte K < K wie in Abbildung 4.10a. Das Clusterverfahren ordnet dann die Instanzen verschiedener natürlicher Gruppen nicht verschiedenen Clustern zu. Solange die Clusterzahl unterhalb der natürlichen Anzahl bleibt, nimmt das Distanzmaÿ mit steigender Clusteranzahl substantiell ab, ϕ(k) ϕ(k + 1) für K + 1 < K, da die natürlichen Gruppen immer mehr in verschiedene Cluster eingeteilt werden. Falls K hingegen gröÿer ist als die Anzahl natürlicher Gruppen K, wird die Partition wie in Abbildung 4.10b mindestens eine der natürlichen Gruppen auf zwei Cluster aufteilen. Dies führt dazu, dass das Maÿϕ(K) mit steigendem K weniger stark abnimmt als im ersten Fall. Eine natürliche Gruppe in zwei Cluster zu teilen reduziert das Kriterium weniger, als ein Cluster mit zwei natürlichen Gruppen zu trennen. Betrachtet man die Dierenzen ϕ(k) ϕ(k +1) als Funktion von K, so sollte im Punkt K = K ein deutlicher Unterschied merkbar sein, {ϕ(k) ϕ(k + 1) K < K } {ϕ(k) ϕ(k + 1) K K }. Einen Schätzer ˆK für die Clusteranzahl K erhält man dann, indem man einen Knick im Graph von ϕ(k) identiziert. Clustering-Algorithmen sollten laut Han und Kamber [17, S.446] in der Lage sein, mit sehr groÿen und hochdimensionalen Datensätzen umzugehen, verschiedene Datentypen zu verwerten, Cluster von beliebiger Form zu erstellen und minimales Domänenwissen zu erfordern. Auÿerdem sollten fehlende oder fehlerhafte Daten kein Problem darstellen, ebenso wie inkrementelles Clustering und die Reihenfolge der Dateneingabe. Eine Möglichkeit, hochdimensionale Daten sinnvoll zu clustern, ist, in Teilräumen statt dem Gesamtraum nach Clustern zu suchen. 66

72 4 Distanzmaÿ-basierte Verfahren K-Means-Verfahren K-Means-Clustering ist die häugste Form der partitionierenden Clusteranalyse. Ziel jeder Iteration ist nach Han und Kamber [17, S.451.] die Variation innerhalb eines Clusters zu reduzieren und die Dierenz zwischen verschiedenen Clustern zu maximieren bis Konvergenz erreicht wird. Es wird zuerst eine zufällige Punktemenge als Clusterzentren ausgewählt, dann jede Instanz ihrem nähesten Zentrum zugeordnet und die Zentren durch die Mittelwerte der aktuellen Cluster ersetzt. Das Zentrum eines Clusters muss somit nicht unbedingt selbst ein Mitglied des Datensatzes sein. Typischerweise dient die Fehlerquadratsumme für disjunkte Cluster C X C X i C X i 1 C X i C X i 2 als Maÿ für die Güte der Partition. Sind die natürlichen Gruppen gut trennbar, kompakt und sphärisch, so liefert die K-Means-Methode gute Ergebnisse. Sie ist zudem skalierbar und ezient bei groÿen Datensätzen, da die Rechenkomplexität für n Instanzen, K Cluster und t Iterationen etwa O(nKt) beträgt, wobei normalerweise K n und t n gilt. Leider ndet der Algorithmus oft lediglich ein lokales Optimum. Ein weiterer Nachteil des K-means-Verfahrens ist wie bei allen partitionierenden Methoden die vorherige Festlegung von K. Zudem können lediglich Cluster konvexer Form oder sehr verschiedener Gröÿe gefunden werden. Des Weiteren ist das Verfahren anfällig für Rauschen und Ausreiÿer, da bereits wenige solcher Daten den Mittelwert erheblich beeinussen können. (a) Erste Auswahl der Clusterzentren (b) Partitionierung durch K-Means Abbildung 4.11: Das K-Means-Verfahren 67

73 4 Distanzmaÿ-basierte Verfahren Eine Vorverarbeitung der Daten, bei der Ausreiÿer entfernt werden, ist deshalb empfehlenswert. Dem Problem des lokalen Optimums kann laut Wu et al. [33] entgegengewirkt werden, indem man den Algorithmus mehrere Male mit verschiedenen Anfangszentren auf den Datensatz anwendet. Die optimale Clusterzahl kann wie oben beschrieben mittels eines geeigneten Kriteriums wie dem CCC gefunden werden. Um konvexe Cluster zu vermeiden, ist es manchmal ausreichend, statt der normalerweise verwendeten euklidischen Distanz (4.1) ein anderes Distanzmaÿ zu wählen, welches für den Datensatz geeigneter ist. Alternativ kann das K-Means-Verfahren mit einem anderen Algorithmus kombiniert werden. Dazu partitioniert man die Daten zuerst mittels K-Means in eine groÿe Anzahl von Clustern und fügt diese anschlieÿend durch die hierarchische Single-Linkage- Methode (siehe Seite 63) zu gröÿeren Clustern zusammen. Dadurch werden komplexere Clusterformen möglich und das Verfahren ist weniger anfällig für die Initialisierung der Clusterzentren. Da das hierarchische Clustering zudem eine Reihe von Lösungen für verschiedene k liefert, muss dieser Wert nicht im Voraus deniert werden. Andere Möglichkeiten der Weiterentwicklung von K-Means beinhalten beispielsweise die Verwendung von Kernels, siehe Abschnitt Dies ermöglicht ebenfalls das Bilden von komplexen Clustern. Weiterhin kann man die Clusterzentren als Wahrscheinlichkeitsmodelle und nicht Punkte auassen. Dieser modellbasierte K-Means-Algorithmus erlaubt komplexere Daten, wie beispielsweise Folgen, die durch Hidden-Markov-Modelle beschrieben werden. Das K-Median-Clustering ist K-Means sehr ähnlich, fordert von den Clusterzentren aber zusätzlich, dass sie dem Datensatz X angehören müssen. Um K- Means zu beschleunigen und somit den Umgang mit sehr groÿen Datensätzen zu erleichtern, wurde hauptsächlich der Einsatz von sogenannten k-dimensionalen Bäumen und der Dreiecksungleichung erforscht. Trotz seiner Nachteile bleibt das K-Means-Clustering der in der Praxis am meisten genutzte partitionierende Clustering-Algorithmus. Er ist einfach, verständlich, skalierbar und kann leicht modiziert werden. Ein Beispiel für eine K-Means-Implementation, auch bekannt als Forgy's-Algorithmus, ndet sich in Simovici und Djeraba [28, S.512]. Sei X ein Datensatz mit Instanzen X i R m, i = 1,..., n, und z (0) 1,..., z (0) K Rm eine Zufallswahl an Clusterzentren für die Cluster C k := {X i X i I k }, k = 1,..., K. Dann iteriert der Algorithmus für t = 0, 1, 2,... die Schritte: 1. Weise jede Instanz X i ihrem nähesten Zentrum z (t) k zu. 68

74 4 Distanzmaÿ-basierte Verfahren 2. Bestimme die durch z (t) 1,..., z (t) K denierte Partition π (t) = {C (t) 1,..., C (t) }. K 3. Berechne neue Zentren z (t+1) 1,..., z (t+1) K aus den im jeweiligen Cluster enthaltenen Instanzen. Die Zuordnung der Instanzen zu einem Zentrum lässt sich als Matrix (b ik ) ausdrücken mit 1 falls X i C k, b ik = 0 sonst. Da jede Instanz genau einem Cluster zugeordnet wird, gilt K k=1 b ik = 1 und n i=1 b ik ist die Anzahl der Instanzen mit Zentrum z k. Die Bestimmung der neuen z (t+1) k erfolgt durch z (t+1) k = n i=1 b(t) ik X i n i=1 b(t) ik (4.22) mit 1 k K. Die Fehlerquadratsumme einer Partition π = {C 1,..., C K } ist analog zu (4.20) für ein Distanzmaÿ d und Clusterzentren z k, k = 1,..., K, deniert als ε(π) = = = n K i=1 n i=1 n d 2 (X i, z k ) X i C k K b ik X i z k 2 k=1 k=1 K b ik m i=1 k=1 j=1 (x ij z kj ) 2. Die mk notwendigen Bedingungen für ein lokales Minimum der Funktion ε(π) ε(π) z kj = n b ik ( 2(x ij z kj )) = 0 mit 1 j m und 1 k K kann man umformen in i=1 n b ik x ij = i=1 n b ik z kj = z kj i=1 n b ik, i=1 oder z kj = n i=1 b ikx ij n i=1 b ik 69

75 4 Distanzmaÿ-basierte Verfahren für 1 j m. In Vektorschreibweise ergeben diese Bedingungen zusammen z k = n i=1 b ikx i n i=1 b, ik was genau Gleichung (4.22) entspricht, die zum Aktualisieren der Clusterzentren benutzt wird. Die Wahl der Zentren kann also damit gerechtfertigt werden, dass man versucht lokale Minima der Fehlerquadratsumme des Clusterings zu nden. Das Haltekriterium des Algorithmus hängt von der jeweiligen Implementation ab und kann etwa die Anzahl an Iterationen, eine untere Grenze für die Fehlerquadratsumme oder keine Neuzuweisung von Instanzen beinhalten. Beispiel 4.4: Der Irisdatensatz ist auch für Clustering-Methoden geeignet, da es sich um gut trennbare natürliche Gruppen handelt. Zudem ist die Klassengehörigkeit und die Klassenzahl von K = 3 bekannt, das heiÿt, es kann der Klassikationsfehler erhoben werden, und K muss nicht im Voraus bestimmt werden. Die K-Means-Methode versucht nun anhand der vier Attribute, Länge und Breite des Sepalums oder Petalums, drei Cluster zu bilden. Dazu werden die Irisdaten in Abbildung 4.12a zunächst als Excel-Datei eingelesen und direkt an den K-Means-Operator weitergegeben. Um den Klassikationsfehler bestimmt zu können, werden die Cluster anschlieÿend mittels des Map-Clustering-on-Labels-Operators in eine Variable zur Klassenprädiktion transformiert. Als Ausgabe erhält man den Klassikationsfehler als Leistungsmaÿ (Abbildung 4.12b), den Datensatz sowie Informationen über das erstellte Modell (Abbildung 4.12e). Wie in Beispiel 4.7 noch deutlich wird, kann der Klassikationsfehler von 11.33% durch das nun folgende EM-Verfahren deutlich verbessert werden. (a) Der K-Means-Prozess Abbildung 4.12: K-Means-Clustering 70

76 4 Distanzmaÿ-basierte Verfahren (b) Der Klassikationsfehler (c) Scatterplot der Daten (d) Scatterplot mit Clustering (e) Die Clusterzentren Abbildung 4.12: K-Means-Clustering 71

77 4.3.4 EM-Algorithmus 4 Distanzmaÿ-basierte Verfahren Anstatt wie bei K-Means jede Instanz genau einem Cluster zuzuordnen, kann man jede Instanz mit K Gewichten versehen, welche die Wahrscheinlichkeiten der Clusterzugehörigkeit repräsentieren. Man geht davon aus, dass den Daten eine Mischverteilung zugrunde liegt mit je einer parametrischen Komponentenverteilung pro Cluster. Der Expectation-Maximization-Algorithmus (EM) ist ein beliebtes Verfahren, das für die Bestimmung der Verteilungsparameter benutzt werden kann. Im EM-Ansatz betrachtet man nach Wu et al. [33] den Datensatz D = X = {X 1, X 2,..., X n } mit Instanzen X i R m als Zufallsstichprobe aus einer Mischung von K Gruppen mit unbekannten Anteilen π 1, π 2,..., π K. Denition 4.5: Seien K Wahrscheinlichkeitsfunktionen P 1 (x), P 2 (x),..., P K (x) gegeben. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann deniert durch P (X i ) := π 1 P 1 (X i ) + π 2 P 2 (X i ) + + π K P K (X i ) = K π k P k (X i ) k=1 mit 1 i n, 0 π k 1 für alle k und K k=1 π k = 1. Denition 4.6: Eine diskrete Mischung mit K stetigen Komponenten hat die Dichtefunktion K f(x i ; Ψ) := π k f k (X i ; θ k ) mit K Dichtefunktionen f 1 (X i ), f 2 (X i ),..., f K (X i ), 0 π k 1 und K k=1 π k = 1. k=1 Ψ := (π 1, π 2,..., π k 1, θ1 T, θ2 T,..., θk T )T bezeichnet den Vektor aller Parameter. Benutzt man einen Schätzer für Ψ, liefert dieser Ansatz ein Wahrscheinlichkeits-Clustering der Daten in K Cluster mittels Schätzer der Aposteriori-Wahrscheinlichkeit für Komponentenzugehörigkeit, τ k (X i, Ψ) := π kf k (X i ; θ k ). f(x i ; Ψ) Der Parametervektor Ψ kann durch die Maximum-Likelihood-Methode geschätzt werden, wobei die zugehörige ML-Gleichung log L(Ψ)/ Ψ = 0 (4.23) 72

78 4 Distanzmaÿ-basierte Verfahren ist mit Log-Likelihood-Funktion log L(Ψ) = n log f(x i ; Ψ). i=1 Die Lösungen von Gleichung (4.23) sind lokale Maxima und können durch den EM- Algorithmus erhalten werden. In der Regel werden die Dichtefunktionen f k (X i ) aus der gleichen parametrischen Familie gewählt, etwa der Familie der Normalverteilungen f k (X i ; θ k ) = Φ(X i ; µ k, Σ k ), wobei Φ(X i ; µ, Σ) die m-dimensionale multivariate Normalverteilung mit Mittelwertsvektor µ und Kovarianzmatrix Σ bezeichnet. Der EM-Algorithmus startet mit einem Zufallsvektor Ψ (0). Ziel ist es, die unbekannte Klassenzugehörigkeit y ki zu schätzen, welche den Wert 0 oder 1 annimmt, je nachdem ob X i zur k-ten Klasse gehört oder nicht. Das EM-Verfahren iteriert nun die folgenden Schritte: Im Expectation-Schritt werden die Erwartungswerte E(y ki ) betrachtet. Da die wahre Klassenzugehörigkeit unbekannt ist, wird sie durch τ (t) ki ersetzt, τ (t) ki := π(t) k Φ( X i; µ (t) k, Σ(t) f(x i ; Ψ (t) ) k ). Im Maximization-Schritt werden die Komponenten des Parametervektors Ψ (t+1) berechnet: π (t+1) k = 1 n τ (t) ki n, und Σ (t+1) k = µ (t+1) k = i=1 n i=1 τ (t) ki X i n i=1 τ (t) ki n i=1 τ (t) ki (X i µ (t+1) k )(X i µ (t+1) k n i=1 τ (t) ki Der Algorithmus stoppt, wenn die Änderungen in einem der Schritte unterhalb einer vordenierten Schwelle liegen. ) T. 73

79 4 Distanzmaÿ-basierte Verfahren Beispiel 4.7: Auch das EM-Clustering lässt sich auf die Irisdaten anwenden, der RapidMiner- Prozess entspricht dabei bis auf den Clustering-Operator dem aus Beispiel 4.4. Ebenso wie dort erhält man als Ergebnis den Klassikationsfehler (Abbildung 4.13a), den Datensatz sowie Informationen über das erstellte Modell (Abbildung 4.13c). Im Gegensatz zu Beispiel 4.4 liegt der Klassikationsfehler hier mit 3.33% im Vergleich zu 11.33% deutlich niedriger. (a) Der Klassikationsfehler (b) Scatterplot der Daten (c) Scatterplot mit Clustering (d) Das Modell Abbildung 4.13: EM-Clustering 74

80 5 Neuere Verfahren Als letzte Gruppe werden hier drei Verfahren besprochen, die erst relativ spät von Data Minern benutzt wurden und deshalb zu den neueren Verfahren zählen, auch wenn ihre Grundlagen teilweise sehr früh gelegt wurden. 5.1 Ensemble-Methoden Ein altes statistisches Sprichwort besagt: In many counselors there is safety. Dieses Prinzip kann auch im Data-Mining verwendet werden, indem man mehrere Modelle erstellt und diese zu einer einzigen Schätzung der Zielvariablen Y i kombiniert. Nach Kamath [20, S.194.] erhält man dadurch eine signikant gröÿere Testgenauigkeit. Besonders trit dies zu, wenn die Modelle aus gänzlich verschiedenen Familien stammen wie beispielsweise Bäume, Polynome, Kerne und Splines. Zudem besitzen Ensemble- Verfahren das Potenzial zur Online-Klassikation von Datenbanken, die für den Arbeitsspeicher zu groÿ sind, und ermöglichen oft parallele Verarbeitung. Zwar sind sie rechenintensiver, und der Entscheidungsweg ist schlechter nachvollziehbar, die Genauigkeit des fertigen Modells steigt jedoch. Ensembles wurden intensiv für die Klassikation durch Entscheidungsbäume verwendet, sie lassen sich aber ebenso auf andere Klassizierer und Regressionsprobleme übertragen. Die beiden Hauptprobleme der Ensemble-Methoden sind die Erstellung der T Modelle und die Kombination der Schätzer ŷ (t) i, t = 1,,..., T. Das zweite Problem ist relativ einfach lösbar, meist wählt man die optimale Klasse k so, dass k = arg max k T t=1 w t {ŷ (t) i = k}, k = 1,..., K gilt. Der Schätzer ist somit die durch Parameter w t R gewichtete Mehrheitsklasse. Bei der Erstellung der Modelle gibt es hingegen sehr viele verschiedene Möglichkeiten. Man kann beispielsweise auf Teilmengen der Attribute arbeiten oder die Zielvariable manipulieren. Die üblichste Variante ist jedoch, die Trainingsdaten zu verändern, auf denen 75

81 5 Neuere Verfahren die einzelnen Klassizierer des Ensembles ein Modell erstellen. Zwei beliebte Ensemble- Methoden dieser Art sind Bagging und Boosting. Der Begri Bagging leitet sich laut Han und Kamber [17, S.379.] von bootstrap aggregation ab. Sei X ein Datensatz mit n Instanzen, dann bildet man daraus durch zufälliges Ziehen mit Zurücklegen (= bootstrapping) T Trainingsdatensätze mit je n Instanzen. Einige Instanzen können somit mehrfach vorkommen, andere wiederum überhaupt nicht. Die so randomisierten Trainingsdaten bilden die Grundlage für T Klassikationen von Testdaten, deren endgültiges Klassenlabel ŷ i das am häugsten vorkommende darstellt. Bagging kann auch auf stetige Zielvariablen angewandt werden, indem man den Mittelwert der einzelnen Schätzer ŷ (t) i bildet. Für diesen Fall wurde gezeigt, dass Bagging die Genauigkeit der Vorhersage stets erhöht. Insbesondere bei Verfahren wie Entscheidungsbäumen und neuronalen Netzen, welche empndlich gegenüber Änderungen im Datensatz sind, zeigt Bagging laut Kamath [20, S.195] eine sehr gute Wirkung. Boosting kombiniert ebenso wie Bagging die Klassenlabel mehrerer Modelle. Die T Klassizierer werden jedoch sequentiell statt parallel erstellt, und die Gewichte der Instanzen nach jeder Iteration aktualisiert. Somit kann nachfolgend den falsch klassizierten Instanzen (ŷ (t) i Y i ) mehr Beachtung geschenkt werden. Da die Schätzer ŷ (t) i gewichtet nach ihrer Genauigkeit auf den Trainingsdaten eingehen, haben gute Modelle mehr Ein- uss auf den nalen Schätzer ŷ i als schlechte. Statt der Instanzen kann laut Kamath [20, S.195] auch die Wahrscheinlichkeit ihrer Auswahl gewichtet werden. Es gibt mehrere Varianten des Boostings, je nachdem wie die Instanzen gewichtet werden, unter welchen Bedingungen der Algorithmus stoppt und wie die Ergebnisse der Klassizierer kombiniert werden. Da Boosting sich auf die falsch klassizierten Vektoren fokussiert, riskiert man im Gegensatz zum Bagging eine Überanpassung des nalen Modells an diese Daten. Dies gleicht das Boosting jedoch durch eine gröÿere Genauigkeit aus AdaBoost Der wohl populärste Boosting-Algorithmus ist AdaBoost.M1 von Freund und Schapire [12], die damit 2003 den Gödel-Preis gewannen. Seine Beliebtheit stammt laut Wu et al. [33] von seinem soliden theoretischen Fundament, sehr genauer Vorhersageleistung, groÿer Einfachheit und breiter und erfolgreicher Anwendung. Zudem wurden innerhalb eines Jahrzehnts so viele Varianten von AdaBoost entwickelt, dass Boosting die wichtigste Gruppe von Ensemblemethoden darstellt. Die Basisklassizierer von Ada- Boost.M1 geben ein diskretes Klassenlabel aus, will man stattdessen eine stetige Zielvariable betrachten, kann AdaBoost entsprechend modiziert werden. Der ursprüngli- 76

82 5 Neuere Verfahren che AdaBoost-Algorithmus kann nur mit zweiklassigen Problemen umgehen, weshalb Freund und Schapire AdaBoost.M1 entwickelten. Der Testfehler von AdaBoost sinkt oft auch noch, nachdem der Trainingsfehler gleich null ist [vgl. 14], und es neigt selten zu Überanpassung. Wie bei Support Vector Machines aus Abschnitt 4.2 wird nach Hastie et al. [19, S.337.] ein zweiklassiger Datensatz X mit (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) X, X i R m und Y i { 1, +1} betrachtet. Die Instanzen X i gehen gewichtet durch w (t) i > 0 in den Klassizierer G t (X i ) ein, t = 1, 2,..., T. Der Algorithmus startet mit einer ungewichteten Klassikation und befolgt die folgenden Schritte: 1. Initialisiere die Gewichte w (1) i = 1/n für alle i = 1,..., n. 2. Für t = 1,..., T: (a) Passe einen Klassizierer G t (X i ) mit Gewichten w (t) i (b) Berechne die Fehlerrate an Trainingsdaten an. err t := n i=1 w(t) i I(Y i G t (X i )) n i=1 w i (0, 1). (5.1) (c) Berechne α t := log((1 err t )/err t ) (0, 1). (d) Berechne für alle i = 1,..., n die neuen Gewichte w (t+1) i = w (t) i exp (α t I(Y i G t (X i ))). (5.2) 3. Gebe den nalen Schätzer aus, ( T ) G(X i ) := sign α t G t (X i ) t=1 { 1, +1}. (5.3) Die Gewichte α t geben den besseren Klassizierern mehr Einuss, da α t 1 für err t 0 gilt. Im Lauf des Algorithmus werden die bisher falsch klassizierten Instanzen bedeutender, da nur sie mit dem Faktor exp(α t ) > 0 multipliziert werden, während für richtig klassizierte Instanzen I(Y i G t (X i ; γ t )) = 0 und somit w (t+1) i = w (t) i gilt. 77

83 5 Neuere Verfahren Schrittweise Vorwärtsmodellierung Der Erfolg von Boosting liegt in der Kombination der Klassizierer (5.3). Boosting kann als Anpassung einer additiven Erweiterung von Basisfunktionen G t (X i ) { 1, 1} betrachtet werden. Im Allgemeinen haben additive Erweiterungen die Form f(x) = T β t b(x; γ t ) t=1 mit Basisfunktionen b(x; γ t ) R und Parametern β t, γ t. Die Funktion f(x) kann durch Minimierung einer Verlustfunktion L(Y i, f(x)), min β t,γ t ( n L Y i, i=1 ) T β t b(x i ; γ t ), (5.4) t=1 angepasst werden. Für viele Verlust- oder Basisfunktionen erfordert dies rechenintensive numerische Optimierungsmethoden. Es kann jedoch eine einfache Alternative gefunden werden, wenn es möglich ist, das Unterproblem der Anpassung von nur einer Basisfunktion min β,γ n L (Y i, β b(x i ; γ)) i=1 schnell zu lösen. Schrittweise Vorwärtsmodellierung approximiert die Lösung von (5.4) durch schrittweises Hinzufügen neuer Basisfunktionen zu den additiven Erweiterungen: 1. Initialisiere f 0 (X) = Für t = 1,..., T: (a) Berechne (β t, γ t ) = arg min β,γ n L ( Y i, f (t 1) (X i ) + β b(x i ; γ) ). (5.5) i=1 (b) Bestimme f t (X) = f t 1 (X) + β t b(x; γ t ). In jeder Iteration t wird also nach der optimalen Basisfunktion b(x; γ t ) und den korrespondierenden Koezienten β t aufgelöst, die dann der momentanen Entwicklung f t 1 (X) hinzugefügt werden. Vorher hinzugefügte Terme werden dabei nicht verändert. 78

84 5 Neuere Verfahren Verwendet man als Verlustfunktion den mittleren quadratischen Fehler L(Y, f(x)) = (Y f(x)) 2, erhält man L(Y i, f t 1 (X i ) + β b(x i ; γ)) = (Y i f t 1 (X i ) β b(x i ; γ)) 2 = (r it β b(x i ; γ)) 2 mit r it := Y i f t 1 (X i ) als Residuum der i-ten Beobachtung unter dem momentanen Modell. Es wird somit der Term β t b(x; γ t ) bei jedem Schritt zur additiven Entwicklung f t 1 (X i ) hinzugefügt, der sich am besten an die momentanen Residuen r it, i = 1,..., n, anpasst. Der mittlere quadratische Fehler ist allerdings im Allgemeinen keine gute Wahl für Klassikation, weshalb andere Verlustkriterien betrachtet werden müssen Exponentielle Verlustfunktion Im Folgenden wird gezeigt, dass AdaBoost.M1 äquivalent ist zu schrittweisem additivem Vorwärtsmodellieren mit exponentieller Verlustfunktion L(Y, f(x)) = exp( Y f(x)). AdaBoost benutzt, wie bereits erwähnt, die Klassizierer G t (X) { 1, 1} als Basisfunktionen. Mit der exponentiellen Verlustfunktion muss dann analog zu (5.5) (β t, G t ) = arg min β,g n exp ( Y i (f t 1 (X i ) + β G(X i ))) (5.6) i=1 nach G t und β t gelöst werden, so dass diese im Schritt t zur additiven Erweiterung hinzugefügt werden. Gleichung (5.6) kann mit w (t) i := exp( Y i f t 1 (X i )) als (β t, G t ) = arg min β,g n i=1 w (t) i exp( β Y i G(X i )) (5.7) geschrieben werden. Die w (t) i gewichten die Instanzen in jeder Iteration neu, da sie weder von β noch von G(X i ) abhängen, wohl aber von f t 1 (X i ). Nun wird die Lösung von Gleichung (5.7) bestimmt. Aus Y i, G(X i ) { 1, +1} folgt +1 für Y i = G(X i ) Y i G(X i ) = 1 für Y i G(X i ) 79

85 5 Neuere Verfahren und somit n i=1 w (t) i exp( β Y i G(X i )) = e β n i=1 = (e β e β ) w (t) i I(Y i G(X i )) + e β n i=1 n i=1 w (t) i I(Y i G(X i )) + e β Für beliebiges β > 0 ist das Minimum von Gleichung (5.7) demnach gleich G t (X) = arg min G n i=1 w (t) i I(Y i G(X i )). w (t) i I(Y i = G(X i )) n i=1 w (t) i. Setzt man dieses G t in (5.6) ein und löst nach β, so erhält man mit (5.1) den zweiten Teil zur Lösung des Optimierungsproblems β t = 1 2 log 1 err t err t. Für die nächste Iteration erhält man dann als neue additive Erweiterung und daraus die aktualisierten Gewichte f t (X) = f t 1 (X) + β t G t (X) w (t+1) i = w (t) i exp ( β t Y i G t (X i )). Mit Y i G t (X i ) = 2 I(Y i G t (X i )) 1 gilt zudem w (t+1) i = w (t) i exp (α t I(Y i G t (X i )) ) e βt, wobei α t := 2β t die Parameter aus dem AdaBoost.M1 Algorithmus bezeichnen. Der Faktor e βt multipliziert dabei alle Gewichte mit demselben Wert und hat deshalb keinen Eekt. Somit ist die Gleichheit zu Gleichung (5.2) gezeigt. Beispiel 5.1: Die Zahlendaten enthalten gesprochene arabische Ziern von 0 bis 9 [W5]. Jede Instanz repräsentiert eine Aussprache einer Zier, gemessen wurden m = 13 Attribute. Da der Datensatz im Original sehr groÿ ist, wurde er im Voraus auf n = Instanzen verkleinert. Ziel der Evaluation ist die Klassikation der Sprecher in männlich oder weiblich. Im RapidMiner werden die Zahlendaten zunächst als Exceldatei eingelesen und an einen 80

86 5 Neuere Verfahren Validierungsblock weitergegeben (siehe Abbildung 5.1a). Innerhalb des Validierungsblocks ndet eine Aufteilung der Daten statt, wobei der AdaBoost-Block 70% als Trainingsdaten zur Modellierung nutzt. Der AdaBoost-Operator wiederum erstellt maximal T = 10 Entscheidungsbäume mit Gini-Index (Abbildung 5.1c), die anschlieÿend zu einem nalen Modell kombiniert werden. Der Prozess gibt als Ergebnisse das Modell, den Datensatz und den Klassikationsfehler aus. Abbildung 5.2 stellt diese Ergebnisse dar. Zunächst ein Auschnitt aus (a) Der gesamte Prozess (b) Validierung (c) AdaBoost-Operator Abbildung 5.1: Klassizierung durch AdaBoost 81

87 5 Neuere Verfahren (a) Ausschnitt aus dem Modell (b) Auszug aus den Daten (c) Klassikationsfehler Abbildung 5.2: Ergebnis der Klassizierung durch AdaBoost dem ersten erstellten Entscheidungsbaum, dann ein Auszug aus dem Datensatz und letztlich der Klassikationsfehler von 17.03%. Dies ist ein vergleichsweise guter Wert, da eine einfache Entscheidungsbaum-Klassizierung wie in Beispiel 3.23 lediglich 21.67% liefert, das Naive-Bayes-Verfahren sogar nur 32.45%. 82

88 5 Neuere Verfahren 5.2 Neuronale Netze Neuronale Netze stammen laut Hastie et al. [19, S.394] ursprünglich aus der Biologie und bezeichnen den Aufbau des (menschlichen) Nervensystems. Mit Hilfe von künstlichen neuronalen Netzen (KNN) wird diese Struktur und das menschliche Lernverhalten imitiert, um Informationen aus einem Datensatz D zu extrahieren. Ein neuronales Netz kann wie in Abbildung 5.3 im Sinn der Graphentheorie als eine Menge von verarbeitenden Elementen (Neuronen) dargestellt werden, die in mehreren hintereinander geschalteten Schichten angeordnet und durch gewichtete Pfade (Synapsen) α jp, β pk verbunden sind. Die erste Neuronenschicht des KNN ist die sogenannte Eingabeschicht, welche ein Neuron für jedes Attribut A j enthält und lediglich der Informationsweitergabe aus den Instanzen dient. Die durch α jp gewichteten Linearkombinationen dieser Eingabeneuronen dienen als Input für Neuronen Z ip mindestens einer sogenannten verdeckten Schicht. Dort wird eine unbekannte nichtlineare Funktion darauf angewandt, welche wiederum das Output der verdeckten Schicht und gleichzeitig Input der nächsten Schicht liefert. Neuronale Netze beherrschen sowohl Regression als auch Klassikation, da im ersten Fall einfach ein Ausgabeneuron verwendet wird, während es bei Klassikation K Neuronen T ik sind. Neben dem überwachten Lernen eignen sich bestimmte neuronale Netze auch als unüberwachtes Verfahren. Die verdeckten Schichten verhindern nach Han und Kamber [17, S.398 f.] eine einfache Interpretation, da für den Benutzer nicht nachvollziehbar ist, was in ihnen geschieht. Zudem muss meist im Voraus ihre Anzahl sowie die Anzahl der enthaltenen Neuronen festgelegt werden. Da es hierfür keine Musterlösung gibt, wird die Topologie des KNN häug durch Versuch und Irrtum bestimmt. Alternativ kann Kreuzvalidierung oder eine automatisierte Technik wie der hill-climbing-ansatz verwendet werden. Da neuronale Netze sehr viele Parameter besitzen, dauert das Training laut Fernandez [10, S.347] vergleichsweise lange und benötigt eine groÿe Trainingsmenge. Um den Lernprozess zu beschleunigen, werden nach Han und Kamber [17, S.400] stetige Attribute in der Regel auf [0, 1] normalisiert und diskrete in binäre Attribute umkodiert. Trotz der Schwierigkeiten, die sie mit sich bringen, liegt der Schlüssel zum Erfolg von neuronalen Netzen in den verdeckten Schichten. Bei geeigneter Topologie ermöglichen sie die Approximation jedes beliebigen Modells, was als universal approximation theorem von Csáji [6] bekannt wurde. Neuronale Netze sind gegenüber verrauschten Daten sehr tolerant und besitzen Generalisationsfähigkeit über die Trainingsdaten hinaus. Ihre parallele Natur ermöglicht den Einsatz von parallelen Techniken, welche den Berech- 83

89 5 Neuere Verfahren X i x i1 Z i x i2 α 21 Z i1 x i3 T i Z i2 T i1 g k ŷ ik Z ip β PK T ik 1 x im 1 Abbildung 5.3: Modell eines einschichtigen Perzeptrons nungsprozess beschleunigen. Um die Interpretierbarkeit zu erhöhen, wurden mehrere Methoden entwickelt, aus trainierten KNN Regeln zu extrahieren. Beispiele für die erfolgreiche Anwendung nden sich bei der Erkennung handgeschriebener Buchstaben, pathologischer und Labormedizin sowie computergesteuerter Aussprache eines englischen Textes. Künstliche neuronale Netze können auch genutzt werden, um die Arbeitsweise des menschlichen Gehirnes zu simulieren und damit besser zu verstehen, beispielsweise bei der Wahrnehmung von Farben. Ein weiterer Anwendungsbereich von KNN liegt im Bereich der künstlichen Intelligenz, in dem Roboter mit Hilfe künstlicher neuronaler Netze selbstständig lernfähig wurden Perzeptron Neuronale Netze umfassen mittlerweile eine groÿe Klasse von Modellen und Lernmethoden. Sie werden nach der Anzahl an Schichten benannt. Allerdings ist diese Benennung 84

90 5 Neuere Verfahren von Denition zu Denition unterschiedlich, da die Eingabe- und Ausgabeschicht nur teilweise mitgezählt werden. Das populärste KNN für überwachte Klassikation ist laut Fernandez [10, S.347] das Perzeptron mit Backpropagation. Dabei handelt es sich um ein feed-forward-netz, ein KNN ohne Rückkopplung. Im Gegensatz dazu besitzen Neuronen in rekurrenten Netzen Verbindungen zu sich selbst oder zu vorigen Schichten. Aufgrund seiner Anschaulichkeit wird hier analog zu Hastie et al. [19, S.392.] das einschichtige Perzeptron aus Abbildung 5.3 betrachtet. Denition 5.2 (Perzeptron): Seien X i = (x i1, x i2,..., x im ) T Instanzen mit binär kodierter Zielvariable Y i = (Y i1, Y i2,..., Y ik ) T, Y ik {0, 1}, k = 1,..., K, i = 1,..., n. Seien α 0p, β 0k R, α p R m und β k R P unbekannte Parameter, σ : R [0, 1] und g k : R K [0, 1] unbekannte Funktionen, Z i = (Z i1, Z i2,..., Z ip ) T die verdeckte Schicht und T i = (T i1, T i2,..., T ik ) T die Ausgabeschicht, dann gilt für i = 1,..., n Z ip := σ(α 0p + X T i α p ), p = 1,..., P, T ik := β 0k + Z T i β k, k = 1,..., K, ŷ ik := g k (T i ), k = 1,..., K. (5.8) Der Schätzer ŷ ik [0, 1] gibt die Wahrscheinlichkeit an, mit der die Instanz X i der Klasse C k angehört. Anfangs schätzte man σ häug durch Treppenfunktionen. Analog zur damaligen Theorie über die Funktionsweise menschlicher Nervenzellen feuert dann ein Neuron nur, wenn das ankommende Gesamtsignal einen bestimmten Grenzwert überschreitet. Mittlerweile wählt man in der Regel eine der wesentlich glatteren Sigmoidfunktionen, etwa die logistische Funktion σ(v) = 1/(1 + e v ). Es können auch normalverteilte radiale Basisfunktionen (RBF) wie in Abschnitt verwendet werden, die dann zu RBF-Netzen führen. Die Ausgabefunktionen g k erlauben eine letzte Transformation des Vektors T i. Für Regression wählt man üblicherweise die Identität g k (T i ) = T ik, wodurch sich (5.8) schreiben lässt als ( ) P m ŷ ik = β 0k + σ α 0p + x ij α jp β pk. p=1 j=1 85

91 5 Neuere Verfahren Die Identität wurde zu Beginn auch häug für Klassikation genutzt, später aber zugunsten der Softmax-Funktion g k (T i ) = exp(t ik ) K k =1 exp(t ik ) (5.9) verworfen. Gilt σ = id, so ist das gesamte Modell lediglich linear. Somit stellen KNN eine nicht-lineare Generalisierung linearer Modelle dar, sowohl für Regression als auch für Klassikation. Nach der Auswahl geeigneter Funktionen σ und g k, wird das Perzeptron über die Optimierung der Parametermenge θ angepasst: θ = {α jp j=0,1,...,m, p=1,...,p} {β pk p=0,1,...,p, k=1,...,k} = P (m + 1) + K(P + 1). Um die Verzerrungsparameter α 0p und β 0k im Diagramm darstellen zu können, wird den Schichten Z i und T i ein Neuron mit Inhalt 1 hinzugefügt. Für Klassikation verwendet man als Maÿ für die Anpassungsgüte entweder die Devianz oder die Fehlerquadratsumme R(θ) = n i=1 K Y ik log ŷ ik k=1 R(θ) = K n (Y ik ŷ ik ) 2, k=1 i=1 welche auch für eine stetige Zielvariable Y i benutzt werden kann, sowie den nalen Klassizierer ŷ i = arg max k ŷ ik. Verwendet man die Softmax-Funktion (5.9), welche eine Verallgemeinerung der logistischen Funktion σ(v) = 1/(1 + e v ) auf mehrere Variablen darstellt, als Ausgabefunktion g k (T i ) für k = 1,..., n und die Devianz als Fehlerfunktion, so liegt in den verdeckten Neuronen Z ip ein logistisches Regressionsmodell vor. Daraus folgt, dass alle Parameter durch das Maximum-Likelihood-Verfahren geschätzt werden können. Im Allgemeinen sucht man nun allerdings nicht den globalen Minimierer von R(θ), da dieser wahrscheinlich überangepasst ist. Stattdessen wird eine Regulierung benötigt, welche später noch genauer besprochen wird. 86

92 5 Neuere Verfahren Backpropagation Der allgemeine Ansatz, R(θ) zu minimieren, ist nach Hastie et al. [19, S.395 f.] das Gradientenverfahren, in diesem Zusammenhang Backpropagation (Rückübermittlung) genannt. Wegen der additiven Form des Perzeptrons kann der Gradient leicht über die Kettenregel für Dierentiation hergeleitet werden. Der Algorithmus besteht dabei aus einem Vorwärts- und einem Rückwärtsdurchlauf durch das Netz. Sei das Perzeptron aus Denition 5.2, eine Parametermenge θ und R(θ) als Fehlerquadratsumme gegeben. Dann sind die partiellen Ableitungen von R(θ) = n R i := i=1 n K (Y ik ŷ ik ) 2 i=1 k=1 nach β pk, k = 1,..., K, p = 0, 1,..., P für i = 1,..., n R i β pk = 2(Y ik ŷ ik ) g k(z T i β k ) Z ip und nach α jp, p = 1,..., P, j = 0, 1,..., m für i = 1,..., n R i α jp = K 2(Y ik ŷ ik ) g k(z T i β k ) β kp σ (X T i α p ) x ij. k=1 Man kann die Fehler δ ki und s pi des aktuellen Modells in den Ausgabe- bzw. verdeckten Neuronen durch R i β pk =: δ ki Z ip, R i α jp =: s pi x ij, denieren. Sie erfüllen die Backpropagation-Gleichungen s pi = σ (X T i α p ) K β pk δ ki. Mit ihrer Hilfe kann nun der Backpropagation-Algorithmus formuliert werden: 1. Initialisiere θ (0) mit Zufallszahlen nahe Bestimme im Schritt t = 0, 1, 2,... für jeweils i = 1,..., n: (a) im Vorwärtsdurchlauf Z (t) i k=1 und ŷ (t) ik für alle k = 1,..., K aus Denition

93 5 Neuere Verfahren (b) die Fehler δ (t) ki s (t) pi = 2(Y ik ŷ (t) ik ) g k(z (t) T (t) i β K = σ (X T i α (t) p ) k=1 β (t) pk δ(t) ki k ) k=1,...,k, p=1,...,p. (c) die partiellen Ableitungen R i (t) β pk (t) R i α jp = δ (t) ki Z(t) ip = s (t) pi x ij k=1,...,k, p=0,1,...,p p=1,...,p, j=0,1,...,m. (d) die neuen Parameter β (t+1) pk α (t+1) jp mit Lernrate γ t [0, 1]. = β (t) pk γ t = α (t) jp γ t n i=1 n i=1 R i β pk R i α jp (t) (t) k=1,...,k, p=0,1,...,p p=1,...,p, j=0,1,...,m (5.10) 3. Bestimme ŷ i = arg max k ŷ (t ) ik für ein optimales t, i = 1,..., n. Die Schritte 2(b) bis 2(d) beschreiben den Rückwärtsdurchlauf durch das Netz. Das Backpropagation-Verfahren trägt auch den Namen Delta-Regel. Bei Verwendung der Devianz als Fehlerfunktion folgt die Herleitung auf gleiche Weise. Die Lernrate γ t Die Lernrate γ t soll laut Han und Kamber [17, S.403 f.] das Finden globaler statt lokaler Minima fördern. Ein optimaler Wert existiert im Allgemeinen nicht. Ist es zu klein, wird das Lernen zu langsam, ist die Lernrate hingegen zu groÿ, so tritt Oszillation zwischen zwei unangemessenen Lösungen auf. Nach Hastie et al. [19, S.397] existieren zwei verschiedene Möglichkeiten, ein KNN mit Backpropagation zu trainieren. Die erste ist Batchlearning, bei dem alle Trainingsinstanzen gleichzeitig in Gleichung (5.10) eingehen. Im diesem Fall wird die Lernrate γ t normalerweise als Konstante angenommen und kann durch einen Linesearch-Algorithmus optimiert werden, welcher die Fehlerfunktion bei jedem Update minimiert. 88

94 5 Neuere Verfahren Um Rechenzeit einzusparen und den Umgang mit sehr groÿen Datensätzen zu erleichtern, wurde die zweite Möglichkeit, die Online-Backpropagation entwickelt. Dabei werden die Gradienten nach jeder einzelnen Instanz aktualisiert und die Trainingsmenge viele Male durchlaufen. Die Summen aus Gleichung (5.10) werden durch einen einzigen Summanden ersetzt, und ein vollständiger Durchlauf durch den Datensatz wird zu einer sogenannten Epoche zusammengefasst. Beim Online-Lernen sollte γ t 0 für t gelten, was eine Form von stochastischer Approximation darstellt. Demnach liegt Konvergenz vor, falls γ t 0, t γ t = und t γ2 t < gilt, was beispielsweise durch γ t = 1/t erfüllt wird. Um Überanpassung zu vermeiden, wird das Training eines Perzeptrons mit Backpropagation laut Han und Kamber [17, S.404] beendet, wenn die Veränderung der Parameter klein genug ist, der Klassikationsfehler R(θ) einen Grenzwert unterschreitet oder eine bestimmte Epochenzahl erreicht ist. Geht man von n Instanzen und w = θ Parametern aus, so fordert jede Epoche O(nw) Berechnungen. Die Epochenzahl wiederum hängt im schlimmsten Fall exponentiell von der Attributszahl m ab. Somit werden möglicherweise hunderttausende Epochen benötigt, damit die Parameter konvergieren. Es gibt jedoch eine Reihe von Möglichkeiten, den Prozess zu beschleunigen, wie etwa parallele Implementierung Probleme Der Backpropagation-Algorithmus kann laut Hastie et al. [19, S.397.] sehr langsam sein und ist deshalb nicht die beste Wahl. Auch Techniken wie die Newton-Methode, welche neben dem Gradienten auch Ableitungen zweiter Ordnung benutzen, sind nicht sonderlich gut geeignet, da die Hesse-Matrix von R(θ) sehr groÿ sein kann. Konjugierte- Gradienten- und Levenberg-Marquardt-Methoden hingegen vermeiden die explizite Berechnung der Hesse-Matrix und liefern daher eine schnellere Konvergenz. Zudem neigen neuronale Netze im Allgemeinen zur Überparametrisierung und das Optimierungsproblem ist nicht-konvex und instabil. Falls wie zu Beginn des Verfahrens alle Parameter nahe null liegen, ist die logistische Funktion grob linear, und das KNN schrumpft zu einem beinahe linearen Modell. Das Modell startet also fast linear und wird erst im weiteren Verlauf nicht-linear. Um Überanpassung durch zu viele Parameter zu vermeiden, wurde der Algorithmus in der Anfangsphase der Entwicklung weit vor dem globalen Minimum angehalten, wodurch das endgültige Modell lediglich linear war. Eine 89

95 5 Neuere Verfahren explizitere Methode der Regulierung ist Gewichtszerfall. Man addiert dazu eine Strafe zum Klassikationsfehler, R(θ) + λj(θ), mit Straunktion J(θ) = pk β 2 pk + jp α 2 jp und λ 0. Es existieren weitere Straunktionen, wie die Weight-Elimination-Strafe, welche kleine Parameter noch mehr verringert als die obige Funktion. Für die Anzahl an verdeckten Neuronen gilt das Motto lieber zu viel als zu wenig, da die Parameter überüssiger Neuronen durch das Verfahren beliebig verkleinert werden können. Existieren jedoch zu wenig verdeckte Neuronen, so ist das Netz womöglich nicht in der Lage, genügend Nichtlinearität darzustellen. Je nach der Anzahl der Attribute m und der Instanzen n kommen so 5 bis 100 verdeckte Neuronen zustande. Die Anzahl an verdeckten Schichten wird durch Hintergrundwissen und Experimentieren ausgewählt. Da der Klassikationsfehler R(θ) nicht konvex ist, hängt die endgültige Lösung von der Wahl der Startparameter θ (0) ab. Um also das Feststecken in einem lokalen Minimum zu vermeiden, kann man mehrere zufällige θ (0) ausprobieren und die Lösug mit dem geringsten R(θ (t ) ) wählen. Nach Ripley [27] ist ein besserer Ansatz, den Durchschnittswert der Vorhersagen mehrerer KNN als endgültige Vorhersage der Klassenzugehörigkeit zu verwenden. Eine andere Möglichkeit ist die Verwendung von Bagging aus Abschnitt 5.1, welches die Netzvorhersagen aus Teilmengen der Trainingsdaten mittelt. Nach Fernandez [10, S.347] gibt es eine beträchtliche Überschneidung zwischen neuronalen Netzen und verschiedenen statistischen Gebieten. Beispielsweise entsprechen Feed-forward-Netze ohne verdeckte Schichten generalisierten linearen Modellen ( GLIM ). Probabilistische neuronale Netze hingegen sind identisch mit der Diskriminantenanalyse über Kerndichteschätzer. Zudem sind Kohonen-Netze für adaptive Vektoranalyse dem K-Means-Clustering sehr ähnlich und die Hebbsche Lernregel ist nah verwandt mit der Hauptkomponentenanalyse. Beispiel 5.3: Die Krebsregisterdaten aus Beispiel 3.4 lassen sich auch mit Hilfe eines neuronalen Netzes klassizieren. Ziel ist wiederum die Erkennung von Duplikaten für n = Instanzen. Die Daten werden dazu zunächst im.csv-format eingelesen und nominale in numerische Attribute umkodiert, da der RapidMiner-Operator für neuronale Netze lediglich numerische Attribute benützen kann. Der Datensatz wird wie üblich in Trainings- und Testdaten im Verhältnis 7 : 3 aufgeteilt, ein neuronales Netz modelliert und mittels der Testdaten 90

96 5 Neuere Verfahren (a) Der gesamte Prozess (b) Validierung Abbildung 5.4: Klassikation durch ein neuronales Netz (a) Das Modell Abbildung 5.5: Das Ergebnis 91

97 5 Neuere Verfahren (b) Klassikationsfehler Abbildung 5.5: Das Ergebnis der Klassikationsfehler erhoben. Der gesamte Prozess gibt das Modell, den Datensatz und das Leistungsmaÿ aus. Da der Datensatz bereits in Beispiel 3.4 zu sehen ist, wurde er hier weggelassen. Wie in Abbildung 5.5a zu sehen ist, wurde als Modell ein einschichtiges Perzeptron erstellt, es wurden m = 11 Attribute verwendet und P = 8 verdeckte Neuronen. Der Klassikationsfehler beträgt ebenso wie durch Naive-Bayes-Klassikation 0%, was für die gute Leistung dieser beiden Verfahren auf diesem speziellen Datensatz spricht. 5.3 Web-Mining Eine sehr junge Disziplin, bei der die Techniken des Data-Minings auf das Internet übertragen werden, ist das sogenannte Web-Mining. Möglich und nötig wurde diese Disziplin laut Xu et al. [34, S.3 f.] wegen des rasanten Wachstums des Internets im Allgmeinen und damit auch der darüber verfügbaren Information. Sinn des Web-Minings ist es unter anderem, die Suche nach relevanter und benötigter Information zu erleichtern, das Internet zu personalisieren sowie soziale Netzwerke zu analysieren. Die besonderen Herausforderungen liegen dabei darin, dass das Internet ein riesiger, verstreuter, dynamischer und unstrukturierter Datenspeicher ist. Web-Mining kann laut Han und Kamber [17, S.597 f.] in drei Gebiete unterteilt werden, je nachdem ob der Inhalt von Websites, die Struktur der Verlinkungen oder das Benutzerverhalten untersucht wird. Das Web-Content-Mining analysiert den Inhalt von Websites wie Text- und Multimediadaten, um sie beispielsweise mit Hilfe von Stichwörtern indizieren zu können. Somit spielt es neben der Wissenschaft auch für Anbieter von Online-Suchmaschinen eine groÿe Rolle. Unter Web-Structure-Mining versteht man die Analyse von Verbindungsstrukturen des Internets mit Hilfe der Graphen- und Netzwerktheorie, also die Analyse von Hyperlinks oder Dokumentenstrukturen innerhalb einer Seite. Dadurch ist es möglich, Webinhalte 92

98 5 Neuere Verfahren zu verstehen und sie in relativ strukturierte Datensätze zu transformieren. Ein Beispiel aus diesem Gebiet ist der PageRank-Algorithmus aus Abschnitt Das dritte Gebiet, Web-Usage-Mining, versucht aus Server-Protokolldateien Schlüsse zu ziehen, etwa Benutzergruppen zu identizieren und ihre Suchmuster zu analysieren. Somit kann es helfen, Suchmaschinen eezienter und eektiver zu machen. Um die Qualität ihres Angebots zu verbessern, führen Anbieter von Online-Suchmaschinen Web-Usage-Mining routinemäÿig durch. Ein interessantes Beispiel für Web-Usage-Mining ist Googles Grippe-Trends [17, S.2]. Dabei werden bestimmte Suchbegrie als Indikator für Grippeaktivität benutzt, da eine enge Beziehung zwischen der Häugkeit von Suchanfragen zum Thema Grippe und der Häugkeit von Grippeerkrankungen gefunden wurde. Benutzt man gesammelte Suchanfragen von Google, kann Grippe-Trends die Grippeaktivität bis zu zwei Wochen früher vorhersagen als traditionelle Systeme. Stellt man das Internet in Teilen oder im Ganzen als Graph dar, so kann dieser mit Hilfe der Clusteranalyse untersucht werden. Eine häuge Vorgehensweise ist, bipartite Graphen zu bilden [17, S.522.], in denen die Knotenmenge so in zwei disjunkte nicht-leere Mengen geteilt werden kann, dass die Kanten des Graphen lediglich Knoten aus verschiedenen Mengen verbinden. Auch Suchmaschinen können als bipartite Graphen dargestellt werden, indem man die Knotenmenge in Suchanfragen und angeklickte Webseiten teilt, wobei eine Webseite Bestandteil einer Internetplattform oder Website ist. Eine Suchanfrage und eine Webseite teilen eine Kante, wenn ein Benutzer nach der Abbildung 5.6: Beispiel eines bipartiten Graphen 93