Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen

Transkript

1 Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen von Ian H Witten, Eibe Frank 1. Auflage Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen Witten / Frank schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG Hanser München 2001 Verlag C.H. Beck im Internet: ISBN Inhaltsverzeichnis: Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen Witten / Frank

2 1 Worum geht es? Für die In Vitro-Befruchtung beim Menschen werden dem weiblichen Eierstock Eizellen entnommen, die nach der Befruchtung durch den Samen des Partners oder eines Spenders mehrere Embryos erzeugen. Ein paar davon werden ausgewählt und in die Gebärmutter der Frau eingesetzt. Das Problem dabei ist, die besten Embryos auszuwählen diejenigen mit der größten Chance zu überleben. Die Auswahl ist von etwa sechzig aufgezeichneten Eigenschaften der Embryos abhängig, die Morphologie, Oozyte, Follikel sowie die Spermastichprobe beschreiben. Die Anzahl dieser Eigenschaften ist genug, um es für den Embryologen schwierig zu machen, sie gleichzeitig zu überblicken und mit bereits aufgezeichneten Daten in eine Beziehung zu stellen, und auf diese Weise festzustellen, ob der gerade betrachtete Embryo zu einem lebenden Kind wird. In einem Forschungsprojekt in England wird das maschinelle Lernen als Technik zur Entscheidungstreffung erforscht, wobei als Trainingsdaten Datensätze über Embryos und das Resultat ihrer Einpflanzung verwendet werden. In jedem Jahr müssen die Viehbauern in Neuseeland eine schwierige Entscheidung treffen: welche Kühe sie in ihrer Herde behalten und welche sie an den Schlachthof verkaufen. In der Regel wird ein Fünftel der Kühe in einer Viehherde am Ende der Milchsaison geschlachtet, weil die Futterreserven zur Neige gehen. Diese Entscheidung wird durch fortlaufende Betrachtung der Nachzucht und Milchproduktion beeinflusst. Weitere Faktoren sind unter anderem das Alter (eine Kuh hat mit acht Jahren das Ende ihres produktiven Lebens erreicht), gesundheitliche Probleme, Probleme beim Kalben, unerwünschte Temperamentausbrüche (Treten, Zäune überspringen) oder beispielsweise, ob eine Kuh für die nächste Saison trächtig ist. Über die Jahre wurden für mehrere Millionen Kühe jeweils siebenhundert Attribute aufgezeichnet. Das maschinelle Lernen soll helfen, zu ermitteln, welche Faktoren erfolgreiche Bauern bei ihrer Auswahl berücksichtigen nicht um die Auswahl zu automatisieren, sondern damit ihr Wissen und ihre Erfahrung an andere weitergegeben werden können. Leben und Tod. In Europa wie in Australien. In Familie und Geschäftsleben. Maschinelles Lernen ist eine aufblühende neue Technologie, um Wissen aus Daten abzuleiten, eine Technologie, die immer mehr Menschen ernst nehmen.

3 2 1 Worum geht es? 1.1 Data Mining und maschinelles Lernen Wir verfügen über einen Überfluss an Daten. Die Datenmenge auf der Welt, in unserem ganzen Leben, scheint immer größer zu werden und es ist kein Ende in Sicht. Die omnipräsenten PCs machen es nur zu einfach, Dinge zu speichern, die man andernfalls vielleicht einfach vergessen hätte. Und wir brauchen nicht mehr zu überlegen, was wir mit all diesen Informationen anstellen schließlich besitzen wir billige Festplatten mit Kapazitäten von mehreren Gigabyte! Im Zweifelsfall kaufen wir einfach eine neue. Alle unsere Entscheidungen werden ständig elektronisch aufgezeichnet: unser Einkaufsverhalten im Supermarkt, unsere Strategie bei Geldgeschäften, unser Kommen und Gehen. Jeder Schritt, den wir auf dieser Erde tun, erzeugt einen Datensatz in einer Datenbank. Das World Wide Web überschwemmt uns mit Informationen; mittlerweile werden alle unsere Bewegungen im Netz aufgezeichnet. Und das sind nur die persönlichen Entscheidungen. Dazu gibt es unzählige Gegenstücke in der Welt des Handels und der Industrie. Und die Lücke zwischen dem Sammeln von Daten und unserem Verständnis dafür wird immer größer. Die Menge der Daten wächst ins Unermessliche, und immer weniger Leute verstehen sie ist das nicht erschreckend? Hinter all diesen Daten verbirgt sich möglicherweise wichtige Information, aber weil sie nicht unmittelbar zur Verfügung steht, wird sie nur selten genutzt. Dieses Buch beschreibt, wie Muster in Daten gesucht werden. Das ist nichts Neues. Schon immer suchten Menschen nach Mustern. Jäger suchten Muster im Verhalten des Wildes, Bauern suchen Muster im Wachstum ihres Getreides, Politiker suchen Muster im Wählerverhalten, Verliebte suchen Muster in der Reaktion ihrer Partner. Ein Wissenschaftler versucht (wie ein Baby), den Daten Sinn zu geben, die Muster zu entdecken, die das Verhalten der realen Welt steuern, und sie in Theorien einzukapseln, die helfen, neue Situationen richtig einzuschätzen. Der Unternehmer hat die Aufgabe, Gelegenheiten zu erkennen, d.h. Muster im Verhalten, die gewinnbringend genutzt werden könnten. Beim Data Mining werden die Daten elektronisch gespeichert und die Suche wird vom Computer automatisch ausgeführt oder zumindest unterstützt. Auch das ist nicht besonders neu. Wirtschaftswissenschaftler, Statistiker, Meteorologen und Kommunikationsingenieure haben sich lange damit beschäftigt, die Muster in den Daten automatisch aufzunehmen, zu identifizieren, auszuwerten und für Vorhersagen zu nutzen. Dass es immer mehr Möglichkeiten gibt, Muster zu erkennen, ist das eigentlich Neue. Das grenzenlose Wachstum beim Einsatz von Datenbanken in den letzten Jahren für alltägliche Aktivitäten wie das Kaufverhalten von Kunden verleiht dem Data Mining eine neue Bedeutung in Hinblick auf Unternehmenstechnologien. Schätzungen besagen, dass sich die Menge der in allen Datenbanken der Welt abgelegten Daten alle 20 Monate verdoppelt. Was die Quantität betrifft, ist das weniger von Bedeutung, sehr wohl aber in Hinblick auf die Qua-

4 1.1 Data Mining und maschinelles Lernen 3 lität. Die Datenflut schwillt und es gibt immer mehr Maschinen, die Suchfunktionen übernehmen, und damit auch zunehmend Möglichkeiten für den Einsatz des Data Minings. Die Welt wird immer komplexer, überschwemmt uns mit ihren Daten, und das Data Mining ist unsere einzige Hoffnung, die ihnen zugrunde liegenden Muster zu erkennen. Sinnvoll analysierte Daten stellen eine wertvolle Ressource dar. Sie führen zu neuen Einsichten und stellen für Unternehmen Vorteile gegenüber den Konkurrenten dar. Data Mining löst Probleme, indem es die bereits in Datenbanken abgelegten Daten analysiert. Um ein bekanntes Beispiel zu nennen: Wie sichert man Kundentreue in einem durch viel Konkurrenz beherrschten Marktsegment? Eine Datenbank mit Aufzeichnungen über das Kundenverhalten und Kundenprofilen ist häufig der Schlüssel zur Problemlösung. Verhaltensmuster früherer Kunden werden analysiert, um eindeutige Eigenschaften zu erkennen, die darauf hinweisen, welche Kunden das Produkt wechseln und welche ihm wahrscheinlich treu bleiben. Nachdem diese Eigenschaften bestimmt wurden, können sie helfen, aktuelle Kunden zu erkennen, die das Produkt sehr wahrscheinlich wechseln wollen; diese Gruppe kann gesondert angesprochen werden, mit Methoden, die für die breite Kundenbasis zu teuer wären. Darüber hinaus könnten dieselben Techniken genutzt werden, um Kunden zu erkennen, die vielleicht einen weiteren Dienst des Unternehmens in Anspruch nehmen, den sie bisher nicht nutzten, und ihnen spezielle Angebote in dieser Richtung zu unterbreiten. Für unsere heutige kundenbezogene und dienstleistungsorientierte Wirtschaft, in der höchster Konkurrenzdruck herrscht, sind Daten das Rohmaterial, das zum Unternehmenswachstum führt wenn sie nur richtig genutzt werden. Data Mining definiert sich als der Prozess, Muster in Daten zu erkennen. Der Prozess hat automatisch oder (was häufiger der Fall ist) halbautomatisch stattzufinden. Dabei müssen sinnvolle Muster erkannt werden, die zu einem Vorteil in der Regel wirtschaftlicher Art führen. Die Daten stehen immer in ausreichender Menge zur Verfügung. Und wie werden die Muster beschrieben? Sinnvoll beschriebene Muster erlauben uns, nicht-triviale Vorhersagen in Hinblick auf neue Daten zu treffen. Es gibt zwei Extremfälle für die Beschreibung von Mustern: Als so genannte Black Box, deren Interna letztlich nicht nachvollziehbar sind, und als Transparente Box, deren Aufbau die Musterstruktur offen legt. Von beiden setzen wir voraus, dass sie gute Vorhersagen erlauben. Der Unterschied besteht darin, ob die erkannten Muster in Hinblick auf eine Struktur dargestellt werden, die ausgewertet, diskutiert und für zukünftige Entscheidungen herangezogen werden kann. Dafür benutzen wir auch den Begriff strukturierte Muster, weil sie die Entscheidungsstruktur explizit formulieren. Mit anderen Worten: sie helfen, die Daten zu erklären. Jetzt können wir auch sagen, worum es in diesem Buch geht. Es stellt Techniken vor, mit denen strukturierte Muster in Daten erkannt und beschrieben werden. Die hier aufgezeigten Techniken wurden innerhalb des so genannten maschinel-

5 4 1 Worum geht es? len Lernens entwickelt. Als erstes wollen wir jedoch beschreiben, was strukturierte Muster sind. Beschreibung strukturierter Muster Was bedeutet der Begriff strukturierte Muster? Wie beschreibt man sie? In welcher Form werden sie eingegeben? Wir beantworten diese Fragen anhand von Beispielen, statt formale und damit letztlich sterile Definitionen dafür anzubieten. Später führen wir diverse Beispiele an, stellen aber schon vorab eines vor, um ein Gefühl dafür zu vermitteln, worum es eigentlich geht. Tabelle 1.1: Die Kontaktlinsendaten spectacle tear production recommended age prescription astigmatism rate lenses young myope no reduced none young myope no normal soft young myope yes reduced none young myope yes normal hard young hypermetrope no reduced none young hypermetrope no normal soft young hypermetrope yes reduced none young hypermetrope yes normal hard pre-presbyopic myope no reduced none pre-presbyopic myope no normal soft pre-presbyopic myope yes reduced none pre-presbyopic myope yes normal hard pre-presbyopic hypermetrope no reduced none pre-presbyopic hypermetrope no normal soft pre-presbyopic hypermetrope yes reduced none pre-presbyopic hypermetrope yes normal none presbyopic myope no reduced none presbyopic myope no normal none presbyopic myope yes reduced none presbyopic myope yes normal hard presbyopic hypermetrope no reduced none presbyopic hypermetrope no normal soft presbyopic hypermetrope yes reduced none

6 1.1 Data Mining und maschinelles Lernen 5 Die Daten der Beispiele Kontaktlinsen in Tabelle 1.1 beschreiben die Bedingungen, wann ein Optiker weiche, härtere oder gar keine Kontaktlinsen empfehlen sollte; wir werden die einzelnen Eigenschaften später noch genauer erklären. Jede Zeile der Tabelle erfasst ein Beispiel. Ein Teil der strukturierten Beschreibung dieser Information könnte wie folgt aussehen: If tear production rate = reduced then recommendation = none Else if age = young and astigmatic = no then recommendation = soft Strukturierte Beschreibungen müssen nicht unbedingt als Regeln wie im gegebenen Fall formuliert werden. Auch Entscheidungsbäume, die die Abfolge der Entscheidungen für eine Empfehlung festlegen, sind ein beliebtes Ausdrucksmittel. Dieses Beispiel ist stark vereinfacht. Zum einen sind alle möglichen Wertekombinationen in der Tabelle aufgelistet. Es gibt 24 Zeilen, die drei mögliche Altersangaben sowie je zwei Werte zur Beschreibung der Fehlsichtigkeit, des Astigmatismus und der Tränenflüssigkeit darstellen ( = 24). Die Regeln stellen keine wirkliche Generalisierung der Daten dar, sondern fassen sie nur zusammen. In den meisten Lernsituationen sind die eingegebenen Beispiele keineswegs vollständig, und Teil der Aufgabe ist es, Generalisierungen für andere, neue Beispiele zu finden. Angenommen in der Tabelle würden einige Zeilen, für die die Tränenflüssigkeit (tear production rate) den Wert reduced aufweist, fehlen. Sie könnten dennoch folgende Regel aufstellen If tear production rate = reduced then recommendation = none Diese Regel würde eine Verallgemeinerung für die fehlenden Zeilen schaffen und sie korrekt ergänzen. Zum anderen werden in sämtlichen Beispielen Werte für alle Eigenschaften angegeben. Reale Datenmengen enthalten immer wieder Beispiele, deren Eigenschaftswerte aus irgendwelchen Gründen nicht vollständig angegeben oder unbekannt sind möglicherweise wurden bestimmte Messungen nicht durchgeführt, die Werte gingen verloren oder was auch immer. Drittens klassifizieren die oben gezeigten Regeln die Beispiele korrekt, während in Daten, mit denen ein Klassifizierer trainiert wird, häufig aufgrund von Fehlern oder verrauschten Daten fehlerhafte Klassifikationen vorkommen. Maschinelles Lernen Nachdem wir Eingaben und Ausgaben kurz untersucht haben, wollen wir uns mit dem maschinellen Lernen beschäftigen. Was ist Lernen überhaupt? Was ist maschinelles Lernen? Da dies kein Philosophiebuch ist, wollen wir uns vielmehr auf die praktische Seite konzentrieren. Dennoch sollen uns einen Moment lang die grundlegenden Aspekte beschäftigen, nur um zu zeigen, wie komplex sie sein

7 6 1 Worum geht es? können, bevor wir uns endgültig dem maschinellen Lernen in der Praxis zuwenden. Für unser Lexikon bedeutet Lernen : sich durch Studium, Erfahrung oder Lehre Wissen anzueignen; sich mittels Informationen oder Beobachtungen einer Sache bewusst zu werden; etwas im Gedächtnis zu behalten; informiert zu werden über etwas; zu ermitteln; Anweisungen zu erhalten. Für Computer sind diese Beschreibungen unzulänglich. Die beiden ersten Beschreibungen lassen kaum die Kontrolle zu, ob ein Lernprozess stattgefunden hat. Woher weiß man, ob eine Maschine Wissen über besitzt? Man kann ihr höchstwahrscheinlich keine Fragen stellen, und wenn doch, würde man damit nicht ihre Lernfähigkeit überprüfen, sondern ihre Fähigkeit, Fragen zu beantworten. Woher weiß man, ob sie sich eines Sachverhalts bewusst ist? Die ganze Fragestellung, ob Computer Bewusstsein zugesprochen werden kann, ist ein heißes philosophisches Thema. Für das maschinelle Lernen erscheinen im Unterschied zum Menschen die Ausdrücke im Gedächtnis behalten und Anweisungen erhalten viel zu vage und zu passiv, und wir wissen, dass diese Aufgaben für Computer trivial sind. Stattdessen sind wir an Leistungsverbesserungen in neuen Situationen interessiert, oder zumindest an einem Leistungspotenzial. Man könnte im Gedächtnis behalten oder informiert werden über auch durch Auswendiglernen erreichen, ohne in der Lage zu sein, das erworbene Wissen auf neue Situationen anzuwenden. Sie können Anweisungen erhalten, ohne in der Lage zu sein, daraus irgendwelchen Nutzen zu ziehen. Zuvor haben wir das Data Mining operational als Prozess der automatischen oder halbautomatischen Mustererkennung für große Datenmengen definiert wobei es sich um sinnvolle Muster handeln muss. Auch für das Lernen kann eine operationale Definition formuliert werden. Wie wäre es damit: Etwas lernt, wenn es sein Verhalten so ändert, dass es in Zukunft eine bessere Leistung aufweist. Damit wird das Lernen an die Leistung und nicht mehr an das Wissen gebunden. Man kann das Lernen überprüfen, indem man das Verhalten beobachtet und es mit dem Verhalten in der Vergangenheit vergleicht. Das ist eine viel objektivere Definition, die auch viel zufriedenstellender erscheint. Es gibt aber noch ein Problem. Das Konzept des Lernens ist schlecht fassbar. Viele Dinge ändern ihr Verhalten, sodass sie in der Zukunft eine bessere Leistung aufweisen, aber wir würden nicht unbedingt sagen, sie hätten gelernt. Ein gutes Beispiel dafür ist ein bequemer Schuh. Hat er Ihre Fußform gelernt? Er hat jedenfalls sein Verhalten geändert, um sich in der Zukunft als besserer Schuh zu erweisen! Wir würden aber niemals sagen, er hätte gelernt. In der Umgangssprache verwenden wir häufig das Wort Training, um einen unbewussten Lernprozess zu beschreiben. Wir trainieren Tiere und sogar Pflanzen, doch trifft dieses Wort nicht

8 1.1 Data Mining und maschinelles Lernen 7 unbedingt auf leblose Objekte wie Schuhe zu. Lernen ist etwas anderes. Beim Lernen geht es um Denken. Lernen bedingt Absicht. Etwas, das lernt, muss dies bewusst tun. Deshalb würden wir auch nicht sagen, ein Wein hätte gelernt, sich im Weinberg um ein Spalier zu ranken wir sagen, er wurde trainiert. Lernen ohne Absicht ist nur Training. Genauer gesagt, handelt es sich beim Lernen um die Absicht des Lernenden, beim Trainieren um die Absicht des Lehrers. Bei genauerer Betrachtung ist auch die zweite Definition des Lernens mittels operationaler, leistungsorientierter Begrifflichkeit problematisch, wenn es um Computer geht. Um zu entscheiden, ob etwas wirklich gelernt hat, muß man überprüfen, ob es bewusst geschehen ist, d.h. ob eine Absicht vorgelegen hat. Und damit wird der Begriff, was Maschinen angeht, fragwürdig, weil nicht klar ist, ob sie eine Absicht kundtun können. Philosophische Diskussionen darüber, was mit Lernen oder mit Absicht oder Bewusstsein wirklich gemeint ist, sind äußerst diffizil. Selbst vor Gericht ist der Begriff der Absicht häufig schwer zu klären. Data Mining Glücklicherweise weisen die in diesem Buch vorgestellten Lerntechniken diese grundsätzlichen Probleme nicht auf sie werden als maschinelles Lernen bezeichnet, ohne philosophisch zu klären, was Lernen eigentlich bedeutet. Data Mining ist ein praktisches Thema und bezieht sich auf das praktische und nicht auf das theoretische Lernen. Uns interessieren Techniken, mit denen wir strukturierte Muster in den Daten erkennen und beschreiben können als Werkzeug, das uns erlaubt, die Daten zu erklären und Vorhersagen zu treffen. Die Daten nehmen die Form einer Beispielmenge an Beispiele für Kunden, die ein Produkt gewechselt haben, oder Situationen, in denen bestimmte Kontaktlinsen empfohlen werden können. Die Ausgabe erfolgt in Form einer Vorhersage für neue Beispiele eine Aussage darüber, ob ein bestimmter Kunde das Produkt wechseln wird oder welche Art von Linse für bestimmte Bedingungen empfohlen wird. Weil es in diesem Buch jedoch darum geht, Muster in Daten zu erkennen und zu beschreiben, muss auch die Ausgabe die Beschreibung einer Struktur beinhalten, anhand derer unbekannte Beispiele klassifiziert werden können, um eine gerechtfertigte Entscheidung zu treffen. Neben der Leistung fordern wir auch eine explizite Darstellung des erforderlichen Wissens. Letztlich benutzen wir also beide Definitionen des Lernens: das Aneignen von Wissen sowie die Fähigkeit, es zu nutzen. Viele Lerntechniken suchen nach strukturierten Beschreibungen des Lernstoffes. Diese Beschreibungen können relativ kompliziert sein und werden normalerweise als Regelmenge formuliert, ähnlich der oben gezeigten, oder als Entscheidungsbäume, um die es im Folgenden noch gehen soll. Weil sie für den Menschen verständlich sind, dienen diese Beschreibungen einer Erklärung dessen, was gelernt wurde, um die Grundlage für neue Vorhersagen zu schaffen. In diesem Buch konzentrieren wir uns auf die Verwendung von Methoden, die leicht verständliche

9 8 1 Worum geht es? strukturierte Beschreibungen erzeugen. Einige verbreitete Methoden des maschinellen Lernens produzieren keine solchen Beschreibungen. Neuronale Netze beispielsweise lernen, Beispiele zu klassifizieren, ohne jedoch eine explizite strukturierte Beschreibung des gelernten Wissens zu erzeugen. Neuronale Netze gehören nicht in den Rahmen dieses Buchs auch wenn sie sicherlich eine sinnvolle Technik für einige Data Mining-Anwendungen darstellen weil sie kein nachvollziehbares Modell für ihre Vorhersagen erzeugen. Die Erfahrung hat gezeigt, dass in vielen Anwendungen des maschinellen Lernens für das Data Mining die expliziten Wissensstrukturen, die strukturierten Beschreibungen, mindestens ebenso wichtig und nicht selten wichtiger sind als die Fähigkeit, eine gute Leistung für neue Beispiele zu erbringen. Häufig wird Data Mining eingesetzt, um Wissen zu sammeln, und nicht nur, um Vorhersagen zu treffen. Wissen aus Daten zu sammeln kann sich als praktisch erweisen. Um herauszufinden, wie Sie dabei vorgehen, sollten Sie weiterlesen! 1.2 Einfache Beispiele: Das Wetterproblem und andere Wir werden in diesem Buch viele Beispiele vorstellen, was besonders logisch erscheint, wenn man bedenkt, dass es hier um Lernen aus Beispielen geht! Es gibt mehrere Standarddatenmengen, auf die wir immer wieder zurückkommen werden. Unterschiedliche Datenmengen weisen immer wieder auf neue Aspekte und Herausforderungen hin, und es ist interessant und lehrreich, bei der Betrachtung von Lernmethoden unterschiedliche Aufgaben zu berücksichtigen. Die Arbeit mit unterschiedlichen Datenmengen ist so wichtig, dass ein Fundus von etwa hundert Beispiel-Aufgabenstellungen zusammengetragen wurde, sodass verschiedene Algorithmen anhand derselben Aufgabenstellung getestet und verglichen werden können. Die Beispiele in diesem Abschnitt sind alle unrealistisch einfach. Ernsthafte Anwendungen des Data Minings beinhalten Tausende, wenn nicht Hunderttausende oder sogar Millionen von Einzelfällen. Bei der Erklärung, was Algorithmen leisten und wie sie arbeiten, benötigen wir jedoch einfache Beispiele, die das Wesen des Problems darlegen können, aber doch klein genug sind, um in jedem Detail verständlich zu sein. Die Beispiele aus diesem Kapitel werden im gesamten Buch verwendet; sie sollen akademisch sein, damit sie uns helfen, den Sachverhalt zu verstehen. Einige praktische Anwendungen der Lerntechniken sind in Abschnitt 1.3 beschrieben, ebenso wie in den im Abschnitt Weiterführende Literatur am Ende des Kapitels erwähnten Büchern. Ein weiteres Problem bei realen Datenmengen besteht darin, dass sie häufig Privateigentum sind. Niemand wird Ihnen Kunden- und Produktauswahl-Datenmengen zur Verfügung stellen, damit Sie die Details einer Data Mining-Anwendung verstehen lernen. Unternehmensdaten stellen einen wertvollen Besitz dar, der mit der Einführung von Data Mining-Techniken, wie sie in diesem Buch be-

10 1.2 Einfache Beispiele: Das Wetterproblem und andere 9 schrieben sind, noch wertvoller geworden ist. Wir wollen verstehen, wie die beim Data Mining angewandten Methoden funktionieren, um zu begreifen, wie sie für reale Daten zu nutzen sind. Deshalb wurden so stark vereinfachte Beispiele gewählt. Sie sind jedoch nicht trivial und sie weisen die Eigenschaften realer Datenmengen auf. Das Wetterproblem Das Wetterproblem umfasst eine winzige Datenmenge, die wir immer wieder heranziehen werden, um Methoden des maschinellen Lernens zu erklären. Gänzlich fiktiv, geht es darin um die Bedingungen, die geeignet sind, ein nicht genauer spezifiziertes Spiel zu spielen. Im Allgemeinen werden die Instanzen in einer Datenmenge durch die Werte der Eigenschaften, der Attribute, charakterisiert, die unterschiedliche Aspekte der Instanz messen. In diesem Fall gibt es vier Attribute, outlook, temperature, humidity und wind; das Ergebnis besagt, ob das Spiel gespielt werden kann. In der einfachsten Form, die in Tabelle 1.2 gezeigt ist, haben alle vier Attribute Werte, die symbolische Kategorien darstellen, keine Zahlen. Die Aussicht (outlook) kann sunny, overcast, oder rainy; die Temperatur (temperature) hot, mild oder cool, die Luftfeuchtigkeit (humidity) high oder normal sein; und der Windfaktor (windy) kann true oder false sein. Damit erhalten wir 36 mögliche Kombinationen ( = 36). 14 dieser Kombinationen sind in den Eingabebeispielen aufgeführt. Tabelle 1.2: Die Wetterdaten outlook temperature humidity windy play sunny hot high false no sunny hot high true no overcast hot high false yes rainy mild high false yes rainy cool normal false yes rainy cool normal true no overcast cool normal true yes sunny mild high false no sunny cool normal false yes rainy mild normal false yes sunny mild normal true yes overcast mild high true yes overcast hot normal false yes rainy mild high true no

11 10 1 Worum geht es? Eine Regelmenge, die aus dieser Information gelernt wird und die nicht unbedingt die beste sein muss könnte wie folgt aussehen: If outlook = sunny und humidity = high If outlook = rainy und windy = true If outlook = overcast If humidity = normal If none of the above then play = no then play = no then play = yes then play = yes then play = yes Diese Regeln müssen der Reihe nach ausgewertet werden: zunächst die erste, falls diese nicht zutrifft, die zweite usw. Regelmengen, die sequenziell interpretiert werden müssen, werden häufig auch als Entscheidungslisten bezeichnet. Wenn die obige Regelmenge als Entscheidungsliste interpretiert wird, klassifiziert sie alle Beispiele in der Tabelle korrekt, während einige Regeln, wenn sie einzeln und außerhalb des Kontexts ausgewertet werden, zu falschen Ergebnissen führen. Beispielsweise klassifiziert die Regel If humidity = normal then play = yes eines der Beispiele falsch (finden Sie selbst heraus, welches). Die Bedeutung einer Regelmenge ist davon abhängig, wie sie interpretiert wird was sicher nicht überraschend ist. Tabelle 1.3 demonstriert eine etwas komplexere Form des Wetterproblems. Zwei der Attribute, temperature und humidity, weisen numerische Werte auf. Was bedeutet: Alle Lernverfahren müssen Ungleichungen für diese Attribute anlegen, nicht nur einfache Gleichheitstests wie zuvor. Man spricht hier auch von einem Tabelle 1.3: Wetterdaten mit numerischen Attributen outlook temperature humidity windy play sunny false no sunny true no overcast false yes rainy false yes rainy false yes rainy true no overcast true yes sunny false no sunny false yes rainy false yes sunny true yes overcast true yes overcast false yes rainy true no

12 1.2 Einfache Beispiele: Das Wetterproblem und andere 11 Problem mit numerischen Attributen, in diesem Fall von einem Problem mit gemischten Attributen, weil nicht alle Attribute numerisch sind. Entsprechend könnte die erste Regel folgende Form annehmen: If outlook = sunny and humidity > 83 then play = no Zum Lernen von Regeln mit numerischen Auswertungen ist ein etwas komplexerer Ansatz erforderlich. Bisher haben wir nur Klassifikationsregeln kennen gelernt: Sie sagen die Klassifikation eines Beispiels voraus, nämlich ob gespielt werden kann oder nicht. Es ist aber auch möglich, die Klassifikation zu verwerfen und nur nach Regeln zu suchen, die unterschiedliche Attribute streng assoziieren. Man spricht hier von Assoziationsregeln. Aus den Wetterdaten in Tabelle 1.2 können viele Assoziationsregeln abgeleitet werden. Hier einige der besten von ihnen: If temperature = cool then humidity = normal If humidity = normal and windy = false then play = yes If outlook = sunny and play = no then humidity = high If windy = false and play = no then outlook = sunny and humidity = high Alle diese Regeln sind für die vorgegebenen Daten zu 100 Prozent korrekt. Sie treffen keine falschen Vorhersagen. Die beiden ersten gelten für vier Beispiele in der Datenmenge, die nächste für drei und die vierte für zwei Beispiele. Es gibt noch viele andere Regeln: Tatsächlich können fast sechzig Assoziationsregeln gefunden werden, die für zwei oder mehr Beispiele der Wetterdaten gelten und für diese Daten vollständig korrekt sind. Und wenn Sie nach Regeln suchen, die nicht zu 100 Prozent korrekt sind, finden Sie noch viele weitere, und zwar deshalb, weil die Assoziationsregeln anders als die Klassifikationsregeln alle Attribute vorhersagen können, nicht nur eine bestimmte Klasse, und sogar mehrere Dinge gleichzeitig. Beispielsweise sagt die vierte der oben gezeigten Regeln sowohl voraus, dass outlook gleich sunny als auch dass humidity gleich high sein wird. Kontaktlinsen: Ein idealisiertes Problem Die in Tabelle 1.1 beschriebenen Kontaktlinsendaten zeigen, welche Art Kontaktlinsen bei bestimmten Informationen über einen Patienten empfohlen werden sollen. Beachten Sie, dass dieses Beispiel nur als Demonstration gilt; es vereinfacht das Problem zu stark und sollte keinesfalls für Diagnosezwecke genutzt werden! Die erste Spalte in Tabelle 1.1 gibt das Alter des Patienten an. Falls Sie es noch nicht wussten presbyopia (Presbyopie) ist eine Form der Altersweitsichtigkeit. Die zweite Spalte gibt die Art der Fehlsichtigkeit an: myope (myop) bedeutet kurzsichtig, hypermetrope (hypermetrop) bedeutet weitsichtig. Die dritte Spalte gibt

13 12 1 Worum geht es? an, ob der Patient unter Astigmatismus leidet, und die vierte beschreibt die Tränenflüssigkeit, die in diesem Kontext wichtig ist, weil Tränen die Kontaktlinsen trüben. Die letzte Spalte zeigt, welche Linsenart zu empfehlen ist, also hard, soft oder none. Die Tabelle weist alle möglichen Kombinationen der Attributwerte auf. Abbildung 1.1 zeigt ein Beispiel für die aus dieser Information gelernte Regelmenge. Es handelt sich dabei um eine relativ große Regelmenge, die aber alle Beispiele korrekt klassifiziert. Die Regeln sind vollständig und deterministisch: Sie geben eine eindeutige Empfehlung für jedes der Beispiele ab. Im Allgemeinen ist das jedoch nicht der Fall. In einigen Situationen gelten keine Regeln, in anderen gelten mehrere Regeln, sodass Empfehlungen ausgesprochen werden, die in Konflikt zueinander stehen. Manchmal ist es sinnvoll, Regeln Wahrscheinlichkeiten oder Gewichtungen zuzuordnen, die zeigen, dass einige wichtiger oder zuverlässiger sind als andere. Sie fragen sich vielleicht, ob es eine kleinere Regelmenge gibt, die zufriedenstellend funktioniert, und, falls ja, warum Sie nicht besser diese kleinere Regelmenge verwenden? Genau diese Fragen beschäftigen uns in diesem Buch. Weil die Beispiele eine vollständige Menge für den Problemraum bilden, leisten die Regeln nichts weiter, als alle bereitgestellten Informationen zusammenzufassen und sie in anderer, übersichtlicherer Form darzustellen. Auch wenn dabei keine Verallgemeinerung vorgenommen wird, ist das häufig sehr sinnvoll. Menschen nutzen die If tear production rate = reduced then recommendation = none If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope and astigmatic = no then recommendation = none If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes and tear production rate = normal then recommendation = hard If age = young and astigmatic = yes and tear production rate = normal then recommendation = hard If age = pre-presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none Abbildung 1.1 Regeln für die Kontaktlinsendaten

14 1.2 Einfache Beispiele: Das Wetterproblem und andere 13 Techniken des maschinellen Lernens oft, um die Struktur ihrer Daten kennen zu lernen, und nicht, um Vorhersagen für neue Fälle zu treffen. Eine bekannte und erfolgreiche Forschungslinie im Bereich des maschinellen Lernens war zunächst einfach der Versuch, eine große Datenbank möglicher Schachendspiele und ihre Ergebnisse in einer Datenstruktur von vernünftiger Größe komprimiert darzustellen. Die dafür gewählte Datenstruktur war keine Regelmenge, sondern ein Entscheidungsbaum. Abbildung 1.2 zeigt eine strukturierte Beschreibung der Kontaktlinsendaten in Form eines Entscheidungsbaums, der für zahlreiche Aufgabenstellungen eine präzisere und deutlichere Darstellung der Regeln bietet und darüber hinaus den Vorteil aufweist, dass er leichter visualisiert werden kann. (Im Gegensatz zu der in Abbildung 1.1 gezeigten Regelmenge klassifiziert dieser Entscheidungsbaum jedoch zwei Beispiele fehlerhaft.) Als Erstes nimmt der Baum eine Überprüfung der Tränenflüssigkeit (tear production rate) vor und die beiden ersten Verzweigungen entsprechend den beiden möglichen Ergebnissen. Ist tear production rate gleich reduced (der linke Zweig), lautet das Ergebnis none. Bei normal (der rechte tear production rate reduced normal none astigmatism no yes soft spectacle prescription myope hypermetrope hard none Abbildung 1.2 Entscheidungsbaum für die Kontaktlinsendaten

15 14 1 Worum geht es? Zweig) erfolgt eine zweite Überprüfung, jetzt für den Astigmatismus (astigmatism). Abhängig von den Ergebnissen dieser Überprüfungen wird irgendwann ein Blatt im Baum erreicht, das eine Empfehlung für diesen Fall ausspricht. Die Frage, welches das natürlichste und am leichtesten verständliche Format für die Ausgabe eines maschinellen Lernschemas ist, wird uns in Kapitel 3 noch einmal begegnen. Iris: Eine klassische numerische Datenmenge Die Iris-Datenmenge, die aus der epochalen Arbeit des eminenten Statistikers R. A. Fisher Mitte der 30er Jahre stammt, ist die vermutlich berühmteste Datenmenge, die beim Data Mining verwendet wird. Sie enthält 50 Beispiele für drei Pflanzentypen: Iris setosa, Iris versicolor und Iris virginica. Einen Auszug daraus sehen Sie in Tabelle Es gibt vier Attribute: sepal length (Kelchblattlänge), sepal width (Kelchblattbreite), petal length (Blütenblattlänge) und petal width (Blütenblattbreite) (alle in cm angegeben). Anders als in den zuvor gezeigten Datenmengen weisen hier alle Attribute numerische Werte auf. Aus dieser Datenmenge kann die folgende Regelmenge gelernt werden: If petal-length < 2.45 then Iris-setosa If sepal-width < 2.10 then Iris-versicolor If sepal-width < 2.45 and petal-length < 4.55 then Iris-versicolor If sepal-width < 2.95 and petal-width < 1.35 then Iris-versicolor If petal-length 2.45 and petal-length < 4.45 then Iris-versicolor If sepal-length 5.85 and petal-length < 4.75 then Iris-versicolor If sepal-width < 2.55 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If petal-length 2.45 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If sepal-length 6.55 and petal-length < 5.05 then Iris-versicolor If sepal-width < 2.75 and petal-width < 1.65 and sepal-length < 6.05 then Iris-versicolor If sepal-length 5.85 and sepal-length < 5.95 and petal-length < 4.85 then Iris-versicolor If petal-length 5.15 then Iris-virginica If petal-width 1.85 then Iris-virginica If petal-width 1.75 and sepal-width < 3.05 then Iris-virginica If petal-length 4.95 and petal-width < 1.55 then Iris-virginica Diese Regeln sind sehr unübersichtlich. In Kapitel 3 erfahren Sie, wie dieselbe Information durch kompaktere Regeln ausgedrückt werden kann.

16 1.2 Einfache Beispiele: Das Wetterproblem und andere 15 Tabelle 1.4: Die Iris-Daten sepal sepal petal petal length width length width type Iris setosa Iris setosa Iris setosa Iris setosa Iris setosa Iris versicolor Iris versicolor Iris versicolor Iris versicolor Iris versicolor Iris virginica Iris virginica Iris virginica Iris virginica Iris virginica CPU-Leistung: Einführung in numerische Vorhersagen Die Iris-Datenmenge besteht zwar aus numerischen Attributen, doch das Ergebnis also der Iristyp ist eine Kategorie, kein numerischer Wert. Tabelle 1.5 zeigt einige Daten, für die sowohl die Attribute als auch das Ergebnis numerisch sind. Sie beschreiben die relative Rechenleistung eines Computers abhängig von mehreren relevanten Attributen; jede Zeile stellt eine von 209 verschiedenen Computerkonfigurationen dar. Die klassische Methode für numerische Vorhersagen besteht darin, das Ergebnis als lineare Summe der Attributwerte mit geeigneter Gewichtung darzustellen, beispielsweise wie folgt: RPR = MYCT MMIN MMAX CACH CHMIN CHMAX (Die abgekürzten Variablennamen sind in der zweiten Zeile der Tabelle aufgeführt.) Man spricht hier auch von einer Regressionsgleichung, deren Gewichtungen unter Verwendung der so genannten Regression ermittelt werden, einer gebräuchlichen Prozedur in der Statistik, die wir in Kapitel 4 noch genauer kennen lernen werden. Die grundlegende Regressionsmethode kann jedoch keine nicht-

17 16 1 Worum geht es? Tabelle 1.5: Die Daten für die CPU-Leistung cycle main memory cache channels perfor- (Kb) mance time (ns) min max (Kb) min max MYCT MMIN MMAX CACH CHMIN CHMAX PR linearen Verhältnisse erkennen (es gibt jedoch Varianten, von denen eine in Abschnitt 6.3 genauer beschrieben wird). In Kapitel 3 untersuchen wir verschiedene Darstellungen für die Vorhersage numerischer Mengen. In den Daten für die Iris und die CPU-Leistung haben alle Attribute numerische Werte. In der Praxis trifft man häufig auf eine Mischung aus numerischen und nicht-numerischen Attributen. Tarifverhandlungen: Ein realistischeres Beispiel Die Datenmenge für die Tarifverhandlungen, die Sie in Tabelle 1.6 sehen, fasst das Ergebnis der Kanadischen Tarifverhandlungen 1987/88 zusammen. Dort sind alle Vereinbarungen aufgezeichnet, die zwischen Arbeitgebern und Arbeitnehmern zustande gekommen sind. Es werden nur Unternehmen mit mehr als 500 Angestellten berücksichtigt (Lehrer, Krankenschwestern, Universitätsangestellte, Mitglieder der Polizei usw.). Jeder Fall beinhaltet einen Vertrag, und das Ergebnis entscheidet darüber, ob der Vertrag akzeptiert oder nicht akzeptiert wird. Akzeptierbar sind Verträge, die sowohl von den Arbeitgebern als auch von den Arbeitnehmern akzeptiert werden. Nicht akzeptierbare Verträge wurden entweder von einer Partei nicht akzeptiert, oder sie sind akzeptierbare Verträge, die soweit verändert wurden, dass sie nach Ansicht von Experten nicht akzeptiert würden. Die Datenmenge enthält 40 Beispiele (plus 17 weitere, die normalerweise für Testzwecke reserviert sind). Anders als die hier gezeigten Tabellen stellt Tabelle 1.6 die Beispiele als Spalten und nicht als Zeilen dar, weil sie sich andernfalls über meh-

18 1.2 Einfache Beispiele: Das Wetterproblem und andere 17 Tabelle 1.6: Die Daten für die Tarifverhandlungen attribute type duration (number of years) wage increase first year percentage 2% 4% 4.3% 4.5 wage increase percentage? 5% 4.4% 4.0 second year wage increase third year percentage???? cost of living adjustment {none, tcf, tc} none tcf? none working hours per week (number of hours) pension {none, ret-allw, none??? empl-cntr} standby pay percentage? 13%?? shift-work supplement percentage? 5% 4% 4 education allowance {yes, no} yes??? statutory holidays (number of days) vacation {below-avg, avg, avg gen gen avg gen} long-term disability {yes, no} no?? yes assistance dental plan contribution {none, half, full} none? full full bereavement assistance {yes, no} no?? yes health plan contribution {none, half, full} none? full half acceptability of contract {good, bad} bad good good good rere Seiten erstrecken würden. Viele Werte sind unbekannt oder fehlen (Fragezeichen). Hier handelt es sich um eine viel realistischere Datenmenge als bei den bisher gezeigten. Sie enthält viele fehlende Werte, eine exakte Klassifikation scheint eher unwahrscheinlich. Abbildung 1.3 zeigt zwei Entscheidungsbäume, um die Datenmenge darzustellen. Abbildung 13.a zeigt nur eine Annäherung, die Datenwerte werden nicht exakt dargestellt. So wird beispielsweise für einige Verträge bad vorhergesagt, obwohl das Ergebnis good ist. Dies ergibt einen intuitiven Sinn: Ein Vertrag ist schlecht (für den Angestellten!), wenn die Einkommenssteigerung im ersten Jahr zu klein ist (weniger als 2,5%). Wenn die Einkommenssteigerung im ersten Jahr einen größeren Wert aufweist, ist er gut, falls es viele gesetzliche Feiertage gibt (mehr als 10 Tage). Und selbst wenn es weniger gesetzliche Feiertage gibt, ist er gut, wenn die Einkommenssteigerung im ersten Jahr groß genug ist (mehr als 4%). Datenbank 1.3b zeigt einen komplexeren Entscheidungsbaum, der dieselbe Datenmenge darstellt. Letztlich handelt es sich dabei um eine genauere Darstellung

19 18 1 Worum geht es? wage increase first year 2.5 > 2.5 bad statutory holidays > good wage increase first year 4 > 4 bad good (a) (b) Abbildung 1.3 Entscheidungsbäume für die Tarifverhandlungsdaten bad 36 bad working hours per week > 36 health plan contribution none half good wage increase first year 2.5 > 2.5 statutory holidays > 10 good full bad bad 10 wage increase first year 4 > 4 good

20 1.2 Einfache Beispiele: Das Wetterproblem und andere 19 der eigentlichen Datenmenge, für die der Baum gebaut wurde. Es ist jedoch nicht unbedingt eine genauere Darstellung des zugrunde liegenden Konzepts von guten im Vergleich zu schlechten Verträgen. Betrachten Sie den linken Zweig: Auf den ersten Blick scheint es nicht sinnvoll zu sein, dass ein Vertrag schlecht ist, wenn die Arbeitsstunden den Wert 36 überschreiten und es keine oder vollständige Leistungen für den Gesundheitsplan gibt, dass er aber, unter Annahme gleicher Arbeitsstunden, gut ist, wenn der Plan zur Hälfte erfüllt wird. Es scheint vernünftig, dass der Gesundheitsplan eine entscheidende Rolle spielt, aber nicht, indem die halbe Realisierung gut ist, die vollständige und fehlende hingegen schlecht. Diese Festlegung scheint ein Artefakt der Daten zu sein, die benutzt wurden, um den Entscheidungsbaum aufzubauen, und stellt kein wirkliches Merkmal des zugrunde liegenden Konzepts dar. Der Baum in Abbildung 1.3b ist exakter für die Daten, mit denen der Klassifizierer trainiert wurde, wird aber wahrscheinlich eine schlechtere Leistung für eine unabhängige Testdatenmenge zeigen. Er ist den Trainingsdaten zu sehr angepasst und gehorcht ihnen. Der Baum in Abbildung 1.3 a wurde aus dem in Abbildung 1.3b abgeleitet, unter Verwendung eines Prozesses, der als Pruning bezeichnet und in Kapitel 6 noch genauer beschrieben werden soll. Sojabohnen-Klassifizierung: Ein Erfolg des klassischen maschinellen Lernens Ein häufig zitierter früher Erfolg in der Anwendung maschinellen Lernens auf praktische Probleme ist die Festlegung von Regeln für die Diagnose von Sojabohnenkrankheiten. Die Daten stammen aus Fragebögen zu Pflanzenkrankheiten. Es gibt etwa 680 Beispiele, die jeweils befallene Pflanzen beschreiben. Für jede Pflanze wurden 35 Attribute ausgewertet, die jeweils einige wenige Werte annehmen können. Die Beispiele wurden von einem Experten auf dem Gebiet der Botanik kategorisiert. Es gibt insgesamt 17 Krankheitskategorien mit schrecklichen Namen, wie beispielsweise Diaporther Stammkrebs, Rhizoctonia Wurzelfäule oder Bakterienbrand, um nur einige wenige davon zu nennen. Tabelle 1.7 beschreibt die Attribute, die Anzahl der möglichen Werte für jedes Attribut sowie einen Beispieldatensatz für eine bestimmte Pflanze. Der einfacheren Lesbarkeit halber sind die Attribute in unterschiedliche Kategorien eingeordnet. Hier zwei Beispielregeln, die aus diesen Daten gelernt wurden: If then [leaf condition is normal and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown] diagnosis is rhizoctonia root rot (Fortsetzung auf S. 21)

21 20 1 Worum geht es? Tabelle 1.7: Die Sojabohnendaten attribute number of values sample value environment time of occurrence 7 July precipitation 3 above normal temperature 3 normal cropping history 4 same as last year hail damage 2 yes damaged area 4 scattered severity 3 severe plant height 2 normal plant growth 2 abnormal seed treatment 3 fungicide germination 3 less than 80% seed condition 2 normal mold growth 2 absent discoloration 2 absent size 2 normal shriveling 2 absent fruit condition of fruit pods 4 normal fruit spots 5 leaves condition 2 abnormal leaf spot size 3 yellow leaf spot halo 3 absent leaf spot margins 3 shredding 2 absent leaf malformation 2 absent leaf mildew growth 3 absent stem condition 2 abnormal stem lodging 2 yes stem cankers 4 above soil line canker lesion color 4 fruiting bodies on stems 2 present external decay of stem 3 firm and dry mycelium on stem 2 absent internal discoloration 3 none sclerotia 2 absent roots condition 3 normal diagnosis 19 diaporthe stem canker

22 1.3 Anwendungen in der Praxis 21 If then [leaf malformation is absent and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown] diagnosis is rhizoctonia root rot Diese Regeln demonstrieren gut die potenzielle Rolle, die Expertenwissen, häufig auch als Domänenwissen bezeichnet, auf dem Gebiet des maschinellen Lernens haben kann. Der einzige Unterschied zwischen den beiden Beschreibungen ist leaf condition is normal im Vergleich zu leaf malformation is absent. Ist in dieser Domäne die leaf condition (Blattbedingung) normal, so ist gezwungenermaßen leaf malformation (Missbildung des Blattes) nicht zutreffend, eine dieser Bedingungen ist also ein Sonderfall der anderen. Trifft die erste Regel zu, ist die zweite notwendigerweise ebenfalls zutreffend. Die zweite Regel kommt nur dann ins Spiel, wenn die leaf malformation nicht zutreffend, die leaf condition aber nicht normal ist, d.h. wenn etwas anderes außer der Form mit dem Blatt nicht stimmt. Dies ist aus dem einfachen Durchlesen der Regeln sicher nicht ersichtlich. Die Forschung stellte Ende der 70er Jahre zu diesem Problem fest, dass die Diagnoseregeln aus etwa 300 Trainingsbeispielen von einem Algorithmus zum maschinellen Lernen erzeugt werden konnten, ebenso wie die Regeln für alle anderen Krankheitskategorien. Man wählte aus dem Fundus vorhandener Beispiele sorgfältig Trainingsbeispiele aus, die sich voneinander ausreichend unterschieden, im Beispielraum also weit auseinander lagen. Gleichzeitig wurden die Pflanzenpathologen befragt, von denen die Diagnosen stammten. Deren Erfahrung wurde in Diagnoseregeln übersetzt. Für die restlichen Testbeispiele waren überraschenderweise die vom Computer erzeugten Regeln besser als die vom Experten abgeleiteten Regeln. Sie ordneten 97,5% aller Krankheiten korrekt ein, im Vergleich zu nur 72% bei den durch den Experten aufgestellten Regeln. Darüber hinaus konnte nicht nur der Lernalgorithmus bessere Regeln erzeugen als der Experte, sondern der Experte war gleichzeitig so beeindruckt, dass er fortan statt seiner eigenen Regeln die vom Algorithmus erkannten Regeln anwendete! 1.3 Anwendungen in der Praxis Die bisher gezeigten Beispiele beschrieben spekulative Forschungsprojekte, keine Produktionssysteme. Die Demonstrationen wurden bewusst reduziert, damit wir sie später in diesem Buch auch zur Erläuterung von Algorithmen nutzen können. Worum geht es im wirklichen Leben? Die folgenden Abschnitte beschreiben einige Anwendungen des maschinellen Lernens, die in der Praxis bereits genutzt werden. Weil es sich um praxisrelevante Anwendungen handelt, geht es in den folgenden

23 22 1 Worum geht es? Beschreibungen insbesondere um den leistungsorientierten Einsatz des Lernens, wobei vor allem auf die Fähigkeit geachtet wird, neue Beispiele korrekt zu erkennen. In diesem Buch geht es um die Nutzung von Lernsystemen zur Gewinnung von Wissen aus von den Daten abgeleiteten Entscheidungsstrukturen. Wir glauben, dass dies eine ebenso wichtige und auf lange Sicht möglicherweise wichtigere Nutzung der Technologie ist, als einfach nur leistungsfähige Vorhersagen zu treffen. Dennoch ist diese Art der Nutzung in der Praxis oft nicht direkt sichtbar, weil das Ergebnis normalerweise kein System ist, das als eigene Anwendung ausgeführt werden kann, wenn Lerntechniken genutzt werden, um neue Einsichten zu gewinnen. In den drei folgenden Beispielen stellt jedoch die Tatsache, dass die Entscheidungsstruktur nachvollziehbar ist, einen wichtigen Faktor für die Akzeptanz des Schemas dar. Entscheidungen durch Beurteilungen Wenn Sie einen Kredit beantragen, müssen Sie einen Fragebogen ausfüllen, der die wichtigsten finanziellen und persönlichen Informationen erhebt. Diese Information wird von der Bank als Entscheidungsgrundlage genutzt, ob man Ihnen Geld leihen wird. Diese Entscheidungen werden in der Regel in zwei Phasen getroffen. Zunächst werden statistische Methoden angewandt, um deutliche Zusagen oder Absagen zu treffen. Die verbleibenden Grenzfälle sind schwieriger und müssen von Menschen beurteilt werden. Beispielsweise verwendet eine Bank eine Prozedur für statistische Entscheidungen, um abhängig von den im Fragebogen bereitgestellten Informationen einen numerischen Parameter zu berechnen. Antragsteller werden akzeptiert, wenn dieser Parameter einen bestimmten Schwellwert übersteigt, abgewiesen, wenn er unter einem zweiten Schwellwert liegt. Damit sind 90% aller Fälle entschieden. Die restlichen 10% werden den Kreditsachbearbeitern zur Entscheidung vorgelegt. Bei der Untersuchung historischer Daten ob die Antragsteller ihre Kredite wirklich zurückzahlen konnten stellte sich jedoch heraus, dass nur die Hälfte der Grenzfall-Antragsteller, denen Kredite erteilt wurden, tatsächlich ihren Pflichten nachgekommen sind. Man könnte es für naheliegend halten, bei Grenzfällen den Kredit einfach zu verweigern, aber die Profis im Bankgeschäft zeigten auf, dass (wenn die Rückzahlung zuverlässig gesichert werden kann) genau diese Kunden gefördert werden sollten, weil sie ständig Bedarf an Krediten haben. Man muss einen sinnvollen Kompromiss schaffen zwischen der Perspektive eines Unternehmensbuchhalters, der keine uneinbringbaren Forderungen wünscht, und einem Verkäufer, der kein Geschäft sausen lassen will. Deshalb kam das maschinelle Lernen ins Spiel. Man gab 1000 Trainingsbeispiele für Grenzfälle ein, denen ein Kredit erteilt wurde, wobei anzugeben war, ob der Schuldner das Geld zurückzahlte oder nicht. Für jedes Trainingsbeispiel wurden aus dem Fragebogen etwa 20 Attribute extrahiert beispielsweise das Alter, die

24 1.3 Anwendungen in der Praxis 23 Dauer des aktuellen Arbeitsverhältnisses, die Laufzeit des aktuellen Wohnvertrages, die Dauer des Geschäftsverhältnisses mit der Bank sowie das Vorhandensein anderer Kreditkarten. Mit Hilfe des maschinellen Lernens wurde eine kleine Regelmenge für die Klassifizierung erzeugt, die korrekte Vorhersagen für zwei Drittel aller Grenzfälle in einer unabhängig gewählten Testmenge erbrachte. Diese Regeln verbesserten nicht nur die Erfolgsrate für die Kreditentscheidungen, sondern wurden auch genutzt, um den Antragstellern eine Begründung für die Entscheidung zu liefern. Das Projekt war ein Experiment mit nur kleinem Entwicklungsaufwand, doch die Bank war so angetan von dem Ergebnis, dass die Regeln sofort in der Praxis genutzt wurden. Bildanalyse Seit den ersten Tagen der Satellitentechnologie versuchen die Umweltschützer, Ölteppiche zu erkennen, um Frühwarnungen bei ökologischen Katastrophen auszusprechen und verbotene Verklappungen aufzudecken. Radarsatelliten bieten die Möglichkeit, die Küsten unabhängig von Wetterbedingungen Tag und Nacht zu überwachen. Ölteppiche erscheinen als dunkle Bereiche auf dem Bild, deren Größe und Umriss von Wetter- und Wasserbedingungen abhängig sind. Aber auch lokale Wetterbedingungen können ähnliche dunkle Bereiche erzeugen, beispielsweise starker Wind. Die Erkennung von Ölteppichen ist ein aufwendiger manueller Prozess, für den hochqualifiziertes Personal erforderlich ist, das die Bereiche auf dem Bild richtig einschätzen kann. Man entwickelte ein Katastrophenwarnsystem, das Bilder für die nachfolgende manuelle Bearbeitung vorbereitet. Es musste für verschiedene Situationen geeignet sein, weil es weltweit an die unterschiedlichsten Endbenutzer Regierungen und private Unternehmen verkauft werden sollte, die alle unterschiedliche Ziele verfolgen, unterschiedliche Anwendungen einsetzen und in unterschiedlichen geografischen Lagen angesiedelt sein können. Das maschinelle Lernen ermöglicht es, das System anhand der vom Benutzer bereitgestellten Beispiele auf das Vorhandensein oder Nichtvorhandensein von Ölteppichen zu trainieren, wobei der Benutzer die Abwägung zwischen unerkannten Austritten und Fehlalarmen steuern kann. Anders als Anwendungen des maschinellen Lernens, die einen Klassifizierer erzeugen, der dann in der praktischen Situation eingesetzt wird, wird hier das eigentliche Lernverfahren eingesetzt. Die Eingabe ist eine Menge an Rohdaten in Form von Pixelbildern, die von einem Radarsatelliten stammen; die Ausgabe besteht aus einer sehr viel kleineren Menge von Bildern mit vermeintlichen Ölteppichen, die mit einem farbigen Rahmen markiert sind. Als Erstes werden Standardoperationen für die Bildverarbeitung ausgeführt, um das Bild zu normalisieren, anschließend werden verdächtige dunkle Bereiche identifiziert. Für jeden Bereich ermittelt man mehrere Dutzend Attribute, die Größe, Umriss, Fläche, Intensität, Schärfe und Unregelmäßigkeit