Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen

Größe: px
Ab Seite anzeigen:

Download "Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen"

Transkript

1 Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen von Ian H Witten, Eibe Frank 1. Auflage Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen Witten / Frank schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG Hanser München 2001 Verlag C.H. Beck im Internet: ISBN Inhaltsverzeichnis: Data Mining. Praktische Werkzeuge und Techniken für das maschinelle Lernen Witten / Frank

2 1 Worum geht es? Für die In Vitro-Befruchtung beim Menschen werden dem weiblichen Eierstock Eizellen entnommen, die nach der Befruchtung durch den Samen des Partners oder eines Spenders mehrere Embryos erzeugen. Ein paar davon werden ausgewählt und in die Gebärmutter der Frau eingesetzt. Das Problem dabei ist, die besten Embryos auszuwählen diejenigen mit der größten Chance zu überleben. Die Auswahl ist von etwa sechzig aufgezeichneten Eigenschaften der Embryos abhängig, die Morphologie, Oozyte, Follikel sowie die Spermastichprobe beschreiben. Die Anzahl dieser Eigenschaften ist genug, um es für den Embryologen schwierig zu machen, sie gleichzeitig zu überblicken und mit bereits aufgezeichneten Daten in eine Beziehung zu stellen, und auf diese Weise festzustellen, ob der gerade betrachtete Embryo zu einem lebenden Kind wird. In einem Forschungsprojekt in England wird das maschinelle Lernen als Technik zur Entscheidungstreffung erforscht, wobei als Trainingsdaten Datensätze über Embryos und das Resultat ihrer Einpflanzung verwendet werden. In jedem Jahr müssen die Viehbauern in Neuseeland eine schwierige Entscheidung treffen: welche Kühe sie in ihrer Herde behalten und welche sie an den Schlachthof verkaufen. In der Regel wird ein Fünftel der Kühe in einer Viehherde am Ende der Milchsaison geschlachtet, weil die Futterreserven zur Neige gehen. Diese Entscheidung wird durch fortlaufende Betrachtung der Nachzucht und Milchproduktion beeinflusst. Weitere Faktoren sind unter anderem das Alter (eine Kuh hat mit acht Jahren das Ende ihres produktiven Lebens erreicht), gesundheitliche Probleme, Probleme beim Kalben, unerwünschte Temperamentausbrüche (Treten, Zäune überspringen) oder beispielsweise, ob eine Kuh für die nächste Saison trächtig ist. Über die Jahre wurden für mehrere Millionen Kühe jeweils siebenhundert Attribute aufgezeichnet. Das maschinelle Lernen soll helfen, zu ermitteln, welche Faktoren erfolgreiche Bauern bei ihrer Auswahl berücksichtigen nicht um die Auswahl zu automatisieren, sondern damit ihr Wissen und ihre Erfahrung an andere weitergegeben werden können. Leben und Tod. In Europa wie in Australien. In Familie und Geschäftsleben. Maschinelles Lernen ist eine aufblühende neue Technologie, um Wissen aus Daten abzuleiten, eine Technologie, die immer mehr Menschen ernst nehmen.

3 2 1 Worum geht es? 1.1 Data Mining und maschinelles Lernen Wir verfügen über einen Überfluss an Daten. Die Datenmenge auf der Welt, in unserem ganzen Leben, scheint immer größer zu werden und es ist kein Ende in Sicht. Die omnipräsenten PCs machen es nur zu einfach, Dinge zu speichern, die man andernfalls vielleicht einfach vergessen hätte. Und wir brauchen nicht mehr zu überlegen, was wir mit all diesen Informationen anstellen schließlich besitzen wir billige Festplatten mit Kapazitäten von mehreren Gigabyte! Im Zweifelsfall kaufen wir einfach eine neue. Alle unsere Entscheidungen werden ständig elektronisch aufgezeichnet: unser Einkaufsverhalten im Supermarkt, unsere Strategie bei Geldgeschäften, unser Kommen und Gehen. Jeder Schritt, den wir auf dieser Erde tun, erzeugt einen Datensatz in einer Datenbank. Das World Wide Web überschwemmt uns mit Informationen; mittlerweile werden alle unsere Bewegungen im Netz aufgezeichnet. Und das sind nur die persönlichen Entscheidungen. Dazu gibt es unzählige Gegenstücke in der Welt des Handels und der Industrie. Und die Lücke zwischen dem Sammeln von Daten und unserem Verständnis dafür wird immer größer. Die Menge der Daten wächst ins Unermessliche, und immer weniger Leute verstehen sie ist das nicht erschreckend? Hinter all diesen Daten verbirgt sich möglicherweise wichtige Information, aber weil sie nicht unmittelbar zur Verfügung steht, wird sie nur selten genutzt. Dieses Buch beschreibt, wie Muster in Daten gesucht werden. Das ist nichts Neues. Schon immer suchten Menschen nach Mustern. Jäger suchten Muster im Verhalten des Wildes, Bauern suchen Muster im Wachstum ihres Getreides, Politiker suchen Muster im Wählerverhalten, Verliebte suchen Muster in der Reaktion ihrer Partner. Ein Wissenschaftler versucht (wie ein Baby), den Daten Sinn zu geben, die Muster zu entdecken, die das Verhalten der realen Welt steuern, und sie in Theorien einzukapseln, die helfen, neue Situationen richtig einzuschätzen. Der Unternehmer hat die Aufgabe, Gelegenheiten zu erkennen, d.h. Muster im Verhalten, die gewinnbringend genutzt werden könnten. Beim Data Mining werden die Daten elektronisch gespeichert und die Suche wird vom Computer automatisch ausgeführt oder zumindest unterstützt. Auch das ist nicht besonders neu. Wirtschaftswissenschaftler, Statistiker, Meteorologen und Kommunikationsingenieure haben sich lange damit beschäftigt, die Muster in den Daten automatisch aufzunehmen, zu identifizieren, auszuwerten und für Vorhersagen zu nutzen. Dass es immer mehr Möglichkeiten gibt, Muster zu erkennen, ist das eigentlich Neue. Das grenzenlose Wachstum beim Einsatz von Datenbanken in den letzten Jahren für alltägliche Aktivitäten wie das Kaufverhalten von Kunden verleiht dem Data Mining eine neue Bedeutung in Hinblick auf Unternehmenstechnologien. Schätzungen besagen, dass sich die Menge der in allen Datenbanken der Welt abgelegten Daten alle 20 Monate verdoppelt. Was die Quantität betrifft, ist das weniger von Bedeutung, sehr wohl aber in Hinblick auf die Qua-

4 1.1 Data Mining und maschinelles Lernen 3 lität. Die Datenflut schwillt und es gibt immer mehr Maschinen, die Suchfunktionen übernehmen, und damit auch zunehmend Möglichkeiten für den Einsatz des Data Minings. Die Welt wird immer komplexer, überschwemmt uns mit ihren Daten, und das Data Mining ist unsere einzige Hoffnung, die ihnen zugrunde liegenden Muster zu erkennen. Sinnvoll analysierte Daten stellen eine wertvolle Ressource dar. Sie führen zu neuen Einsichten und stellen für Unternehmen Vorteile gegenüber den Konkurrenten dar. Data Mining löst Probleme, indem es die bereits in Datenbanken abgelegten Daten analysiert. Um ein bekanntes Beispiel zu nennen: Wie sichert man Kundentreue in einem durch viel Konkurrenz beherrschten Marktsegment? Eine Datenbank mit Aufzeichnungen über das Kundenverhalten und Kundenprofilen ist häufig der Schlüssel zur Problemlösung. Verhaltensmuster früherer Kunden werden analysiert, um eindeutige Eigenschaften zu erkennen, die darauf hinweisen, welche Kunden das Produkt wechseln und welche ihm wahrscheinlich treu bleiben. Nachdem diese Eigenschaften bestimmt wurden, können sie helfen, aktuelle Kunden zu erkennen, die das Produkt sehr wahrscheinlich wechseln wollen; diese Gruppe kann gesondert angesprochen werden, mit Methoden, die für die breite Kundenbasis zu teuer wären. Darüber hinaus könnten dieselben Techniken genutzt werden, um Kunden zu erkennen, die vielleicht einen weiteren Dienst des Unternehmens in Anspruch nehmen, den sie bisher nicht nutzten, und ihnen spezielle Angebote in dieser Richtung zu unterbreiten. Für unsere heutige kundenbezogene und dienstleistungsorientierte Wirtschaft, in der höchster Konkurrenzdruck herrscht, sind Daten das Rohmaterial, das zum Unternehmenswachstum führt wenn sie nur richtig genutzt werden. Data Mining definiert sich als der Prozess, Muster in Daten zu erkennen. Der Prozess hat automatisch oder (was häufiger der Fall ist) halbautomatisch stattzufinden. Dabei müssen sinnvolle Muster erkannt werden, die zu einem Vorteil in der Regel wirtschaftlicher Art führen. Die Daten stehen immer in ausreichender Menge zur Verfügung. Und wie werden die Muster beschrieben? Sinnvoll beschriebene Muster erlauben uns, nicht-triviale Vorhersagen in Hinblick auf neue Daten zu treffen. Es gibt zwei Extremfälle für die Beschreibung von Mustern: Als so genannte Black Box, deren Interna letztlich nicht nachvollziehbar sind, und als Transparente Box, deren Aufbau die Musterstruktur offen legt. Von beiden setzen wir voraus, dass sie gute Vorhersagen erlauben. Der Unterschied besteht darin, ob die erkannten Muster in Hinblick auf eine Struktur dargestellt werden, die ausgewertet, diskutiert und für zukünftige Entscheidungen herangezogen werden kann. Dafür benutzen wir auch den Begriff strukturierte Muster, weil sie die Entscheidungsstruktur explizit formulieren. Mit anderen Worten: sie helfen, die Daten zu erklären. Jetzt können wir auch sagen, worum es in diesem Buch geht. Es stellt Techniken vor, mit denen strukturierte Muster in Daten erkannt und beschrieben werden. Die hier aufgezeigten Techniken wurden innerhalb des so genannten maschinel-

5 4 1 Worum geht es? len Lernens entwickelt. Als erstes wollen wir jedoch beschreiben, was strukturierte Muster sind. Beschreibung strukturierter Muster Was bedeutet der Begriff strukturierte Muster? Wie beschreibt man sie? In welcher Form werden sie eingegeben? Wir beantworten diese Fragen anhand von Beispielen, statt formale und damit letztlich sterile Definitionen dafür anzubieten. Später führen wir diverse Beispiele an, stellen aber schon vorab eines vor, um ein Gefühl dafür zu vermitteln, worum es eigentlich geht. Tabelle 1.1: Die Kontaktlinsendaten spectacle tear production recommended age prescription astigmatism rate lenses young myope no reduced none young myope no normal soft young myope yes reduced none young myope yes normal hard young hypermetrope no reduced none young hypermetrope no normal soft young hypermetrope yes reduced none young hypermetrope yes normal hard pre-presbyopic myope no reduced none pre-presbyopic myope no normal soft pre-presbyopic myope yes reduced none pre-presbyopic myope yes normal hard pre-presbyopic hypermetrope no reduced none pre-presbyopic hypermetrope no normal soft pre-presbyopic hypermetrope yes reduced none pre-presbyopic hypermetrope yes normal none presbyopic myope no reduced none presbyopic myope no normal none presbyopic myope yes reduced none presbyopic myope yes normal hard presbyopic hypermetrope no reduced none presbyopic hypermetrope no normal soft presbyopic hypermetrope yes reduced none

6 1.1 Data Mining und maschinelles Lernen 5 Die Daten der Beispiele Kontaktlinsen in Tabelle 1.1 beschreiben die Bedingungen, wann ein Optiker weiche, härtere oder gar keine Kontaktlinsen empfehlen sollte; wir werden die einzelnen Eigenschaften später noch genauer erklären. Jede Zeile der Tabelle erfasst ein Beispiel. Ein Teil der strukturierten Beschreibung dieser Information könnte wie folgt aussehen: If tear production rate = reduced then recommendation = none Else if age = young and astigmatic = no then recommendation = soft Strukturierte Beschreibungen müssen nicht unbedingt als Regeln wie im gegebenen Fall formuliert werden. Auch Entscheidungsbäume, die die Abfolge der Entscheidungen für eine Empfehlung festlegen, sind ein beliebtes Ausdrucksmittel. Dieses Beispiel ist stark vereinfacht. Zum einen sind alle möglichen Wertekombinationen in der Tabelle aufgelistet. Es gibt 24 Zeilen, die drei mögliche Altersangaben sowie je zwei Werte zur Beschreibung der Fehlsichtigkeit, des Astigmatismus und der Tränenflüssigkeit darstellen ( = 24). Die Regeln stellen keine wirkliche Generalisierung der Daten dar, sondern fassen sie nur zusammen. In den meisten Lernsituationen sind die eingegebenen Beispiele keineswegs vollständig, und Teil der Aufgabe ist es, Generalisierungen für andere, neue Beispiele zu finden. Angenommen in der Tabelle würden einige Zeilen, für die die Tränenflüssigkeit (tear production rate) den Wert reduced aufweist, fehlen. Sie könnten dennoch folgende Regel aufstellen If tear production rate = reduced then recommendation = none Diese Regel würde eine Verallgemeinerung für die fehlenden Zeilen schaffen und sie korrekt ergänzen. Zum anderen werden in sämtlichen Beispielen Werte für alle Eigenschaften angegeben. Reale Datenmengen enthalten immer wieder Beispiele, deren Eigenschaftswerte aus irgendwelchen Gründen nicht vollständig angegeben oder unbekannt sind möglicherweise wurden bestimmte Messungen nicht durchgeführt, die Werte gingen verloren oder was auch immer. Drittens klassifizieren die oben gezeigten Regeln die Beispiele korrekt, während in Daten, mit denen ein Klassifizierer trainiert wird, häufig aufgrund von Fehlern oder verrauschten Daten fehlerhafte Klassifikationen vorkommen. Maschinelles Lernen Nachdem wir Eingaben und Ausgaben kurz untersucht haben, wollen wir uns mit dem maschinellen Lernen beschäftigen. Was ist Lernen überhaupt? Was ist maschinelles Lernen? Da dies kein Philosophiebuch ist, wollen wir uns vielmehr auf die praktische Seite konzentrieren. Dennoch sollen uns einen Moment lang die grundlegenden Aspekte beschäftigen, nur um zu zeigen, wie komplex sie sein

7 6 1 Worum geht es? können, bevor wir uns endgültig dem maschinellen Lernen in der Praxis zuwenden. Für unser Lexikon bedeutet Lernen : sich durch Studium, Erfahrung oder Lehre Wissen anzueignen; sich mittels Informationen oder Beobachtungen einer Sache bewusst zu werden; etwas im Gedächtnis zu behalten; informiert zu werden über etwas; zu ermitteln; Anweisungen zu erhalten. Für Computer sind diese Beschreibungen unzulänglich. Die beiden ersten Beschreibungen lassen kaum die Kontrolle zu, ob ein Lernprozess stattgefunden hat. Woher weiß man, ob eine Maschine Wissen über besitzt? Man kann ihr höchstwahrscheinlich keine Fragen stellen, und wenn doch, würde man damit nicht ihre Lernfähigkeit überprüfen, sondern ihre Fähigkeit, Fragen zu beantworten. Woher weiß man, ob sie sich eines Sachverhalts bewusst ist? Die ganze Fragestellung, ob Computer Bewusstsein zugesprochen werden kann, ist ein heißes philosophisches Thema. Für das maschinelle Lernen erscheinen im Unterschied zum Menschen die Ausdrücke im Gedächtnis behalten und Anweisungen erhalten viel zu vage und zu passiv, und wir wissen, dass diese Aufgaben für Computer trivial sind. Stattdessen sind wir an Leistungsverbesserungen in neuen Situationen interessiert, oder zumindest an einem Leistungspotenzial. Man könnte im Gedächtnis behalten oder informiert werden über auch durch Auswendiglernen erreichen, ohne in der Lage zu sein, das erworbene Wissen auf neue Situationen anzuwenden. Sie können Anweisungen erhalten, ohne in der Lage zu sein, daraus irgendwelchen Nutzen zu ziehen. Zuvor haben wir das Data Mining operational als Prozess der automatischen oder halbautomatischen Mustererkennung für große Datenmengen definiert wobei es sich um sinnvolle Muster handeln muss. Auch für das Lernen kann eine operationale Definition formuliert werden. Wie wäre es damit: Etwas lernt, wenn es sein Verhalten so ändert, dass es in Zukunft eine bessere Leistung aufweist. Damit wird das Lernen an die Leistung und nicht mehr an das Wissen gebunden. Man kann das Lernen überprüfen, indem man das Verhalten beobachtet und es mit dem Verhalten in der Vergangenheit vergleicht. Das ist eine viel objektivere Definition, die auch viel zufriedenstellender erscheint. Es gibt aber noch ein Problem. Das Konzept des Lernens ist schlecht fassbar. Viele Dinge ändern ihr Verhalten, sodass sie in der Zukunft eine bessere Leistung aufweisen, aber wir würden nicht unbedingt sagen, sie hätten gelernt. Ein gutes Beispiel dafür ist ein bequemer Schuh. Hat er Ihre Fußform gelernt? Er hat jedenfalls sein Verhalten geändert, um sich in der Zukunft als besserer Schuh zu erweisen! Wir würden aber niemals sagen, er hätte gelernt. In der Umgangssprache verwenden wir häufig das Wort Training, um einen unbewussten Lernprozess zu beschreiben. Wir trainieren Tiere und sogar Pflanzen, doch trifft dieses Wort nicht

8 1.1 Data Mining und maschinelles Lernen 7 unbedingt auf leblose Objekte wie Schuhe zu. Lernen ist etwas anderes. Beim Lernen geht es um Denken. Lernen bedingt Absicht. Etwas, das lernt, muss dies bewusst tun. Deshalb würden wir auch nicht sagen, ein Wein hätte gelernt, sich im Weinberg um ein Spalier zu ranken wir sagen, er wurde trainiert. Lernen ohne Absicht ist nur Training. Genauer gesagt, handelt es sich beim Lernen um die Absicht des Lernenden, beim Trainieren um die Absicht des Lehrers. Bei genauerer Betrachtung ist auch die zweite Definition des Lernens mittels operationaler, leistungsorientierter Begrifflichkeit problematisch, wenn es um Computer geht. Um zu entscheiden, ob etwas wirklich gelernt hat, muß man überprüfen, ob es bewusst geschehen ist, d.h. ob eine Absicht vorgelegen hat. Und damit wird der Begriff, was Maschinen angeht, fragwürdig, weil nicht klar ist, ob sie eine Absicht kundtun können. Philosophische Diskussionen darüber, was mit Lernen oder mit Absicht oder Bewusstsein wirklich gemeint ist, sind äußerst diffizil. Selbst vor Gericht ist der Begriff der Absicht häufig schwer zu klären. Data Mining Glücklicherweise weisen die in diesem Buch vorgestellten Lerntechniken diese grundsätzlichen Probleme nicht auf sie werden als maschinelles Lernen bezeichnet, ohne philosophisch zu klären, was Lernen eigentlich bedeutet. Data Mining ist ein praktisches Thema und bezieht sich auf das praktische und nicht auf das theoretische Lernen. Uns interessieren Techniken, mit denen wir strukturierte Muster in den Daten erkennen und beschreiben können als Werkzeug, das uns erlaubt, die Daten zu erklären und Vorhersagen zu treffen. Die Daten nehmen die Form einer Beispielmenge an Beispiele für Kunden, die ein Produkt gewechselt haben, oder Situationen, in denen bestimmte Kontaktlinsen empfohlen werden können. Die Ausgabe erfolgt in Form einer Vorhersage für neue Beispiele eine Aussage darüber, ob ein bestimmter Kunde das Produkt wechseln wird oder welche Art von Linse für bestimmte Bedingungen empfohlen wird. Weil es in diesem Buch jedoch darum geht, Muster in Daten zu erkennen und zu beschreiben, muss auch die Ausgabe die Beschreibung einer Struktur beinhalten, anhand derer unbekannte Beispiele klassifiziert werden können, um eine gerechtfertigte Entscheidung zu treffen. Neben der Leistung fordern wir auch eine explizite Darstellung des erforderlichen Wissens. Letztlich benutzen wir also beide Definitionen des Lernens: das Aneignen von Wissen sowie die Fähigkeit, es zu nutzen. Viele Lerntechniken suchen nach strukturierten Beschreibungen des Lernstoffes. Diese Beschreibungen können relativ kompliziert sein und werden normalerweise als Regelmenge formuliert, ähnlich der oben gezeigten, oder als Entscheidungsbäume, um die es im Folgenden noch gehen soll. Weil sie für den Menschen verständlich sind, dienen diese Beschreibungen einer Erklärung dessen, was gelernt wurde, um die Grundlage für neue Vorhersagen zu schaffen. In diesem Buch konzentrieren wir uns auf die Verwendung von Methoden, die leicht verständliche

9 8 1 Worum geht es? strukturierte Beschreibungen erzeugen. Einige verbreitete Methoden des maschinellen Lernens produzieren keine solchen Beschreibungen. Neuronale Netze beispielsweise lernen, Beispiele zu klassifizieren, ohne jedoch eine explizite strukturierte Beschreibung des gelernten Wissens zu erzeugen. Neuronale Netze gehören nicht in den Rahmen dieses Buchs auch wenn sie sicherlich eine sinnvolle Technik für einige Data Mining-Anwendungen darstellen weil sie kein nachvollziehbares Modell für ihre Vorhersagen erzeugen. Die Erfahrung hat gezeigt, dass in vielen Anwendungen des maschinellen Lernens für das Data Mining die expliziten Wissensstrukturen, die strukturierten Beschreibungen, mindestens ebenso wichtig und nicht selten wichtiger sind als die Fähigkeit, eine gute Leistung für neue Beispiele zu erbringen. Häufig wird Data Mining eingesetzt, um Wissen zu sammeln, und nicht nur, um Vorhersagen zu treffen. Wissen aus Daten zu sammeln kann sich als praktisch erweisen. Um herauszufinden, wie Sie dabei vorgehen, sollten Sie weiterlesen! 1.2 Einfache Beispiele: Das Wetterproblem und andere Wir werden in diesem Buch viele Beispiele vorstellen, was besonders logisch erscheint, wenn man bedenkt, dass es hier um Lernen aus Beispielen geht! Es gibt mehrere Standarddatenmengen, auf die wir immer wieder zurückkommen werden. Unterschiedliche Datenmengen weisen immer wieder auf neue Aspekte und Herausforderungen hin, und es ist interessant und lehrreich, bei der Betrachtung von Lernmethoden unterschiedliche Aufgaben zu berücksichtigen. Die Arbeit mit unterschiedlichen Datenmengen ist so wichtig, dass ein Fundus von etwa hundert Beispiel-Aufgabenstellungen zusammengetragen wurde, sodass verschiedene Algorithmen anhand derselben Aufgabenstellung getestet und verglichen werden können. Die Beispiele in diesem Abschnitt sind alle unrealistisch einfach. Ernsthafte Anwendungen des Data Minings beinhalten Tausende, wenn nicht Hunderttausende oder sogar Millionen von Einzelfällen. Bei der Erklärung, was Algorithmen leisten und wie sie arbeiten, benötigen wir jedoch einfache Beispiele, die das Wesen des Problems darlegen können, aber doch klein genug sind, um in jedem Detail verständlich zu sein. Die Beispiele aus diesem Kapitel werden im gesamten Buch verwendet; sie sollen akademisch sein, damit sie uns helfen, den Sachverhalt zu verstehen. Einige praktische Anwendungen der Lerntechniken sind in Abschnitt 1.3 beschrieben, ebenso wie in den im Abschnitt Weiterführende Literatur am Ende des Kapitels erwähnten Büchern. Ein weiteres Problem bei realen Datenmengen besteht darin, dass sie häufig Privateigentum sind. Niemand wird Ihnen Kunden- und Produktauswahl-Datenmengen zur Verfügung stellen, damit Sie die Details einer Data Mining-Anwendung verstehen lernen. Unternehmensdaten stellen einen wertvollen Besitz dar, der mit der Einführung von Data Mining-Techniken, wie sie in diesem Buch be-

10 1.2 Einfache Beispiele: Das Wetterproblem und andere 9 schrieben sind, noch wertvoller geworden ist. Wir wollen verstehen, wie die beim Data Mining angewandten Methoden funktionieren, um zu begreifen, wie sie für reale Daten zu nutzen sind. Deshalb wurden so stark vereinfachte Beispiele gewählt. Sie sind jedoch nicht trivial und sie weisen die Eigenschaften realer Datenmengen auf. Das Wetterproblem Das Wetterproblem umfasst eine winzige Datenmenge, die wir immer wieder heranziehen werden, um Methoden des maschinellen Lernens zu erklären. Gänzlich fiktiv, geht es darin um die Bedingungen, die geeignet sind, ein nicht genauer spezifiziertes Spiel zu spielen. Im Allgemeinen werden die Instanzen in einer Datenmenge durch die Werte der Eigenschaften, der Attribute, charakterisiert, die unterschiedliche Aspekte der Instanz messen. In diesem Fall gibt es vier Attribute, outlook, temperature, humidity und wind; das Ergebnis besagt, ob das Spiel gespielt werden kann. In der einfachsten Form, die in Tabelle 1.2 gezeigt ist, haben alle vier Attribute Werte, die symbolische Kategorien darstellen, keine Zahlen. Die Aussicht (outlook) kann sunny, overcast, oder rainy; die Temperatur (temperature) hot, mild oder cool, die Luftfeuchtigkeit (humidity) high oder normal sein; und der Windfaktor (windy) kann true oder false sein. Damit erhalten wir 36 mögliche Kombinationen ( = 36). 14 dieser Kombinationen sind in den Eingabebeispielen aufgeführt. Tabelle 1.2: Die Wetterdaten outlook temperature humidity windy play sunny hot high false no sunny hot high true no overcast hot high false yes rainy mild high false yes rainy cool normal false yes rainy cool normal true no overcast cool normal true yes sunny mild high false no sunny cool normal false yes rainy mild normal false yes sunny mild normal true yes overcast mild high true yes overcast hot normal false yes rainy mild high true no

11 10 1 Worum geht es? Eine Regelmenge, die aus dieser Information gelernt wird und die nicht unbedingt die beste sein muss könnte wie folgt aussehen: If outlook = sunny und humidity = high If outlook = rainy und windy = true If outlook = overcast If humidity = normal If none of the above then play = no then play = no then play = yes then play = yes then play = yes Diese Regeln müssen der Reihe nach ausgewertet werden: zunächst die erste, falls diese nicht zutrifft, die zweite usw. Regelmengen, die sequenziell interpretiert werden müssen, werden häufig auch als Entscheidungslisten bezeichnet. Wenn die obige Regelmenge als Entscheidungsliste interpretiert wird, klassifiziert sie alle Beispiele in der Tabelle korrekt, während einige Regeln, wenn sie einzeln und außerhalb des Kontexts ausgewertet werden, zu falschen Ergebnissen führen. Beispielsweise klassifiziert die Regel If humidity = normal then play = yes eines der Beispiele falsch (finden Sie selbst heraus, welches). Die Bedeutung einer Regelmenge ist davon abhängig, wie sie interpretiert wird was sicher nicht überraschend ist. Tabelle 1.3 demonstriert eine etwas komplexere Form des Wetterproblems. Zwei der Attribute, temperature und humidity, weisen numerische Werte auf. Was bedeutet: Alle Lernverfahren müssen Ungleichungen für diese Attribute anlegen, nicht nur einfache Gleichheitstests wie zuvor. Man spricht hier auch von einem Tabelle 1.3: Wetterdaten mit numerischen Attributen outlook temperature humidity windy play sunny false no sunny true no overcast false yes rainy false yes rainy false yes rainy true no overcast true yes sunny false no sunny false yes rainy false yes sunny true yes overcast true yes overcast false yes rainy true no

12 1.2 Einfache Beispiele: Das Wetterproblem und andere 11 Problem mit numerischen Attributen, in diesem Fall von einem Problem mit gemischten Attributen, weil nicht alle Attribute numerisch sind. Entsprechend könnte die erste Regel folgende Form annehmen: If outlook = sunny and humidity > 83 then play = no Zum Lernen von Regeln mit numerischen Auswertungen ist ein etwas komplexerer Ansatz erforderlich. Bisher haben wir nur Klassifikationsregeln kennen gelernt: Sie sagen die Klassifikation eines Beispiels voraus, nämlich ob gespielt werden kann oder nicht. Es ist aber auch möglich, die Klassifikation zu verwerfen und nur nach Regeln zu suchen, die unterschiedliche Attribute streng assoziieren. Man spricht hier von Assoziationsregeln. Aus den Wetterdaten in Tabelle 1.2 können viele Assoziationsregeln abgeleitet werden. Hier einige der besten von ihnen: If temperature = cool then humidity = normal If humidity = normal and windy = false then play = yes If outlook = sunny and play = no then humidity = high If windy = false and play = no then outlook = sunny and humidity = high Alle diese Regeln sind für die vorgegebenen Daten zu 100 Prozent korrekt. Sie treffen keine falschen Vorhersagen. Die beiden ersten gelten für vier Beispiele in der Datenmenge, die nächste für drei und die vierte für zwei Beispiele. Es gibt noch viele andere Regeln: Tatsächlich können fast sechzig Assoziationsregeln gefunden werden, die für zwei oder mehr Beispiele der Wetterdaten gelten und für diese Daten vollständig korrekt sind. Und wenn Sie nach Regeln suchen, die nicht zu 100 Prozent korrekt sind, finden Sie noch viele weitere, und zwar deshalb, weil die Assoziationsregeln anders als die Klassifikationsregeln alle Attribute vorhersagen können, nicht nur eine bestimmte Klasse, und sogar mehrere Dinge gleichzeitig. Beispielsweise sagt die vierte der oben gezeigten Regeln sowohl voraus, dass outlook gleich sunny als auch dass humidity gleich high sein wird. Kontaktlinsen: Ein idealisiertes Problem Die in Tabelle 1.1 beschriebenen Kontaktlinsendaten zeigen, welche Art Kontaktlinsen bei bestimmten Informationen über einen Patienten empfohlen werden sollen. Beachten Sie, dass dieses Beispiel nur als Demonstration gilt; es vereinfacht das Problem zu stark und sollte keinesfalls für Diagnosezwecke genutzt werden! Die erste Spalte in Tabelle 1.1 gibt das Alter des Patienten an. Falls Sie es noch nicht wussten presbyopia (Presbyopie) ist eine Form der Altersweitsichtigkeit. Die zweite Spalte gibt die Art der Fehlsichtigkeit an: myope (myop) bedeutet kurzsichtig, hypermetrope (hypermetrop) bedeutet weitsichtig. Die dritte Spalte gibt

13 12 1 Worum geht es? an, ob der Patient unter Astigmatismus leidet, und die vierte beschreibt die Tränenflüssigkeit, die in diesem Kontext wichtig ist, weil Tränen die Kontaktlinsen trüben. Die letzte Spalte zeigt, welche Linsenart zu empfehlen ist, also hard, soft oder none. Die Tabelle weist alle möglichen Kombinationen der Attributwerte auf. Abbildung 1.1 zeigt ein Beispiel für die aus dieser Information gelernte Regelmenge. Es handelt sich dabei um eine relativ große Regelmenge, die aber alle Beispiele korrekt klassifiziert. Die Regeln sind vollständig und deterministisch: Sie geben eine eindeutige Empfehlung für jedes der Beispiele ab. Im Allgemeinen ist das jedoch nicht der Fall. In einigen Situationen gelten keine Regeln, in anderen gelten mehrere Regeln, sodass Empfehlungen ausgesprochen werden, die in Konflikt zueinander stehen. Manchmal ist es sinnvoll, Regeln Wahrscheinlichkeiten oder Gewichtungen zuzuordnen, die zeigen, dass einige wichtiger oder zuverlässiger sind als andere. Sie fragen sich vielleicht, ob es eine kleinere Regelmenge gibt, die zufriedenstellend funktioniert, und, falls ja, warum Sie nicht besser diese kleinere Regelmenge verwenden? Genau diese Fragen beschäftigen uns in diesem Buch. Weil die Beispiele eine vollständige Menge für den Problemraum bilden, leisten die Regeln nichts weiter, als alle bereitgestellten Informationen zusammenzufassen und sie in anderer, übersichtlicherer Form darzustellen. Auch wenn dabei keine Verallgemeinerung vorgenommen wird, ist das häufig sehr sinnvoll. Menschen nutzen die If tear production rate = reduced then recommendation = none If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft If age = presbyopic and spectacle prescription = myope and astigmatic = no then recommendation = none If spectacle prescription = hypermetrope and astigmatic = no and tear production rate = normal then recommendation = soft If spectacle prescription = myope and astigmatic = yes and tear production rate = normal then recommendation = hard If age = young and astigmatic = yes and tear production rate = normal then recommendation = hard If age = pre-presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none If age = presbyopic and spectacle prescription = hypermetrope and astigmatic = yes then recommendation = none Abbildung 1.1 Regeln für die Kontaktlinsendaten

14 1.2 Einfache Beispiele: Das Wetterproblem und andere 13 Techniken des maschinellen Lernens oft, um die Struktur ihrer Daten kennen zu lernen, und nicht, um Vorhersagen für neue Fälle zu treffen. Eine bekannte und erfolgreiche Forschungslinie im Bereich des maschinellen Lernens war zunächst einfach der Versuch, eine große Datenbank möglicher Schachendspiele und ihre Ergebnisse in einer Datenstruktur von vernünftiger Größe komprimiert darzustellen. Die dafür gewählte Datenstruktur war keine Regelmenge, sondern ein Entscheidungsbaum. Abbildung 1.2 zeigt eine strukturierte Beschreibung der Kontaktlinsendaten in Form eines Entscheidungsbaums, der für zahlreiche Aufgabenstellungen eine präzisere und deutlichere Darstellung der Regeln bietet und darüber hinaus den Vorteil aufweist, dass er leichter visualisiert werden kann. (Im Gegensatz zu der in Abbildung 1.1 gezeigten Regelmenge klassifiziert dieser Entscheidungsbaum jedoch zwei Beispiele fehlerhaft.) Als Erstes nimmt der Baum eine Überprüfung der Tränenflüssigkeit (tear production rate) vor und die beiden ersten Verzweigungen entsprechend den beiden möglichen Ergebnissen. Ist tear production rate gleich reduced (der linke Zweig), lautet das Ergebnis none. Bei normal (der rechte tear production rate reduced normal none astigmatism no yes soft spectacle prescription myope hypermetrope hard none Abbildung 1.2 Entscheidungsbaum für die Kontaktlinsendaten

15 14 1 Worum geht es? Zweig) erfolgt eine zweite Überprüfung, jetzt für den Astigmatismus (astigmatism). Abhängig von den Ergebnissen dieser Überprüfungen wird irgendwann ein Blatt im Baum erreicht, das eine Empfehlung für diesen Fall ausspricht. Die Frage, welches das natürlichste und am leichtesten verständliche Format für die Ausgabe eines maschinellen Lernschemas ist, wird uns in Kapitel 3 noch einmal begegnen. Iris: Eine klassische numerische Datenmenge Die Iris-Datenmenge, die aus der epochalen Arbeit des eminenten Statistikers R. A. Fisher Mitte der 30er Jahre stammt, ist die vermutlich berühmteste Datenmenge, die beim Data Mining verwendet wird. Sie enthält 50 Beispiele für drei Pflanzentypen: Iris setosa, Iris versicolor und Iris virginica. Einen Auszug daraus sehen Sie in Tabelle Es gibt vier Attribute: sepal length (Kelchblattlänge), sepal width (Kelchblattbreite), petal length (Blütenblattlänge) und petal width (Blütenblattbreite) (alle in cm angegeben). Anders als in den zuvor gezeigten Datenmengen weisen hier alle Attribute numerische Werte auf. Aus dieser Datenmenge kann die folgende Regelmenge gelernt werden: If petal-length < 2.45 then Iris-setosa If sepal-width < 2.10 then Iris-versicolor If sepal-width < 2.45 and petal-length < 4.55 then Iris-versicolor If sepal-width < 2.95 and petal-width < 1.35 then Iris-versicolor If petal-length 2.45 and petal-length < 4.45 then Iris-versicolor If sepal-length 5.85 and petal-length < 4.75 then Iris-versicolor If sepal-width < 2.55 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If petal-length 2.45 and petal-length < 4.95 and petal-width < 1.55 then Iris-versicolor If sepal-length 6.55 and petal-length < 5.05 then Iris-versicolor If sepal-width < 2.75 and petal-width < 1.65 and sepal-length < 6.05 then Iris-versicolor If sepal-length 5.85 and sepal-length < 5.95 and petal-length < 4.85 then Iris-versicolor If petal-length 5.15 then Iris-virginica If petal-width 1.85 then Iris-virginica If petal-width 1.75 and sepal-width < 3.05 then Iris-virginica If petal-length 4.95 and petal-width < 1.55 then Iris-virginica Diese Regeln sind sehr unübersichtlich. In Kapitel 3 erfahren Sie, wie dieselbe Information durch kompaktere Regeln ausgedrückt werden kann.

16 1.2 Einfache Beispiele: Das Wetterproblem und andere 15 Tabelle 1.4: Die Iris-Daten sepal sepal petal petal length width length width type Iris setosa Iris setosa Iris setosa Iris setosa Iris setosa Iris versicolor Iris versicolor Iris versicolor Iris versicolor Iris versicolor Iris virginica Iris virginica Iris virginica Iris virginica Iris virginica CPU-Leistung: Einführung in numerische Vorhersagen Die Iris-Datenmenge besteht zwar aus numerischen Attributen, doch das Ergebnis also der Iristyp ist eine Kategorie, kein numerischer Wert. Tabelle 1.5 zeigt einige Daten, für die sowohl die Attribute als auch das Ergebnis numerisch sind. Sie beschreiben die relative Rechenleistung eines Computers abhängig von mehreren relevanten Attributen; jede Zeile stellt eine von 209 verschiedenen Computerkonfigurationen dar. Die klassische Methode für numerische Vorhersagen besteht darin, das Ergebnis als lineare Summe der Attributwerte mit geeigneter Gewichtung darzustellen, beispielsweise wie folgt: RPR = MYCT MMIN MMAX CACH CHMIN CHMAX (Die abgekürzten Variablennamen sind in der zweiten Zeile der Tabelle aufgeführt.) Man spricht hier auch von einer Regressionsgleichung, deren Gewichtungen unter Verwendung der so genannten Regression ermittelt werden, einer gebräuchlichen Prozedur in der Statistik, die wir in Kapitel 4 noch genauer kennen lernen werden. Die grundlegende Regressionsmethode kann jedoch keine nicht-

17 16 1 Worum geht es? Tabelle 1.5: Die Daten für die CPU-Leistung cycle main memory cache channels perfor- (Kb) mance time (ns) min max (Kb) min max MYCT MMIN MMAX CACH CHMIN CHMAX PR linearen Verhältnisse erkennen (es gibt jedoch Varianten, von denen eine in Abschnitt 6.3 genauer beschrieben wird). In Kapitel 3 untersuchen wir verschiedene Darstellungen für die Vorhersage numerischer Mengen. In den Daten für die Iris und die CPU-Leistung haben alle Attribute numerische Werte. In der Praxis trifft man häufig auf eine Mischung aus numerischen und nicht-numerischen Attributen. Tarifverhandlungen: Ein realistischeres Beispiel Die Datenmenge für die Tarifverhandlungen, die Sie in Tabelle 1.6 sehen, fasst das Ergebnis der Kanadischen Tarifverhandlungen 1987/88 zusammen. Dort sind alle Vereinbarungen aufgezeichnet, die zwischen Arbeitgebern und Arbeitnehmern zustande gekommen sind. Es werden nur Unternehmen mit mehr als 500 Angestellten berücksichtigt (Lehrer, Krankenschwestern, Universitätsangestellte, Mitglieder der Polizei usw.). Jeder Fall beinhaltet einen Vertrag, und das Ergebnis entscheidet darüber, ob der Vertrag akzeptiert oder nicht akzeptiert wird. Akzeptierbar sind Verträge, die sowohl von den Arbeitgebern als auch von den Arbeitnehmern akzeptiert werden. Nicht akzeptierbare Verträge wurden entweder von einer Partei nicht akzeptiert, oder sie sind akzeptierbare Verträge, die soweit verändert wurden, dass sie nach Ansicht von Experten nicht akzeptiert würden. Die Datenmenge enthält 40 Beispiele (plus 17 weitere, die normalerweise für Testzwecke reserviert sind). Anders als die hier gezeigten Tabellen stellt Tabelle 1.6 die Beispiele als Spalten und nicht als Zeilen dar, weil sie sich andernfalls über meh-

18 1.2 Einfache Beispiele: Das Wetterproblem und andere 17 Tabelle 1.6: Die Daten für die Tarifverhandlungen attribute type duration (number of years) wage increase first year percentage 2% 4% 4.3% 4.5 wage increase percentage? 5% 4.4% 4.0 second year wage increase third year percentage???? cost of living adjustment {none, tcf, tc} none tcf? none working hours per week (number of hours) pension {none, ret-allw, none??? empl-cntr} standby pay percentage? 13%?? shift-work supplement percentage? 5% 4% 4 education allowance {yes, no} yes??? statutory holidays (number of days) vacation {below-avg, avg, avg gen gen avg gen} long-term disability {yes, no} no?? yes assistance dental plan contribution {none, half, full} none? full full bereavement assistance {yes, no} no?? yes health plan contribution {none, half, full} none? full half acceptability of contract {good, bad} bad good good good rere Seiten erstrecken würden. Viele Werte sind unbekannt oder fehlen (Fragezeichen). Hier handelt es sich um eine viel realistischere Datenmenge als bei den bisher gezeigten. Sie enthält viele fehlende Werte, eine exakte Klassifikation scheint eher unwahrscheinlich. Abbildung 1.3 zeigt zwei Entscheidungsbäume, um die Datenmenge darzustellen. Abbildung 13.a zeigt nur eine Annäherung, die Datenwerte werden nicht exakt dargestellt. So wird beispielsweise für einige Verträge bad vorhergesagt, obwohl das Ergebnis good ist. Dies ergibt einen intuitiven Sinn: Ein Vertrag ist schlecht (für den Angestellten!), wenn die Einkommenssteigerung im ersten Jahr zu klein ist (weniger als 2,5%). Wenn die Einkommenssteigerung im ersten Jahr einen größeren Wert aufweist, ist er gut, falls es viele gesetzliche Feiertage gibt (mehr als 10 Tage). Und selbst wenn es weniger gesetzliche Feiertage gibt, ist er gut, wenn die Einkommenssteigerung im ersten Jahr groß genug ist (mehr als 4%). Datenbank 1.3b zeigt einen komplexeren Entscheidungsbaum, der dieselbe Datenmenge darstellt. Letztlich handelt es sich dabei um eine genauere Darstellung

19 18 1 Worum geht es? wage increase first year 2.5 > 2.5 bad statutory holidays > good wage increase first year 4 > 4 bad good (a) (b) Abbildung 1.3 Entscheidungsbäume für die Tarifverhandlungsdaten bad 36 bad working hours per week > 36 health plan contribution none half good wage increase first year 2.5 > 2.5 statutory holidays > 10 good full bad bad 10 wage increase first year 4 > 4 good

20 1.2 Einfache Beispiele: Das Wetterproblem und andere 19 der eigentlichen Datenmenge, für die der Baum gebaut wurde. Es ist jedoch nicht unbedingt eine genauere Darstellung des zugrunde liegenden Konzepts von guten im Vergleich zu schlechten Verträgen. Betrachten Sie den linken Zweig: Auf den ersten Blick scheint es nicht sinnvoll zu sein, dass ein Vertrag schlecht ist, wenn die Arbeitsstunden den Wert 36 überschreiten und es keine oder vollständige Leistungen für den Gesundheitsplan gibt, dass er aber, unter Annahme gleicher Arbeitsstunden, gut ist, wenn der Plan zur Hälfte erfüllt wird. Es scheint vernünftig, dass der Gesundheitsplan eine entscheidende Rolle spielt, aber nicht, indem die halbe Realisierung gut ist, die vollständige und fehlende hingegen schlecht. Diese Festlegung scheint ein Artefakt der Daten zu sein, die benutzt wurden, um den Entscheidungsbaum aufzubauen, und stellt kein wirkliches Merkmal des zugrunde liegenden Konzepts dar. Der Baum in Abbildung 1.3b ist exakter für die Daten, mit denen der Klassifizierer trainiert wurde, wird aber wahrscheinlich eine schlechtere Leistung für eine unabhängige Testdatenmenge zeigen. Er ist den Trainingsdaten zu sehr angepasst und gehorcht ihnen. Der Baum in Abbildung 1.3 a wurde aus dem in Abbildung 1.3b abgeleitet, unter Verwendung eines Prozesses, der als Pruning bezeichnet und in Kapitel 6 noch genauer beschrieben werden soll. Sojabohnen-Klassifizierung: Ein Erfolg des klassischen maschinellen Lernens Ein häufig zitierter früher Erfolg in der Anwendung maschinellen Lernens auf praktische Probleme ist die Festlegung von Regeln für die Diagnose von Sojabohnenkrankheiten. Die Daten stammen aus Fragebögen zu Pflanzenkrankheiten. Es gibt etwa 680 Beispiele, die jeweils befallene Pflanzen beschreiben. Für jede Pflanze wurden 35 Attribute ausgewertet, die jeweils einige wenige Werte annehmen können. Die Beispiele wurden von einem Experten auf dem Gebiet der Botanik kategorisiert. Es gibt insgesamt 17 Krankheitskategorien mit schrecklichen Namen, wie beispielsweise Diaporther Stammkrebs, Rhizoctonia Wurzelfäule oder Bakterienbrand, um nur einige wenige davon zu nennen. Tabelle 1.7 beschreibt die Attribute, die Anzahl der möglichen Werte für jedes Attribut sowie einen Beispieldatensatz für eine bestimmte Pflanze. Der einfacheren Lesbarkeit halber sind die Attribute in unterschiedliche Kategorien eingeordnet. Hier zwei Beispielregeln, die aus diesen Daten gelernt wurden: If then [leaf condition is normal and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown] diagnosis is rhizoctonia root rot (Fortsetzung auf S. 21)

21 20 1 Worum geht es? Tabelle 1.7: Die Sojabohnendaten attribute number of values sample value environment time of occurrence 7 July precipitation 3 above normal temperature 3 normal cropping history 4 same as last year hail damage 2 yes damaged area 4 scattered severity 3 severe plant height 2 normal plant growth 2 abnormal seed treatment 3 fungicide germination 3 less than 80% seed condition 2 normal mold growth 2 absent discoloration 2 absent size 2 normal shriveling 2 absent fruit condition of fruit pods 4 normal fruit spots 5 leaves condition 2 abnormal leaf spot size 3 yellow leaf spot halo 3 absent leaf spot margins 3 shredding 2 absent leaf malformation 2 absent leaf mildew growth 3 absent stem condition 2 abnormal stem lodging 2 yes stem cankers 4 above soil line canker lesion color 4 fruiting bodies on stems 2 present external decay of stem 3 firm and dry mycelium on stem 2 absent internal discoloration 3 none sclerotia 2 absent roots condition 3 normal diagnosis 19 diaporthe stem canker

22 1.3 Anwendungen in der Praxis 21 If then [leaf malformation is absent and stem condition is abnormal and stem cankers is below soil line and canker lesion color is brown] diagnosis is rhizoctonia root rot Diese Regeln demonstrieren gut die potenzielle Rolle, die Expertenwissen, häufig auch als Domänenwissen bezeichnet, auf dem Gebiet des maschinellen Lernens haben kann. Der einzige Unterschied zwischen den beiden Beschreibungen ist leaf condition is normal im Vergleich zu leaf malformation is absent. Ist in dieser Domäne die leaf condition (Blattbedingung) normal, so ist gezwungenermaßen leaf malformation (Missbildung des Blattes) nicht zutreffend, eine dieser Bedingungen ist also ein Sonderfall der anderen. Trifft die erste Regel zu, ist die zweite notwendigerweise ebenfalls zutreffend. Die zweite Regel kommt nur dann ins Spiel, wenn die leaf malformation nicht zutreffend, die leaf condition aber nicht normal ist, d.h. wenn etwas anderes außer der Form mit dem Blatt nicht stimmt. Dies ist aus dem einfachen Durchlesen der Regeln sicher nicht ersichtlich. Die Forschung stellte Ende der 70er Jahre zu diesem Problem fest, dass die Diagnoseregeln aus etwa 300 Trainingsbeispielen von einem Algorithmus zum maschinellen Lernen erzeugt werden konnten, ebenso wie die Regeln für alle anderen Krankheitskategorien. Man wählte aus dem Fundus vorhandener Beispiele sorgfältig Trainingsbeispiele aus, die sich voneinander ausreichend unterschieden, im Beispielraum also weit auseinander lagen. Gleichzeitig wurden die Pflanzenpathologen befragt, von denen die Diagnosen stammten. Deren Erfahrung wurde in Diagnoseregeln übersetzt. Für die restlichen Testbeispiele waren überraschenderweise die vom Computer erzeugten Regeln besser als die vom Experten abgeleiteten Regeln. Sie ordneten 97,5% aller Krankheiten korrekt ein, im Vergleich zu nur 72% bei den durch den Experten aufgestellten Regeln. Darüber hinaus konnte nicht nur der Lernalgorithmus bessere Regeln erzeugen als der Experte, sondern der Experte war gleichzeitig so beeindruckt, dass er fortan statt seiner eigenen Regeln die vom Algorithmus erkannten Regeln anwendete! 1.3 Anwendungen in der Praxis Die bisher gezeigten Beispiele beschrieben spekulative Forschungsprojekte, keine Produktionssysteme. Die Demonstrationen wurden bewusst reduziert, damit wir sie später in diesem Buch auch zur Erläuterung von Algorithmen nutzen können. Worum geht es im wirklichen Leben? Die folgenden Abschnitte beschreiben einige Anwendungen des maschinellen Lernens, die in der Praxis bereits genutzt werden. Weil es sich um praxisrelevante Anwendungen handelt, geht es in den folgenden

23 22 1 Worum geht es? Beschreibungen insbesondere um den leistungsorientierten Einsatz des Lernens, wobei vor allem auf die Fähigkeit geachtet wird, neue Beispiele korrekt zu erkennen. In diesem Buch geht es um die Nutzung von Lernsystemen zur Gewinnung von Wissen aus von den Daten abgeleiteten Entscheidungsstrukturen. Wir glauben, dass dies eine ebenso wichtige und auf lange Sicht möglicherweise wichtigere Nutzung der Technologie ist, als einfach nur leistungsfähige Vorhersagen zu treffen. Dennoch ist diese Art der Nutzung in der Praxis oft nicht direkt sichtbar, weil das Ergebnis normalerweise kein System ist, das als eigene Anwendung ausgeführt werden kann, wenn Lerntechniken genutzt werden, um neue Einsichten zu gewinnen. In den drei folgenden Beispielen stellt jedoch die Tatsache, dass die Entscheidungsstruktur nachvollziehbar ist, einen wichtigen Faktor für die Akzeptanz des Schemas dar. Entscheidungen durch Beurteilungen Wenn Sie einen Kredit beantragen, müssen Sie einen Fragebogen ausfüllen, der die wichtigsten finanziellen und persönlichen Informationen erhebt. Diese Information wird von der Bank als Entscheidungsgrundlage genutzt, ob man Ihnen Geld leihen wird. Diese Entscheidungen werden in der Regel in zwei Phasen getroffen. Zunächst werden statistische Methoden angewandt, um deutliche Zusagen oder Absagen zu treffen. Die verbleibenden Grenzfälle sind schwieriger und müssen von Menschen beurteilt werden. Beispielsweise verwendet eine Bank eine Prozedur für statistische Entscheidungen, um abhängig von den im Fragebogen bereitgestellten Informationen einen numerischen Parameter zu berechnen. Antragsteller werden akzeptiert, wenn dieser Parameter einen bestimmten Schwellwert übersteigt, abgewiesen, wenn er unter einem zweiten Schwellwert liegt. Damit sind 90% aller Fälle entschieden. Die restlichen 10% werden den Kreditsachbearbeitern zur Entscheidung vorgelegt. Bei der Untersuchung historischer Daten ob die Antragsteller ihre Kredite wirklich zurückzahlen konnten stellte sich jedoch heraus, dass nur die Hälfte der Grenzfall-Antragsteller, denen Kredite erteilt wurden, tatsächlich ihren Pflichten nachgekommen sind. Man könnte es für naheliegend halten, bei Grenzfällen den Kredit einfach zu verweigern, aber die Profis im Bankgeschäft zeigten auf, dass (wenn die Rückzahlung zuverlässig gesichert werden kann) genau diese Kunden gefördert werden sollten, weil sie ständig Bedarf an Krediten haben. Man muss einen sinnvollen Kompromiss schaffen zwischen der Perspektive eines Unternehmensbuchhalters, der keine uneinbringbaren Forderungen wünscht, und einem Verkäufer, der kein Geschäft sausen lassen will. Deshalb kam das maschinelle Lernen ins Spiel. Man gab 1000 Trainingsbeispiele für Grenzfälle ein, denen ein Kredit erteilt wurde, wobei anzugeben war, ob der Schuldner das Geld zurückzahlte oder nicht. Für jedes Trainingsbeispiel wurden aus dem Fragebogen etwa 20 Attribute extrahiert beispielsweise das Alter, die

24 1.3 Anwendungen in der Praxis 23 Dauer des aktuellen Arbeitsverhältnisses, die Laufzeit des aktuellen Wohnvertrages, die Dauer des Geschäftsverhältnisses mit der Bank sowie das Vorhandensein anderer Kreditkarten. Mit Hilfe des maschinellen Lernens wurde eine kleine Regelmenge für die Klassifizierung erzeugt, die korrekte Vorhersagen für zwei Drittel aller Grenzfälle in einer unabhängig gewählten Testmenge erbrachte. Diese Regeln verbesserten nicht nur die Erfolgsrate für die Kreditentscheidungen, sondern wurden auch genutzt, um den Antragstellern eine Begründung für die Entscheidung zu liefern. Das Projekt war ein Experiment mit nur kleinem Entwicklungsaufwand, doch die Bank war so angetan von dem Ergebnis, dass die Regeln sofort in der Praxis genutzt wurden. Bildanalyse Seit den ersten Tagen der Satellitentechnologie versuchen die Umweltschützer, Ölteppiche zu erkennen, um Frühwarnungen bei ökologischen Katastrophen auszusprechen und verbotene Verklappungen aufzudecken. Radarsatelliten bieten die Möglichkeit, die Küsten unabhängig von Wetterbedingungen Tag und Nacht zu überwachen. Ölteppiche erscheinen als dunkle Bereiche auf dem Bild, deren Größe und Umriss von Wetter- und Wasserbedingungen abhängig sind. Aber auch lokale Wetterbedingungen können ähnliche dunkle Bereiche erzeugen, beispielsweise starker Wind. Die Erkennung von Ölteppichen ist ein aufwendiger manueller Prozess, für den hochqualifiziertes Personal erforderlich ist, das die Bereiche auf dem Bild richtig einschätzen kann. Man entwickelte ein Katastrophenwarnsystem, das Bilder für die nachfolgende manuelle Bearbeitung vorbereitet. Es musste für verschiedene Situationen geeignet sein, weil es weltweit an die unterschiedlichsten Endbenutzer Regierungen und private Unternehmen verkauft werden sollte, die alle unterschiedliche Ziele verfolgen, unterschiedliche Anwendungen einsetzen und in unterschiedlichen geografischen Lagen angesiedelt sein können. Das maschinelle Lernen ermöglicht es, das System anhand der vom Benutzer bereitgestellten Beispiele auf das Vorhandensein oder Nichtvorhandensein von Ölteppichen zu trainieren, wobei der Benutzer die Abwägung zwischen unerkannten Austritten und Fehlalarmen steuern kann. Anders als Anwendungen des maschinellen Lernens, die einen Klassifizierer erzeugen, der dann in der praktischen Situation eingesetzt wird, wird hier das eigentliche Lernverfahren eingesetzt. Die Eingabe ist eine Menge an Rohdaten in Form von Pixelbildern, die von einem Radarsatelliten stammen; die Ausgabe besteht aus einer sehr viel kleineren Menge von Bildern mit vermeintlichen Ölteppichen, die mit einem farbigen Rahmen markiert sind. Als Erstes werden Standardoperationen für die Bildverarbeitung ausgeführt, um das Bild zu normalisieren, anschließend werden verdächtige dunkle Bereiche identifiziert. Für jeden Bereich ermittelt man mehrere Dutzend Attribute, die Größe, Umriss, Fläche, Intensität, Schärfe und Unregelmäßigkeit

Data Mining in Datenbanken

Data Mining in Datenbanken Data Mining in Datenbanken hinneburg@informatik.uni-halle.de www.informatik.uni-halle.de/~hinneburg Seite 0 Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag 7.11. Einfache

Mehr

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr) Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr) 1 Problemstellungen Daten vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen

Mehr

Vorlesungsplan. Data Mining in Datenbanken. Einleitung. Veranstaltungsmodalitäten. Alexander Hinneburg

Vorlesungsplan. Data Mining in Datenbanken. Einleitung. Veranstaltungsmodalitäten. Alexander Hinneburg Vorlesungsplan Data Mining in Datenbanken hinneburg@informatik.uni-halle.de www.informatik.uni-halle.de/~hinneburg 17.10. Einleitung 4.10. Ein- und Ausgabe 31.10. Reformationstag 7.11. Einfache Regeln,

Mehr

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr) Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr) 3 Ausgabe: Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Entscheidungsregeln Assoziationsregeln

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr) Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr) 2 Eingabe: Konzepte, Instanzen, Attribute Terminologie Was ist ein Konzept? Klassifikation, Assoziation,

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Gliederung. Algorithmen und Datenstrukturen I. Eine wichtige Frage. Algorithmus. Materialien zur Vorlesung. Begriffsbestimmung EUKLID Primzahltest

Gliederung. Algorithmen und Datenstrukturen I. Eine wichtige Frage. Algorithmus. Materialien zur Vorlesung. Begriffsbestimmung EUKLID Primzahltest Gliederung Algorithmen und Datenstrukturen I Materialien zur Vorlesung D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 Winter 2009/10,

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration

Algorithmen & Programmierung. Steuerstrukturen im Detail Selektion und Iteration Algorithmen & Programmierung Steuerstrukturen im Detail Selektion und Iteration Selektion Selektion Vollständige einfache Selektion Wir kennen schon eine Möglichkeit, Selektionen in C zu formulieren: if

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte

Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte Europäische Hochschulschriften 3132 Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte von Christine Scheitler 1. Auflage Soziale Kompetenzen als strategischer Erfolgsfaktor für Führungskräfte

Mehr

Überdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b :

Überdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b : Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgae 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

ID3 und Apriori im Vergleich

ID3 und Apriori im Vergleich ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007. Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch Frank Lammers Statistik I: deskriptive und explorative Statistik Lehr- und Übungsbuch 2004 Verlag der Gesellschaft für Unternehmensrechnung und Controlling m.b.h. Vorwort I Vorwort zur zweiten Auflage

Mehr

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16 Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine

Mehr

Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat?

Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat? Einleitung Dr. M. Vogel Vorlesung Grundprobleme der Philosophie des Geistes Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat? Malvin Gattinger Vor einem Antwortversuch will ich

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe

Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe Axel Müller 7. Oktober 2017 1 Der Begriff der bedingten

Mehr

Decision-Tree-Klassifikator

Decision-Tree-Klassifikator D3kjd3Di38lk323nnm Decision-Tree-Klassifikator Decision Trees haben einige Vorteile gegenüber den beiden schon beschriebenen Klassifikationsmethoden. Man benötigt in der Regel keine so aufwendige Vorverarbeitung

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Kontrollfluss. man Verzweigungen und Sprünge. o bisher linear (von oben nach unten) o Für interessante Programme braucht

Kontrollfluss. man Verzweigungen und Sprünge. o bisher linear (von oben nach unten) o Für interessante Programme braucht Kontrollanweisungen Kontrollfluss o bisher linear (von oben nach unten) o Für interessante Programme braucht man Verzweigungen und Sprünge Kontrollfluss o bisher linear (von oben nach unten) o Für interessante

Mehr

Zusammenfassung Ergebnisse des Fragebogens Gesundheitskommunikation

Zusammenfassung Ergebnisse des Fragebogens Gesundheitskommunikation Institut für Umweltentscheidungen (IED) Consumer Behavior Zusammenfassung Ergebnisse des Fragebogens Gesundheitskommunikation Zuerst einmal nochmals vielen Dank, dass Sie unseren Fragebogen ausgefüllt

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Der χ 2 -Test (Chiquadrat-Test)

Der χ 2 -Test (Chiquadrat-Test) Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von

Mehr

Da ist zunächst der Begriff der Menge.

Da ist zunächst der Begriff der Menge. 1 In diesem Abschnitt werden wir uns mit den theoretischen Grundlagen der relationalen Datenbanken beschäftigen. Hierzu werden wir uns die wichtigsten Konzepte, Ideen und Begriffe näher ansehen, damit

Mehr

Vom Leichtesten zum Schwersten Sortieralgorithmen

Vom Leichtesten zum Schwersten Sortieralgorithmen Aktivität 7 Vom Leichtesten zum Schwersten Sortieralgorithmen Zusammenfassung Häufig verwendet man Computer dazu Listen von Elementen in eine bestimmte Ordnung zu bringen. So kann man beispielsweise Namen

Mehr

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Verfeinerungen des Bayesianischen Nash Gleichgewichts Spieltheorie Sommersemester 007 Verfeinerungen des Bayesianischen Nash Gleichgewichts Das Bayesianische Nash Gleichgewicht für Spiele mit unvollständiger Information ist das Analogon zum Nash Gleichgewicht

Mehr

DWH Automatisierung mit Data Vault 2.0

DWH Automatisierung mit Data Vault 2.0 DWH Automatisierung mit Data Vault 2.0 Andre Dörr Trevisto AG Nürnberg Schlüsselworte Architektur, DWH, Data Vault Einleitung Wenn man die Entwicklung von ETL / ELT Prozessen für eine klassische DWH Architektur

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Zusatz: Einführung in die Mathematischen Beweistechniken

Zusatz: Einführung in die Mathematischen Beweistechniken Zusatz: Einführung in die Mathematischen Beweistechniken Quick-Start Informatik Theoretischer Teil WS 11/12 Jens Keppeler 7. Oktober 2011 Das folgende Zusatzskript, sowie die dazugehörigen Folien orientieren

Mehr

DAP2-Klausur

DAP2-Klausur DAP2-Klausur 09.10.2004 Vorname : Familienname: Ich studiere (Bitte markieren): Informatik (inkl. angewandte Informatik)/ Lehramt Informatik/Informationstechnik/ Physik/Mathe/Statistik/Sonstiges: Bitte

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Exposé für eine Diplomarbeit Jan Hegewald Betreut von Jana Bauckmann 7. März 2007 1

Mehr

Diagnostische Probe zur Erfassung des Zielsetzungsverhaltens

Diagnostische Probe zur Erfassung des Zielsetzungsverhaltens Diagnostische Probe zur Erfassung des Zielsetzungsverhaltens Quelle: Emmer, A., Hofmann, B. & Matthes, G. (2000). Elementares Training bei Kindern mit Lernschwierigkeiten: Training der Motivation - Training

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Zusatz: Einführung in die Mathematischen Beweistechniken

Zusatz: Einführung in die Mathematischen Beweistechniken Zusatz: Einführung in die Mathematischen Beweistechniken Quick-Start Informatik Theoretischer Teil WS 11/12 Jens Keppeler 18. September 2012 Die Mathematik befasst sich mit Definitionen, Sätze, Lemma,...

Mehr

Verhalten. Def. und Nutzen von Verhalten. Pseudocode Schreibtischtest. Algorithmen

Verhalten. Def. und Nutzen von Verhalten. Pseudocode Schreibtischtest. Algorithmen Verhalten Def. und Nutzen von Verhalten Algorithmen Pseudocode Schreibtischtest Verhalten & Pseudocode Das Verhalten beschreibt, wie sich die Datenstrukturen (Variablen) eines Programms verändern müssen,

Mehr

ENTDECKEN SIE IHRE LERNSTRATEGIEN!

ENTDECKEN SIE IHRE LERNSTRATEGIEN! ENTDECKEN SIE IHRE LERNSTRATEGIEN! Beantworten Sie folgenden Fragen ausgehend vom dem, was Sie zur Zeit wirklich machen, und nicht vom dem, was Sie machen würden, wenn Sie mehr Zeit hätten oder wenn Sie

Mehr

Grundlagen 1: Modelle & Mengen

Grundlagen 1: Modelle & Mengen Angewandte Mathematik am Rechner 1 SOMMERSEMESTER 2018 > b c a de set S Kapitel 2 Grundlagen 1: Modelle & Mengen Frank Fischer Institut für Informatik frank.fscher@uni-mainz.de

Mehr

Operatoren für das Fach Mathematik

Operatoren für das Fach Mathematik Operatoren für das Fach Mathematik Anforderungsbereich I Angeben, Nennen Sachverhalte, Begriffe, Daten ohne nähere Erläuterungen und Begründungen, ohne Lösungsweg aufzählen Geben Sie die Koordinaten des

Mehr

Statistische Verfahren zur Maschinen- und Prozessqualifikation

Statistische Verfahren zur Maschinen- und Prozessqualifikation Statistische Verfahren zur Maschinen- und Prozessqualifikation Bearbeitet von Edgar Dietrich, Alfred Schulze 5., aktualisierte Auflage 2005. Buch. XVIII, 630 S. Hardcover ISBN 978 3 446 22894 8 Format

Mehr

Aufbau der Klausur Controlling 2

Aufbau der Klausur Controlling 2 Aufbau der Klausur Controlling 2 Erster Teil der Klausur Bearbeitungsdauer 60 Minuten (d. h. 60 Punkte) Genau ein Thema aus mehreren Themen ist zu beantworten Es sind Zusammenhänge problemorientiert zu

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Einführung 5.4.2011 Gliederung 1 Modellbildung und Evaluation 2 Verlaufsmodell der Wissensentdeckung 3 Einführung in das Werkzeug RapidMiner Problem Wir haben nur eine endliche

Mehr

5 Sortieren in eindimensionalen Zellularautomaten

5 Sortieren in eindimensionalen Zellularautomaten 5 Sortieren in eindimensionalen Zellularautomaten 5.1 Für alle x A und w A bezeichne im folgenden N x (w) die Anzahl der Vorkommen des Symboles x in dem Wort w. 5.2 Problem. (Eindimensionales Sortieren

Mehr

KAPITEL I EINLEITUNG

KAPITEL I EINLEITUNG KAPITEL I EINLEITUNG A. Hintergrunds Eines des wichtigsten Kommunikationsmittel ist die Sprache. Sprache ist ein System von Lauten, von Wörtern und von Regeln für die Bildung von Sätzen, das man benutzt,

Mehr

Ästhetik ist die Theorie der ästhetischen Erfahrung, der ästhetischen Gegenstände und der ästhetischen Eigenschaften.

Ästhetik ist die Theorie der ästhetischen Erfahrung, der ästhetischen Gegenstände und der ästhetischen Eigenschaften. 16 I. Was ist philosophische Ästhetik? instrumente. Die Erkenntnis ästhetischer Qualitäten ist nur eine unter vielen möglichen Anwendungen dieses Instruments. In diesem Sinn ist die Charakterisierung von

Mehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte

Mehr

Dreisatz - Begriffsbestimmungen

Dreisatz - Begriffsbestimmungen Dreisatz - Begriffsbestimmungen Definition Der Dreisatz ist eine Methode bzw. ein Lösungsverfahren, um das Verhältnis von zwei oder mehr Zahlenwerten zu berechnen. Beispiel: Das Verhältnis von Britischen

Mehr

Computernetzwerke. Von den Grundlagen zur Funktion und Anwendung. von Rüdiger Schreiner. 2., überarbeitete Auflage. Hanser München 2007

Computernetzwerke. Von den Grundlagen zur Funktion und Anwendung. von Rüdiger Schreiner. 2., überarbeitete Auflage. Hanser München 2007 Computernetzwerke Von den Grundlagen zur Funktion und Anwendung von Rüdiger Schreiner 2, überarbeitete Auflage Hanser München 2007 Verlag CH Beck im Internet: wwwbeckde ISBN 978 3 446 41030 5 Zu Inhaltsverzeichnis

Mehr

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell

Mehr

Netzwerktag, Atelier Mini-Biber-Kiste Regula Vonlanthen. Amt für obligatorischen deutschsprachigen Unterricht 1

Netzwerktag, Atelier Mini-Biber-Kiste Regula Vonlanthen. Amt für obligatorischen deutschsprachigen Unterricht 1 Netzwerktag, 22.11.2017 Atelier Mini-Biber-Kiste Regula Vonlanthen Amt für obligatorischen deutschsprachigen Unterricht 1 Spielkarten Biber Informatikaufgaben der Internationalen Bebras- Gemeinschaft Leicht

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

Naive Bayes. Naive Bayes

Naive Bayes. Naive Bayes Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das

Mehr

Sehr geehrte Damen und Herren Kunden fragen uns hin und wieder, wie man am besten vorgehen soll, wenn man vom Vermögen regelmässig Geld beziehen

Sehr geehrte Damen und Herren Kunden fragen uns hin und wieder, wie man am besten vorgehen soll, wenn man vom Vermögen regelmässig Geld beziehen Sehr geehrte Damen und Herren Kunden fragen uns hin und wieder, wie man am besten vorgehen soll, wenn man vom Vermögen regelmässig Geld beziehen will, um den Lebensstandard zu verbessern. Stellen Sie sich

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Frage 8.3. Wozu dienen Beweise im Rahmen einer mathematischen (Lehramts-)Ausbildung?

Frage 8.3. Wozu dienen Beweise im Rahmen einer mathematischen (Lehramts-)Ausbildung? 8 Grundsätzliches zu Beweisen Frage 8.3. Wozu dienen Beweise im Rahmen einer mathematischen (Lehramts-)Ausbildung? ˆ Mathematik besteht nicht (nur) aus dem Anwenden auswendig gelernter Schemata. Stattdessen

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Kognitiver Fragebogen (ESS)

Kognitiver Fragebogen (ESS) Kognitiver Fragebogen (ESS) Ich stelle Ihnen nun ein paar Fragen zu Ihrer Einstellung zum Thema Steuer, zu öffentlichen Dienstleistungen, zu Sozialleistungen und zu Einstellungen gegenüber Personen aus

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Data Mining Cup Dokumentation

Data Mining Cup Dokumentation Data Mining Cup 2012 - Dokumentation Martin Dreissig, Michael Flau May 14, 2012 1 Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus

Mehr

Kapitel 25 Checklisten für die Beurteilung psychologischer Gutachten durch Fachfremde

Kapitel 25 Checklisten für die Beurteilung psychologischer Gutachten durch Fachfremde Kapitel 25 Checklisten für die Beurteilung psychologischer Gutachten durch Fachfremde Westhoff, K. & Kluck, M.-L. (2008 5 ). Psychologische Gutachten schreiben und beurteilen. Heidelberg: Springer. GH

Mehr

Top-of-Mind Assoziationen (TOMA)

Top-of-Mind Assoziationen (TOMA) Top-of-Mind Assoziationen (TOMA) Das Marken- und Geschäftwahlverhalten des Konsumenten versuchte man bisher vor allem mit multiattributiven Einstellungsmodellen zu beantworten. Den Befragten wird dabei

Mehr

Bisher. Programme. Ausdrücke und ihre Auswertung (Substitutionsmodell)

Bisher. Programme. Ausdrücke und ihre Auswertung (Substitutionsmodell) Bisher Programme Ausdrücke und ihre Auswertung (Substitutionsmodell) Konstruktionsanleitung für Prozeduren Kurzbeschreibung Sorten und Verträge Gerüst Testfälle Rumpf ausfüllen Testen 2.21 Erinnerung:

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 7 11. Mai 2010 Kapitel 8. Vektoren Definition 76. Betrachten wir eine beliebige endliche Anzahl von Vektoren v 1, v 2,..., v m des R n, so können

Mehr

Der Gaußsche Algorithmus

Der Gaußsche Algorithmus Der Gaußsche Algorithmus Der Gaußsche Algorithmus beinhaltet das Vertauschen der Zeilen der erweiterten Koeffizientenmatrix (A, b) und das Additionsverfahren. Ziel ist es, möglichst viele Nullen unterhalb

Mehr

Die Ebola-Epidemie in Westafrika

Die Ebola-Epidemie in Westafrika HP Prime Grafikrechner Die Ebola-Epidemie in Westafrika Erfahren Sie mehr über den HP Prime: http://www.hp-prime.de HP Prime-Funktionalität Einführung: Verwenden der Statistik 2Var App Numerische, Symbolische

Mehr

Kapitel GWBS:III. III. Regeln mit Konfidenzen. Einführung. Verrechnung von Konfidenzen. Probleme des Ansatzes. Beispiel für ein Diagnosesystem

Kapitel GWBS:III. III. Regeln mit Konfidenzen. Einführung. Verrechnung von Konfidenzen. Probleme des Ansatzes. Beispiel für ein Diagnosesystem Kapitel GWBS:III III. Regeln mit Konfidenzen Einführung Verrechnung von Konfidenzen Probleme des Ansatzes Beispiel für ein Diagnosesystem GWBS: III-1 Konfidenzen c BUBECK/LETTMANN 2009-2010 Glaubwürdigkeit

Mehr

Greedy Algorithms - Gierige Algorithmen

Greedy Algorithms - Gierige Algorithmen Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1

Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1 Mathem.Grundlagen der Computerlinguistik I, WS 2004/05, H. Leiß 1 1 Vorbemerkungen Mathematische Begriffe und Argumentationsweisen sind in vielen Fällen nötig, wo man über abstrakte Objekte sprechen und

Mehr

Vorlesung Dokumentation und Datenbanken Klausur

Vorlesung Dokumentation und Datenbanken Klausur Dr. Stefan Brass 2. Juli 2002 Institut für Informatik Universität Giessen Vorlesung Dokumentation und Datenbanken Klausur Name: Geburtsdatum: Geburtsort: (Diese Daten werden zur Ausstellung des Leistungsnachweises

Mehr

Wissenschaftstheoretische Grundlagen

Wissenschaftstheoretische Grundlagen Wissenschaftstheoretische Grundlagen Wissenschaftstheorie: Lehre von der Vorgehensweise bei der wissenschaftlichen Tätigkeit (Methodologie) Wissenschaftstheorie ist der Sammelbegriff für alle metawissenschaftlichen

Mehr

Ein Modell für den Qualitätstest - Welche Fehler sind möglich?

Ein Modell für den Qualitätstest - Welche Fehler sind möglich? 1.1 1 Ein Modell für den Qualitätstest - Welche Fehler sind möglich? Das einführende Beispiel von den Knallkörpern schildert einen statistischen Qualitätstest. Anhand dieses praktischen Beispiels erfahren

Mehr

Vororientierung zur Kurseinheit 7

Vororientierung zur Kurseinheit 7 92 4 Berechnung linearer Netzwerke Vororientierung zur urseinheit 7 In diesem apitel wird Ihnen gezeigt, wie man aus linearen Zweipolen aufgebaute Netzwerke in systematischer Weise analysieren kann. Dazu

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr