8.1 Einführung: Maschinelles Lernen

Größe: px
Ab Seite anzeigen:

Download "8.1 Einführung: Maschinelles Lernen"

Transkript

1 Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen des Fernziels der Künstlichen Intelligenz eine Entsprechung eines Lernprozesses benötigt: Maschinelles Lernen Es gibt viele verschiedene Ansichten darüber, was Maschinelles Lernen ist, was mit Lernen erreicht werden soll usw. Hier sind erst Anfänge in der Forschung gemacht worden. Die praktisch erfolgreichsten Methoden sind solche, die auf statistisch/stochastischen Methoden basieren und mit der Adaption von Werten (Gewichten) arbeiten: Adaption von Gewichten einer Bewertungsfunktion aufgrund von Rückmeldungen. Z.B. Verarbeitung natürlicher Sprachen, Strategie-Spiele mit und ohne zufällige Ereignisse: Dame, Backgammon. künstliche neuronale Netze: Lernen durch gezielte Veränderung von internen Parametern. Deren praktischer Nutzen und Anwendbarkeit ist im wesentlichen auf praktikable automatische Lernverfahren zurückzuführen. Das Lernen von neuen Konzepten, Verfahren, logischen Zusammenhängen, usw hat bisher nur ansatzweise Erfolg gehabt. Lernen soll eine Verbesserung der Performanz eines Agenten bewirken: Verbesserung der internen Repräsentation Optimierung bzw. Beschleunigung der Erledigung von Aufgaben. Erweiterung des Spektrums oder der Qualität der Aufgaben, die erledigt werden können. Beispiel

2 KI, SS 2011, Kapitel 8, 19. Juli Erweiterung und Anpassung des Lexikons eines computerlinguistischen System durch automatische Verarbeitung von geschrieben Sätzen, wobei der Inhalt dieser Sätze gleichzeitig automatisch erfasst werden sollte. Adaption von Gewichten einer Bewertungsfunktion in einem Zweipersonenspiel, wobei man abhängig von Gewinn/Verlust Gewichte verändert: Das wurde für Dame und Backgammon mit Erfolg durchgeführt. Lernen einer Klassifikation durch Vorgabe von Trainingsbeispielen, positiv/negativ Einordnung von Lernverfahren Die Struktur eines lernenden System kann man wie folgt beschreiben: Agent (ausführende Einheit, performance element). Dieser soll verbessert werden anhand von Erfahrung; d.h. etwas lernen. Lerneinheit (learning element). Hier wird der Lernvorgang gesteuert und bewertet: Insbesondere wird hier vorgegeben, was gut, was schlecht ist. Hier kann man auch die Bewertungseinheit (critic) und den Problemgenerator einordnen. Umwelt In der Umwelt soll agiert werden. Die Rückmeldung über den Ausgang bzw. den Effekt von Aktionen kommt aus dieser Umwelt. Das kann eine künstliche, modellhafte Umwelt oder auch die reale Umwelt sein. Zum Teil wird Agent und Lerneinheit zusammen in einen erweiterten Agent verlagert. Prinzipiell sollte man diese Einheiten unterscheiden, denn die Bewertung muss außerhalb des Agenten sein, sonst wäre die Möglichkeit gegeben, die Bewertung an die schlechten Aktionen anzupassen, statt die Aktionen zu verbessern. Folgende Lernmethoden werden unterschieden: überwachtes Lernen (supervised learning) Hier wird die Situation beschrieben, in der es einen allwissenden Lehrer gibt: die Lerneinheit kann dem Agenten bei jeder Aktion sagen, ob diese richtig war und was die richtige Aktion gewesen wäre. Das entspricht einem unmittelbaren Feedback über die exakt richtige Aktion. Alternativ kann man eine feste Menge von richtigen und falschen Beispielen vorgeben und damit dann ein Lernverfahren starten. unüberwachtes Lernen (unsupervised learning) Ist der Gegensatz zum überwachten Lernen. Es gibt keine Hinweise, was richtig sein könnte. Damit Lernen möglich ist, braucht man in diesem Fall eine Bewertung der Güte der Aktion.

3 KI, SS 2011, Kapitel 8, 19. Juli Lernen durch Belohnung/Bestrafung (reinforcment learning) D.h. mit Zuckerbrot und Peitsche. Hiermit sollen Lernverfahren beschrieben werden, die gute Aktionen belohnen, schlechte bestrafen, d.h. Aktionen bewerten, aber die richtige Aktion bzw. den richtigen Parameterbereich nicht kennen. Hier kann man die Lernverfahren noch unterscheiden nach der Vorgehensweise: inkrementell, alle Beispiel auf einmal. Oder nach den Rahmenbedigungen: Beispielwerte sind exakt oder ungefähr bekannt bzw. mit Fehlern behaftet es gibt nur positive bzw. positive und negative Beispiele Einige Maßzahlen zur Bewertung von Lern- und Klassifikationsverfahren Wir beschreiben kurz Vergleichsparameter, die man zur Abschätzung der Güte von Klassifikatorprogrammen bzw Lernverfahren verwendet. Beispiel Beispiele, um sich besser zu orientieren: Klassifikation von Vogel anhand bekannter Attribute, wie kann-fliegen, hat-federn, usw. Vorhersage, dass ein Auto noch ein Jahr keinen Defekt hat aufgrund der Parameter wie Alter, gefahrene Kilometer, Marke, Kosten der letzten Reparatur, usw. Medizinischer Test auf HIV: Antikörper Vorhersage der Interessen bzw. Kaufentscheidung eines Kunden aufgrund der bisherigen Käufe und anderer Informationen (online-buchhandel). Kreditwürdigkeit eines Kunden einer Bank, aufgrund seines Einkommens, Alters, Eigentumsverhältnisse, usw (Adresse?). Ein Klassifikator ist ein Programm, das nur binäre Antworten auf Anfragen gibt: ja / nein. Die Aufgabe ist, Objekte, beschrieben durch Ihre Attribute, bzgl. einer anderen Eigenschaft zu klassifizieren, bzw eine zukünftiges Ereignis vorherzusagen. Typische Beispiele: Bestimmung von Tier- Pflanzenarten anhand eines Exemplars. Oder die Diagnose einer Krankheit anhand der Symptome. Abstrakte Situation: es gibt eine Menge M von Objekten (mit innerer Struktur), das Programm P : M {0, 1} und die wahre Klassifikation: K : M {0, 1}.

4 KI, SS 2011, Kapitel 8, 19. Juli Bei Eingabe eines Objekts x: Im Fall K(x) = P (x) liegt das Programm richtig. Im Fall K(x) P (x) liegt das Programm falsch. Hier wird noch unterschieden zwischen falsch-positiv Wenn P (x) = 1, aber K(x) = 0. falsch-negativ Wenn P (x) = 0, aber K(x) = 1. Die folgenden Werte entsprechen der Wahrscheinlichkeit mit der das Programm P eine richtige positive (bzw. negative) Klassifikation macht. Es entspricht der Wahrscheinlichkeit, mit der eine Diagnose auch zutrifft. Hierbei wird angenommen, dass es eine Gesamtmenge M aller Objekte gibt, die untersucht werden. Recall (Auch Richtig-Positiv-Rate, Sensitivität, Empfindlichkeit, Trefferquote; sensitivity, true positive rate, hit rate): Der Anteil der richtig klassifizierten Objekte bezogen auf alle tatsächlich richtigen. {x M P (x) = 1 K(x) = 1} {x M K(x) = 1} Richtig-Negativ-Rate (true negative rate oder correct rejection rate, Spezifität) Der Anteil der als falsch erkannten bezogen auf alle tatsächlich falschen: {x M P (x) = 0 K(x) = 0} {x M K(x) = 0} Die folgenden Werte entsprechen der Wahrscheinlichkeit mit der ein als positiv klassifiziertes Objekt auch tatsächlich richtig klassifiziert ist. Bzw. die Wahrscheinlichkeit mit der einer positiv Diagnose sich als richtig erweist; Oder anders herum: eine negativ Diagnose die Krankheit ausschließt. Der Wert der Präzision ist ein praktisch relevanterer Wert als der recall, da diese aussagt, wie weit man den Aussagen eines Programms in Bezug auf eine Klassifikation trauen kann. Precision (Präzision, positiver Vorhersagewert, Relevanz, Wirksamkeit, Genauigkeit, positiver prädiktiver Wert, positive predictive value) der Anteil der richtigen unten den als scheinbar richtig erkannten {x M P (x) = 1 K(x) = 1} {x M P (x) = 1}

5 KI, SS 2011, Kapitel 8, 19. Juli Negative-Vorhersage Rate der Anteil der nicht der Klassifikation entsprechenden unter den als 0 klassifizieren. {x M P (x) = 0 K(x) = 0} {x M K(x) = 0} Im medizinischen Bereich sind alle diese Werte wichtig. Bei seltenen Krankheiten kann ein guter Recall, d.h. Anteil der Kranken, die erkannt wurden, mit einer sehr schlechten Präzision verbunden sein. Zum Beispiel: Körpertemperatur über 38,5 C und Gelbfieber. In Deutschland haben Menschen Fieber mit 38,5 C aber nur 1 Mensch hat Gelbfieber, der dann auch Fieber hat. Dann ist der Recall 1, aber die Precision ist , also sehr schlecht. Hier muss man also möglichst beide Größen ermitteln, und den Test genauer machen (precision erhöhen). 8.2 Wahrscheinlichkeit und Entropie Wahrscheinlichkeit Zunächst eine kurze Wiederholung zu diskreten Wahrscheinlichkeiten. Sei X ein Orakel, das bei jeder Anfrage einen Wert aus der Menge {a 1,..., a n } ausgibt. (X ist analog zu einer Zufallsvariablen.) Man interessiert sich für die Wahrscheinlichkeit p i, dass das Orakel den Wert a i ausgibt. Macht man (sehr) viele Versuche, so kommt in der Folge der Ergebnisse b 1,..., b m, für ein festes i der Anteil der a i in der Folge dem Wert p i immer näher. Man nennt die Zahlen p i auch diskrete Wahrscheinlichkeitsverteilung (der Menge a i ), bzw. des Orakels X. Zum Beispiel ist beim Münzwurf mit den Ausgängen K, Z in einer ausreichend langen Folge in etwa die Hälfte K, die andere Hälfte Z, d.h. man würde hier Wahrscheinlichkeiten 0, 5 und 0, 5 zuordnen. Es gilt immer 0 p i 1 und i p i = 1. Sind die a i Zahlen, dann kann man auch den Erwartungswert ausrechnen: i p ia i ; das ist der Wert, dem die Mittelwerte der (Zahlen-)Folgen der Versuche immer näher kommen. Wenn man die Arbeitsweise von X kennt, dann kann man mehr Angaben machen. Z.B. das sogennante Urnenmodell: X benutzt einen Eimer in dem sich Kugeln befinden, rote, blaue und grüne. Bei jeder Anfrage wird zufällig eine Kugel gezogen, deren Farbe ist das Ergebnis, und danach wird die Kugel wieder in den Eimer gelegt. In dem Fall sind die Wahrscheinlichkeiten p rot, p blau, p grün jeweils genau die relativen Häufigkeiten der roten, blauen, bzw. grünen Kugeln unter den Kugeln, die sich in der Urne jeweils vor dem Ziehen befinden.

6 KI, SS 2011, Kapitel 8, 19. Juli Entropie Zunächst führen wir den Begriff des Informationsgehalts ein, der von einigen Lernverfahren benötigt wird. Wenn man eine diskrete Wahrscheinlichkeitsverteilung p i, i = 1,..., n hat, z.b. von Symbolen a i, i = 1,..., n, dann nennt man log 2 ( 1 p k ) = log 2 (p k ) 0 den Informationsgehalt des Zeichens a k. Das kann man interpretieren als Grad der Überraschung beim Ziehen des Symbols a i aus einer entsprechenden Urne, bzw. bei der Übermittlung von Zeichen durch einen Kommunikationskanal. D.h. das Auftreten eines seltenen Symbols hat einen hohen Informationsgehalt. Wenn man nur ein einziges Symbol hat, dann ist p 1 = 1, und der Informationsgehalt ist 0. Eine intuitive Erklärung des Informationsgehalts ist die mittlere Anzahl der Ja/Nein-Fragen, die man stellen muss, um die gleiche Information zu bekommen. Beispiel Zum Beispiel im Falle von 8 Objekten, die gleich oft vorkommen, ergibt sich log(0.125) = 3 für jedes Objekt, d.h. der mittlere Informationsgehalt, ermittelt aus der Summe ist 3. Kommen zwei davon, sagen wir mal a 1, a 2, sehr häufig vor und die anderen praktisch nie, dann ergibt sich als mittlerer Informationsgehalt in etwa 0.5 log 2 (0.5) log 2 (0.5) log 2 (0.001) 1. Die Entropie oder der mittlere Informationsgehalt der Symbole in der Wahrscheinlichkeitsverteilung wie oben kann dann berechnet werden als n p i log 2 ( 1 n ) = p i log p 2 (p i ) 0. i i=1 Bei Kompressionen eines Files oder bei Kodierung von Nachrichten über einen Kanal ist das eine untere Schranke für die mittlere Anzahl von Bits pro Symbol, die man bei bester Kompression bzw binärer Kodierung erreichen kann. Beispiel Nimmt man ein Bernoulli-Experiment, d.h. zwei Zeichen, K,Z (Kopf und Zahl)wobei K mit der Wahrscheinlichkeit p und Z mit Wahrscheinlichkeit 1 p auftritt, dann ergibt sich in etwa die Kurve: i=1 1 0,5 1 p

7 KI, SS 2011, Kapitel 8, 19. Juli D.h. die Entropie (der mittlere Informationsgehalt eines Münzwurfs) ist maximal, wenn man das Zeichen nicht vorhersagen kann. Bei einer Wahrscheinlichkeit von p = 0, 9 kann man vorhersagen, dass K sehr oft auftritt. Das ist symmetrisch zu p = 0, 1. Die Entropie ist in beiden Fällen 0, Entscheidungsbäume Lernen von Entscheidungsbäumen In diesem Szenario betrachtet man Objekte, von denen man einige Eigenschaften (Attribute) kennt. Diese Eigenschaften kann man darstellen mit einer fest vorgegebenen Menge von n Attributen. D.h. man kann jedes Objekt durch ein n-tupel der Attributwerte darstellen. Definition Objekte mit Attributen. Es gibt eine endliche Menge A von Attributen. zu jedem Attribut a A gibt es eine Menge von möglichen Werten W a. Die Wertemengen seien entweder endlich, oder die reellen Zahlen: IR. Ein Objekt wird beschrieben durch eine Funktion A a A W a. Eine alternative Darstellung wäre ein Tupel mit A Einträgen, bzw. ein Record, in dem zu jedem Attribut a A der Wert notiert wird. Ein Konzept K ist repräsentiert durch eine Boolesche Funktion P K auf der Menge der Objekte. D.h. ein Konzept entspricht einer Teilmenge aller Objekte, nämlich der Objekte o, für die P K (o) = True ergibt. Beispiel Bücher könnte man beschreiben durch die Attribute: (Autor, Titel, Seitenzahl, Preis, Erscheinungsjahr). Das Konzept billiges Buch könnte man durch Preis 10 beschreiben. Das Konzept umfangreiches Buch durch Seitenzahl 500. Für die Lernverfahren nimmt man im allgemeinen an, dass jedes Objekt zu jedem Attribut einen Wert hat, und der Wert unbekannt nicht vorkommt. Im Fall unbekannter Attributwerte muss man diese Verfahren adaptieren. Definition Ein Entscheidungsbaum zu einem Konzept K ist ein endlicher Baum, der an inneren Knoten zum Wert eines Attributes folgende Abfragen machen kann: bei reellwertigen Attributen gibt es die Alternativen a v oder a > v für einen Wert v IR, Es gibt einen Teilbaum für Ja und einen für Nein. bei diskreten Attributen wird der exakte Wert abgefragt. Es gibt pro möglichem Attributwert einen Teilbaum

8 KI, SS 2011, Kapitel 8, 19. Juli Die Blätter des Baumes sind mit Ja oder Nein markiert. Das entspricht der Antwort auf die Frage, ob das eingegebene Objekte zum Konzept gehört oder nicht. Diskrete Attribute sollten pro Pfad im Baum nur einmal vorkommen, stetige Attribute können im Pfad mehrmals geprüft werden. D.h. ein Entscheidungsbaum B K ist die Darstellung eines Algorithmus zum Erkennen, ob ein vorgelegtes Objekt O zum Konzept K gehört. Jeder Entscheidungsbaum definiert ein Konzept auf den Objekten. Die Entscheidungsbäume sind so definiert, dass für jedes Objekt nach Durchlauf des Entscheidungsbaumes ein Blatt mit Ja oder Nein erreicht wird. Die Mengen der Objekte, bei denen der Pfad mit einem Ja endet, sind in diesem Konzept, die anderen Objekte nicht. Wenn es nur diskrete Attribute gibt, dann entsprechen die Konzepte genau den Entscheidungsbäumen: Zu jedem Konzept kann man offenbar eine (aussagenlogische) Formel in DNF angeben: die a 1 = v 1... a n = v n als Konjunktion enthält, wenn das Tupel (v 1,..., v n ) im Konzept enthalten ist. Diese kann man leicht in einen Entscheidungsbaum überführen. Bei Verwendung von reellwertigen Attributen kann nicht jedes Konzept durch einen endlichen Entscheidungsbaum beschrieben werden: z.b. alle geraden Zahlen. Auch in einfachen Fällen, in denen das Konzept durch Ii, d.h. als Vereinigung von unendlich vielen reellen Intervallen, dargestellt ist, gilt das. Beispiel Als praktische Anwendung kann man reale Konzepte mittels einer endlichen Menge von Attributwerten bezüglich einer vorher gewählten Menge von Attributen beschreiben. Das ist i.a. eine Approximation des realen Konzepts. Tiere könnte man z.b. durch folgende Attribute beschreiben: Größe reell Gewicht reell Kann fliegen Boolesch Nahrung pflanzlich / tierisch / Allesfresser Körpertemperatur reell Für die Menge der Insekten könnte man aufgrund dieser Attribute einen Entscheidungsbaum hinschreiben, allerdings würden dann auch Nichtinsekten mit Ja klassifiziert. Es gibt verschiedene Algorithmen, die die Aufgabe lösen sollen, einen Entscheidungsbaum für ein Konzept zu lernen, wobei man beispielsweise eine Menge von positiven Beispielen und eine Menge von negativen Beispielen vorgibt. Ein guter Entscheidungsbaum ist zb. ein möglichst kleiner, d.h. mit wenigen Fragen.

9 KI, SS 2011, Kapitel 8, 19. Juli Der Entropie-Ansatz bewirkt, dass das Verfahren einen Entscheidungsbaum erzeugt der eine möglichst kleine mittlere Anzahl von Anfragen bis zur Entscheidung benötigt. Ein Beweis dazu lassen wir weg. Das Verfahren ist verwandt zur Konstruktion von Huffman-Bäumen bei Kodierungen Lernverfahren ID3 und C4.5 Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es eine Menge von positiven Beispielen und eine Menge von negativen Beispielen für ein zu lernendes Konzept gibt, die möglichst gut die echte Verteilung abbilden. Für rein positive Beispielmengen funktionieren diese Verfahren nicht. Wichtig für die Lernverfahren ist es, herauszufinden, welche Attribute für das Konzept irrelevant bzw. relevant sind. Nachdem ein Teil des Entscheidungsbaumes aufgebaut ist, prüfen die Lernverfahren die Relevanz weiterer Attribute bzw. Attributintervalle. Das Lernverfahren ID3 verwendet den Informationsgehalt der Attribute bezogen auf die Beispielmenge. Der Informationsgehalt entspricht der mittleren Anzahl der Ja/Nein-Fragen, um ein einzelnes Objekt einer Klasse zuzuordnen. Das Lernverfahren versucht herauszufinden, welche Frage den größten Informationsgewinn bringt, wobei man sich genau auf die in einem Entscheidungsbaum erlaubten Fragen beschränkt. (D.h mittlere Anzahl der Fragen möglichst klein.) Wir berechnen den Informationsgehalt der Frage, ob ein Beispiel positiv/negativ ist in der Menge aller positiven / negativen Beispiele, wenn p die Anzahl der positiven, n die Anzahl der negativen Beispiele für das Konzept ist, und man eine Gleichverteilung unter den Beispielen annimmt. D.h. wir nehmen an, dass die relative Häufigkeit die reale Verteilung in den Beispielen widerspiegelt. Die Entropie bzw. der Informationsgehalt ist: p p + n log 2( p + n ) + n p p + n log 2( p + n n ) Hat man ein mehrwertiges Attribut a mit den Werten w 1,..., w n abgefragt, dann zerlegt sich die Menge M der Beispiele in die Mengen M i := {m M m(a) = w i }, wobei w i, i = 1,..., k die möglichen Werte des Attributes sind. Seien p i, n i für i = 1,..., k die jeweilige Anzahl positiver (negativer) Beispiele in M i, dann ergibt sich nach Abfragen des Attributs an Informationsgehalt (bzgl positiv/negativ), wobei I(M i ) der Informationsgehalt (bzgl positiv/negativ) der jeweiligen Menge M i ist. Es gilt k I(M a) = P (a = w i ) I(M i ) i=1 I(M i ) = p i p i + n i log 2 ( p i + n i p i ) + n i p i + n i log 2 ( p i + n i n i )

10 KI, SS 2011, Kapitel 8, 19. Juli Das ergibt: I(M a) = k p i + n ( i p + n p i log p i + n 2 ( p i + n i ) + n i log i p i p i + n 2 ( p i + n ) i ) i n i i=1 Im Falle, dass M i = ist, nehmen wir an, dass der Beitrag zur Summe 0 ist. Um Fallunterscheidungen zu vermeiden, nehmen wir an, dass Produkte der Form 0 a log 2( a ) als 0 zählen. Das ist berechtigt, da der Grenzwert von 0 lim x 0 x log 2 (x) = 0 ist. Definition (ID3: Entscheidungsbaum Lernen) ID3 startet mit einem leeren Baum und als Eingabe einer Menge von positiven und negativen Beispielen. Für jeden offenen Knoten werden die zugehörigen Beispiele berechnet. Dann wird jeweils an dem offenen Knoten das Attribut ausgewählt, das den größten Informationsgewinn bietet. D.h. dasjenige a, für das der Informationsgewinn I(M) I(M a) maximal ist. Der Baum wird dann um die entsprechenden Abfragen an diesem Knoten erweitert. Dies wird für die neuen offenen Knoten solange wiederholt, bis eine Abbruchbedingung eintritt. Die Beispielmengen an den neuen Knoten bestehen nur aus denjenigen, die nach den bisher durchgeführten Abfragen auf dem Pfad die Tests bestanden haben. Ist der Informationsgehalt am Blatt 0, dann: Gibt es nur positive Beispiele, so wird das Blatt mit Ja markiert. Gibt es nur noch negative am Blatt, dann wird das Blatt mit Nein markiert. Gibt es keine Beispiele mehr, dann hat man beide Möglichkeiten: Ja bzw. Nein. Normalerweise gibt es eine Abbruchschranke: wenn der Informationsgewinn zu klein ist für alle Attribute, dann wird der weitere Aufbau des Entscheidungsbaum an diesem Knoten abgebrochen. Anmerkungen: Durch diese Vorgehensweise wird in keinem Ast ein diskretes Attribut zweimal abgefragt, da der Informationsgewinn 0 ist. Der Algorithmus basiert auf der Annahme, dass die vorgegebenen Beispiele repräsentativ sind. Wenn dies nicht der Fall ist, dann weicht das durch den Entscheidungsbaum definierte Konzept evtl. vom intendierten Konzept ab. Wenn man eine Beispielmenge hat, die den ganzen Tupelraum abdeckt, dann wird genau das Konzept gelernt. Beispiel Wir nehmen als einfaches überschaubares Beispiel Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, grün}. Das Konzept sei guter Apfel.

11 KI, SS 2011, Kapitel 8, 19. Juli Es gibt vier Varianten von Äpfeln, {(süß, rot), (süß, grün), (sauer, rot), (sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel genau {(süß, rot), (süß, grün)} sind. Wir nehmen mal an, dass pro Apfelvariante genau ein Apfel vorhanden ist. Es ist offensichtlich, dass die guten genau die süßen Äpfel sind, und die Farbe egal ist. Das kann man auch nachrechnen, indem man den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2)+0, 5log 2 (2))+0, 5 (0, 5log 2 (2)+0, 5log 2 (2)) = 0, 5 1+0, 5 1 = 1, d.h. man gewinnt nichts. Als Variation des Beispiels nehmen wir irgendeine Anzahl der Äpfeln in jeder Kategorie an: süß,rot süß,grün sauer,rot sauer,grün D.h. es gibt 30 gute und 10 schlechte Äpfel. Der Informationsgehalt ist vor dem Testen: 0.75log 2 (1, 333) log 2 (4) 0, , 5 = 0, 811 Nach dem Testen des Attributs Geschmack ergibt sich: ( log 2(1) log 2(0) ) ( log 2(1) log 2(0) ) = 0 d.h. Der Informationsgewinn ist maximal. Im Falle, dass die Farbe getestet wird, ergibt sich: , , 7793) 0, D.h. ein minimaler Informationsgewinn ist vorhanden. Der kommt nur aus der leicht unterschiedlichen Verteilung der guten Äpfel innerhalb der roten und grünen Äpfel und innerhalb aller Äpfel. Genauer gesagt: der Gewinn kommt daher, dass die Beispielmenge der 40 Äpfel nicht genau die Wahrheit abbildet. Wird die Wahrheit richtig abgebildet, d.h. sind die Verteilungen gleich, dann:

12 KI, SS 2011, Kapitel 8, 19. Juli süß,rot süß,grün sauer,rot sauer,grün Dann ergibt sich als Entropie danach, d.h. keinen Informationsgewinn. Beispiel Wir erweitern das Beispiel der einfachen Äpfel um eine Apfelnummer. Der Einfachheit halber gehen die Nummern gehen von 1 bis 4. Zu beachten ist, dass dieses Attribut eine Besonderheit hat: es kann nicht der ganze Tupelraum ausgeschöpft werden, da es ja zu jeder Nummer nur einen Apfel geben soll. Das spiegelt sich auch in den prototypischen Beispielen: Es gibt vier Äpfel, {(1, süß, rot), (2, süß, grün), (3, sauer, rot), (4, sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade {(1, süß, rot), (2, süß, grün)} sind. Wir rechnen den Informationsgewinn der drei Attribute aus. Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Nach dem Testen des Attributs Nummer ergibt sich 1 log(1), somit insgesamt 0. Der Informationsgewinn ist ebenfalls maximal. Weiter unten werden wie sehen, dass der Informationsgewinn in diesen sinnlosen Fällen durch Normierung kleiner wird. Beispiel Wir nehmen als erweitertes Beispiel für Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, gelb, grün}. Das Konzept sei schmeckt-wie-er-aussieht. Es gibt sechs Kombinationen der Attribute: {(süß, rot), (süß, grün), (süß, gelb), (sauer, rot), (sauer, grün), (sauer, gelb)}. Wir geben als Beispiel die Menge {(süß, rot), (sauer, grün), (süß, gelb), (sauer, gelb)} vor. Wir berechnen den Informationsgewinn bei beiden Attributen: Der Informationsgehalt I(M) vor dem Testen irgendeines Attributs ist: 4/6 log 2 (6/4) + 1/3log 2 (3) = Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt I(süss) = I(sauer) Die Gesamtinformation nach Abfrage des Attributs Geschmack ist: = d.h. Der Informationsgewinn ist null. Nach dem Testen des Attributes Farbe ergibt sich als I(grün) = I(rot) = 1, I(gelb) = 0. Die Gesamtinformation nach Abfrage der Farbe ist: 1/3 1+1/3 1 = 2/ D.h. man hat Information gewonnen. Im Endeffekt muss man bei diesem Beispiel doch beide Attribute abfragen

13 KI, SS 2011, Kapitel 8, 19. Juli Man kann das Verfahren auch für reellwertige Attribute verwenden, wobei man als Grenzabfrage > w? nur endlich viele Werte ausprobieren muss, die sich aus den Werten der entsprechenden Attribute in den Beispielen ergeben. Es ist klar, dass ein Konzept wie Fieber aus den aktuell gegebenen Temperaturen und der Klassifizierung Fieber j/n nur annähernd gelernt werden kann. Die Methode ID3 funktioniert recht gut, aber wenn ein Attribut zuviele Ausprägungen hat, wird die Frage nach diesem Attribut bevorzugt, da es im Extremfall (Personalnummer. o.ä.) dazu kommen kann, dass die Mengen {m M m(a) = v} einelementig werden, und somit der Informationsgewinn maximal ist. C4.5 als verbesserte Variante von ID3 Das von Quinlan vorgeschlagene System C4.5 benutzt statt des Informationsgewinns einen normierten Informationsgewinn, wobei der obige Wert durch die Entropie des Attributs (d.h. der Verteilung bzgl. der Attributwerte) dividiert wird. Somit vergleicht man Attribute anhand Informationsgewinn Normierungsfaktor D.h. ( I(M) I(M a) ) Normierungsfaktor Das bewirkt, dass Attribute mit mehreren Werten nicht mehr bevorzugt werden, sondern fair mit den zweiwertigen Attributen verglichen werden. Ohne diese Normierung werden mehrwertige Attribute bevorzugt, da diese implizit mehrere Ja/Nein-Fragen stellen dürfen, während ein zweiwertiges Attribut nur einer Ja/Nein-Frage entspricht. Dieser Vorteil wird durch den Normierungsfaktor ausgeglichen, der den Informationsgewinn auf binäre Fragestellung normiert, d.h. dass man den Informationsgewinn durch ein Attribut mit 4 Werten durch 2 dividiert, da man 2 binäre Fragen dazu braucht. Der Normierungsfaktor für ein Attribut a mit den Werten w i, i = 1,..., k ist: 1 k 1 P (a = w i ) log 2 ( P (a = w i ) ) i=1 Bei einem Booleschen Attribut, das gleichverteilt ist, ergibt sich als Normierungsfaktor 0, 5 1+0, 5 1 = 1, während sich bei einem Attribut mit n Werten, die alle gleichverteilt sind, der Wert ergibt. 1 n 1 n log 2(n) = 1 log 2 (n) Durch diese Vorgehensweise wird die Personalnummer und auch die Apfelnummer als irrelevantes Attribut erkannt. Allerdings ist es besser, diese Attribute von vorneherein als irrelevant zu kennzeichnen, bzw. erst gar nicht in die Methode einfließen zu lassen.

14 KI, SS 2011, Kapitel 8, 19. Juli Beispiel Im Apfelbeispiel s.o. ergibt sich bei Hinzufügen eines Attributes Apfelnummer mit den Ausprägungen 1, 2, 3, 4, als Normierungsfaktor für Apfelnummer: = 0.5 Damit wird die Abfrage nach dem Geschmack vor der Apfelnummer bevorzugt. Übergeneralisierung (Overfitting) Tritt auf, wenn die Beispiele nicht repräsentativ sind, oder nicht ausreichend. Der Effekt ist, dass zwar die Beispiele richtig eingeordnet werden, aber der Entscheidungsbaum zu fein unterscheidet, nur weil die Beispiele (zufällig) bestimmte Regelmäßigkeiten aufweisen. Beispiel Angenommen, man will eine Krankheit als Konzept definieren und beschreibt dazu die Symptome als Attribute: Fieber: Temperatur, Flecken: j/n, Erbrechen: j/n, Durchfall: j/n, Dauer der krankheit: Zeit, Alter des Patienten, Geschlecht des Patienten,.... Es kann dabei passieren, dass das Lernverfahren ein Konzept findet, dass beinhaltet, dass Frauen zwischen 25 und 30 Jahren diese Krankheit nicht haben, nur weil es keine Beispiele dafür gibt. Auch das ist ein Fall von overfitting. Besser wäre es in diesem Fall, ein Datenbank aller Fälle zu haben. Die Erfahrung zeigt aber, dass selbst diese Datenbank aller Krankheiten für zukünftige Fragen oft nicht ausreicht, da nicht jede Frage geklärt werden kann: z.b. Einfluss des Gendefektes XXXXX auf Fettsucht. Abschneiden des Entscheidungsbaumes: Pruning Beheben kann man das dadurch, dass man ab einer gewissen Schranke den Entscheidungsbaum nicht weiter aufbaut, und den weiteren Aufbau an diesem Knoten stoppt: Abschneiden des Entscheidungsbaumes (Pruning). Wenn kein Attribut mehr einen guten Informationsgewinn bringt, dann besteht der Verdacht, dass alle weiteren Attribute eigentlich irrelevant sind, und man das Verfahren an dem Blatt stoppen sollte. Dies kann man bei bekannter Verteilung mittels eines statistischen Test abschätzen. Hierbei ist es i.a. so, dass es an dem Blatt, an dem abgebrochen wird, noch positive und negative Beispiele gibt. Die Markierung des Knoten wählt man als Ja, wenn es signifikant mehr positive als negative Beispiel gibt, und als Nein, wenn es signifikant mehr negative als positive Beispiel gibt. Das ist natürlich nur sinnvoll, wenn man weiß, das es falsche Beispiele geben kann. Hat man verrauschte Daten, z.b. mit Messfehler behaftete Beispiele, dann ist Lernen von Entscheidungsbäumen mit Pruning die Methode der Wahl.

15 KI, SS 2011, Kapitel 8, 19. Juli Induktives Lernen: Funktionen Nicht Stoff im Sommersemester 2011/12 Das Lernen einer Funktion aus Funktionswerten soll als Standardbeispiel dienen, da man die meisten Lernverfahren auch als Lernen einer Funktion deuten kann. Auch das Lernen einer Mengenbeschreibung (eines Konzeptes) kann man als Lernen der charakteristischen Funktion ansehen. Bei reellen Funktionen ist dieses Problem mit der Approximation verwandt, für die es mehrere Methoden gibt: Polynome, Splines, usw. Eine Funktion f ist zu lernen, wobei wir den Definitions- und Wertebereich offen lassen. Ein Beispiel, Beobachtung ist ein Paar (x, f(x)) aus Argument und Funktionswert. Die Aufgabe des induktiven Lernens ist die Berechnung einer Funktion h, die die unbekannte Funktion f möglichst gut annähert, wobei man als Eingabe bzw als Wissen über die Funktion nur die Beispiele verwenden darf. Die Ausgabe des Lernverfahrens h nennt man Hypothese. Da es meistens mehrere (oft unendliche viele) denkbare Hypothesen h gibt, gibt es meist eine Bevorzugung von bestimmten Hypothesen. Diese Bevorzugung nennt man Vorwissen bzw. Vorurteil (engl: bias). Dies kann bei reellen Funktionen z.b. die Bevorzugung von Polynomen von möglichst kleinem Grad und dabei mit geringer Abweichung der h-werte von den Beispielwerten sein. Man unterscheidet die Beispiele oft noch in Trainingsmenge Testmenge Das wird oft so gemacht, dass man die bekannten Beispiele nach einem Schema zerlegt in Trainings- und Testmenge. Diese Partitionierung kann auch zufällig sein. Damit kann man verschiedene Lernverfahren vergleichen, oder die Stabilität eines Lernverfahrens abschätzen: Man macht mehrere Testläufe auf Basis von verschiedenen Trainingsmengen und vergleicht dann die Hypothese mit den Werten der jeweiligen Testmenge PAC-Lernen Eine theoretische Untersuchung zum Lernen und Lernbarkeit von Funktionen ist das sogenannte PAC-Lernen (probably almost correct-learning, Valiant), bei dem die Lernbarkeit bzw. die Komplexität des Lernens von Funktionen aus Folgen von Beispielwerten untersucht wird, wobei stochastische Methoden verwendet werden. Eine grundlegende Idee ist das zufällige Ziehen einer Trainingsund Testmenge aus der Menge der Beispiele.

16 KI, SS 2011, Kapitel 8, 19. Juli Vereinfacht kann man das PAC-Lernverfahren so beschreiben: Es gibt 0 < ε, δ < 1, ε die Genauigkeit, δ die Konfidenz. Ziel ist das Erlernen einer Funktion (eines Konzeptes) aufgrund einer Anzahl m von (zufälligen) Beispielen, so dass nur mit Wahrscheinlichkeit < δ der Fehler > ε ist. X sei Definitionsbereich von f. D eine Verteilung auf dem Definitionsbereich. Diese ist dem Lernverfahren nicht bekannt. Zudem ist die Verteilung statisch, d.h. sie ändert sich nicht. H die (endliche) Menge der möglichen Hypothesen. m die Anzahl der Beispiele in der Trainingsmenge. Es gibt einen Lehrer, der auf Anfrage m (zufällige) Beispiele vorgeben kann. Wir nehmen an, es gibt einen Test OK(.), der sagt, ob eine Hypothese mit einem Beispiel (x, f(x)) konsistent ist. Das kann z.b. Gleichheit sein, d.h. h(x) = f(x), oder eine Annäherung h(x) f(x) < d. Definition Eine Hypothese h ist konsistent mit m Beispielen (x i, f(x i )), wenn für alle i = 1,..., m: OK(h, x i, f(x i )) gilt. Der Fehler einer Hypothese h wird definiert als error(h) := P {x X OK(h, x, f(x))} Hier wird die Verteilung D angenommen. h ist annähernd korrekt, wenn error(h) < ε für das vorgegebene ε. Wir analysieren die Wahrscheinlichkeit für eine Hypothese h, die konsistent mit m zufällig gewählten Beispielen ist, aber einen zu großen Fehler hat: D.h. error( h) > ε. Die Wahrscheinlichkeit wird gemessen gegen die Verteilung D auf dem Definitionsbereich. Das Lernverfahren gibt normalerweise eine Hypothese aus, die konsistent mit m Beispielen ist, so dass hiermit die Güte bzw. der Fehler dieser Hypothese analysiert wird. Damit ist die Wahrscheinlichkeit, dass h ein Beispiel annähert : P {x X OK(h, x, f(x))} < 1 ε Da das Ziehen der Beispiele randomisiert ist, kann man Unabhängigkeit annehmen und erhält für die Wahrscheinlichkeit, dass h alle m Beispiele annähert, die Abschätzung: P ( h konsistent mit m Beispielen) < (1 ε) m Da es H schlechte Hypothesen h geben kann, erhält man: P (schlechte Hypothese) < H (1 ε) m

17 KI, SS 2011, Kapitel 8, 19. Juli Bzgl der Konfidenz δ für das Eintreten dieses Ereignisses soll gelten: dann ergibt sich für m: H (1 ε) m δ ln H + m ln(1 ε) ln(δ) Für kleine, positive ε gilt die Abschätzung ln(1 ε) < ε. Deshalb: m 1 ε (ln1 δ + ln H ) Diese Rechnung kann man auch rückwärts durchführen. Wenn ein Lernalgorithmus eine konsistente Hypothese h ausgibt, hat man bei m zufälligen Beispielen mit Wahrscheinlichkeit 1 δ eine Hypothese mit einem Fehler kleiner als ε. D.h. wenn man mehrere Läufe des Lernalgorithmus durchführt, hat man nur einen Anteil δ von Läufen, in denen eine Hypothese mit einem Fehler größer als ε ausgegeben wird. Die Formel sagt, dass man eine Anzahl Beispiele in O(ln H ) benötigt. D.h. eine wichtige Größe in der obigen Abschätzung ist H, die Größe des Hypothesenraumes. Dies kann auch sehr schlecht sein: Will man z.b. Boolesche Funktionen von {0, 1} n {0, 1} lernen, kann man als OK die Gleichheit nehmen, und als Hypothesenraum H Bool die Menge aller Booleschen Funktionen. Dann ist H Bool = 2 (2n), und damit muss m exponentiell groß sein, genauer O(2 n ). Die Menge aller Beispiele ist ebenfalls O(2 n ), so dass Lernen keinen echten Vorteil gegenüber dem Speichern der Beispiele bringt. Um gute Ergebnisse zu erzielen, benötigt man i.a. eine Einschränkung des Hypothesenraumes, damit die Kenntnis der m Beispielwerte überhaupt etwas über die gesuchte Funktion aussagt, das über die Information der Beispiele hinausgeht Lernen von Entscheidungslisten Eine Entscheidungsliste ist eine Liste von Konjunktionen, wobei jede Konjunktion aus Attribut-Tests der Form a = w? besteht. Gegeben ein Objekt o und eine Entscheidungsliste L. Dann ist L(o) = 1, wenn mindestens eine Konjunktion wahr (d.h. = 1) ist. Eine Entscheidungsliste entspricht einem logischen Ausdruck der aus Disjunktionen von Konjunktionen besteht. Er ist von der Abarbeitung her sequentiell im Gegensatz zu Entscheidungsbäumen, aber die Abfragen an den Knoten sind komplexer. Beispiel Eine Entscheidungstabelle für das Beispiel oder kleine, süße Äpfel ist: entweder große,

18 KI, SS 2011, Kapitel 8, 19. Juli Größe = L? 2. Größe = S Geschmack = süß? Mit Entscheidungslisten kann man alle Mengen beschreiben, allerdings werden die Listen dann sehr lang. Eine Einschränkung sind die k-entscheidungslisten, bei denen die Konjunktionen maximal k Einzelabfragen enthalten dürfen. Um die Abschätzung der Anzahl notwendiger Beispiele zum Erreichen einer hinreichenden Konfidenz des PAC-Lernens auf k-entscheidungslisten anzuwenden, müssen wir nur die Anzahl der Entscheidungslisten abschätzen. Wir nehmen an, dass es n Attribute mit jeweils maximal h Werten gibt. Es gibt maximal n h + 2 (n h) (n h) k Konjunktionen. Das sind O((n h) k ). Die Anzahl der Entscheidungslisten kann man nach oben abschätzen durch: 2 O((n h)k) O((n h) k )! Da in der PAC-Formel nur der Logarithmus vorkommt, können wir logarithmieren. Wir nutzen x! x x aus und erhalten als obere Abschätzung für den lnder Anzahl der k-entscheidungslisten: O((n h) k ) + O((n h) k ln(n h) k ) = O((n h) k ln((n h) k )) Damit ergibt sich bei Fehlerschranke ε und Konfidenz δ als Anzahl der benötigten Beispiele: m 1 (ln ε 1 ) δ + O((n h)k ln((n h) k )) D.h. die Anzahl der notwendigen Beispiele ist polynomiell. 8.5 Lernen von Konzepten einer Konzeptbeschreibungssprache Der allgemeine Fall in dieser Lernaufgabe sieht so aus: Man hat eine Objektbeschreibungssprache, in der Objekte beschrieben werden. Man hat eine Konzeptbeschreibungssprache, deren Ausdrücke (Konzepte) als Semantik eine Menge von Objekten haben. Gegeben ist eine Menge von Objekten (Beispielmenge), wobei man positive und negative Beispiele haben kann. Oder eine Folge von Beispielen oder einen Lehrer, der auf Anfrage Beispiele präsentiert. Gesucht ist ein Konzept, das die Beispielmenge repräsentiert und möglichst einfach ist.

19 KI, SS 2011, Kapitel 8, 19. Juli Online-Lernen Diese Lernmethode ist ein überwachtes, inkrementelles, Lernverfahren, bei dem ein Konzept gelernt werden soll. Es gibt einen Dialog zwischen Lernalgorithmus und Lehrer. Man nimmt an, dass die Sprache der Objekte vorgegeben ist, ebenso die Sprache der Konzepte (= potentielle Hypothesen). Das Verfahren zum Lernen eines vorgegebenen Konzeptes K besteht aus mehreren Runden. In jeder Runde präsentiert der Lernalgorithmus seine Hypothese H, beim erstenmal irgendeine Hypothese. Der Lehrer gibt daraufhin, falls die Hypothese H dem Konzept K nicht entspricht, ein Gegenbeispiel an, d.h. ein Objekt aus H K = (H \ K) (K \ H), der symmetrischen Differenz von H und K. Wenn es keine Gegenbeispiele mehr gibt, ist das Lernen erfolgreich beendet. Normalerweise kann es vier Arten von Beispielen geben: 1. Beispiel ist schon im Hypothesenkonzept. 2. Beispiel ist im Hypothesenkonzept, nicht im zu lernenden Konzept K 3. Beispiel ist nicht im Hypothesenkonzept, aber in K 4. Beispiel ist nicht im Hypothesenkonzept, auch nicht in K. Beispieltypen 2. und 3. sind hilfreich, während 1. und 4. bestätigend sind und keine Aktion beim inkrementellen Lernen erfordern. Zur Illustration nehmen wir folgendes an: Die Objekte sind durch n Boolesche Attribute beschrieben. D.h. jedes Objekt entspricht einem binären Tupel der Länge n. Varianten für Konzeptsprachen sind: 1. Es gibt n primitive Konzepte P 1,..., P n, die Konzeptsprache besteht aus P i, P i (Komplemente), und allen Schnitten dieser Konzepte (Monome). Dies entspricht einer Grundmenge der binären Tupel der Länge n, die Hypothesen entsprechen den Monomen, (z.b. P 1 P 2 P 4 ) die aus Konjunktionen von Literalen bestehen. 2. Wie 1, nur sind Komplemente verboten: (monotone Monome). 3. Alle aussagenlogischen Formeln der n primitiven Konzepte. 4. Alle positiven aussagenlogischen Formeln der n primitiven Konzepte. Die (hilfreichen) Gegenbeispiele in H K = (H \ K) (K \ H) kann man in positive Gegenbeispiele K \ H und negative Gegenbeispiele H \ K unterscheiden. Die hier interessierende Fragestellung ist die nach der Anzahl der Runden, bzw. Anzahl der Gegenbeispiele, die der Lehrer angeben muss, bis das Konzept gelernt ist.

20 KI, SS 2011, Kapitel 8, 19. Juli Aussage Die maximale Anzahl benötigter Gegenbeispiele beim optimalen Lernen ist: Für die Monom-Klasse mit n primitiven Konzepten: n + 1. Für die Menge der aussagenlogischen Formeln: 2 n. Das entspricht dem Lernen einer beliebigen Menge in {0, 1} n : da jede Menge als Konzept erlaubt ist, muss man für jedes der 2 n Element sagen, ob es dazu gehört oder nicht. Das optimale, inkrementelle Verfahren funktioniert folgendermaßen: 1. Lernverfahren gibt Hypothese P 1 P 1 aus. (ist leer) 2. Lehrer präsentiert Gegenbeispiel, das man als binäres n-tupel angeben kann. Eine 1 an der i-ten Stelle entspricht der Angabe: Objekt ist im Konzept P i, eine 0 bedeutet ist nicht im Konzept P i. 3. Lernverfahren gibt als Hypothese einen Schnitt von n Literalen aus. Das entspricht dem kleinsten Konzept, das genau dieses Objekt enthält. 4. Falls K H: Lehrer präsentiert Gegenbeispiel. Ansonsten akzeptiert der Lehrer die Hypothese H. 5. Das Lernverfahren eliminiert mindestens ein Literal aus dem aktuellen Hypothese entsprechend dem Gegenbeispiel, so dass eine minimale Hypothese erzeugt wird und gibt die neue Hypothese aus. Danach weiter mit 4. Das vom Lehrer präsentierte Gegenbeispiel muss ein positives sein, denn das Lernverfahren versucht möglichst Hypothesen mit minimalen Objektmengen zu erzeugen Konzeptlernen über Objekten mit mehrwertigen Attributen Ein etwas allgemeinerer Fall des Konzeptlernen ist, dass Objekte durch diskrete Attribute und deren Werte beschrieben werden, und die Konzeptsprache noch Subsumtionsalgorithmen (d.h. Alg. für Teilmengenbeziehungen) auf den Konzeptbeschreibungen hat. Man nennt die inkrementellen Lernverfahren in diesem Szenario auch Versionenraum-Lernverfahren. Wir betrachten jetzt eine einfache Konzeptsprache, die neben den Attributwerten noch? zulässt. Das entspricht primitiven Konzepten der Form a i = w i, und deren Schnitten (keine Komplemente). Zusätzlich erlaubt man noch als Zeichen für das leere Konzept.

21 KI, SS 2011, Kapitel 8, 19. Juli Im Apfelbeispiel wäre dann F arbe =?, Geschmack = sauer das Konzept, dessen Semantik die Menge der Objekte ist, die alle sauren Äpfel unabhängig von deren Farbe enthält. Auf den Konzepten ist eine Ordnung definiert, die Spezialisierung bzw. Generalisierung ausdrückt. z.b. gilt < Farbe =?, Geschmack = sauer < Farbe =?, Geschmack =? Diese Ordnung ist i.a. nicht linear. I.a. sind die Lernverfahren zur Erzeugung eines Konzepts darauf ausgelegt, inkrementell zu arbeiten. Das Versionenraum-Lernverfahren ist inkrementell, und hat als Zustand die Menge der Hypothesen, die konsistent mit den bisher gesehenen Beispielen sind: {H Hist konsistent mit bisherigen Beispielen} Dies nennt man auch den Versionenraum. D.h. die gesehenen Beispiele werden vergessen. Eine kompaktere Repräsentation des Versionenraums ist die Angabe der unteren S und oberen Grenzen G des Versionenraums, der speziellsten Hypothesen und der allgemeinsten Hypothesen. Wenn S = {S 1,..., S n } und G = {G 1,..., G m }, dann ist der Versionenraum genau: {H i, j : S i H G j }. Bei Eingabe eines neuen Beispiels werden die Mengen S und G neu berechnet. Man kann die Mengen G, S minimieren, wenn man die Bedingung prüft, ob zu jedem G i noch ein S j existiert mit S j G i. Auch umgekehrt ist zu testen, allerdings ist dieser Fall praktisch kaum relevant. Wenn S = G und S, G einelementig sind, war das Verfahren erfolgreich. Im Falle der?-konzepte kann man die Menge S immer einelementig halten: Man startet mit, dann mit dem jeweils kleinsten Hypothese, die alle positiven Beispiele enthält. Bei einem neuen Gegenbeispiel wird eine Hypothese berechnet, die allgemeiner als die alte Hypothese ist, und gerade noch dieses Beispiel enthält. Die Menge G kann mehrere Elemente enthalten, im Extremfall exponentiell viele. In diesem Fall ist es einfacher und effizienter, sich die (negativen) Beispiele zu speichern. Ein negatives Gegenbeispiel zu S führt zu einem Abbruch des Verfahrens, da das nur bedeuten kann: es gibt falsch klassifizierte Beispiele, oder die Konzeptsprache ist nicht ausdrucksstark genug. Beispiel Betrachte die Äpfel-Konzepte: Attribute und Werte seien: Geschmack süß, sauer Farbe rot, gelb, grün Herkunft Deutschland, Italien, Argentinien Größe S,M,L Gelernt werden soll das Konzept: große (L), süße Äpfel.

22 KI, SS 2011, Kapitel 8, 19. Juli Hypothese = Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Italien, L. 3. S = süß,?, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G =?,?,?,?. Alternativer Ablauf: 1. Hypothese = positives Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G = {?,?,?,? }. negatives Beispiel: süß, gelb, Argentinien, S. 3. S = süß, rot, Italien, L, Kandidaten für G: sauer,?,?,?,?, rot,?,?,?, grün,?,?,?,?, Deutschland,?,?,?, Italien,?,?,?,?, M,?,?,?, L. Davon bleiben wegen der Bedingung S G i : G = {?, rot,?,?,?,?, Italien,?,?,?,?, L }. positives Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G = {?,?,?, L }. negatives Beispiel: sauer, rot, Deutschland, L. 5. Unter Beachtung der Bedingungen ergibt sich jetzt ein neues G = { süß,?,?, L }. Da S = G 1, ist das Konzept gefunden Batchverfahren zum Erzeugen einer Hypothese Hat man eine Menge von positiven und negativen Beispielen, dann kann man direkt eine minimale Hypothese konstruieren, die alle positiven Beispiele enthält, und kein negatives: Erzeugung eines Konzepts als Hypothese Für jedes Attribut a:

23 KI, SS 2011, Kapitel 8, 19. Juli Haben alle positiven Beispiele genau die Ausprägung w a, dann gilt für das allgemeine Konzept K min : a = w a. Hat das Attribut a zwei verschiedene Ausprägungen in der Menge der positiven Beispiele, dann hat das allgemeine Konzept die Ausprägung?. Damit hat man eine minimale Hypothese konstruiert, die alle positiven Beispiele enthält. Nun ist die Hypothese gegen die negativen Beispiele zu testen, Enthält die Hypothese ein negatives Beispiel, dann ergibt sich ein Fehler: Entweder sind die Beispiele inkonsistent, oder die aktuelle Konzeptsprache ist nicht ausdrucksstark genug. Das zu lernende Konzept kann allgemeiner als K min sein. Man kann versuchen, attributweise allgemeinere Konzepte zu erzeugen, indem man z.b. K min,1,... K min,n aus K min erzeugt, indem man jeweils das i-te Attribut, falls es nicht schon? ist, auf? setzt. Danach kann man wieder gegen die Menge der negativen Beispiele testen. Verallgemeinerungen der Konzeptsprachen Eine ausdrucksstärkere Konzeptsprache ist: Erlaube a = M a für Attribute a, wobei M a eine Teilmenge der möglichen Ausprägungen von a ist ist. Damit kann man Quader im Objektraum erzeugen. Diese Sprache nennen wir Quader-Konzepte. Erlaube Disjunktionen der Quader-Konzepte. Damit kann man bereits alle Konzepte darstellen, wenn die Menge der Attribute und Ausprägungen endlich ist. Erzeugung eines Konzepts als Hypothese: Variante Wir geben ein alternatives Verfahren zum Erzeugen einer Hypothese an. Die Suchrichtung sei jetzt allgemein nach speziell. Damit man etwas sinnvolles machen kann, erlauben wir die Quader-Konzept- Sprache: Starte mit dem allgemeinsten Konzept?,...,?. Wenn es negative Beispiele gibt, dann erzeuge alle Konzepte :?,...,?, M i,?,...,? wobei M i alle Mengen durchläuft, die zum Attribut a i genau einen Attributwert nicht enthalten. Danach teste, welche K alle positiven Beispiele enthalten. Setzt man dieses Verfahren fort, dann erhält man schließlich Konzepte, die alle positiven Beispiele enthalten, aber kein negatives Beispiel. Leider ist dieses Verfahren exponentiell, da die Menge der zu betrachtenden Konzepte sehr schnell ansteigt.

24 KI, SS 2011, Kapitel 8, 19. Juli Die Gefahr der Übergeneralisierung (overfitting) ist bei dieser Konzeptsprache sehr hoch, da sich durch die Allgemeinheit der Quaderkonzepte die Hypothese zu sehr an der aktuellen Menge der Beispiele orientiert Diskussion Die Wahl einer Konzeptbeschreibungssprache kann das Lernverfahren sehr stark beeinflussen. Diese Wahl gehört zum Vorwissen bzw. Vorurteil (Bias) über die Umgebung. Eigentlich müsste auch die Konzeptbeschreibungssprache erst aufgrund der Beispiele gelernt werden. Probleme mit der Versionenraum-Methode sind: sie kann nicht mit verrauschten Daten umgehen. erlaubt man eine zu ausdrucksstarke Konzeptbeschreibungssprache, dann erhält man meist eine zu genaue Beschreibung der Beispiele, und keine Generalisierung.

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Codierung. Auszug aus dem Skript von Maciej Liśkiewicz und Henning Fernau

Codierung. Auszug aus dem Skript von Maciej Liśkiewicz und Henning Fernau Codierung Auszug aus dem Skript von Maciej Liśkiewicz und Henning Fernau Ein bisschen Informationstheorie Betrachten wir das folgende Problem: Wie lautet eine sinnvolle Definition für das quantitative

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Gibt es verschiedene Arten unendlich? Dieter Wolke

Gibt es verschiedene Arten unendlich? Dieter Wolke Gibt es verschiedene Arten unendlich? Dieter Wolke 1 Zuerst zum Gebrauch des Wortes unendlich Es wird in der Mathematik in zwei unterschiedlichen Bedeutungen benutzt Erstens im Zusammenhang mit Funktionen

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

6 Mehrstufige zufällige Vorgänge Lösungshinweise

6 Mehrstufige zufällige Vorgänge Lösungshinweise 6 Mehrstufige zufällige Vorgänge Lösungshinweise Aufgabe 6.: Begründen Sie, warum die stochastische Unabhängigkeit zweier Ereignisse bzw. zufälliger Vorgänge nur ein Modell der Realität darstellen kann.

Mehr

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion

Was bisher geschah. Aufgaben: Diagnose, Entscheidungsunterstützung Aufbau Komponenten und Funktion Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Wissensrepräsentation und -verarbeitung: Wissensbasis Kontextwissen Problemdarstellung fallspezifisches Wissen repräsentiert

Mehr

Intelligente Agenten

Intelligente Agenten Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2009 1. Einführung: Definitionen Grundbegriffe Lernsysteme Maschinelles Lernen Lernen: Grundbegriffe

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014 Übersicht Stand der Kunst im Bilderverstehen: Klassifizieren und Suchen Was ist ein Bild in Rohform? Biologische

Mehr

Codierung, Codes (variabler Länge)

Codierung, Codes (variabler Länge) Codierung, Codes (variabler Länge) A = {a, b, c,...} eine endliche Menge von Nachrichten (Quellalphabet) B = {0, 1} das Kanalalphabet Eine (binäre) Codierung ist eine injektive Abbildung Φ : A B +, falls

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Monte-Carlo Simulation

Monte-Carlo Simulation Monte-Carlo Simulation Sehr häufig hängen wichtige Ergebnisse von unbekannten Werten wesentlich ab, für die man allerhöchstens statistische Daten hat oder für die man ein Modell der Wahrscheinlichkeitsrechnung

Mehr

Unsere Kunden haben diese Werte in der Regel über eigene Listen abgefragt (Excel-Pivot) um zu einer vorausschauenden Auswertung zu kommen.

Unsere Kunden haben diese Werte in der Regel über eigene Listen abgefragt (Excel-Pivot) um zu einer vorausschauenden Auswertung zu kommen. Im Infoblatt Vorgänge und Ressourcen wurden bereits grundlegende Erklärungen zum Umgang mit Ressourcen gegeben. Die Planung von Ressourcen basierte bislang im Wesentlichen auf zwei Faktoren: - Dem Sollwert

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen Kapitel ML: I I. Einführung Beispiele für Lernaufgaben Spezifikation von Lernproblemen ML: I-8 Introduction c STEIN/LETTMANN 2005-2010 Beispiele für Lernaufgaben Autoeinkaufsberater Welche Kriterien liegen

Mehr

Unterscheidung: Workflowsystem vs. Informationssystem

Unterscheidung: Workflowsystem vs. Informationssystem 1. Vorwort 1.1. Gemeinsamkeiten Unterscheidung: Workflowsystem vs. Die Überschneidungsfläche zwischen Workflowsystem und ist die Domäne, also dass es darum geht, Varianten eines Dokuments schrittweise

Mehr

Universität Koblenz-Landau, Abteilung Koblenz FB 4 Informatik. Seminar Entscheidungsverfahren für logische Theorien. Endliche Modelle.

Universität Koblenz-Landau, Abteilung Koblenz FB 4 Informatik. Seminar Entscheidungsverfahren für logische Theorien. Endliche Modelle. Universität Koblenz-Landau, Abteilung Koblenz FB 4 Informatik Seminar Entscheidungsverfahren für logische Theorien Tobias Hebel Koblenz, am 18.02.2005 Inhaltsverzeichnis 1 Einleitung... 3 2 Grundlagen...

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Programmiertechnik II

Programmiertechnik II Analyse von Algorithmen Algorithmenentwurf Algorithmen sind oft Teil einer größeren Anwendung operieren auf Daten der Anwendung, sollen aber unabhängig von konkreten Typen sein Darstellung der Algorithmen

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Bestimmen der Wahrscheinlichkeiten mithilfe von Zählstrategien

Bestimmen der Wahrscheinlichkeiten mithilfe von Zählstrategien R. Brinmann http://brinmann-du.de Seite 4.0.2007 Bestimmen der Wahrscheinlicheiten mithilfe von Zählstrategien Die bisherigen Aufgaben zur Wahrscheinlicheitsrechnung onnten im Wesentlichen mit übersichtlichen

Mehr

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen.

I. Aussagenlogik. Aussagenlogik untersucht Verknüpfungen wie und, oder, nicht, wenn... dann zwischen atomaren und komplexen Sätzen. I. Aussagenlogik 2.1 Syntax Aussagenlogik untersucht Verknüpfungen wie "und", "oder", "nicht", "wenn... dann" zwischen atomaren und komplexen Sätzen. Sätze selbst sind entweder wahr oder falsch. Ansonsten

Mehr

Beispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) =

Beispiel 11.2. Wenn p ein Polynom vom Grad größer gleich 1 ist, ist q : C Ĉ definiert durch q (z) = Funktionentheorie, Woche Funktionen und Polstellen. Meromorphe Funktionen Definition.. Sei U C offen und sei f : U gilt, nennt man f meromorph auf U: Ĉ eine Funktion. Wenn folgendes. P := f hat keine Häufungspunkte;.

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Erfüllbarkeit und Allgemeingültigkeit

Erfüllbarkeit und Allgemeingültigkeit Theoretische Informatik: Logik, M. Lange, FB16, Uni Kassel: 3.3 Aussagenlogik Erfüllbarkeit 44 Erfüllbarkeit und Allgemeingültigkeit Def.: eine Formel ϕ heißt erfüllbar, wennesein I gibt, so dass I = ϕ

Mehr

Beweisbar sichere Verschlüsselung

Beweisbar sichere Verschlüsselung Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6

Mehr

Faktorisierung ganzer Zahlen mittels Pollards ρ-methode (1975)

Faktorisierung ganzer Zahlen mittels Pollards ρ-methode (1975) Dass das Problem, die Primzahlen von den zusammengesetzten zu unterscheiden und letztere in ihre Primfaktoren zu zerlegen zu den wichtigsten und nützlichsten der ganzen Arithmetik gehört und den Fleiss

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Semantic Web Technologies I!

Semantic Web Technologies I! www.semantic-web-grundlagen.de Semantic Web Technologies I! Lehrveranstaltung im WS11/12! Dr. Elena Simperl! DP Dr. Sebastian Rudolph! M.Sc. Anees ul Mehdi! www.semantic-web-grundlagen.de Logik Grundlagen!

Mehr

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields

Mehr

Die Binomialverteilung

Die Binomialverteilung Fachseminar zur Stochastik Die Binomialverteilung 23.11.2015 Referenten: Carolin Labrzycki und Caroline Kemper Gliederung Einstieg Definition der Binomialverteilung Herleitung der Formel an einem Beispiel

Mehr

Verteilte Systeme SS 2015. Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404. Stand: 7.

Verteilte Systeme SS 2015. Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404. Stand: 7. Verteilte Systeme SS 2015 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 7. Juli 2015 Betriebssysteme / verteilte Systeme Verteilte Systeme (1/13) i

Mehr

Formelsammlung. Wahrscheinlichkeit und Information

Formelsammlung. Wahrscheinlichkeit und Information Formelsammlung Wahrscheinlichkeit und Information Ein Ereignis x trete mit der Wahrscheinlichkeit p(x) auf, dann ist das Auftreten dieses Ereignisses verbunden mit der Information I( x): mit log 2 (z)

Mehr

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen 06. August 2013 ForschungsWerk mit Innovation auf dem Markt: Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen NÜRNBERG - ForschungsWerk hat mit Indextest ein Tool entwickelt,

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

NP-Vollständigkeit. Krautgartner Martin (9920077) Markgraf Waldomir (9921041) Rattensberger Martin (9921846) Rieder Caroline (0020984)

NP-Vollständigkeit. Krautgartner Martin (9920077) Markgraf Waldomir (9921041) Rattensberger Martin (9921846) Rieder Caroline (0020984) NP-Vollständigkeit Krautgartner Martin (9920077) Markgraf Waldomir (9921041) Rattensberger Martin (9921846) Rieder Caroline (0020984) 0 Übersicht: Einleitung Einteilung in Klassen Die Klassen P und NP

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Design. Hohes Niveau Design (HND) Niedriges Niveau Design (NND)

Design. Hohes Niveau Design (HND) Niedriges Niveau Design (NND) Design beschreibt wie die, vom System verlangten, Funktionen erreicht werden Endergebnis stellt eine Basis für die Implementierung dar 2 Arten vom Design: Hohes Niveau Design (HND) Niedriges Niveau Design

Mehr

RSA Verfahren. Kapitel 7 p. 103

RSA Verfahren. Kapitel 7 p. 103 RSA Verfahren RSA benannt nach den Erfindern Ron Rivest, Adi Shamir und Leonard Adleman war das erste Public-Key Verschlüsselungsverfahren. Sicherheit hängt eng mit der Schwierigkeit zusammen, große Zahlen

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Makespan-Scheduling Kapitel 4: Approximationsalgorithmen (dritter Teil) (weitere Beispiele und Illustrationen an der Tafel) Hilfreiche Literatur: Vazarani: Approximation Algorithms, Springer Verlag, 2001.

Mehr

Theoretische Informatik

Theoretische Informatik Theoretische Informatik Einheit 1 Mathematische Methodik 1. Problemlösen 2. Beweistechniken 3. Wichtige Grundbegriffe Methodik des Problemlösens Klärung der Voraussetzungen Welche Begriffe sind zum Verständnis

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Optimalitätskriterien

Optimalitätskriterien Kapitel 4 Optimalitätskriterien Als Optimalitätskriterien bezeichnet man notwendige oder hinreichende Bedingungen dafür, dass ein x 0 Ω R n Lösung eines Optimierungsproblems ist. Diese Kriterien besitzen

Mehr

34 5. FINANZMATHEMATIK

34 5. FINANZMATHEMATIK 34 5. FINANZMATHEMATIK 5. Finanzmathematik 5.1. Ein einführendes Beispiel Betrachten wir eine ganz einfache Situation. Wir haben einen Markt, wo es nur erlaubt ist, heute und in einem Monat zu handeln.

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Protokoll Physikalisch-Chemisches Praktikum für Fortgeschrittene

Protokoll Physikalisch-Chemisches Praktikum für Fortgeschrittene K. B. Datum des Praktikumstags: 4.12.2007 Matthias Ernst Protokoll-Datum: 8.12.2007 Gruppe 11 Assistent: T. Bentz Testat: AK-Versuch: Modellierung von verbrennungsrelevanten Prozessen Aufgabenstellung

Mehr

Gleichungen und Ungleichungen

Gleichungen und Ungleichungen Gleichungen Ungleichungen. Lineare Gleichungen Sei die Gleichung ax = b gegeben, wobei x die Unbekannte ist a, b reelle Zahlen sind. Diese Gleichung hat als Lösung die einzige reelle Zahl x = b, falls

Mehr

Zug Bart Borg Bart Borg Bart Borg Bart. Bart 2 1 1 1 Borg 1 1 2 verloren. Stand 8 7 6 5 4 2 1. Zug Bart Borg Bart Borg Bart Borg

Zug Bart Borg Bart Borg Bart Borg Bart. Bart 2 1 1 1 Borg 1 1 2 verloren. Stand 8 7 6 5 4 2 1. Zug Bart Borg Bart Borg Bart Borg . Das. Einführung Deep Blue Kasparow, Philadelphia 996 Deep Blue, der Supercomputer schlägt Garry Kasparow. So oder ähnlich lauteten die Schlagzeilen 996. Die 6 Partien waren insgesamt ausgeglichen, zum

Mehr

Einführung in die Informatik I

Einführung in die Informatik I Einführung in die Informatik I Algorithmen und deren Programmierung Prof. Dr. Nikolaus Wulff Definition Algorithmus Ein Algorithmus ist eine präzise formulierte Handlungsanweisung zur Lösung einer gleichartigen

Mehr

Bestimmung einer ersten

Bestimmung einer ersten Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,

Mehr

Handbuch Datenpunktliste - Auswerte - Tools

Handbuch Datenpunktliste - Auswerte - Tools Handbuch Datenpunktliste - Auswerte - Tools zur Bearbeitung von Excel Datenpunktlisten nach VDI Norm 3814 für Saia PCD Systeme alle Rechte bei: SBC Deutschland GmbH Siemensstr. 3, 63263 Neu-Isenburg nachfolgend

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

P X =3 = 2 36 P X =5 = 4 P X =6 = 5 36 P X =8 = 5 36 P X =9 = 4 P X =10 = 3 36 P X =11 = 2 36 P X =12 = 1

P X =3 = 2 36 P X =5 = 4 P X =6 = 5 36 P X =8 = 5 36 P X =9 = 4 P X =10 = 3 36 P X =11 = 2 36 P X =12 = 1 Übungen zur Stochastik - Lösungen 1. Ein Glücksrad ist in 3 kongruente Segmente aufgeteilt. Jedes Segment wird mit genau einer Zahl beschriftet, zwei Segmente mit der Zahl 0 und ein Segment mit der Zahl

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1 3.2 Binäre Suche Beispiel 6.5.1: Intervallschachtelung (oder binäre Suche) (Hier ist n die Anzahl der Elemente im Feld!) Ein Feld A: array (1..n) of Integer sei gegeben. Das Feld sei sortiert, d.h.: A(i)

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Bearbeitungszeit: 120 Minuten. Kommentare kosten Zeit; kommentieren Sie ihr Programm nur da, wo der Code alleine nicht verständlich wäre.

Bearbeitungszeit: 120 Minuten. Kommentare kosten Zeit; kommentieren Sie ihr Programm nur da, wo der Code alleine nicht verständlich wäre. Fakultät IV Elektrotechnik/Informatik Klausur Einführung in die Informatik I für Elektrotechniker Name:... Matr.-Nr.... Bearbeitungszeit: 120 Minuten Bewertung (bitte offenlassen : ) Aufgabe Punkte Erreichte

Mehr

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Computer Vision: AdaBoost D. Schlesinger () Computer Vision: AdaBoost 1 / 10 Idee Gegeben sei eine Menge schwacher (einfacher, schlechter) Klassifikatoren Man bilde einen guten durch eine geschickte Kombination

Mehr

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen Was bisher geschah Lernen: überwachtes Lernen korrigierendes Lernen bestärkendes Lernen unüberwachtes Lernen biologisches Vorbild neuronaler Netze: Neuron (Zellkörper, Synapsen, Axon) und Funktionsweise

Mehr

Approximationsalgorithmen: Klassiker I. Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling

Approximationsalgorithmen: Klassiker I. Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling Approximationsalgorithmen: Klassiker I Kombinatorische Optimierung Absolute Gütegarantie Graph-Coloring Clique Relative Gütegarantie Scheduling VO Approximationsalgorithmen WiSe 2011/12 Markus Chimani

Mehr

Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14. Auswahl vorausgesetzter Vorkenntnisse

Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14. Auswahl vorausgesetzter Vorkenntnisse UNIVERSITÄT DES SAARLANDES FACHRICHTUNG 6.1 MATHEMATIK Dipl.-Math. Kevin Everard Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14 Auswahl vorausgesetzter Vorkenntnisse

Mehr

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011 Graphen: Einführung Vorlesung Mathematische Strukturen Zum Ende der Vorlesung beschäftigen wir uns mit Graphen. Graphen sind netzartige Strukturen, bestehend aus Knoten und Kanten. Sommersemester 20 Prof.

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

Prädikatenlogik - Micromodels of Software

Prädikatenlogik - Micromodels of Software Prädikatenlogik - Micromodels of Software Philipp Koch Seminar Logik für Informatiker Universität Paderborn Revision: 30. Mai 2005 1 Inhaltsverzeichnis 1 Motivation 3 2 Modelle 3 2.1 Definition eines Modells.......................

Mehr

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20 Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:

Mehr

der einzelnen Aussagen den Wahrheitswert der zusammengesetzten Aussage falsch falsch falsch falsch wahr falsch wahr falsch falsch wahr wahr wahr

der einzelnen Aussagen den Wahrheitswert der zusammengesetzten Aussage falsch falsch falsch falsch wahr falsch wahr falsch falsch wahr wahr wahr Kapitel 2 Grundbegriffe der Logik 2.1 Aussagen und deren Verknüpfungen Eine Aussage wie 4711 ist durch 3 teilbar oder 2 ist eine Primzahl, die nur wahr oder falsch sein kann, heißt logische Aussage. Ein

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

Ideen der Informatik Suchen und Sortieren [Ordnung muss sein ] Kurt Mehlhorn Adrian Neumann viele Folien von Kostas Panagiotou

Ideen der Informatik Suchen und Sortieren [Ordnung muss sein ] Kurt Mehlhorn Adrian Neumann viele Folien von Kostas Panagiotou Ideen der Informatik Suchen und Sortieren [Ordnung muss sein ] Kurt Mehlhorn Adrian Neumann viele Folien von Kostas Panagiotou Suchen Welche Telefonnummer hat Kurt Mehlhorn? Wie schreibt man das Wort Equivalenz?

Mehr