Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen

Größe: px
Ab Seite anzeigen:

Download "Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen"

Transkript

1 Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen des Fernziels der Künstlichen Intelligenz eine Entsprechung eines Lernprozesses benötigt: Maschinelles Lernen Es gibt viele verschiedene Ansichten darüber, was Maschinelles Lernen ist, was mit Lernen erreicht werden soll usw. Hier sind erst Anfänge in der Forschung gemacht worden. Die praktisch erfolgreichsten Methoden sind solche, die auf statistisch/stochastischen Methoden basieren und mit der Adaption von Werten (Gewichten) arbeiten: Adaption von Gewichten einer Bewertungsfunktion aufgrund von Rückmeldungen. Z.B. Verarbeitung natürlicher Sprachen, Strategie-Spiele mit und ohne zufällige Ereignisse: Dame, Backgammon. künstliche neuronale Netze: Lernen durch gezielte Veränderung von internen Parametern. Deren praktischer Nutzen und Anwendbarkeit ist im wesentlichen auf praktikable automatische Lernverfahren zurückzuführen. Das Lernen von neuen Konzepten, Verfahren, logischen Zusammenhängen, usw hat bisher nur ansatzweise Erfolg gehabt. Lernen soll eine Verbesserung der Performanz eines Agenten bewirken: Verbesserung der internen Repräsentation Optimierung bzw. Beschleunigung der Erledigung von Aufgaben. Erweiterung des Spektrums oder der Qualität der Aufgaben, die erledigt werden können. Beispiel

2 KI 1, WS 2002/03, Kapitel 8, 4. Juli Erweiterung und Anpassung des Lexikons eines computerlinguistischen System durch automatische Verarbeitung von geschrieben Sätzen, wobei der Inhalt dieses Sätze gleichzeitig automatisch erfasst werden sollte. Adaption von Gewichten einer Bewertungsfunktion in einem Zweipersonenspiel, wobei man abhängig von Gewinn/Verlust Gewichte verändert: Das wurde für Dame und Backgammon mit Erfolg durchgeführt. Lernen einer Klassifikation durch Vorgabe von Trainingsbeispielen, positiv/negativ Einordnung von Lernverfahren Die Struktur eines lernenden System kann man wie folgt beschreiben: Agent (ausführende Einheit, performance element). Dieser soll verbessert werden: d.h. etwas lernen. Lerneinheit (learning element). Hier wird der Lernvorgang gesteuert und bewertet: Insbesondere wird hier vorgegeben, was gut, was schlecht ist. Hier kann man auch die Bewertungseinheit (critic) und den Problemgenerator einordnen. Umwelt In der Umwelt soll agiert werden. Die Rückmeldung über den Ausgang bzw. den Effekt von Aktionen kommt aus dieser Umwelt. Das kann eine künstliche, modellhafte Umwelt oder auch die reale Umwelt sein. Zum Teil wird Agent und Lerneinheit zusammen in einen erweiterten Agent verlagert. Prinzipiell sollte man die Dinge unterscheiden, denn die Bewertung muss außerhalb des Agenten sein, sonst wäre die Möglichkeit gegeben, die Bewertung an die schlechten Aktionen anzupassen, statt die Aktionen zu verbessern. Folgende Lernmethoden werden unterschieden: überwachtes Lernen (supervised learning) Hier wird die Situation beschrieben, in der es einen allwissenden Lehrer gibt: die Lerneinheit kann dem Agenten bei jeder Aktion sagen, ob diese richtig war und was die richtige Aktion gewesen wäre. Das entspricht einem unmittelbaren Feedback über die exakt richtige Aktion. unüberwachtes Lernen (unsupervised learning) Ist der Gegensatz zum überwachten Lernen. Es gibt keine Hinweise, was richtig sein könnte. Damit Lernen möglich ist, braucht man in diesem Fall eine Bewertung der Güte der Aktion. Lernen durch Belohnung/Bestrafung (reinforcment learning) D.h. mit Zuckerbrot und Peitsche. Hiermit sollen Lernverfahren beschrieben werden, die gute Aktionen belohnen, schlechte bestrafen, d.h. Aktionen bewerten, aber die richtige Aktion nicht kennen bzw. verraten.

3 KI 1, WS 2002/03, Kapitel 8, 4. Juli Hier kann man die Lernverfahren noch unterscheiden nach der Vorgehensweise: inkrementell, alle Beispiel auf einmal. Oder nach den Rahmenbedigungen: Beispielwerte sind exakt / mit Fehlern behaftet es gibt positive bzw. positive und negative Beispiele 8.2 Entscheidungsbäume Zunächst führen wir den Begriff des Informationsgehalts ein, der von den Lernverfahren benötigt wird Entropie Wenn man eine diskrete Wahrscheinlichkeitsverteilung p i, i = 1,..., n hat, z.b. von Symbolen a i, i = 1,..., n, dann nennt man log 2 ( 1 p k ) den Informationsgehalt des Zeichens a k. Das kann man interpretieren als Grad der Überraschung beim Ziehen von Symbolen aus einer entsprechenden Urne, bzw. bei der Übermittlung von Zeichen durch einen Kommunikationskanal. D.h. das Auftreten eines seltenen Symbols hat einen hohen Informationsgehalt. Wenn man nur ein einziges Symbol hat, dann ist p 1 = 1, und der Informationsgehalt ist 0. Eine intuitive Erklärung des Informationsgehalts ist die Anzahl der Ja/Nein-Fragen, die man stellen muss, um die gleiche Information zu bekommen. Die Entropie oder der mittlere Informationsgehalt eines Symbols in der Wahrscheinlichkeitsverteilung wie oben kann dann berechnet werden als n p i log 2 ( 1 n ) = p i log p 2 (p i ). i i=1 Bei Kompressionen eines Files oder bei Kodierung von Nachrichten über einen Kanal ist das die minimale mittlere Anzahl von Bits pro Symbol, die man bei bester Kompression bzw Kodierung erreichen kann. Beispiel Nimmt man ein Bernoulli-Experiment, d.h. zwei Zeichen, K,Z wobei K mit der Wahrscheinlichkeit p und Z mit Wahrscheinlichkeit 1 p auftritt, dann ergibt sich in etwa die Kurve: i=1

4 KI 1, WS 2002/03, Kapitel 8, 4. Juli ,5 1 D.h. die Entropie (der Informationsgehalt eines Wurfs) ist maximal, wenn man das Zeichen nicht vorhersagen kann. Bei einer Wahrscheinlichkeit von p = 0, 9 kann man vorhersagen, dass K sehr oft auftritt Lernen von Entscheidungsbäumen In diesem Szenario betrachtet man Objekte, von denen man einige Eigenschaften (Attribute) kennt. Diese Eigenschaften kann man darstellen mit einer fest vorgegebenen Menge von Attributen. Definition Es gibt eine Menge A von Attributen. zu jedem Attribut a A gibt es eine Menge von möglichen Werten W a. Die Wertemengen seien entweder endlich, oder die reellen Zahlen. IR. Ein Objekt wird beschrieben durch eine Funktion A a A W a. Eine alternative Darstellung wäre ein Tupel mit A Einträgen, bzw. ein Record, in dem zu jedem Attribut a A, der Wert notiert wird. Ein Konzept K ist repräsentiert durch eine Boolesche Funktion P K auf der Menge der Objekte. D.h. ein Konzept entspricht einer Menge von Objekten, nämlich der Objekte o, für die P K (o) = True ergibt. Beispiel Bücher könnte man beschreiben durch die Attribute: Autor, Titel, Seitenzahl, Preis, Erscheinungsjahr. Das Konzept billiges Buch könnte man durch Preis 10 beschreiben. Das Konzept umfangreiches Buch durch Seitenzahl 500. Für die Lernverfahren nimmt man an, dass jedes Objekt zu jedem Attribut einen Wert hat, und der Wert unbekannt nicht vorkommt. Definition Ein Entscheidungsbaum zu einem Konzept K ist ein endlicher Baum, der an inneren Knoten zum Wert eines Attributes folgende Abfragen machen kann: p

5 KI 1, WS 2002/03, Kapitel 8, 4. Juli bei reellwertigen Attributen gibt es die Alternativen a v oder a > v für einen Wert v IR, Es gibt einen Teilbaum für Ja und einen für Nein. bei diskreten Attributen wird der exakte Wert abgefragt. Es gibt pro möglichem Attributwert einen Teilbaum Die Blätter des Baumes sind mit Ja oder Nein markiert. Das entspricht der Antwort auf die Frage, ob das eingegebene Objekte zum Konzept gehört oder nicht. Diskrete Attribute sollten pro Pfad im Baum nur einmal vorkommen, stetige Attribute können im Pfad mehrmals geprüft werden. D.h. ein Entscheidungsbaum B K ist die Darstellung eines Algorithmus zum Erkennen, ob ein vorgelegtes Objekt O zum Konzept K gehört. Jeder Entscheidungsbaum definiert ein Konzept auf den Objekten. Die Entscheidungsbäume sind so definiert, dass für jedes Objekt nach Durchlauf des Entscheidungsbaumes ein Blatt mit Ja oder Nein erreicht wird. Die Mengen der Objekte, bei denen der Pfad mit einem Ja endet, sind in diesem Konzept, die anderen Objekte nicht. Wenn es keine reellen Attribute gibt, kann man offenbar zu jedem Konzept einen Entscheidungsbaum angeben. Es ist aber klar, dass bei Verwendung von reellwertigen Attributen nicht jedes Konzept durch einen endlichen Entscheidungsbaum beschrieben werden kann. Beispiel Tiere könnte man durch folgenden Attribute beschreiben: Größe reell Gewicht reell Kann fliegen Boolesch Nahrung pflanzlich / tierisch / Allesfresser Körpertemperatur reell Für die Menge der Insekten könnte man aufgrund dieser Attribute einen Entscheidungsbaum hinschreiben, allerdings würden dann auch Nichtinsekten mit Ja klassifiziert. Es gibt verschiedene Algorithmen, die die Aufgabe lösen sollen, einen Entscheidungsbaum für ein Konzept zu lernen (einen guten Entscheidungsbaum zu erstellen), wobei man beispielsweise eine Menge von positiven Beispielen und eine Menge von negativen Beispielen vorgibt Lernverfahren ID3 und C4.5 Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es eine Menge von positiven Beispielen und eine Menge von negativen Beispielen für ein zu lernendes Konzept gibt. Für rein positive Beispielmengen funktioniert das Verfahren nicht.

6 KI 1, WS 2002/03, Kapitel 8, 4. Juli Wichtig für die Lernverfahren ist es, herauszufinden, welche Attribute für das Konzept irrelevant bzw. relevant sind. Nachdem ein Teil des Entscheidungsbaumes aufgebaut ist, prüfen die Lernverfahren die Relevanz weiterer Attribute bzw. Attributintervalle. Das Lernverfahren ID3 verwendet den Informationsgehalt der Attribute bezogen auf die Beispielmenge. Der Informationsgehalt entspricht der mittleren Anzahl der Ja/Nein-Fragen, um ein einzelnes Objekt einer Klasse zuzuordnen. Das Lernverfahren versucht herauszufinden, welche Frage den größten Informationsgewinn bringt, wobei man sich genau auf die in einem Entscheidungsbaum erlaubten Fragen beschränkt. Wir berechnen den Informationsgehalt der Frage, ob ein Beispiel positiv/negativ ist in der Menge aller positiven / negativen Beispiele ist, wenn p die Anzahl der positiven, n die Anzahl der negativen Beispiele für das Konzept ist, und man eine Gleichverteilung unter den Beispielen annimmt. D.h. wir nehmen an, dass die relative Häufigkeit die reale Verteilung widerspiegelt. p p + n log 2( p + n ) + n p p + n log 2( p + n n ) Hat man ein mehrwertiges Attribut a mit den Werten w 1,..., w n abgefragt, dann zerlegt sich die Menge M der Beispiele in die Mengen M i := {m M m(a) = w i }, wobei w i, i = 1,..., k die möglichen Werte des Attributes sind. Seien p i, n i für i = 1,..., k die jeweilige Anzahl positiver (negativer) Beispiele in M i, dann ergibt sich nach Abfragen des Attributs an Informationsgehalt (bzgl positiv/negativ), wobei I(M i ) der Informationsgehalt (bzgl positiv/negativ) der jeweiligen Menge M i ist. Es gilt Das ergibt: I(M a) = I(M i ) = I(M a) = k P (a = w i ) I(M i ) i=1 p i p i + n i log 2 ( p i + n i p i ) + n i p i + n i log 2 ( p i + n i n i ) k p i + n ( i p + n p i log p i + n 2 ( p i + n i ) + n i log i p i p i + n 2 ( p i + n ) i ) i n i i=1 Im Falle. dass M i = ist, nehmen wir an, dass der Beitrag zur Summe 0 ist. Um Fallunterscheidungen zu vermeiden, nehmen wir an, dass Produkte der Form 0 a log 2( b ) als 0 zählen. Das ist berechtigt, da der Grenzwert von 0 lim x 0 x log 2 (x) = 0 ist. ID3 startet mit einem leeren Baum und als Eingabe einer Menge von positiven und negativen Beispielen.

7 KI 1, WS 2002/03, Kapitel 8, 4. Juli Für jeden offenen Knoten werden die zugehörigen Beispiele berechnet. Dann wird jeweils das Attribut ausgewählt, das den größten Informationsgewinn bietet. D.h. dasjenige a, für das der Informationsgewinn I(M) I(M a) maximal ist. Der Baum wird dann um die entsprechenden Abfragen erweitert. Dies wird für die neuen offenen Knoten solange wiederholt, bis eine Abbruchbedingung eintritt. Die Beispielmengen an den neuen Knoten besteht nur aus denjenigen, die nach den bisher durchgeführten Abfragen auf dem Pfad die Tests bestanden haben. Ist der Informationsgehalt am Blatt 0, dann: Gibt es nur positive Beispiele, so wird das Blatt mit Ja markiert. Gibt es nur noch negative am Blatt, dann wird das Blatt mit Nein markiert. Gibt es keine Beispiele mehr, dann hat man beide Möglichkeiten: Ja bzw. Nein. Durch diese Vorgehensweise wird in keinem Ast ein diskretes Attribut zweimal abgefragt, da der Informationsgewinn 0 ist. Der Algorithmus basiert auf der Annahme, dass die vorgegebenen Beispiele repräsentativ sind. Beispiel Wir nehmen als einfaches überschaubares Beispiel Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, grün}. Das Konzept sei guter Apfel Es gibt vier Äpfel, {(süß, rot), (süß, grün), (sauer, rot), (sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade {(süß, rot), (süß, grün)} sind. Es ist offensichtlich, dass die guten genau die süßen Äpfel sind, und die Farbe egal ist. Das kann man auch nachrechnen, indem man den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Beispiel Wir erweitern das Beispiel der einfachen Äpfel um eine Apfelnummer. Der Einfachheit halber gehen die Nummern gehen von 1 bis 4. Es gibt vier Äpfel, {(1, süß, rot), (2, süß, grün), (3, sauer, rot), (4, sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade

8 KI 1, WS 2002/03, Kapitel 8, 4. Juli {(1, süß, rot), (2, süß, grün)} sind. Wir rechnen den Informationsgewinn der drei Attribut aus. Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Nach dem Testen des Attributs Nummer ergibt sich 1 log(1), somit insgesamt 0. Der Informationsgewinn ist ebenfalls maximal. Weiter unten werden wie sehen, dass der Informationsgewinn in diesen sinnlosen Fällen durch Normierung kleiner wird. Beispiel Wir nehmen als erweitertes Beispiel für Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, gelb, grün}. Das Konzept sei schmeckt-wie-er-aussieht. Es gibt sechs Kombinationen der Attribute: {(süß, rot), (süß, grün), (süß, gelb), (sauer, rot), (sauer, grün), (sauer, gelb)}. Wir geben als Beispiel die Menge {(süß, rot), (sauer, grün), (süß, gelb), (sauer, gelb)} vor. Wir berechnen den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen irgendeines Attributs ist: 4/6 log 2 (6/4) + 1/3log 2 (3) = Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt I(süss) = I(sauer) Die Gesamtinformation nach Abfrage des Attributs Geschmack ist: = d.h. Der Informationsgewinn ist null. Nach dem Testen des Attributes Farbe ergibt sich als I(grün) = I(rot) = 1, I(gelb) = 0. Die Gesamtinformation nach Abfrage der Farbe ist: 1/3 1+1/3 1 = 2/ D.h. man hat Information gewonnen. Im Endeffekt muss man bei diesem Beispiel doch beide Attribute abfragen Man kann das Verfahren auch für reellwertige Attribute verwenden, wobei man als Grenzabfrage > w? nur endlich viele Werte ausprobieren muss, die sich aus den Werten der entsprechenden Attribute in den Beispielen ergeben. Es ist klar, dass ein Konzept wie Fieber aus den aktuell gegebenen Temperaturen und der Klassifizierung Fieber j/n nur annähernd gelernt werden kann. Diese Methode ID3 funktioniert recht gut, aber wenn ein Attribut zuviele Ausprägungen hat, wird die Frage nach diesem Attribut bevorzugt, da es im Extremfall (Personalnummer. o.ä.) dazu kommen kann, dass die Mengen {m M m(a) = v} einelementig werden, und somit der Informationsgewinn maximal ist.

9 KI 1, WS 2002/03, Kapitel 8, 4. Juli C4.5 als verbesserte Variante von ID3 Das von Quinlan vorgeschlagene System C4.5 benutzt statt des Informationsgewinns einen normierten Informationsgewinn, wobei der obige Wert durch die Entropie des Attributs (d.h. der Verteilung bzgl. der Attributwerte) dividiert wird. Somit vergleicht man Attribute anhand Informationsgewinn Normierungsfaktor D.h. ( I(M) I(M a) ) Normierungsfaktor Das bewirkt, dass Attribute mit mehreren Werten nicht mehr bevorzugt werden, sondern fair mit den zweiwertigen Attributen verglichen werden. Ohne diese Normierung werden mehrwertige Attribute bevorzugt, da diese implizit mehrere Ja/Nein-Fragen stellen dürfen, während ein zweiwertiges Attribut nur einer Ja/Nein-Frage entspricht. Dieser Vorteil wird durch den Normierungsfaktor ausgeglichen, der den Informationsgewinn auf binäre Fragestellung normiert, d.h. dass ein man den Informationsgewinn durch ein Attribut mit 4 Werten durch 2 dividiert, da man 2 binäre Fragen dazu braucht. Der Normierungsfaktor für ein Attribut a mit den Werten w i, i = 1,..., k ist: 1 k 1 P (a = w i ) log 2 ( P (a = w i ) ) i=1 Bei einem Booleschen Attribut, das gleichverteilt ist, ergibt sich als Normierungsfaktor 0, 5 1+0, 5 1 = 1, während sich bei einem Attribut mit n Werten, die alle gleichverteilt sind, der Wert ergibt. 1 n 1 n log 2(n) = 1 log 2 (n) Durch diese Vorgehensweise wird die Personalnummer und auch die Apfelnummer als irrelevantes Attribut erkannt. Allerdings ist es besser, diese Attribute von vorneherein als irrelevant zu kennzeichnen. Beispiel Im Apfelbeispiel s.o. ergibt sich bei Hinzufügen eines Attributes Apfelnummer mit den Ausprägungen 1, 2, 3, 4, als Normierungsfaktor für Apfelnummer: = 0.5 Damit wird die Abfrage nach dem Geschmack vor der Apfelnummer bevorzugt.

10 KI 1, WS 2002/03, Kapitel 8, 4. Juli Übergeneralisierung (Overfitting) Tritt auf, wenn die Beispiele nicht repräsentativ sind, oder nicht ausreichend. Der Effekt ist, dass zwar die Beispiele richtig eingeordnet werden, aber der Entscheidungsbaum zu fein unterscheidet, nur weil die Beispiele (zufällig) bestimmte Regelmäßigkeiten aufweisen. Beispiel Will man eine Krankheit als Konzept definieren und beschreibt die Symptome als Attribute: Fieber: Temperatur, Flecken: j/n, Erbrechen: j/n, Durchfall: j/n, Dauer der krankheit: Zeit, Alter des Patienten, Geschlecht des Patienten,.... So kann es z.b. passieren, dass das Lernverfahren ein Konzept findet, dass Frauen zwischen 25 und 30 Jahren diese Krankheit nicht haben, nur weil es keine Beispiele dafür gibt. Abschneiden des Entscheidungsbaumes: Pruning Beheben kann man das dadurch, dass man ab einer gewissen Schranke den Entscheidungsbaum nicht weiter aufbaut, und den weiteren Aufbau an diesem Knoten stoppt: Abschneiden des Entscheidungsbaumes (Pruning) Wenn kein Attribut mehr einen guten Informationsgewinn bringt, dann besteht der Verdacht, dass alle weiteren Attribute eigentlich irrelevant sind, und man das Verfahren an dem Blatt stoppen sollte. Dies kann man bei bekannter Verteilung mittels eines statistischen Test abschätzen. Hierbei ist es i.a. so, dass an dem Blatt, an dem abgebrochen wird, noch positive und negative Beispiele gibt. Die Markierung des Knoten wählt man als Ja, wenn es signifikant mehr positive als negative Beispiel gibt, und als Nein, wenn es signifikant mehr negative als positive Beispiel gibt. Das ist natürlich nur sinnvoll, wenn man weiß, das es falsche Beispiele geben kann. Hat man verrauschte Daten, z.b. mit Messfehler behaftete Beispiele, dann ist Lernen von Entscheidungsbäumen mit Pruning die Methode der Wahl. 8.3 Induktives Lernen: Funktionen Das Lernen einer Funktion aus Funktionswerten soll als Standardbeispiel dienen, da man die meisten Lernverfahren auch als Lernen einer Funktion deuten kann. Auch das Lernen einer Mengenbeschreibung (eines Konzeptes) kann man als Lernen der charakteristischen Funktion ansehen. Bei reellen Funktionen ist dieses Problem mit der Approximation verwandt, für die es mehrere Methoden gibt: Polynome, Splines, usw. Eine Funktion f ist zu lernen, wobei wir den Definitions- und Wertebereich offen lassen. Ein Beispiel, Beobachtung ist ein Paar (x, f(x)) aus Argument und Funktionswert. Die Aufgabe des induktiven Lernens ist die Berechnung einer Funktion h, die die unbekannte Funktion f möglichst gut annähert, wobei man als Eingabe bzw als Wissen über die Funktion nur die Beispiele verwenden darf. Die Ausgabe des Lernverfahrens h nennt man Hypothese.

11 KI 1, WS 2002/03, Kapitel 8, 4. Juli Da es meistens mehrere (oft unendliche viele) denkbare Hypothesen h gibt, gibt es meist eine Bevorzugung von bestimmten Hypothesen. Diese Bevorzugung nennt man Vorwissen bzw. Vorurteil (engl: bias). Dies kann bei reellen Funktionen z.b. die Bevorzugung von Polynomen von möglichst kleinem Grad und dabei mit geringer Abweichung der h-werte von den Beispielwerten sein. Man unterscheidet die Beispiele oft noch in Trainingsmenge Testmenge Das wird oft so gemacht, dass man die bekannten Beispiele nach einem Schema zerlegt in Trainings- und Testmenge. Diese Partitionierung kann auch zufällig sein. Damit kann man verschiedene Lernverfahren vergleichen, oder die Stabilität eines Lernverfahrens abschätzen: Man macht mehrere Testläufe auf Basis von verschiedenen Trainingsmengen und vergleicht dann die Hypothese mit den Werten der jeweiligen Testmenge PAC-Lernen Eine theoretische Untersuchung zum Lernen und Lernbarkeit von Funktionen ist das sogenannte PAC-Lernen (probably almost correct-learning, Valiant), bei dem die Lernbarkeit bzw. die Komplexität des Lernens von Funktionen aus Folgen von Beispielwerten untersucht wird, wobei stochastische Methoden verwendet werden. Eine grundlegende Idee ist das zufällige Ziehen einer Trainingsund Testmenge aus der Menge der Beispiele. Vereinfacht kann man das PAC-Lernverfahren so beschreiben: Es gibt 0 < ε, δ < 1, ε die Genauigkeit, δ die Konfidenz. Ziel ist das Erlernen einer Funktion (eines Konzeptes) aufgrund einer Anzahl m von (zufälligen) Beispielen, so dass nur mit Wahrscheinlichkeit < δ der Fehler > ε ist. X sei Definitionsbereich von f. D eine Verteilung auf dem Definitionsbereich. Diese ist dem Lernverfahren nicht bekannt. Zudem ist die Verteilung statisch, d.h. sie ändert sich nicht. H die (endliche) Menge der möglichen Hypothesen. m die Anzahl der Beispiele in der Trainingsmenge. Es gibt einen Lehrer, der auf Anfrage m (zufällige) Beispiele vorgeben kann. Wir nehmen an, es gibt einen Test OK(.), der sagt, ob eine Hypothese mit einem Beispiel (x, f(x)) konsistent ist. Das kann z.b. Gleichheit sein, d.h. h(x) = f(x), oder eine Annäherung h(x) f(x) < d.

12 KI 1, WS 2002/03, Kapitel 8, 4. Juli Definition Eine Hypothese h ist konsistent mit m Beispielen (x i, f(x i )), wenn für alle i = 1,..., m: OK(h, x i, f(x i )) gilt. Der Fehler einer Hypothese h wird definiert als error(h) := P {x X OK(h, x, f(x))} Hier wird die Verteilung D angenommen. h ist annähernd korrekt, wenn error(h) < ε für das vorgegebene ε. Wir analysieren die Wahrscheinlichkeit für eine Hypothese h, die konsistent mit m zufällig gewählten Beispielen ist, aber einen zu großen Fehler hat: D.h. error( h) > ε. Die Wahrscheinlichkeit wird gemessen gegen die Verteilung D auf dem Definitionsbereich. Das Lernverfahren gibt normalerweise eine Hypothese aus, die konsistent mit m Beispielen ist, so dass hiermit die Güte bzw. der Fehler dieser Hypothese analysiert wird. Damit ist die Wahrscheinlichkeit, dass h ein Beispiel annähert : P {x X OK(h, x, f(x))} < 1 ε Da das Ziehen der Beispiele randomisiert ist, kann man Unabhängigkeit annehmen und erhält für die Wahrscheinlichkeit, dass h alle m Beispiele annähert, die Abschätzung: P ( h konsistent mit m Beispielen) < (1 ε) m Da es H schlechte Hypothesen h geben kann, erhält man: P (schlechte Hypothese) < H (1 ε) m Bzgl der Konfidenz δ für das Eintreten dieses Ereignisses soll gelten: dann ergibt sich für m: H (1 ε) m δ ln H + m ln(1 ε) ln(δ) Für kleine, positive ε gilt die Abschätzung ln(1 ε) < ε. Deshalb: m 1 ε (ln1 δ + ln H ) Diese Rechnung kann man auch rückwärts durchführen. Wenn ein Lernalgorithmus eine konsistente Hypothese h ausgibt, hat man bei m zufälligen Beispielen mit Wahrscheinlichkeit 1 δ eine Hypothese mit einem Fehler kleiner als ε.

13 KI 1, WS 2002/03, Kapitel 8, 4. Juli D.h. wenn man mehrere Läufe des Lernalgorithmus durchführt, hat man nur einen Anteil δ von Läufen, in denen eine Hypothese mit einem Fehler größer als ε ausgegeben wird. Die Formel sagt, dass man eine Anzahl Beispiele in O(ln H ) benötigt. D.h. eine wichtige Größe in der obigen Abschätzung ist H, die Größe des Hypothesenraumes. Dies kann auch sehr schlecht sein: Will man z.b. Boolesche Funktionen von {0, 1} n {0, 1} lernen, kann man als OK die Gleichheit nehmen, und als Hypothesenraum H Bool die Menge aller Booleschen Funktionen. Dann ist H Bool = 2 (2n), und damit muss m exponentiell groß sein, genauer O(2 n ). Die Menge aller Beispiele ist ebenfalls O(2 n ), so dass Lernen keinen echten Vorteil gegenüber dem Speichern der Beispiele bringt. Um gute Ergebnisse zu erzielen, benötigt man i.a. eine Einschränkung des Hypothesenraumes, damit die Kenntnis der m Beispielwerte überhaupt etwas über die gesuchte Funktion aussagt, das über die Information der Beispiele hinausgeht Lernen von Entscheidungslisten Eine Entscheidungsliste ist eine Liste von Konjunktionen, wobei jede Konjunktion aus Attribut-Tests der Form a = w? besteht. Gegeben ein Objekt o und eine Entscheidungsliste L. Dann ist L(o) = 1, wenn mindestens eine Konjunktion wahr (d.h. = 1) ist. Eine Entscheidungsliste entspricht einem logischen Ausdruck der aus Disjunktionen von Konjunktionen besteht. Er ist von der Abarbeitung her sequentiell im Gegensatz zu Entscheidungsbäumen, aber die Abfragen an den Knoten sind komplexer. Beispiel Eine Entscheidungstabelle für das Beispiel oder kleine, süße Äpfel ist: entweder große, 1. Größe = L? 2. Größe = S Geschmack = süß? Mit Entscheidungslisten kann man alle Mengen beschreiben, allerdings werden die Listen dann sehr lang. Eine Einschränkung sind die k-entscheidungslisten, bei denen die Konjunktionen maximal k Einzelabfragen enthalten dürfen. Um die Abschätzung der Anzahl notwendiger Beispiele zum Erreichen einer hinreichenden Konfidenz des PAC-Lernens auf k-entscheidungslisten anzuwenden, müssen wir nur die Anzahl der Entscheidungslisten abschätzen. Wir nehmen an, dass es n Attribute mit jeweils maximal h Werten gibt. Es gibt maximal n h + 2 (n h) (n h) k Konjunktionen. Das sind

14 KI 1, WS 2002/03, Kapitel 8, 4. Juli O((n h) k ). Die Anzahl der Entscheidungslisten kann man nach oben abschätzen durch: 2 O((n h)k) O((n h) k )! Da in der PAC-Formel nur der Logarithmus vorkommt, können wir logarithmieren. Wir nutzen x! x x aus und erhalten als obere Abschätzung für den lnder Anzahl der k-entscheidungslisten: O((n h) k ) + O((n h) k ln(n h) k ) = O((n h) k ln((n h) k )) Damit ergibt sich bei Fehlerschranke ε und Konfidenz δ als Anzahl der benötigten Beispiele: m 1 (ln ε 1 ) δ + O((n h)k ln((n h) k )) D.h. die Anzahl der notwendigen Beispiele ist polynomiell. 8.4 Lernen von Konzepten einer Konzeptbeschreibungssprache Der allgemeine Fall in dieser Lernaufgabe sieht so aus: Man hat eine Objektbeschreibungssprache, in der Objekte beschrieben werden. Man hat eine Konzeptbeschreibungssprache, deren Ausdrücke (Konzepte) als Semantik eine Menge von Objekten haben. Gegeben ist eine Menge von Objekten (Beispielmenge), wobei man positive und negative Beispiele haben kann. Oder eine Folge von Beispielen oder einen Lehrer, der auf Anfrage Beispiele präsentiert. Gesucht ist ein Konzept, das die Beispielmenge repräsentiert und möglichst einfach ist Online-Lernen Diese Lernmethode ist ein überwachtes, inkrementelles, Lernverfahren, bei dem ein Konzept gelernt werden soll. Es gibt einen Dialog zwischen Lernalgorithmus und Lehrer. Man nimmt an, dass die Sprache der Objekte vorgegeben ist, ebenso die Sprache der Konzepte (= potentielle Hypothesen). Das Verfahren zum Lernen eines vorgegebenen Konzeptes K besteht aus mehreren Runden. In jeder Runde präsentiert der Lernalgorithmus seine Hypothese H, beim erstenmal irgendeine Hypothese. Der Lehrer gibt daraufhin, falls die Hypothese

15 KI 1, WS 2002/03, Kapitel 8, 4. Juli H dem Konzept K nicht entspricht, ein Gegenbeispiel an, d.h. ein Objekt aus H K = (H \ K) (K \ H), der symmetrischen Differenz von H und K. Wenn es keine Gegenbeispiele mehr gibt, ist das Lernen erfolgreich beendet. Normalerweise kann es vier Arten von Beispielen geben: 1. Beispiel ist schon im Hypothesenkonzept. 2. Beispiel ist im Hypothesenkonzept, nicht im zu lernenden Konzept K 3. Beispiel ist nicht im Hypothesenkonzept, aber in K 4. Beispiel ist nicht im Hypothesenkonzept, auch nicht in K. Beispieltypen 2. und 3. sind hilfreich, während 1. und 4. bestätigend sind und keine Aktion beim inkrementellen Lernen erfordern. Zur Illustration nehmen wir folgendes an: Die Objekte sind durch n Boolesche Attribute beschrieben. D.h. jedes Objekt entspricht einem binären Tupel der Länge n. Varianten für Konzeptsprachen sind: 1. Es gibt n primitive Konzepte P 1,..., P n, die Konzeptsprache besteht aus P i, P i (Komplemente), und allen Schnitten dieser Konzepte (Monome). Dies entspricht einer Grundmenge der binären Tupel der Länge n, die Hypothesen entsprechen den Monomen, (z.b. P 1 P 2 P 4 ) die aus Konjunktionen von Literalen bestehen. 2. Wie 1, nur sind Komplemente verboten: (monotone Monome). 3. Alle aussagenlogischen Formeln der n primitiven Konzepte. 4. Alle positiven aussagenlogischen Formeln der n primitiven Konzepte. Die (hilfreichen) Gegenbeispiele in H K = (H \ K) (K \ H) kann man in positive Gegenbeispiele K \ H und negative Gegenbeispiele H \ K unterscheiden. Die hier interessierende Fragestellung ist die nach der Anzahl der Runden, bzw. Anzahl der Gegenbeispiele, die der Lehrer angeben muss, bis das Konzept gelernt ist. Aussage Die maximale Anzahl benötigter Gegenbeispiele beim optimalen Lernen ist: Für die Monom-Klasse mit n primitiven Konzepten: n + 1. Für die Menge der aussagenlogischen Formeln: 2 n. Das entspricht dem Lernen einer beliebigen Menge in {0, 1} n : da jede Menge als Konzept erlaubt ist, muss man für jedes der 2 n Element sagen, ob es dazu gehört oder nicht. Das optimale, inkrementelle Verfahren funktioniert folgendermaßen:

16 KI 1, WS 2002/03, Kapitel 8, 4. Juli Lernverfahren gibt Hypothese P 1 P 1 aus. (ist leer) 2. Lehrer präsentiert Gegenbeispiel, das man als binäres n-tupel angeben kann. Eine 1 an der i-ten Stelle entspricht der Angabe: Objekt ist im Konzept P i, eine 0 bedeutet ist nicht im Konzept P i. 3. Lernverfahren gibt als Hypothese einen Schnitt von n Literalen aus. Das entspricht dem kleinsten Konzept, das genau dieses Objekt enthält. 4. Falls K H: Lehrer präsentiert Gegenbeispiel. Ansonsten akzeptiert der Lehrer die Hypothese H. 5. Das Lernverfahren eliminiert mindestens ein Literal aus dem aktuellen Hypothese entsprechend dem Gegenbeispiel, so dass eine minimale Hypothese erzeugt wird und gibt die neue Hypothese aus. Danach weiter mit 4. Das vom Lehrer präsentierte Gegenbeispiel muss ein positives sein, denn das Lernverfahren versucht möglichst Hypothesen mit minimalen Objektmengen zu erzeugen Konzeptlernen über Objekten mit mehrwertigen Attributen Ein etwas allgemeinerer Fall des Konzeptlernen ist, dass Objekte durch diskrete Attribute und deren Werte beschrieben werden, und die Konzeptsprache noch Subsumtionsalgorithmen (d.h. Alg. für Teilmengenbeziehungen) auf den Konzeptbeschreibungen hat. Man nennt die inkrementellen Lernverfahren in diesem Szenario auch Versionenraum-Lernverfahren. Wir betrachten jetzt eine einfache Konzeptsprache, die neben den Attributwerten noch? zulässt. Das entspricht primitiven Konzepten der Form a i = w i, und deren Schnitten (keine Komplemente). Zusätzlich erlaubt man noch als Zeichen für das leere Konzept. Im Apfelbeispiel wäre dann F arbe =?, Geschmack = sauer das Konzept, dessen Semantik die Menge der Objekte ist, die alle sauren Äpfel unabhängig von deren Farbe enthält. Auf den Konzepten ist eine Ordnung definiert, die Spezialisierung bzw. Generalisierung ausdrückt. z.b. gilt < Farbe =?, Geschmack = sauer < Farbe =?, Geschmack =? Diese Ordnung ist i.a. nicht linear. I.a. sind die Lernverfahren zur Erzeugung eines Konzepts darauf ausgelegt, inkrementell zu arbeiten. Das Versionenraum-Lernverfahren ist inkrementell, und hat als Zustand die Menge der Hypothesen, die konsistent mit den bisher gesehenen Beispielen sind: {H Hist konsistent mit bisherigen Beispielen}

17 KI 1, WS 2002/03, Kapitel 8, 4. Juli Dies nennt man auch den Versionenraum. D.h. die gesehenen Beispiele werden vergessen. Eine kompaktere Repräsentation des Versionenraums ist die Angabe der unteren S und oberen Grenzen G des Versionenraums, der speziellsten Hypothesen und der allgemeinsten Hypothesen. Wenn S = {S 1,..., S n } und G = {G 1,..., G m }, dann ist der Versionenraum genau: {H i, j : S i H G j }. Bei Eingabe eines neuen Beispiels werden die Mengen S und G neu berechnet. Man kann die Mengen G, S minimieren, wenn man die Bedingung prüft, ob zu jedem G i noch ein S j existiert mit S j G i. Auch umgekehrt ist zu testen, allerdings ist dieser Fall praktisch kaum relevant. Wenn S = G und S, G einelementig sind, war das Verfahren erfolgreich. Im Falle der?-konzepte kann man die Menge S immer einelementig halten: Man startet mit, dann mit dem jeweils kleinsten Hypothese, die alle positiven Beispiele enthält. Bei einem neuen Gegenbeispiel wird eine Hypothese berechnet, die allgemeiner als die alte Hypothese ist, und gerade noch dieses Beispiel enthält. Die Menge G kann mehrere Elemente enthalten, im Extremfall exponentiell viele. In diesem Fall ist es einfacher und effizienter, sich die (negativen) Beispiele zu speichern. Ein negatives Gegenbeispiel zu S führt zu einem Abbruch des Verfahrens, da das nur bedeuten kann: es gibt falsch klassifizierte Beispiele, oder die Konzeptsprache ist nicht ausdrucksstark genug. Beispiel Betrachte die Äpfel-Konzepte: Attribute und Werte seien: Geschmack süß, sauer Farbe rot, gelb, grün Herkunft Deutschland, Italien, Argentinien Größe S,M,L Gelernt werden soll das Konzept: große (L), süße Äpfel. 1. Hypothese = Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Italien, L. 3. S = süß,?, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G =?,?,?,?. Alternativer Ablauf:

18 KI 1, WS 2002/03, Kapitel 8, 4. Juli Hypothese = positives Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G = {?,?,?,? }. negatives Beispiel: süß, gelb, Argentinien, S. 3. S = süß, rot, Italien, L, Kandidaten für G: sauer,?,?,?,?, rot,?,?,?, grün,?,?,?,?, Deutschland,?,?,?, Italien,?,?,?,?, M,?,?,?, L. Davon bleiben wegen der Bedingung S G i : G = {?, rot,?,?,?,?, Italien,?,?,?,?, L }. positives Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G = {?,?,?, L }. negatives Beispiel: sauer, rot, Deutschland, L. 5. Unter Beachtung der Bedingungen ergibt sich jetzt ein neues G = { süß,?,?, L }. Da S = G 1, ist das Konzept gefunden Batchverfahren zum Erzeugen einer Hypothese Hat man eine Menge von positiven und negativen Beispielen, dann kann man direkt eine minimale Hypothese konstruieren, die alle positiven Beispiele enthält, und kein negatives: Erzeugung eines Konzepts als Hypothese Für jedes Attribut a: Haben alle positiven Beispiele genau die Ausprägung w a, dann gilt für das allgemeine Konzept K min : a = w a. Hat das Attribut a zwei verschiedene Ausprägungen in der Menge der positiven Beispiele, dann hat das allgemeine Konzept die Ausprägung?. Damit hat man eine minimale Hypothese konstruiert, die alle positiven Beispiele enthält. Nun ist die Hypothese gegen die negativen Beispiele zu testen, Enthält die Hypothese ein negatives Beispiel, dann ergibt sich ein Fehler: Entweder sind die Beispiele inkonsistent, oder die aktuelle Konzeptsprache ist nicht ausdrucksstark genug. Das zu lernende Konzept kann allgemeiner als K min sein. Man kann versuchen, attributweise allgemeinere Konzepte zu erzeugen, indem man z.b.

19 KI 1, WS 2002/03, Kapitel 8, 4. Juli K min,1,... K min,n aus K min erzeugt, indem man jeweils das i-te Attribut, falls es nicht schon? ist, auf? setzt. Danach kann man wieder gegen die Menge der negativen Beispiele testen. Verallgemeinerungen der Konzeptsprachen Eine ausdrucksstärkere Konzeptsprache ist: Erlaube a = M a für Attribute a, wobei M a eine Teilmenge der möglichen Ausprägungen von a ist ist. Damit kann man Quader im Objektraum erzeugen. Diese Sprache nennen wir Quader-Konzepte. Erlaube Disjunktionen der Quader-Konzepte. Damit kann man bereits alle Konzepte darstellen, wenn die Menge der Attribute und Ausprägungen endlich ist. Erzeugung eines Konzepts als Hypothese: Variante Wir geben ein alternatives Verfahren zum Erzeugen einer Hypothese an. Die Suchrichtung sei jetzt allgemein nach speziell. Damit man etwas sinnvolles machen kann, erlauben wir die Quader-Konzept- Sprache: Starte mit dem allgemeinsten Konzept?,...,?. Wenn es negative Beispiele gibt, dann erzeuge alle Konzepte :?,...,?, M i,?,...,? wobei M i alle Mengen durchläuft, die zum Attribut a i genau einen Attributwert nicht enthalten. Danach teste, welche K alle positiven Beispiele enthalten. Setzt man dieses Verfahren fort, dann erhält man schließlich Konzepte, die alle positiven Beispiele enthalten, aber kein negatives Beispiel. Leider ist dieses Verfahren exponentiell, da die Menge der zu betrachtenden Konzepte sehr schnell ansteigt. Die Gefahr der Übergeneralisierung (overfitting) ist bei dieser Konzeptsprache sehr hoch, da sich durch die Allgemeinheit der Quaderkonzepte die Hypothese zu sehr an der aktuellen Menge der Beispiele orientiert Diskussion Die Wahl einer Konzeptbeschreibungssprache kann das Lernverfahren sehr stark beeinflussen. Diese Wahl gehört zum Vorwissen bzw. Vorurteil (Bias) über die Umgebung. Eigentlich müsste auch die Konzeptbeschreibungssprache erst aufgrund der Beispiele gelernt werden. Probleme mit der Versionenraum-Methode sind: sie kann nicht mit verrauschten Daten umgehen.

20 KI 1, WS 2002/03, Kapitel 8, 4. Juli erlaubt man eine zu ausdrucksstarke Konzeptbeschreibungssprache, dann erhält man meist eine zu genaue Beschreibung der Beispiele, und keine Generalisierung. 8.5 Lernen in Künstlichen Neuronalen Netzen Berechnung in einem künstlichen neuronalen Netz geschieht nach folgendem Muster: Es gibt Berechnungelemente (die Neuronen); diese haben mehrere reellwertige Eingänge, und eine reelle Ausgangsaktivierung, die anderen Neuronen als Eingang dient oder eine Ausgabe ist. Das Ergebnis der Berechnung ist die Aktivierung des Ausgangs. Zunächst eine schematische Darstellung einer Nervenzelle (Neuron) Schematische Nervenzelle (Neuron) Dendriten Axon Synapsen Dendriten Die Erregung fließt im Bild von links nach rechts. Die Dendriten links gehören zu verschiedenen anderen Nervenzellen. Wenn die (elektrische) Erregung in der Nervenzelle durch die anliegenden Erregungen der Dendriten, evtl. gedämpft bzw verstärkt durch die Synapsen in der Zelle ein bestimmtes Maß überschreitet, dann feuert die Nervenzelle, d.h. gibt die Erregung über ihr Axon an die Dendriten und somit an andere Nervenzellen weiter. Ein künstliches Neuron kann man beschreiben als: g( j (W j a j )) g ist die Aktivierungsfunktion; sie ist (bis auf eine additive Konstante) die gleiche für alle Neuronen eines Netzwerks. W j sind die privaten Gewichte des Neurons (reellwertig). a j sind die Eingangsaktivierungen.

21 KI 1, WS 2002/03, Kapitel 8, 4. Juli a 1 W 1 W n Σw i a i ; g a n Es gibt verschiedene Aktivierungsfunktionen g, die man verwenden kann. { 1 x t Schwellenwertfunktion: g(x) = 0 x < t { 1 x t Signum-Funktion: g(x) = 1 x < t Sigmoid-Funktion: g(x) = e x Durch Hinzufügen einer additiven Konstante W 0 pro Neuron kann man erreichen, dass die Aktivierungsfunktionen für alle Neuronen eines Netzes identisch sind Schwelle Sigmoid Für einfache Berechnungen reicht die Schwellenwertfunktion aus, während bei komplexeren Lernverfahren die Sigmoid-Funktion (oder eine ähnliche) geeignet ist, denn die Ableitung wird benötigt. Privat für jedes Neuron sind: Die Gewichte für die Eingänge.

22 KI 1, WS 2002/03, Kapitel 8, 4. Juli Die Herkunft der Eingänge: das kann eine Eingabe ins Netz sein oder der Ausgang eines anderen Neurons. Die Weitergabe der Aktivierung: kann Ausgabe des Netzes sein oder Eingang in andere Neuronen. Man kann damit bereits einfache Boolesche Gatter modellieren, ebenso Boolesche Schaltnetze: Dazu nehmen wir als Aktivierung genau 0 oder 1 an. AND zwei Eingänge x{ 1, x 2, Gewichte W 1 = W 2 = 1, W 0 = 1.5 Schwelle = 0. 1 x1 + x D.h. Ausgang = x 1 + x < 0 OR zwei Eingänge x 1,{ x 2, Gewichte W 1 = W 2 = 1, W 0 = 0.5, Schwelle = 0. 1 x1 + x D.h. Ausgang = x 1 + x < 0 NOT ein Eingang x 1,{ Gewicht W 1 = 0.5, W 0 = 0, Schwelle = x1 0 D.h. Ausgang = 0 0.5x 1 < 0 Durch Zusammenschaltung kann man beliebige Boolesche Schaltnetze erhalten, wobei man mehrere Eingänge haben kann, und bei Booleschen Funktionen einen Ausgang oder mehrere Ausgänge. Netzwerkstrukturen Künstliche neuronale Netzwerke sind gerichtete Graphen und haben (evtl. mehrere) Eingänge und Ausgänge, wobei die Knoten jeweils künstliche Neuronen sind. Wenn das Netzwerk zyklenfrei ist, dann nennt man es auch feed-forward (Schaltnetz); wenn es Zyklen enthält, dann nennt man es auch recurrent. Wir betrachten in diesem Abschnitt nur zyklenfreie und auch nicht zeitabhängige Netze, damit die Betrachtung einfacher wird. Neuronen, die mit einem Eingang verbunden sind, nennt man Input-Units (Eingangs-Neuronen), solche die mit einem Ausgang verbunden sind Output- Units, innere Neuronen nennt man hidden units. Die Eingangsneuronen geben ihre Aktivierung unverändert weiter. Netzwerke ohne innere Neuronen nennt man Perzeptrons. Man kann Schaltnetze auch als (Mehrschichten) Multi-Layer Netzwerke strukturieren.

23 KI 1, WS 2002/03, Kapitel 8, 4. Juli Berechnungen eines Netzes finden statt durch Eingabe von Werten in die Eingänge. Jedes Neuron berechnet dann seinerseits seine Aktivierung und gibt diese Aktivierung weiter. Die Berechnungen warten jeweils, bis alle Eingangswerte von Neuronen vorliegen. Am Ende kann man die Ausgaben an den Ausgangsneuronen ablesen. Da es keine Zyklen gibt, ist diese Berechnung definiert. Die Berechnung kann im Prinzip parallel erfolgen. solange die Bedingung des Wartens auf berechnete Werte erfüllt wird. Sind Gewichte auf Kanten = 0, dann kann man das auch als fehlende Verbindung werten Perzeptron (Minsky und Papert 1969) Wie oben gesagt, besteht ein Perzeptron nur aus zwei Schichten, die erste Schicht ist die der Eingangs-Neuronen, die zweite die der Ausgangs-Neuronen, und diese sind direkt verbunden, wobei allerdings die Gewichte einiges an Flexibilität erlauben. Um die Prinzipien und Fähigkeiten von Perzeptronen zu untersuchen, reicht es aus, genau ein Ausgangsneuron zu betrachten, da alle Ausgänge unabhängig voneinander sind. Weiterhin reicht es aus, als Aktivierungsfunktion eine Schwellenwertfunktion zu betrachten. Es geht nur ein rechnendes Neuron ein. Wie oben schon erwähnt, kann man beim Rechnen mit Schwellenwert- (Threshold)-Funktionen die Schwelle t auf 0 setzen, und muss dazu ein Gewicht W 0 einführen. Dieses Gewicht verbindet man mit einer extra Eingabe, die immer den Wert 1 (manchmal auch 1) hat. Ein Perzeptron hat als Ausgang: O = schwelle( n (W j I j )) wobei I j die Eingangswerte und O der Ausgabewert ist. Leider sind Perzeptrons in ihrer Ausdruckskraft doch beschränkt: Sie können nur linear trennbare Mengen von Eingängen unterscheiden. Ein Perzeptron kann ja als Ausgang nur 0 oder 1 haben, wenn die Eingänge entsprechend sind. Da die Unterscheidung nur danach geht, ob die (lineare) gewichtete Summe n j=0 j=0 (W j I j ) der Eingänge, über oder unter einem Schwellenwert liegt, kann man nicht beliebige Eingangsvekor-Mengen trennen. Im n- dimensionalen Raum müssen sich die guten und schlechten Punkte durch eine Hyperebene trennen lassen. Diese Hyperebene wird durch die Gleichung n (W j x j ) beschrieben. Z.B. kann die Funktion XOR nicht mit einem Perzep- j=0 tron dargestellt werden. Für Netzwerke mit Hidden Units ist das allerdings kein Problem: es können z.b alle Booleschen Funktionen dargestellt werden.

24 KI 1, WS 2002/03, Kapitel 8, 4. Juli Lernen von Linear Trennbaren Mengen/Funktionen durch ein Perzeptron. Das Vorgehen ist ein Batch-Lernverfahren. Es gibt eine Menge von (positiven und negativen) bereits klassifizierten Beispielen. Die Gewichte werden in mehreren Schritten adaptiert, wobei man jeweils das aktuelle Perzeptron verwendet, und die Beispiele damit klassifiziert, und aufgrund des gemachten Fehlers die Gewichte ändert. Der Start erfolgt mit zufälligen Gewichten (man kann auch mit 0 starten). Man iteriert folgenden Schritt: Wähle ein klassifiziertes Beispiel aus der Menge der vorgegebenen Beispiele. Berechne O als die Ausgabe des aktuellen Perzeptrons. Sei Err = T O der Fehler, wobei T der korrekte Wert sei. (Das kann man auf die Werte { 1, 0, 1} beschränken). Berechne neue Gewichte durch Hierbei ist α die Lernrate. W j := W j + α I j Err Es gilt, dass ein Perzeptron mit n Eingängen jede linear trennbare Menge von n Vektoren lernen kann. Dazu muss die Lernrate klein genug gewählt sein. Beispiel Wir illustrieren das Lernverfahren durch Anwendung auf die Konjunktion von drei Eingaben: a, b, c: D.h. lerne a b c. Die negativen Beispiele seien {(1, 0, 0), (0, 1, 1), (0, 0, 1)}, die positiven Beispiele seien {(1, 1, 1)}. Wir starten mit Gewichten 0, Schwellenwert 1und lassen das Gewicht W 0 weg. Die Lernrate sei α = 0.3. Gewichte Beispiel Wert Klassifikation Error 0,0,0 (1, 0, 0) ,0,0 (1, 1, 1) (0, 0, 1) (1, 1, 1) (0, 1, 1) (1, 1, 1) (0, 1, 1) Man hat bei dem Beispiel den Eindruck, dass man die Lernrate hätte kleiner wählen sollen, oder variabel. Beispiel Lernen der Disjunktion von drei Eingaben: a, b, c: D.h. lerne a b c. Die positiven Beispiele seien {(1, 1, 0), (0, 1, 1), (0, 0, 1)}, die negativen

25 KI 1, WS 2002/03, Kapitel 8, 4. Juli Beispiele seien {(0, 0, 0)}. Wir benutzen die Schwelle 0 und stattdessen einen extra Eingang, der immer den Wert 1 hat, und lassen dessen Gewicht variabel sein. Wir starten mit Gewichten 0.1, 0.1, 0.1, 0.1, und Schwellenwert 0. D.h. die aktuelle Schwelle ist konstant = 0. Die Lernrate sei α = 0.2. Gewichte Beispiel Wert Ausgabe a b c Err 0.1,-0.1,-0.1,-0.1 (1, 0, 0, 1) ,-0.1,-0.1,-0.1 (1, 0, 0, 0) ,-0.1,-0.1,-0.1 (1, 0, 0, 1) ,-0.1,-0.1,0.1 (1, 0, 0, 1) ,-0.1,-0.1,0.1 (1, 1, 1, 0) , 0.1, 0.1,0.1 (1, 0, 0, 0) , 0.1, 0.1,0.1 (1, 0, 0, 0) , 0.1, 0.1,0.1 Dieses Lernverfahren kann man als Gradientenabstieg im Raum der Gewichte ansehen. Für ein Beispiel I 1,..., I n ist die Funktion I i w i. Deren Gradient ist w ( I i w i ) = (I 1,..., I n ), so dass die Richtung gerade durch die Beispieleingabe selbst definiert wird. Durch die Angabe des Fehlers weiß man auch ob ein Maximum oder Minimum zu erreichen ist. Die Schrittweite wird durch die Lernrate festgelegt. In der Computational Learning Theorie gibt es Untersuchungen zur Geschwindigkeit und Effizienz des Lernens von Perzeptrons Mehrschichtige Feed-Forward-Netze Die Netze haben jetzt innere Knoten, die Wirkung der Eingaben geht über mehrere Berechnungsebenen, so dass der Einfluss der Gewichtsveränderungen auf die Ausgaben nicht mehr so einfach wie beim Perzeptron ist. Ein verbreitetes Lernverfahren (auch Training genannt) ist sogenanntes Backpropagation Lernen, bei dem der aufgetretene Fehler rückwärts durch das Netz propagiert wird, um Gewichte abzuändern. Das Vorgehen ist ähnlich zum Perzeptron-Lernverfahren: Es gibt eine Menge von bereits klassifizierten Beispielen, die mehrfach in ein aktuell adaptiertes Netz eingespielt werden. Die berechneten Ergebnisse werden mit den gewünschten Ergebnissen verglichen und führen dann zu entsprechenden Abänderungen. Lernregel für einen Ausgabeknoten i wobei: W j,i := W j,i + α a j Err i g (in i ) W j,i ist das Gewicht zum Link j des Knotens i. a j ist die Aktivierung auf Link j (die evtl. von einer Hidden-Unit kommt).

26 KI 1, WS 2002/03, Kapitel 8, 4. Juli Err i = T i O i : Differenz zwischen der korrekten Ausgabe T i und dem Ergebnis O i. (T i ) ist bekannt, da es eine Ausgabe ist. g ist die Ableitung der Aktivierungsfunktion. Hier nimmt man keine Schwellenfunktion, sondern eine andere, die differenzierbar ist, z.b. gilt 1 für die Sigmoid-Funktion g(x) = 1 + e x, dass g (x) = g (1 g). in i ist die gewichtete Gesamteingabe in Knoten i: d.h. j W j,i a j. Wir definieren die Abkürzung i := Err i g (in i ). Das Verfahren kann man dann auch für die Hidden-Units verwenden. Allerdings benötigt man noch einen Fehler der Hidden-Units, die aber nicht (wie bei den Ausgabeknoten) von einem Lehrer bzw. von einem bekannten Beispiel kommen kann. Man benutzt als Hypothese eine Fehlerfortpflanzung, die rückwärts geht: j := g (in j ) i W j,i i Die Update-Regel wird zu: W k,j := W k,j + α I k j Leider sind Beispiele von Hand etwas schwierig auszuführen. Die unerwünschten Effekte sind z.b., dass Fehler nur über Links rückwärts propagiert werden, die mit Gewicht 0 eingehen. Oder dass die Gewichte nicht konvergieren und nur hin- und herspringen. Ein Problem stellt auch die Symmetrie dar, denn das Verfahren ist ohne Eingriff von außen bzw. ohne eine zufällige Komponente nicht fähig, die Symmetrie zu brechen. D.h. beginnt man mit gleichen Gewichten, und ein gutes Netz ist ein asymmetrisches, dann hat das Verfahren Probleme, diese Asymmetrie zu erreichen, da die Fehlerpropagierung deterministisch ist. Im folgenden ein Versuch, ein Beispiel zu rechnen. Das soll nicht bedeuten, dass man das von Hand versuchen soll. Beispiel Für das Beispiel machen wir folgende Annahmen, damit alles zusammenpasst: Die Gewichte seien 0, wobei 0 bedeutet, dass es keine Verbindung gibt. Die Eingabe zum Gewicht W 0 wird stets als 1 angenommen, damit man einen positiven Schwellenwert hat. Wir wenden das Verfahren an, um das XOR zu lernen, wobei wir ein Netzwerk annehmen mit eine inneren Neuron (hidden unit). Als Netzwerk wählen wir

Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen

Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen

Mehr

8.1 Einführung: Maschinelles Lernen

8.1 Einführung: Maschinelles Lernen Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen

Mehr

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele Einführung Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Direkte Programmierung eines intelligenten Agenten nicht möglich (bisher) Daher benötigt:

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen PD Dr. David Sabel SoSe 2014 Stand der Folien: 24. Juni 2014 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Neuronale Netze (Konnektionismus)

Neuronale Netze (Konnektionismus) Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Grundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen

Grundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen Kapitel 4:. Motivation 2. Lernmodelle Teil I 2.. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze. Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele Einführung Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen PD Dr. David Sabel SoSe 2014 Direkte Programmierung eines intelligenten Agenten nicht möglich (bisher) Daher benötigt:

Mehr

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Perzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004

Perzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004 Perzeptronen Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004 1/25 Gliederung Vorbilder Neuron McCulloch-Pitts-Netze Perzeptron

Mehr

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) 6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese

Mehr

Online Lernen: Die Themen

Online Lernen: Die Themen Online Lernen: Die Themen (a) Das Online-Spiel: In jeder Runde präsentiert ein Lehrer ein Beispiel, das ein Schüler klassifiziert. Nach wie vielen Runden hat der Schüler das unbekannte Zielkonzept gelernt?

Mehr

Künstliche Neuronale Netze

Künstliche Neuronale Netze Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany),

Lernen mit Queries. Hans Kleine Büning Institut für Informatik, Universität Paderborn Paderborn (Germany), Lernen mit Queries Hans Kleine Büning Institut für Informatik, Universität Paderborn 33095 Paderborn (Germany), E-mail: kbcsl @upb.de November 2007 1 Einführung In diesem Abschnitt beschreiben wir kurz,

Mehr

11. Übung Knowledge Discovery

11. Übung Knowledge Discovery Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Informatik II, SS 2016

Informatik II, SS 2016 Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 22 (20.7.2016) Greedy Algorithmen - Datenkompression Algorithmen und Komplexität Greedy Algorithmen Greedy Algorithmen sind eine Algorithmenmethode,

Mehr

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1 Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze 2.04.2006 Reinhard Eck Was reizt Informatiker an neuronalen Netzen? Wie funktionieren Gehirne höherer Lebewesen?

Mehr

Mathematischen Grundlagen und Notationen

Mathematischen Grundlagen und Notationen Mathematischen Grundlagen und Notationen Susanne Schimpf Juni 008 Es geht in dieser Lerneinheit darum, mathematische Notationen besser zu verstehen und auch selbst korrekt zu benutzen. Außerdem sollen

Mehr

Teil 1 Gleichungen und Ungleichungen

Teil 1 Gleichungen und Ungleichungen Teil 1 Gleichungen und Ungleichungen Gleichungen Eine mathematische Gleichung ist eine logische Aussage über die Gleichheit von Termen. Das, was links vom Gleichheitszeichen (=) steht, hat den gleichen

Mehr

Automatische Spracherkennung

Automatische Spracherkennung Automatische Spracherkennung 3 Vertiefung: Drei wichtige Algorithmen Teil 3 Soweit vorhanden ist der jeweils englische Fachbegriff, so wie er in der Fachliteratur verwendet wird, in Klammern angegeben.

Mehr

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)

Mehr

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit A Analysis, Woche 9 Mehrdimensionale Differentialrechnung I A 9. Differenzierbarkeit A3 =. (9.) Definition 9. Sei U R m offen, f : U R n eine Funktion und a R m. Die Funktion f heißt differenzierbar in

Mehr

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff Adaptive Systeme Mehrere Neuronen, Assoziative Speicher und Mustererkennung Prof. Dr. rer. nat. Nikolaus Wulff Modell eines Neuron x x 2 x 3. y y= k = n w k x k x n Die n binären Eingangssignale x k {,}

Mehr

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14. Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2) Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2012 / 2013 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Übungen zu Splines Lösungen zu Übung 20

Übungen zu Splines Lösungen zu Übung 20 Übungen zu Splines Lösungen zu Übung 20 20.1 Gegeben seien in der (x, y)-ebene die 1 Punkte: x i 6 5 4 2 1 0 1 2 4 5 6 y i 1 1 1 1 1 + 5 1 + 8 4 1 + 8 1 + 5 1 1 1 1 (a) Skizzieren Sie diese Punkte. (b)

Mehr

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 8 Aufgabe 1 Probabilistische Inferenz (32 Punkte) In einer medizinischen Studie werden zwei Tests zur Diagnose von Leberschäden verglichen. Dabei wurde folgendes festgestellt: Test 1 erkennt

Mehr

Konvergenz von Hopfield-Netzen

Konvergenz von Hopfield-Netzen Matthias Jauernig 1. August 2006 Zusammenfassung Die nachfolgende Betrachtung bezieht sich auf das diskrete Hopfield-Netz und hat das Ziel, die Konvergenz des Verfahrens zu zeigen. Leider wird dieser Beweis

Mehr

Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 2011/2012

Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 2011/2012 Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 011/01 Sandra Uhlenbrock 03.11.011 Die folgende Ausarbeitung wird, basierend auf Branching Processes

Mehr

. Die obige Beschreibung der Laufzeit für ein bestimmtes k können wir also erweitern und erhalten die folgende Gleichung für den mittleren Fall:

. Die obige Beschreibung der Laufzeit für ein bestimmtes k können wir also erweitern und erhalten die folgende Gleichung für den mittleren Fall: Laufzeit von Quicksort im Mittel. Wir wollen die erwartete Effizienz von Quicksort ermitteln. Wir nehmen an, die Wahrscheinlichkeit, dass das gewählte Pivot-Element a j das k-t kleinste Element der Folge

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

(a), für i = 1,..., n.

(a), für i = 1,..., n. .4 Extremwerte Definition Sei M R n eine Teilmenge, f : M R stetig, a M ein Punkt. f hat in a auf M ein relatives (oder lokales) Maximum bzw. ein relatives (oder lokales) Minimum, wenn es eine offene Umgebung

Mehr

Analysis I. Vorlesung 12. Stetige Funktionen. Den Abstand zwischen zwei reellen (oder komplexen) Zahlen x und x bezeichnen

Analysis I. Vorlesung 12. Stetige Funktionen. Den Abstand zwischen zwei reellen (oder komplexen) Zahlen x und x bezeichnen Prof. Dr. H. Brenner Osnabrück WS 2013/2014 Analysis I Vorlesung 12 Stetige Funktionen Den Abstand zwischen zwei reellen (oder komplexen) Zahlen x und x bezeichnen wir mit d(x,x ) := x x. Bei einer Funktion

Mehr

Praktische Optimierung

Praktische Optimierung Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze

Mehr

1 Umkehrfunktionen und implizite Funktionen

1 Umkehrfunktionen und implizite Funktionen Mathematik für Physiker III WS 2012/2013 Freitag 211 $Id: implizittexv 18 2012/11/01 20:18:36 hk Exp $ $Id: lagrangetexv 13 2012/11/01 1:24:3 hk Exp hk $ 1 Umkehrfunktionen und implizite Funktionen 13

Mehr

Kapitel 9: Informationstheorie. 2. Entropie

Kapitel 9: Informationstheorie. 2. Entropie ZHAW, NT, FS2008, Rumc, Kapitel 9: 2-1 Kapitel 9: Informationstheorie 2. Entropie Inhaltsverzeichnis 2.1. INFORATIONSQUELLEN...2 2.2. INFORATIONSGEHALT...3 2.3. INIALE ANZAHL BINÄRE FRAGEN...5 2.4. ENTROPIE

Mehr

Grundlagen zu neuronalen Netzen. Kristina Tesch

Grundlagen zu neuronalen Netzen. Kristina Tesch Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

Tableaukalkül für Aussagenlogik

Tableaukalkül für Aussagenlogik Tableaukalkül für Aussagenlogik Tableau: Test einer Formel auf Widersprüchlichkeit Fallunterscheidung baumförmig organisiert Keine Normalisierung, d.h. alle Formeln sind erlaubt Struktur der Formel wird

Mehr

Partialbruchzerlegung

Partialbruchzerlegung Partialbruchzerlegung Lucas Kunz 27. Januar 207 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Nullstellen höheren Grades........................... 2.3 Residuen-Formel................................

Mehr

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) 29 Neuronale Netze Gehirn: ca. 10 11 Neuronen stark vernetzt Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) Mustererkennung in 0.1s 100 Schritte Regel 30 Was ist ein künstl. neuronales Netz? Ein

Mehr

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2014 / 2015 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Was wissen Sie jetzt?

Was wissen Sie jetzt? Was wissen Sie jetzt?! Sie haben drei Prinzipien für die Regelbewertung kennen gelernt:! Unabhängige Mengen sollen mit bewertet werden.! Der Wert soll höher werden, wenn die Regel mehr Belege hat.! Der

Mehr

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation

Mehr

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017 10.1 Sommersemester 2017 Problemstellung Welche Gerade? Gegeben sind folgende Messungen: Masse (kg) 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Kraft (N) 1.6 2.2 3.2 3.0 4.9 5.7 7.1 7.3 8.1 Annahme: Es gibt eine Funktion

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 5. Juni 2016 Definition 5.21 Ist a R, a > 0 und a 1, so bezeichnet man die Umkehrfunktion der Exponentialfunktion x a x als

Mehr

1 Grundlagen Wahrscheinlichkeitsrechung

1 Grundlagen Wahrscheinlichkeitsrechung 1 Grundlagen Wahrscheinlichkeitsrechung 1.1 Grundbegriffe Alle möglichen Ereignisse eines Zufallsexperiments fassen wir in einer Ereignismenge Ω zusammen. Ereignisse sind Teilmengen von Ω. Umfasst das

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Aussagenlogik. Aussagen und Aussagenverknüpfungen

Aussagenlogik. Aussagen und Aussagenverknüpfungen Aussagenlogik Aussagen und Aussagenverknüpfungen Aussagen sind Sätze, von denen sich sinnvollerweise sagen läßt, sie seien wahr oder falsch. Jede Aussage besitzt also einen von zwei möglichen Wahrheitswerten,

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Objekt Attributwerte Klassifizierung X Y

Objekt Attributwerte Klassifizierung X Y AUFGABE : Entscheidungsbäume Betrachten Sie das folgende Klassifizierungsproblem: bjekt Attributwerte Klassifizierung X Y A 3 B 2 3 + C 2 D 3 3 + E 2 2 + F 3 G H 4 3 + I 3 2 J 4 K 2 L 4 2 ) Bestimmen Sie

Mehr

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Ein Schwellenwertelement (Threshold Logic Unit, TLU) ist eine Verarbeitungseinheit für Zahlen mitneingängenx,...,x n und einem

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

4 Funktionenfolgen und normierte Räume

4 Funktionenfolgen und normierte Räume $Id: norm.tex,v 1.57 2018/06/08 16:27:08 hk Exp $ $Id: jordan.tex,v 1.34 2018/07/12 20:08:29 hk Exp $ 4 Funktionenfolgen und normierte Räume 4.7 Kompakte Mengen Am Ende der letzten Sitzung hatten wir zwei

Mehr

Einführung. Ablesen von einander zugeordneten Werten

Einführung. Ablesen von einander zugeordneten Werten Einführung Zusammenhänge zwischen Größen wie Temperatur, Geschwindigkeit, Lautstärke, Fahrstrecke, Preis, Einkommen, Steuer etc. werden mit beschrieben. Eine Zuordnung f, die jedem x A genau ein y B zuweist,

Mehr

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen Was bisher geschah Lernen: überwachtes Lernen korrigierendes Lernen bestärkendes Lernen unüberwachtes Lernen biologisches Vorbild neuronaler Netze: Neuron (Zellkörper, Synapsen, Axon) und Funktionsweise

Mehr

Einführung in die Theoretische Informatik

Einführung in die Theoretische Informatik Technische Universität München Fakultät für Informatik Prof. Tobias Nipkow, Ph.D. Sascha Böhme, Lars Noschinski Sommersemester 2011 Lösungsblatt 9 25. Juli 2011 Einführung in die Theoretische Informatik

Mehr

Klassifikation linear separierbarer Probleme

Klassifikation linear separierbarer Probleme Klassifikation linear separierbarer Probleme Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation linear

Mehr

Informatik II, SS 2018

Informatik II, SS 2018 Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 21 (11.7.2018) String Matching (Textsuche) II Greedy Algorithmen I Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion

22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion KAPITEL 1. GRUNDLAGEN Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion 1 für 0 x < 1 g 0 (x) = 1 1 für < x 1. Natürlich gibt dies von

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 5 Anwendungen der Differentialrechnung 5.1 Maxima und Minima einer Funktion......................... 80 5.2 Mittelwertsatz.................................... 82 5.3 Kurvendiskussion..................................

Mehr

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen 6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1

Mehr

19. Nichtdeterministische Turingmaschinen und ihre Komplexität

19. Nichtdeterministische Turingmaschinen und ihre Komplexität 19. Nichtdeterministische Turingmaschinen und ihre Komplexität Bei einem Turingmaschinenprogramm P aus bedingten Anweisungen wird durch die Forderung i a b B j i a b B j i a sichergestellt, dass zu jeder

Mehr

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform. kurze Wiederholung der letzten Stunde: Neuronale Netze martin.loesch@kit.edu (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Minimalpolynome und Implikanten

Minimalpolynome und Implikanten Kapitel 3 Minimalpolynome und Implikanten Wir haben bisher gezeigt, daß jede Boolesche Funktion durch einfache Grundfunktionen dargestellt werden kann. Dabei können jedoch sehr lange Ausdrücke enstehen,

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2 Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Wintersemester 2011 / 2012 Albayrak, Fricke (AOT) Opper, Ruttor (KI) Schriftlicher

Mehr

Algebra und Zahlentheorie WS 13/14

Algebra und Zahlentheorie WS 13/14 Algebra und Zahlentheorie WS 13/14 FU Berlin David Müßig http://page.mi.fu-berlin.de/def/auz14/ muessig@mi.fu-berlin.de 21.01.2014 1 Hintergrund: Basen & Vektorräume 1.1 Grundlegende Begriffe Da einige

Mehr

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz Seite 1 von 11 Aufgabe 1 Probabilistische Inferenz (28 Punkte) Es existieren zwei Krankheiten, die das gleiche Symptom hervorrufen. Folgende Erkenntnisse konnten in wissenschaftlichen Studien festgestellt

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert:

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert: KAPITEL 3 Graphen Man kann als Ursprung der Graphentheorie ein Problem sehen, welches Euler 1736 von Studenten aus Königsberg gestellt bekam. Der Fluss Pregel wird von 7 Brücken überquert, und die Frage

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Beschränktheit, Monotonie & Symmetrie

Beschränktheit, Monotonie & Symmetrie Beschränktheit, Monotonie & Symmetrie ein Referat Dies ist eine Beilage zum Gruppen-SOL - Projekt Potenz- & Exponentialfunktionen Ronald Balestra CH - 8046 Zürich www.ronaldbalestra.ch November 2015 Inhaltsverzeichnis

Mehr

Vorkurs Mathematik. Übungen Teil IV

Vorkurs Mathematik. Übungen Teil IV Vorkurs Mathematik Herbst 009 M. Carl E. Bönecke Skript und Übungen Teil IV. Folgen und die Konstruktion von R Im vorherigen Kapitel haben wir Z und Q über (formale) Lösungsmengen von Gleichungen der Form

Mehr

Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07. Nichtdeterministische Turingmaschinen und NP

Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07. Nichtdeterministische Turingmaschinen und NP Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07 Vortrag am 17.11.2006 Nichtdeterministische Turingmaschinen und NP Yves Radunz Inhaltsverzeichnis 1 Wiederholung 3 1.1 Allgemeines........................................

Mehr

Statistik I für Betriebswirte Vorlesung 3

Statistik I für Betriebswirte Vorlesung 3 Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Theoretische Informatik. nichtdeterministische Turingmaschinen NDTM. Turingmaschinen. Rainer Schrader. 29. April 2009

Theoretische Informatik. nichtdeterministische Turingmaschinen NDTM. Turingmaschinen. Rainer Schrader. 29. April 2009 Theoretische Informatik Rainer Schrader nichtdeterministische Turingmaschinen Zentrum für Angewandte Informatik Köln 29. April 2009 1 / 33 2 / 33 Turingmaschinen das Konzept des Nichtdeterminismus nahm

Mehr

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade.

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade. $Id: folgen.tex,v. 202/05/3 2:40:06 hk Exp $ 6 Folgen Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen a : N X definiert, die dann typischerweise in der Form (a n ) n N, also

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr