Herzlich willkommen!!!

Größe: px
Ab Seite anzeigen:

Download "Herzlich willkommen!!!"

Transkript

1 Computational Learning Theory Sommersemester 2017 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main Herzlich willkommen!!! 1 / 159

2 Einführung Einführung 2 / 159

3 Teil I: Statistische Lerntheorie (a) Das PAC-Modell Probably Approximately Correct (Supervised) Learning. eine unbekannte Verteilung D erzeugt klassifizierte Beispiele (also überwachtes Lernen), der Lernalgorithmus wird auf D evaluiert. (b) Die wesentlichen Fragen Beispielkomplexität Wie viele Beispiele sind für ein erfolgreiches Lernen hinreichend und notwendig? Die Vapnik-Chervonenkis Dimension. Algorithmische Komplexität Für welche Probleme können Hypothesen effizient bestimmt werden? Einführung Inhalt 3 / 159

4 Teil II: Online-Lernen (a) Gegenbeispiel-Komplexität Ein (bösartiger) Lehrer legt einem Schüler ein Beispiel vor. Der Schüler klassifiziert und erhält danach die richtige Antwort. Wiederhole, solange bis alle Antworten richtig sind. (b) Expertenauswahl Weighted-Majority: Experten geben Online Empfehlungen ab. Können wir, ohne den Sachverhalt zu kennen, eine Strategie entwickeln, die fast so gut ist wie der im Nachhinein beste Experte? Winnow: Finde wenige entscheidende aus vielen möglichen Gründen. Perzeptron: Trenne rote von blauen Vektoren im R n durch eine Hyperebene. Einführung Inhalt 4 / 159

5 Teil III: Lernverfahren (a) Grundlegende Methoden Validierung Boosting/Bagging Nicht-binäres Lernen stochastischer Gradientenabstieg (b) Lernalgorithmen: Nearest Neighbor Support Vektor Maschinen Neuronale Netzwerke Maximum Likelihood, Expectation-Maximization. (c) Aktives Lernen: Wie stark verbessert sich die Lernleistung, wenn der Schüler Fragen stellen darf? Einführung Inhalt 5 / 159

6 Worauf wird aufgebaut? Diskrete Modellierung: Beweisführung: Direkte und indirekte Beweise, vollständige Induktion. Datenstrukturen und Theoretische Informatik 1: Laufzeitanalyse: O, o, Ω, ω and Rekursionsgleichungen, Graphalgorithmen, NP-Vollständigkeit, Berechenbarkeit. Mathematik 3: Grundlagen der Wahrscheinlichkeitstheorie Siehe auch Kapitel 2.4 im Skript. Einführung Vorwissen 6 / 159

7 Literatur (1) S. Shalev-Shwartz und Shai Ben-David, Machine Learning: From Theory to Algorithms, Cambridge University Press (PAC Lernen und Support-Vektor-Maschinen) (2) M. Mohri, A. Rostamizadeh und A. Talwalkar, Foundations of Machine Learning, MIT Press (PAC Lernen und Support-Vektor-Maschinen) (3) M. J. Kearns und U. V. Vazirani, An Introduction to Computational Learning Theory, MIT Press (PAC Lernen) (4) M. H. G. Anthony und N. Biggs, Computational Learning Theory, Cambridge University Press (PAC Lernen) (5) I. Goodfellow, Y. Bengio und A. Courville, Deep Learning, MIT Press (Lernverfahren, insbesondere Neuronale Netzwerke) (6) Skript zur Vorlesung Computational Learning Theory, Goethe-Universität Frankfurt, Einführung Literatur 7 / 159

8 Organisatorisches Einführung Organisatorisches 8 / 159

9 Die Webseite Die Webseite enthält alle wichtigen Informationen zur Veranstaltung: Alle Vorlesungsmateralien (Skript, Folien, Zugang zu Extra-Materalien) finden Sie auf dieser Seite. Auch organisatorische Details zum Übungsbetrieb werden beschrieben. Unter Aktuelles finden Sie zum Beispiel: Anmerkungen zum Übungsbetrieb und gegebenenfalls Anmerkungen zu aktuellen Übungsaufgaben. Im Logbuch finden Sie Informationen, Beamer-Folien, weitere Referenzen zu den einzelnen Vorlesungsstunden. Einführung Organisatorisches 9 / 159

10 Prüfungen und Übungsbetrieb BITTE, BITTE, BITTE aktiv an den Übungen teilnehmen! Wöchentliche Übungszettel auf der Webseite mit Ausgabe am Montag. Der 1. Übungszettel wird in der 2. Vorlesungswoche ausgegeben. Rückgabe, nach 1-wöchiger Bearbeitungszeit, vor der Montag- Vorlesung. (Rückgabe auch im Briefkasten neben Büro 312 möglich.) Wenn die Prüfung bestanden ist: Bei mindestens 50% aller Übungspunkte eine Verbesserung um einen Notenschnitt, bei mindestens 70% eine Verbesserung um zwei Notenschritte. Bei nicht zu vielen Teilnehmern werden nur mündliche Prüfungen angeboten, sonst eine Klausur. Einführung Organisatorisches 10 / 159

11 BITTE, BITTE, BITTE 1 Bitte helfen Sie mir durch Fragen, Kommentare und Antworten! 2 Die Vorlesung kann nur durch Interaktion interessant werden. Ich muss wissen, wo der Schuh drückt. 3 Sie erreichen mich außerhalb der Vorlesung im Büro 303. Sprechstunde: Dienstags Kommen Sie vorbei. Einführung Organisatorisches 11 / 159

12 Studiengänge Neuer Master Informatik oder Master Wirtschaftsinformatik : Computational Learning Theory: Grundlagen (5 CP). Die Veranstaltung findet vom bis zum statt. Computational Learning Theory: Weiterführende Themen (5 CP) Die Veranstaltung findet vom bis zum statt. Als Veranstaltung vom 18.4 bis zum (10 CP). Alter Master Informatik oder Master Bioinformatik : Computational Learning Theory (4+2 SWS, 10 CP). Einführung Organisatorisches 12 / 159

13 Worum geht s? Konzepte und Hypothesen 13 / 159

14 Beispiele, Konzepte und Hypothesen Supervised Learning: Die zentralen Begriffe Sei X eine nicht notwendigerweise endliche Menge. (a) Wir nennen X den Beispielraum. (b) Ein Konzept c (über X) ist eine Teilmenge von X. (c) Eine Hypothese h (über X) ist ein Konzept (über X) und eine Hypothesenklasse H ist eine Menge von Hypothesen. (d) Für ein Konzept c ist x X ein positives Beispiel für c, falls x c und ansonsten ein negatives Beispiel. Insbesondere ist { (x, b) X {0, 1} : x c b = 1 } die Menge der gemäß c klassifizierten Beispiele. Konzepte und Hypothesen 14 / 159

15 Die Zielstellung c ist das unbekannte Konzept. Der Lernalgorithmus erhält gemäß klassifizierte Beispiele. Eine Hypothese ist zu bestimmen, die c möglichst gut erklärt. Welche Fragen sind zu klären? (1) Was ist Lernen? Wann erklärt die Hypothese h das Konzept c? Wann können wir behaupten, dass unsere Hypothese gut ist? (2) Algorithmische Komplexität: Kann eine gute Hypothese bei genügend vielen Beispielen in vertretbarer Zeit gefunden werden? (3) Beispielkomplexität: Wieviele Beispiele werden für ein erfolgreiches Lernen benötigt? Konzepte und Hypothesen 15 / 159

16 Anwendungsszenarien (1) Handschriftenerkennung: Für jeden Anwender x und jede Ziffer z {0, 1,..., 9} besteht das Konzept c x,z aus allen Schriftproben des Anwenders x, die der Ziffer z entsprechen. (2) Textinterpretation: Nachrichten sind zum Beispiel automatisch einer der Kategorien Politik, Wirtschaft, Kultur, Sport... zuzuordnen. Jede dieser Kategorien entspricht einem Konzept. (3) Bilderkennung: Eine Pixelmatrix ist einer Kategorie (wie etwa Sonnenaufgang, Wüste, Meer, Stadt,... ) zuzuordnen. (4) Bestimmung der Funktion von Proteinen: Sage die Funktion eines Proteins voraus. Proteinfamilien mit ähnlicher Funktion entsprechen Konzepten. Konzepte und Hypothesen 16 / 159

17 Welche Konzeptklassen sind von besonderem Interesse? Konzepte und Hypothesen 17 / 159

18 Die Konzeptklasse der monotonen Monome Jedes Beispiel x X := {0, 1} n wird als ein Vektor von n Eigenschaften (oder Features) repräsentiert. - Die unbekannte Konjunktion α := x i1 x ik sei zu lernen. Das entsprechende Zielkonzept c α ist die Menge c α = { x {0, 1} n : x erfüllt α }. aller positiven Beispiele. - Die Konzeptklasse MONOTON-MONOM n besteht aus der Menge aller Konzepte c α für eine monotone Konjunktion α. Konzepte und Hypothesen Boolesche Konzeptklassen 18 / 159

19 Weitere boolesche Konzeptklassen - Und wenn allgemeine Monome zu lernen sind? Jetzt entsprechen die unbekannten Zielkonzepte der Konzeptklasse MONOM n aller Monome mit den Literalen x 1, x 1,..., x n, x n. - Darf es ein wenig mehr sein? k-term DNF n ist die Konzeptklasse aller DNF-Formeln mit den Literalen x 1, x 1,..., x n, x n und höchstens k Monomen. - Und vielleicht noch ein wenig(?) mehr: BOOLEAN n ist die Konzeptklasse aller booleschen Funktionen f : {0, 1} n {0, 1}. Konzepte und Hypothesen Boolesche Konzeptklassen 19 / 159

20 Entscheidungsbäume Die Konzeptklasse DECISION n,s hat für jeden Entscheidungsbaum B mit höchstens s Knoten (über den Variablen x 1,..., x n ) ein Konzept c B. x x 1 x x Konzepte und Hypothesen Entscheidungsbäume 20 / 159

21 Automaten / Halbräume AUTOMAT n,σ besitzt für jeden DFA A mit höchstens n Zuständen ein Konzept, nämlich die von A akzeptierte Sprache L(A). A muss das Eingabealphabet Σ besitzen. HALBRAUM n besitzt für alle Gewichte w 1,..., w n R und jeden Schwellenwert (bzw. Threshold) t R das Konzept { x R n n w i x i t } i=1 HALBRAUM ist unsere erste reellwertige Kozeptklasse. Konzepte und Hypothesen Automaten / Halbräume 21 / 159

22 Halbräume = neuronale Netzwerke und SVMs - Die Konzeptklasse der neuronalen Netzwerke besteht aus Schaltungen mit neuronalen Gattern der Form g( n i=1 w i y i t). Zum Beispiel werden das Standard-Sigmoid g(x) = 1 1+e x rectified linear units g(z) = max{0, z} { 0 x < 0, oder die binäre Threshold-Funktion g(x) = verwandt. 1 sonst - In der Methode der Support Vektor Maschinen wird eine Feature-Funktion φ : X R n auf die Beispiele x 1,..., x s angewandt. Dann wird nach einer Hyperebene gesucht, die so weit es geht alle positiven Beispiele φ(x i ) von den negativen Beispielen φ(x j ) trennt. Konzepte und Hypothesen Halbräume und neuronale Netzwerke 22 / 159

23 Wichtige Fragestellungen (1) Wieviele Beispiele werden benötigt, um eine Chance zu haben die einzelnen Konzeptklassen erfolgreich zu erlernen? - Für MONOM n sollten sehr viel weniger Beispiele ausreichen als für BOOLEAN n. - Die Beispielzahl sollte von der Anzahl der Freiheitsgrade der Hypothesenklasse abhängen. - Wie misst man Freiheitsgrade? (2) Können wir tatsächlich lernen, wenn genügend viele Beispiele vorhanden sind? (3) Müssen wir ewig herum experimentieren oder können wir sagen, ob wir zumindest hoch-wahrscheinlich erfolgreich lernen werden? Konzepte und Hypothesen Beispielzahl und Lernbarkeit 23 / 159

24 PAC-Algorithmen Das PAC-Modell 24 / 159

25 Fehlermessung - Klassifizierte Beispiele werden zufällig und unabhängig voneinander, gemäß einer unbekannten Verteilung D 1, gezogen. - Der Lernalgorithmus L berechnet eine Hypothese h. - Wie gut ist h? Wir messen den Fehler zwischen dem unbekannten Zielkonzept c und der Hypothese h gemäß einer Verteilung D 2 : fehler D2 (c, h) = prob[ c h ] (Später betrachten wir allgemeinere Fehlermodelle.) Fairness-Bedingung: Wenn Beispiele nach der Verteilung D 1 erzeugt werden, dann sollte der Fehler auch gemäß D 1 gemessen werden. Wir fordern deshalb D 1 = D 2. Das PAC-Modell 25 / 159

26 Hochwahrscheinlich approximatives Lernen Der Anwender gibt einen Fehlerparameter ε vor. - Der Fehler, also der Unterschied zwischen Zielkonzept und Hypothese, soll höchstens ε betragen. - Aber wenn der Lernalgorithmus zufälligerweise wenig informative Beispiele erhält, dann wird die Hypothese i. A. nicht gut sein. Der Anwender gibt einen Misstrauensparameter δ vor und fordert: Der Fehler darf mit Wahrscheinlichkeit mindestens 1 δ den Fehlerparameter ε nicht übersteigen. Das PAC-Modell 26 / 159

27 PAC-Algorithmen PAC Lernen = probably (mit Wahrscheinlichkeit mindestens 1 δ) approximately (mit Fehler höchstens ε) correct. Wir möchten also hoch-wahrscheinlich approximativ korrekt lernen. Ein Lernalgorithmus A ist genau dann ein PAC-Algorithmus für eine Konzeptklasse C, wenn für alle ε (0, 1], für alle δ (0, 1], für alle Konzepte c C und für alle Verteilungen D prob D [ fehler D (c, h c ) ε ] 1 δ gilt, wobei h c die von A bestimmte Hypothese ist. Das PAC-Modell 27 / 159

28 Die Grundstruktur eines PAC-Algorithmus 1. Die Eingabe besteht aus dem Misstrauensparameter δ und dem Fehlerparameter ε. Die Hypothesenklasse H sei vorgegeben: Ein unbekanntes Konzept c ist mit Hilfe einer Hypothese h c H zu erlernen. 2. Fordere eine Trainingsmenge S = { (x 1, b 1 ),..., (x s, b s ) } von s = s(δ, ε) klassifizierten Beispielen an. /* Es gilt x i c b i = 1 für 1 i s. */ 3. Bestimme eine Hypothese h c H. Das PAC-Modell 28 / 159

29 Zentrale Fragen (1/2) - Fordern wir zuviel? In Anwendungen achtet man darauf, dass die Trainingsmenge aus möglichst informativen Beispielen besteht: Die Beispielverteilung D 1 ist dann sogar unterstützend. - Andererseits wäre die Existenz von PAC-Algorithmen A klasse, denn wir können A mit einem Gütesiegel versehen: Für jede Verteilung D, falls A mindestens s(ε, δ) Beispiele erhält, ist approximativ korrektes Lernen hoch-wahrscheinlich. Das PAC-Modell 29 / 159

30 Zentrale Fragen (2/2) - Wie groß ist die Beispielzahl s(ε, δ) in Abhängigkeit vom erlaubten Fehler ε und vom Vertrauensparameter δ? - Angenommen, A ist ein PAC-Algorithmus mit Fehler ε and Vertrauensparameter δ. Um wieviel steigt die Beispielzahl und Laufzeit an, wenn δ durch δ mit 0 < δ δ ersetzt wird? Um wieviel steigt die Beispielzahl und Laufzeit an, wenn ε durch ε mit 0 < ε ε ersetzt wird? Das PAC-Modell 30 / 159

31 Konsistente Hypothesen Das PAC-Modell 31 / 159

32 Ein Lernalgorithmus für MONOM n (1) Bestimme s = s n (ε, δ) und fordere s Beispiele an. (2) Die erste vorläufige Hypothese ist das Monom h x 1 x 1 x 2 x 2 x n x n. (3) Streiche jedes Literal, das irgendeinem positiven Beispiel widerspricht. (4) Gib die resultierende Hypothese aus. Das PAC-Modell Monome 32 / 159

33 h ist mit allen Beispielen konsistent (1) Das Literal x j (bzw. x j ) wird entfernt, falls ein positives Beispiel diesem Literal widerspricht. (2) Wir bestimmen somit das längste mit allen positiven Beispielen konsistente Monom h. (3) Ist y ein negatives Beispiel und ist M das unbekannte Zielmonom, dann gibt es i, so dass das Literal x i (bzw. x i ) in M vorkommt, und xi (bzw. x i ) verwirft das negative Beispiel y. Da h das längste mit allen positiven Beispielen konsistente Monom ist, kommt x i (bzw. x i ) in h vor und h verwirft y. Wir zeigen jetzt, dass unser Algorithmus ein PAC-Algorithmus für die Konzeptklasse MONOM n ist, falls s n (ε, δ) = 1 ( ) 1 ε ln + ln(3n ). δ ε Das PAC-Modell Monome 33 / 159

34 PAC-Algorithmen für endliche Konzeptklassen Konzepte einer Klasse C von endlich vielen Konzepten sind zu lernen. Vertrauensparameter δ und Fehlerparameter ε sind vorgegeben. (1) Setze s = 1 ε (ln C + ln ( 1 δ )). (2) Wähle irgendein Konzept h C als Hypothese, das mit allen s Beispielen konsistent ist. /* Eine Hypothese h ist genau dann konsistent, wenn h alle positiven Beispiele akzeptiert und alle negativen Beispiele verwirft. Für MONOM n genügen, wie versprochen, 1 ε ln ( ) 1 δ + ln(3 n ) ε Beispiele. Die Beispielkomplexität Die log C -Schranke 34 / 159

35 Die Analyse (1/3) Behauptung: Wir erhalten einen PAC-Algorithmus, der s = 1 ε (ln C + ln ( 1 δ )) Beispiele anfordert. - Wir müssen für jedes Konzept c C und jede Verteilung D nachweisen. prob D [ fehler D (c, h c ) ε ] 1 δ - Sei p = prob D [ fehler D (c, h c ) > ε ]. Dann ist p prob[ Es gibt eine konsistente Hypothese h mit ] fehler D (c, h) > ε prob[ h ist konsistente Hypothese ]. h C mit fehler D (c,h)>ε Die Beispielkomplexität Die log C -Schranke 35 / 159

36 Die Analyse (2/3) - Wenn h C eine Hypothese mit großem Fehler ist (also fehler D (c, h) > ε), dann wird h ein zufällig gezogenes Beispiel mit Wahrscheinlichkeit höchstens 1 ε richtig klassifizieren. - Also ist p h C mit fehler D (c,h)>ε h C mit fehler D (c,h)>ε(1 ε) s h C = C (1 ε) s. prob[h ist eine konsistente Hypothese ] (1 ε) s - Es ist p = prob D [ fehler D (c, h c ) > ε ]. Wir müssen p δ fordern! Die Beispielkomplexität Die log C -Schranke 36 / 159

37 Die Analyse (3/3) - Wir müssen C (1 ε) s δ erfüllen. - Logarithmiere beide Seiten der Ungleichung: ln C + s ln(1 ε) ln δ. }{{} ε (Es ist ln(1 ε) ε. Warum? ) - Somit reicht der Nachweis von ln C s ε ln δ. Diese Ungleichung ist äquivalent zu und das war zu zeigen. 1 (ln C ln δ) s ε Die Beispielkomplexität Die log C -Schranke 37 / 159

38 Weitere Anwendungen (a) Beispiel(MONOTON-MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ), Beispiel(MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (b) Beispiel(k-KNF n ) = O( nk ε + 1 ε ln ( 1 δ ) ) für festes k, Beispiel(k-DNF n ) = O( nk ε + 1 ε ln ( ) 1 δ ) für festes k. (c) Beispiel(k-KLAUSEL-KNF n ) = O( k n ε + 1 ε ln ( ) 1 δ ), Beispiel(k-TERM-DNF n ) = O( k n ε + 1 ε ln ( 1 δ ) ). (d) Beispiel(KNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(DNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(BOOLEAN n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ). (e) Beispiel(SYM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (f) Beispiel(AUTOMAT n,σ ) = O( n ε Σ log 2 n + 1 ε ln ( 1 δ ) ). Die Beispielkomplexität Die log C -Schranke 38 / 159

39 Diskussion Die Beispielzahl s = 1 ε (ln C + ln ( 1 δ )). - Eine große Verläßlichkeit, also ein kleines δ, kann billig erzielt werden, denn die Beispielanzahl wächst nur logarithmisch mit 1/δ. - Ein kleiner Fehler, also ein kleines ε, ist teuer, denn 1/ε geht linear in der Beispielanzahl ein. - Könnte ln C eine Definition der Anzahl der Freiheitsgrade sein? Nur wenn die Schranke für s scharf ist. Was tun für Konzeptklassen mit unendlich vielen Konzepten? - Unser PAC-Algorithmus wählt eine konsistente Hypothese. Wie bestimmt man konsistente Hypothesen effizient? Und wenn es keine effizienten Hypothesen gibt? Die Beispielkomplexität Diskussion 39 / 159

40 Was tun bei unendlich vielen Konzepten? (Allerdings pessimistische) Schranken für die Beispielzahl: - Konzepte aus HALBRAUM n werden durch n + 1 Parameter beschrieben: Die n Koeffizienten und der eine Schwellenwert. - Für die Darstellung einer Gleitkommazahl genügen c Bits: Die Anzahl der im Rechner darstellbaren Halbräume ist 2 c(n+1) = 1 ( ( )) 1 ε c (n + 1) ln 2 + ln δ klassifizierte Beispiele reichen, um den wahren Fehler ε mit Wahrscheinlichkeit mindestens 1 δ nicht zu überschreiten. Der genaue Wert von c ist rechner-abhängig. Für präzise Schranken der Beispielzahl benötigen wir neue Ideen. Die Beispielkomplexität Diskussion 40 / 159

41 Das ERM-Problem Die Beispielkomplexität Das ERM-Problem 41 / 159

42 Empirische Risiko Minimierung (ERM) (1/3) Wir möchten ein unbekanntes Konzept c mit der Hypothesenklasse H lernen und fordern klassifizierte Beispiele (x 1, b 1 ),..., (x s, b s ) an. Empirische Risiko Minimierung: Bestimme eine Hypothese h c H, so dass das empirische Risiko bzw der empirische Fehler { i : 1 i s, h c (x i ) b i } minimal ist. (Wenn möglich, bestimme konsistente Hypothesen.) Achtung, droht Overfitting (bzw Auswendiglernen)? Die vielen Freiheitsgrade der Hypothesenklasse werden nur teilweise durch die Beispiele gesetzt. Oder Underfitting? Die Hypothesenklasse hat zu wenige Freiheitsgrade. Die Beispielmenge ist auch näherungsweise nicht erklärbar. Die Beispielkomplexität Das ERM-Problem 42 / 159

43 Empirische Risiko Minimierung (ERM) (2/3) In der empirischen Risiko Minimierung mit induktivem Bias fließen Annahmen über wesentliche Eigenschaften der Konzeptklasse in die Definition der Hypothesenklasse ein. (a) Die Hypothesenklasse sollte möglichst wenige, (b) aber genügend viele Freiheitsgrade beitzen um einen kleinen empirischen Fehler und damit auch einen kleinen wahren Fehler zu garantieren. Die Beispielkomplexität Das ERM-Problem 43 / 159

44 Empirische Risiko Minimierung (ERM) (3/3) Sei H eine Hypothesenklasse über einer Menge X von Beispielen. (a) Im ERM-Problem für die Beispielmenge S = {(x 1, b 1 ),..., (x s, b s )} X {0, 1} ist eine Hypothese h S H zu bestimmen, die den empirischen Fehler (bzw das empirische Risiko) { i : 1 i s, h S (x i ) b i } unter allen Hypothesen in H minimiert. Wir nennen h S eine ERM-Hypothese. (b) Ein ERM-Algorithmus für H ist ein Lernalgorithmus, der nur ERM-Hypothesen für H ausgibt. (Später messen wir den Fehler auch auf andere Arten.) Die Beispielkomplexität Das ERM-Problem 44 / 159

45 Inkonsistente Hypothesen Die Beispielkomplexität Inkonsistente Hypothesen 45 / 159

46 Kritik - Für praktische Anwendungen können wir nicht davon ausgehen, dass jedes Zielkonzept auch in der Hypothesenklasse liegt: Die Schriftproben einer bestimmten Person werden wir nur approximativ, aber nicht exakt erkennen können! - Stattdessen sollten wir annehmen, dass es zu jedem Zielkonzept c C eine Hypothese h H mit kleinem Fehler gibt, d.h. es gelte fehler D (c, h) ε. Der Lernalgorithmus: (1) Bestimme die Beispielzahl s in Abhängigkeit von ε und δ. (3) Wähle irgendeine Hypothese h H, die mit mindestens (1 2ε) s Beispielen konsistent ist. Gib eine Fehlermeldung aus, wenn eine solche Hypothese nicht existiert. Die Beispielkomplexität Inkonsistente Hypothesen 46 / 159

47 Das Ziel Bestimme die Beispielzahl s so, dass gilt prob D [ Algorithmus findet eine Hypo these h c mit fehler D (c, h c ) 4ε ] 1 δ - Zwei Fehlerquellen: Es gibt keine fast konsistenten Hypothesen (Fehlermeldung) oder der Fehler ist zu groß. - Bestimme s, so dass prob D [ Algorithmus gibt eine Fehlermeldung ] δ 2 und prob D [ fehler D (c, h c ) 4ε ] δ 2 Die Beispielkomplexität Inkonsistente Hypothesen 47 / 159

48 Die Wahrscheinlichkeit einer Fehlermeldung (1/2) Die Situation: Es gibt eine Hypothese h H mit fehler D (c, h) ε, aber keine Hypothese, ist mit mindestens (1 2ε) s Beispielen konsistent. - h ist also mit mehr als 2ε s Beispielen inkonsistent. - Wenn wir aber s Beispiele zufällig ziehen, dann ist die erwartete Anzahl der durch h falsch klassifizierten Beispiele höchstens ε s. - Im Falle einer Fehlermeldung verstoßen wir signifikant gegen den Erwartungswert: Statt Inkonsistenz mit höchstens ε s Beispielen sogar Inkonsistenz mit mehr als 2ε s Beispielen. - Ein heftiger Verstoß gegen den Erwartungswert sollte doch unwahrscheinlich sein! Die Beispielkomplexität Inkonsistente Hypothesen 48 / 159

49 Die Wahrscheinlichkeit einer Fehlermeldung (2/2) Wir liegen mit 2εs zweifach über dem Erwartungswert und die Chernoff-Schranke für β = 1 liefert e εs 3. als Wahrscheinlichkeit einer Fehlermeldung. - Wir müssen die Wahrscheinlichkeit einer Fehlermeldung durch δ/2 nach oben beschränken. - Wir fordern s 3 ε ln ( 2 δ ). Die Beispielkomplexität Inkonsistente Hypothesen 49 / 159

50 Zu große Fehler (1/2) - Sei h H eine beliebige Hypothese mit zu großem Fehler, also fehler D (c, h) 4 ε. - Ist es nicht dann unwahrscheinlich, dass h mit höchstens 2ε s Beispielen inkonsistent ist? Mehr als 4ε s inkonsistente Beispiele sind zu erwarten. - Chernoff muss ran und zwar mit β = 1/2. p = prob D [ h ist mit höchstens 2εs Beispielen nicht konsistent ] e 4ε s 4 2 = e ε s 2 Die Beispielkomplexität Inkonsistente Hypothesen 50 / 159

51 Zu große Fehler (2/2) Für die Wahrscheinlichkeit q eines zu großen Fehlers gilt: q prob D [ h H mit fehler D (c,h) 4ε h ist mit 2εs Beispielen nicht konsistent ] - Also q h H e εs 2 = H e εs 2. - Um q δ/2 zu erhalten, fordere H e εs 2 δ/2. - Nach logarithmieren folgt ln H εs 2 ln ( δ [ ( )] 2 2 ε ln H + ln s. δ 2) und äquivalent Die Beispielkomplexität Inkonsistente Hypothesen 51 / 159

52 Zusammenfassung Wir erreichen fehler D (c, h) 4ε mit Wahrscheinlichkeit mindestens 1 δ, falls es eine Hypothese h mit fehler d (c, h ) ε gibt und falls s(δ, ε) 3 [ ( )] 2 ε ln H + ln. δ Die Beispielzahl steigt, im Vergleich zur garantierten Existenz konsistenter Lösungen nur moderat an!? Sind die Schranken für die Beispielzahl scharf? Sind ln( C ), bzw. ln( H ) gute Messungen der Anzahl der Freiheitsgrade von Konzept- bzw. Hypothesenklasse?? Wie bestimmt man (fast-)konsistente Hypothesen? Die Beispielkomplexität Inkonsistente Hypothesen 52 / 159

53 Das agnostische PAC-Modell Das agnostische PAC-Modell 53 / 159

54 Es wäre schön, wenn wir 1. Klassen C von Funktionen f : X Y mit beliebigem Wertebereich Y lernen könnten (bisher Y = 2), 2. Verteilungen D auf X Y zulassen könnten. (Bisher ist D nur auf dem Beispielraum X definiert.) Wir kennen das äußeren Erscheinungsbild x einer Frucht. Was sind die Schmeckt-lecker-Wahrscheinlichkeiten prob D [ Beispiel = x, y = 1 ]? Das agnostische PAC-Modell 54 / 159

55 Loss-Funktionen und erwarteter Loss Sei H eine Hypothesenklasse (a) Eine Funktion der Form l : H X Y R 0 wird als Loss-Funktion bezeichnet. { 0 h(x) = y Der 0-1 Loss l(h, x, y) = 1 h(x) y, y verschieden ist, bestraft, wenn h(x) von der quadratische Loss l(h, x, y) := (h(x) y) 2 bestraft große Abweichungen von y. (b) Der erwartete Loss einer Hypothese h H (bzgl. D und l) ist Loss D (h) := E (x,y) D [ l(h, x, y) ]. (Loss D (h) verallgemeinert unsere Definition von fehler D (c, h c ).) Das agnostische PAC-Modell Der erwartete Loss 55 / 159

56 Es ist Loss D (h) = fehler D (h) 0-1 Loss Sei l der 0-1 Loss. (a) Für eine Zielfunktion f : X Y und eine Hypothese h : X Y ist Loss D (h) = E (x,y) D [ l(h, x, y) ] = prob (x,y) D [ h(x) y ]. Die Verteilung D kann unterschiedliche Werte y h(x) in Abhängigkeit von x unterschiedlich gewichten (sprich: bestrafen) (b) Sei Y = {0, 1}, D eine Verteilung nur über dem Beispielraum X. Wir erhalten auch das alte Fehlermodell wie folgt: Setze D auf X {0, 1} fort. Das Paar (x, f (x)) übernimmt das Gewicht des Beispiels x. Das agnostische PAC-Modell Der erwartete Loss 56 / 159

57 Der quadratische Loss und lineare Regression Das einfache lineare Regressionsproblem: Experimentelle Beobachtungen (x 1, y 1 ),..., (x s, y s ) R 2 liegen vor: Allerdings sind Meßwerte u. U. verfälscht. Es wird nach einem linearen Zusammenhang zwischen den Größen x i und y i gesucht. Bestimme a, b R mit kleinem Trainingsfehler 1 s s (ax i + b y i ) 2. i=1 Hoffentlich ist der erwartete Loss Loss D (a, b) := E (x,y) D [(ax + b y) 2 ] (zur quadr. Loss-Funktion und Hypothese h(x) := ax + b) klein. Das agnostische PAC-Modell Der erwartete Loss 57 / 159

58 Agnostische PAC-Algorithmen Das agnostische PAC-Modell Agnostische PAC-Algorithmen 58 / 159

59 Wir wollen alles, aber H sei eine Konzeptklasse über X und Y Ein Lernalgorithmus A ist genau dann ein agnostischer PAC-Algorithmus für H (und eine Loss-Funktion l), wenn es für alle ε (0, 1] und alle δ (0, 1] eine Beispielzahl s = s(ε, δ) gibt, so dass A für alle Verteilungen D über X und Y, nach Erhalt von s Beispielen, eine Hypothese h bestimmt mit Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Das agnostische PAC-Modell Agnostische PAC-Algorithmen 59 / 159

60 Noch mal langsam... Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Der erwartete Loss E D [ l(h, x, y) ] ist eine Zufallsvariable, denn die Hypothese h hängt von den gezeigten Beispielen ab. Neue Perspektive: Der Approximationsfehler ist eine Eigenschaft der Hypothesenklasse und lässt sich nicht ändern. Wir sollten aber versuchen, den Schätzfehler klein zu halten. Gibt es agnostische PAC-Algorithmen? Das agnostische PAC-Modell Agnostische PAC-Algorithmen 60 / 159

61 Empirischer Loss (a) Für eine Menge S X Y von s klassifizierten Beispielen ist Loss S (h) := 1 s (x,y) S l(h, x, y) der empirische Loss (oder Trainingsfehler) für eine Loss-Funktion l und die Beispielmenge S. (b) Eine Hypothese h H ist eine ERM-Hypothese bezüglich l auf S, wenn Loss S (h) = min g H LossS (g). Was wäre toll? Wenn sich empirischer Loss und wahrer Loss nur unwesentlich unterscheiden. Das agnostische PAC-Modell Agnostische PAC-Algorithmen 61 / 159

62 ε-repräsentative Beispielmengen Das agnostische PAC-Modell ε-repräsentative Beispielmengen 62 / 159

63 ε-repräsentative Beispielmengen (1/6) H sei eine Hypothesenklasse über X und Y. Eine Beispielmenge S ist ε-repräsentativ für H, eine Loss-Funktion l und eine Verteilung D über X und Y, falls für alle Hypothesen h H gilt. Loss S (h) Loss D (h) ε Wenn ε-repräsentative Beispielmengen hoch-wahrscheinlich sind, dann gilt Loss S (h) Loss D (h) hoch-wahrscheinlich. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 63 / 159

64 ε-repräsentative Beispielmengen (2/6) Zeige: Für jede Verteilung D ist eine gemäß D zufällig ausgewählte Menge S von s = s(ε, δ) Beispielen ε-repräsentativ. mit Wahrscheinlichkeit mindestens 1 δ Zeige: p := prob D [ h H : ]! LossS (h) Loss D (h) ε δ. Für eine beliebige Hypothese h H ist E[ Loss S (h) ] = 1 s E[ l(h, x, y) ] = 1 s Loss D (h) = Loss D (h). (x,y) S (x,y) S Das agnostische PAC-Modell ε-repräsentative Beispielmengen 64 / 159

65 ε-repräsentative Beispielmengen (3/6) Gute Nachrichten: Der wahre Loss ist der Erwartungswert des empirischen Loss. Sind signifikante Abweichungen vom Erwartungswert relativ unwahrscheinlich, haben wir gewonnen! 1. Definiere die Zufallsvariable X h i := l(h, x i, y i ). 2. Fordere a i := 0 X h i 1 =: b i. Die Hoeffding-Ungleichung besagt prob[ LossS (h) Loss D (h) ε ] s ( = prob[ X h i E[ Xi h ] ) ε s ] 2 exp 2sε2. i=1 Das agnostische PAC-Modell ε-repräsentative Beispielmengen 65 / 159

66 ε-repräsentative Beispielmengen (4/6) [ ] p = prob D h H : LossS (h) Loss D (h) ε [ ] prob D Loss S (h) Loss D (h) ε h H H 2 exp 2sε2. Wir müssen p! δ erreichen und die Forderung H 2 exp 2sε2 δ ist zu erfüllen = s = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ) Beispiele sind ausreichend. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 66 / 159

67 ε-repräsentative Beispielmengen (5/6) Sei H eine Hypothesenklasse mit endlich vielen Hypothesen und sei l : H X Y [0, 1] eine Loss-Funktion. Es gelte }{{} Zu schwere Bestrafungen sind verboten s(ε, δ) = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ). }{{} Beispielzahl steigt um Faktor 1 ε an 1. Fordert man eine Menge S von s(ε/2, δ) Beispielen an und 2. bestimmt eine ERM-Hypothese h H bezüglich l, 3. so erhält man einen agnostischen PAC-Algorithmus bezüglich l. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 67 / 159

68 ε-repräsentative Beispielmengen (6/6) Fazit Ist die Beispielzahl genügend groß, dann sagt der Trainingsfehler den Verallgemeinerungsfehler hoch-wahrscheinlich voraus und zwar simultan für alle Hypothesen. Was bedeutet dies für praktische Anwendungen? Das agnostische PAC-Modell ε-repräsentative Beispielmengen 68 / 159

69 Occam-Algorithmen Das agnostische PAC-Modell Occam Algorithmen 69 / 159

70 Occam s Razor Non sunt multiplicanda entia praeter necessitatem. In freier Übersetzung: Wähle stets eine möglichst einfache Erklärung. Was ist eine einfache Erklärung (bzw. Hypothese)? Eine Erklärung, die zu einer Teilklasse H H mit möglichst wenigen Freiheitsgraden gehört. ( ) Hier weisen wir jeder Hypothese einen binären Namen zu. Wir suchen eine ERM-Hypothese mit möglichst kurzem Namen. Das agnostische PAC-Modell Occam Algorithmen 70 / 159

71 Die Konzeptklasse MONOM n Sei m ein Monom mit m = l 1 l 2 l k. l 1,..., l k sind Literale mit l j {x ij, x ij }. - Beschreibe m durch die Binärdarstellung b 1 code(i 1 ) b 2 code(i 2 ) b k code(i k ). code(i) ist die Binärdarstellung der Zahl i {0,..., n 1} mit führenden Nullen auf log 2 n Bits aufgefüllt. bj code(i j ) gibt an, ob l j = x ij (b j = 0) bzw. l j = x ij (b j = 1). - Die Beschreibungslänge ist k ( log 2 n + 1 ). Unser PAC-Algorithmus für MONOM n hat ein längstes konsistentes Monom bestimmt. War das eine gute Idee? Das agnostische PAC-Modell Occam Algorithmen 71 / 159

72 Occam-Algorithmen (1/2) Setup: Für h H sei länge(h) die Länge des binären Namens von h. H r : alle Hypothesen in H mit Namenslänge kleiner als r. Für welche Beispielzahl s r (ε, δ) erhalten wir einen PAC-Algorithmus, wenn wir eine konsistente Hypothese in H r finden? - Es ist H r r 1 i=0 2i = 2 r 1. - Sei p s,r die Wahrscheinlichkeit, dass es eine Hypothese h H r gibt, die mit s Beispielen konsistent ist und einen Fehler > ε hat. Dann ist p s,r (1 ε) s H r (1 ε) s 2 r. Das agnostische PAC-Modell Occam Algorithmen 72 / 159

73 Occam-Algorithmen (2/2) (1) Wir möchten p s,r δ erreichen und müssen fordern (1 ε) s 2 r δ. (2) Nach Logarithmieren ist dies äquivalent zu: s ln(1 ε) + r ln 2 ln δ. (3) Aber ln(1 ε) ε mit der Mutter aller Ungleichungen. Fordere s ε + r ln 2 ln(δ). Wenn für s r (ε, δ) = 1 ( ( ) ) 1 ε r ln 2 + ln δ Beispiele eine Hypothese h der Länge < r gefunden wird, dann hat h mit Wahrscheinlichkeit 1 δ einen Fehler ε. Das agnostische PAC-Modell Occam Algorithmen 73 / 159

74 Fazit: Occam-Algorithmen Erfolgreiches Lernen für Hypothesenlänge < r und s = 1 ( ( ) ) 1 ε r ln 2 + ln Beispiele. δ - Erfolgreiches Lernen, wenn die konsistente Hypothese wesentlich kürzer ist als die Anzahl der Beispiele, d.h. r << s. - Kurze Hypothesen komprimieren die Beispiele! Hat ein unbekanntes Monom höchstens k Literale, dann ( genügen 1 ε k log 2 n + ln ( ) ) 1 δ Beispiele. ( Unser erster Algorithmus benötigt 1 ε n + ln ( ) ) 1 δ Beispiele. Das agnostische PAC-Modell Occam Algorithmen 74 / 159

75 Zusammenfassung: Endliche Hypothesenklassen Das agnostische PAC-Modell Occam Algorithmen 75 / 159

76 Fazit (1/2) Was haben wir insgesamt erreicht? Das Gütesiegel hoch-wahrscheinlich kleiner Fehler kann bei Ω( 1 ε (ln( H ) + ln(1 δ ))) Beispielen an ERM-Hypothesen vergeben werden. Occam-Algorithmen erlauben eine Vergabe des Gütesiegels bei mgl. sehr kleiner Beispielmenge. Eine ERM-Hypothese erhält das Gütesiegel in Gold ( holt hoch-wahrscheinlich raus, was drin ist ) bei Ω( 1 ε 2 (ln( H ) + ln(1 δ ))) Beispielen: Schafft Verteilungen auf X Y und Loss-Funktionen! Das agnostische PAC-Modell Occam Algorithmen 76 / 159

77 Fazit (2/2) Ja, aber Werden so viele Beispiele auch tatsächlich benötigt? Kann man den Begriff Freiheitsgrad formalisieren? Lassen sich keine scharfen Aussagen über die Beispielzahl für reellwertige Hypothesenklassen wie etwa HALBRAUM n machen? Lassen sich ERM-Hypothesen effizient bestimmen? Modellieren wir Lern-Situationen in der Praxis? Sind die in Anwendungen gelieferten Beispiele unabhängig? Warum wird Lernen gegen jede Verteilung gefordert? Das agnostische PAC-Modell Occam Algorithmen 77 / 159

78 VC-Dimension und Freiheitsgrade Die VC-Dimension 78 / 159

79 Wie misst man Freiheitsgrade? Sei C eine Konzeptklasse (1) C zertrümmert eine Menge S von Beispielen, falls P(S) = {S c c C}. (P(S) = {T T S} ist die Potenzmenge von S.) (2) Die VC-Dimension VC(C) ist die maximale Mächtigkeit einer Menge S, die von C zertrümmert wird. Wenn C die Menge S zertrümmert, dann erhalten wir jede Teilmenge von S als den Durchschnitt von S mit einem Konzept in C: Wenn C die Menge S zertrümmert, dann muss bei kleinem Fehler die Klassifikation eines jeden Beispiels in S bekannt sein! Die VC-Dimension 79 / 159

80 Die Anzahl der Freiheitsgrade Wir definieren VC(C) als die Anzahl der Freiheitsgrade von C. Ist diese Definition vernünftig? BOOLEAN n besitzt ein Konzept c f für jede Boolesche Funktion f : {0, 1} n {0, 1}: c f = {x {0, 1} n f (x) = 1}. - BOOLEAN n sollte 2 n Freiheitsgrade besitzen, da der Wert von f auf jedem Argument x {0, 1} n bestimmt werden muss. - BOOLEAN n zertrümmert {0, 1} n, denn es gibt für jede Teilmenge T {0, 1} n ein Konzept c BOOLEAN n mit c = T. - Also ist VC(BOOLEAN n ) = 2 n. Die VC-Dimension 80 / 159

81 Die Konzeptklasse RECHTECK n RECHTECK n besitzt für jedes achsenprallele Rechteck R R n ein Konzept, das aus allen Punkten in R besteht. (1) Die Anzahl der Freiheitsgrade von RECHTECK 2 sollte vier sein, denn jedes Rechteck wird durch die vier Koordinaten diagonal gegenüber liegender Eckpunke beschrieben. (2) Die vier Punkte e 1 = ( 1, 0), e 2 = (0, 1), e 3 = (0, 1), e 4 = (1, 0) werden von RECHTECK 2 zertrümmert und VC(RECHTECK 2 ) 4 folgt. Die VC-Dimension Rechtecke 81 / 159

82 VC(RECHTECK 2 ) = 4 Wir zeigen VC(RECHTECK 2 ) 4. (1) Angenommen, RECHTECK 2 zertrümmert die fünf Punkte p 1, p 2, p 3, p 4, p 5. (2) p 1 und p 2 seien die Punkte mit minimaler (bzw. maximaler) x-koordinate. p 3 und p 4 seinen die Punkte mit minimaler (bzw. maximaler) y-koordinate. (3) Dann kann die Teilmenge T = {p 1, p 2, p 3, p 4 } aber nicht von p 5 getrennt werden! p 4 p 2 p1 p5 p 3 Die VC-Dimension Rechtecke 82 / 159

83 HALBRAUM n Jedes Konzept in HALBRAUM n besteht aus allen Punkten x R, die die Ungleichung n i=1 w i x i t erfüllen. HALBRAUM n sollte n + 1 Freiheitsgrade besitzen: Jedes Konzept wird durch die n Gewichte und den Schwellenwert beschrieben. - HALBRAUM n zertrümmert die n + 1 Punkte 0, e 1,..., e n, wobei e i der ite Einheitsvektor ist. Warum? Sei T {0, e 1,..., e n } eine beliebige Teilmenge. Wenn 0 T, wähle c als den Halbraum n i=1 w i x i 1 mit w i = 1, wenn e i T, und w i = 1, wenn e i T. Wenn 0 T, dann arbeite mit den gleichen Gewichten, setze aber den Schwellenwert auf 0. - Also ist VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 83 / 159

84 VC(HALBRAUM n ) n + 1 (1/2) - Sei S eine Menge von n + 2 Punkten. - Wie beschafft man sich eine Teilmenge T S, die nicht von ihrem Komplement S \ T getrennt werden kann? Der Satz von Radon Für jede Menge S R n mit S n + 2 gibt es eine nicht-leere Teilmenge T S, so dass konvexe Hülle(T ) konvexe Hülle(S \ T ). Zum Beispiel: Vier Punkte im R 2 besitzen stets eine Teilmenge T, die nicht von ihrem Komplement getrennt werden kann. Die VC-Dimension Halbräume 84 / 159

85 VC(HALBRAUM n ) n + 1 (2/2) Angenommen, n i=1 w i x i t für alle Punkte in T und n i=1 w i x i < t für alle Punkte in S \ T. (1) Setze H 1 = { x R n n w i x i t }, H 2 = { x R n i=1 n w i x i < t }. i=1 (2) Dann H 1 H 2 =. (3) Aber T H 1 und S \ T H 2 nach Annahme. (4) Wir erhalten einen Widerspruch zum Satz von Radon, denn H 1 und H 2 sind konvex. VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 85 / 159

86 Kugeln und konvexe Polygone (a) Die Konzeptklasse KUGEL d besitzt für jede Kugel K r (m) = {y R d : x m r} in R d ein Konzept. Es ist VC(KUGEL d ) = d + 1. (b) Die Konzeptklasse k-gons ist die Klasse der konvexen Polygone in R 2 mit höchstens k Ecken. Das Konzept besteht aus allen eingeschlossenen Punkten. Es ist VC(k-GONS) = 2k Der Beweis wird in den Übungen behandelt. - k-gons werden doch durch k Punkte mit jeweils zwei Koordinaten festgelegt?! (Aber höchstens k Ecken werden gefordert.) Die VC-Dimension Halbräume 86 / 159

87 Und dann sowas! Für a R definieren wir das Konzept Sinus(a) R 1 Es ist x Sinus(a) sin(a x) = 1. (Wir setzen 1 = 0.) 2 Die Konzeptklasse S besteht aus allen Konzepten Sinus(a). S wird durch einen Parameter beschrieben, aber VC(S) =. Welche Sichtweise ist richtig: Kann man S mit endlich vielen Beispielen lernen? Die VC-Dimension Halbräume 87 / 159

88 Einfache Eigenschaften der VC-Dimension (a) Wenn C 1 C 2, dann ist VC(C 1 ) VC(C 2 ). (b) C = { c c C } ist die Komplement-Konzeptklasse von C. Dann gilt VC(C) = VC ( C ). (c) Für jede endliche Konzeptklasse C ist VC(C) log 2 C. Zu Teil (c): ( ) Angenommen, C zertrümmert eine Beispielmenge S. ( ) Dann gibt es zu jeder Teilmenge T S ein Konzept c T C mit T = S c T. ( ) Also ist die Anzahl der Teilmengen von S höchstens so groß wie die Anzahl der Konzepte in C = 2 S C. ( ) = VC(C) log 2 C. Die VC-Dimension Eigenschaften der VC-Dimension 88 / 159

89 Die VC-Dimension wichtiger Konzeptklassen (a) VC(MONOTON-MONOM n ) = n. (b) VC(MONOM 1 ) = 2 und VC(MONOM n ) = n für n 2. (c) ( ) n k VC(k-KNFn ) = VC(k-DNF n ) ( n k) 2 k. (d) VC(k-KLAUSEL-KNF n ) = VC(k-Term-DNF n ) = Θ(k n) für k 2 n/2. (e) VC(BOOLEAN n ) = 2 n. (f) VC(SYM n ) = n + 1. (g) VC(AUTOMAT n,σ ) = Θ(n Σ log 2 n). (h) VC(RECHTECK n ) = 2n. (i) VC(HALBRAUM n ) = n + 1. Die VC-Dimension Eigenschaften der VC-Dimension 89 / 159

90 Die VC-Dimension von SYM n Eine boolesche Funktion f : {0, 1} n {0, 1} heißt symmetrisch, wenn der Wert f (x) nur von der Anzahl der Einsen in x abhängt. SYM n besitzt für jede symmetrische Funktion f das Konzept c f = {x f (x) = 1}. Behauptung: VC(SYM n ) = n + 1. Die Anzahl der symmetrischen Funktionen f stimmt mit der Anzahl der Funktionen g : {0,..., n} {0, 1} überein. = SYM n = 2 n+1 und VC(SYM n ) n + 1 folgt. Der Vektor e i habe Einsen in den Positionen 1,..., i und sonst nur Nullen. Wir zertrümmern S = {e 0,..., e n } mit e 0 = 0. Für T S definiere die symmetrische Funktion f mit { 1 ei T f (e i ) = 0 sonst, Dann ist S cf = T. Die VC-Dimension Eigenschaften der VC-Dimension 90 / 159

91 Konsistente Hypothesen: Untere Schranken für die Beispielzahl Wieviele Beispiele sind notwendig? 91 / 159

92 Wieviele Beispiele sind notwendig: Intervalle Die Konzeptklasse INTERVALL besteht aus allen Intervallen I [0, 1]. Wieviele Beispiele sind notwendig, um Intervalle mit Wahrscheinlichkeit 1 δ und Fehler höchstens ε zu lernen? - INTERVALL besteht aus überabzählbar unendlich vielen Konzepten. Unsere ln C -Schranke versagt völlig. - Angenommen, unser Lernalgorithmus gibt das kleinste Intervall, das alle positiven Beispiele enthält, als Hypothese aus. Übungen: s = Ω( ln(1/δ) ε ) Beispiele sind notwendig, um das Zielkonzept I = [0, 1] zu lernen. Wieviele Beispiele sind notwendig? Die Konzeptklasse INTERVALL 92 / 159

93 Eine weitreichende Verallgemeinerung (1/2) Nenne eine Konzeptklasse C trivial, wenn C nur aus einem Konzept oder aus disjunkten Konzepten besteht. (1) Wenn C nicht-trivial ist, dann gibt es zwei Beispiele x y und zwei Konzepte c 1, c 2 C mit {x, y} c 1 sowie x c 2, y c 2. (2) Mache x hoch-wahrscheinlich (Wahrscheinlichkeit 1 2ε) und y niedrig-wahrscheinlich (Wahrscheinlichkeit 2ε). (3) Ein deterministischer Lernalgorithmus irrt für entweder c 1 oder c 2, wenn Beispiel y nicht gesehen wird. Wenn der Lernalgorithmus y nicht sieht, dann folgt der unerlaubt große Fehler 2ε. Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 93 / 159

94 Eine weitreichende Verallgemeinerung (2/2) (1) Es muss gewährleistet sein, dass der Algorithmus Beispiel y mit Wahrscheinlichkeit höchstens δ nicht sieht. (2) Aber y wird mit Wahrscheinlichkeit (1 2ε) s = e Θ(ε s) nicht gesehen. (3) Wir müssen e Θ(ε s) δ, bzw. 1/δ e Θ(ε s) fordern. Für jede nicht-triviale Konzeptklasse C werden mindestens Beispiele benötigt. Ω( 1 ε ln(1 δ )) Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 94 / 159

95 Wieviele Beispiele sind notwendig: Der allgemeine Fall Es gelte VC(C) = d + 1 und C zertrümmere die Beispielmenge S = {x 0,..., x d } (1) S wird zertrümmert: Jede Teilmenge von S entspricht einem Konzept. (2) Wir definieren eine schwierige Verteilung D auf den Beispielen: x0 ist hoch-wahrscheinlich, und wird mit Wahrscheinlichkeit 1 4ε gewählt. Jedes andere xi erhält die Wahrscheinlichkeit 4ε/d. Beispiele außerhalb S erhalten die Wahrscheinlichkeit 0. (3) x 0 wird sehr häufig gewählt: Wann sieht ein Lernalgorithmus genügend viele verschiedene klassifizierte Beispiele in S? Wieviele Beispiele sind notwendig? Der allgemeine Fall 95 / 159

96 Wieviele Beispiele sind notwendig: Der allgemeine Fall Wenn s Beispiele angefordert werden und wenn d = VC(C): (1) Die erwartete Häufigkeit von x 0 ist s (1 4ε). (2) Der Algorithmus sieht nur s 4ε Beispiele aus {x 1,..., x d }. (3) Angenommen s d 8ε. Der Algorithmus sieht nur d/2 verschiedene Beispiele aus S. Die Klassifikation der nicht gesehenen Beispiele ist beliebig (denn S wird zertrümmert) und damit nicht prognostizierbar. Der Algorithmus muss die Klassifikation der nicht gesehenen d/2 Beispiele raten und wird sich für ein Zielkonzept irren. = der erwartete Fehler ist (d/2) (4ε/d) = 2ε. Mindestens Ω( VC(C) ) ε Beispiele müssen angefordert werden. Wieviele Beispiele sind notwendig? Der allgemeine Fall 96 / 159

97 Zusammenfassung Wir kombinieren die untere Schranke bei großer VC-Dimension mit der unteren Schranke für kleines δ: Für jede nicht-triviale Konzeptklasse C sind mindestens Ω( 1 [ ( )] 1 ε VC(C) + ln ) δ Beispiele notwendig bzw der Fehler beträgt mindestens Ω( 1 [ ( )] 1 s VC(C) + ln ). δ Diese untere Schranke ist in vielen Fällen asymptotisch exakt! Wieviele Beispiele sind notwendig? Der allgemeine Fall 97 / 159

98 Konsequenzen der unteren Schranke Da Ω( 1 ε (VC(C n) + ln( 1 δ ))) = Beispiel(C n) = O( 1 ε (ln( C n ) + ln( 1 δ ))), kann die Beispielzahl exakt vorausgesagt werden, wenn VC(C n ) = Θ(ln( C n )). (a) Beispiel(MONOTON-MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (b) Beispiel(MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (c) Beispiel(k-KNF n ) = Beispiel(k-DNF n ) = Θ( nk ε + 1 ε ln ( ) 1 δ ). (e) Beispiel(k-KLAUSEL-KNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (f) Beispiel(k-TERM-DNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (g) Beispiel(BOOLEAN n ) = Θ( 1 ε 2n + 1 ε ln ( ) 1 δ ). (h) Beispiel(SYM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (i) Beispiel(AUTOMAT n,σ ) = Θ( 1 ε n log 2 n + 1 ε ln ( ) 1 δ ) für Σ = 2. Wieviele Beispiele sind notwendig? Der allgemeine Fall 98 / 159

99 No free Lunch Wieviele Beispiele sind notwendig? No free Lunch 99 / 159

100 Gibt es universelle Lernalgorithmen? Sei X = {0, 1} n.? Warum wählen wir eine Hypothesenklasse a priori aus?? Warum nicht Algorithmen bauen, die prinzipiell jede mögliche Hypothese als Antwort geben können? Dann müssen wir mit der Hypothesenklasse BOOLEAN n arbeiten, die für jede Teilmenge von X = {0, 1} n ein Konzept besitzt. No-Free-Lunch-Theorem Der Lernalgorithmus A fordere weniger als X /2 Beispiele an = Es gibt ein Konzept c X, eine Verteilung D, eine reelle Zahl µ > 0, so dass für die von A bestimmte Hypothese h c gilt: prob[ fehler D (c, h c ) µ ] µ. Wieviele Beispiele sind notwendig? No free Lunch 100 / 159

101 Konsistente Hypothesen: Wieviele Beispiele genügen? Wieviele Beispiele sind ausreichend? 101 / 159

102 Das Ziel Die Konzeptklasse C sei gegeben mit VC(C) = d. Dann gibt es einen PAC-Algorithmus für C, der höchstens 4 ( ( ) ( )) 12 2 ε d ln + ln Beispiele anfordert. ε δ - Vollständig zertrümmerte Beispielmengen S sind chaotisch, denn jede Teilmenge kann als Konzept auftreten. - Bei genügend vielen Beispielen werden aber (fast) alle Freiheitsgrade gesetzt, und wir haben kein Problem. Was passiert, wenn der Algorithmus eine Beispielmenge S mit s >> VC(C) Beispielen sieht? Wie chaotisch ist S? Wieviele Beispiele sind ausreichend? 102 / 159

103 Das partielle Zertrümmern großer Beispielmengen C zertrümmert eine Beispielmenge S mit S = VC(C). Für größere Beispielmengen: Wieviele Teilmengen produziert C höchstens? - Für eine Beispielmenge S setze - Für s N ist Π C (S) := { c S c C }. Π C (s) := max{ Π C (S) S = s }. Sauer s Lemma Für d = VC(C) und jedes s N ist Für s d ist Π C (s) ( ) e s d. d Π C (s) d i=0 ( ) s. i Der (einfache) Beweis wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Sauer s Lemma 103 / 159

104 Sauer s Lemma: Eine Diskussion (1/2) Die Beispielmenge S sei gegeben und es gelte d = VC(C). (a) Wieviele Konzepte der Konzeptklasse C unterscheiden sich auf S? Genau ΠC (S) Konzepte, denn Π C (S) = { c S c C }. Es gibt höchstens d i=0 ( ) s ( e s i d )d Konzepte aus C, die sich auf S voneinander unterscheiden. (b) Wie scharf ist die obere Schranke in Sauer s Lemma? - Für s d = VC(C) ist Π C (s) = 2 s, denn es gibt Beispielmengen der Größe s, die vollständig zertrümmert werden können. - Sauer s Lemma ist exakt für s d: s ( ) s s ( ) s 2 s = Π C (s) = 1 i 1 s i = (1 + 1) s i i denn ( s i ) = 0 für i > s. i=0 Wieviele Beispiele sind ausreichend? Sauer s Lemma 104 / 159 i=0

105 Sauer s Lemma: Eine Diskussion (2/2) (c) Es gibt höchstens endlich viele verschiedene Konzepte über S, nämlich höchstens ( e s d )d Konzepte. Reine Spekulation (?!): Und wenn wir die Schranke für endliche Konzeptklassen anwenden? Für geeignete Konstanten C, D folgt: s C ( ε d ln( e s ) d ) + ln(1 δ ) D (d ε ln( 1ε ) ) + ln(1δ ) Beispiele genügen. Genau das möchten wir zeigen! Wieviele Beispiele sind ausreichend? Sauer s Lemma 105 / 159

106 ε-netze Wieviele Beispiele sind ausreichend? Epsilon-Netze 106 / 159

107 ε-netze Die Situation: - Eine Beispielmenge S mit s Beispielen wurde zufällig gewählt. - Das (unbekannte) Zielkonzept sei c C und D sei die Verteilung. - Gefahr: Es gibt konsistentes Konzept c C mit großem Fehler. c ist genau dann mit S konsistent, wenn S (c c ) =. Der Fehler ist zu groß, falls fehlerd (c, c ) > ε. Wir nennen ε (c) = {c c c C und fehler D (c, c ) > ε } die Menge der ε-fehlerregionen für c. Wieviele Beispiele sind ausreichend? Epsilon-Netze 107 / 159

108 ε-netze Wir nennen eine Beispielmenge S ein ε-netz, wenn für jede ε-fehlerregion c ε (c). S c Angenommen, S ist ein ε-netz und c ist eine konsistente Hypothese mit zu großem Fehler: - Dann ist c c eine ε-fehlerregion = c c ε (c). - Aber S ist ein ε-netz = S (c c ). - Es gibt ein x S mit x c c = c ist nicht auf S konsistent. Ein konsistenter Lernalgorithmus ist ein PAC-Algorithmus, falls prob[ S ist ein ε-netz ] 1 δ. Wieviele Beispiele sind ausreichend? Epsilon-Netze 108 / 159

109 Wahrscheinlichkeit eines ε-netzes (1/2) Sei A s das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Was ist die Wahrscheinlichkeit von A s? prob[ A s ] = prob[ S ist kein ε-netz ] = prob[ Es gibt ein c = c c ε (c) und S c = ] prob[ S c = ] c ε(c) Aber die Anzahl der Fehlerregionen in ε (c) kann sogar unendlich groß sein. So geht es leider nicht. Wieviele Beispiele sind ausreichend? Epsilon-Netze 109 / 159

110 Wahrscheinlichkeit eines ε-netzes (2/2) Es ist prob[ A s ] = prob[ Es gibt ein c = c c ε (c) und S c = ]. Wir definieren das Ereignis [ B s c ε (c) c S 1 = c S 2 ε s ] 2 für Beispielmengen S 1, S 2 von jeweils s Beispielen. B s tritt ein, wenn eine schlechte Hypothese c mit c = c c ( ) nicht auf den ersten s, ( ) wohl aber auf den zweiten s Beispielen auffällt. Wieviele Beispiele sind ausreichend? Epsilon-Netze 110 / 159

111 Das Ereignis B s (1) B s tritt für (S 1, S 2 ) ein. die schlechte Hypothese c fällt auf S 1 nicht auf S1 ist kein ε-netz Ereignis As tritt für S 1 ein. (2) Also folgt prob[ B s ] = prob[ B s A s ] prob[ A s ]. Eine schlechte Hypothese c sollte wahrscheinlich auf S 2 inkonsistent sein = prob[ B s A s ] sollte groß sein. Wenn s 8 ε, dann ist prob[ A s ] 2 prob[ B s ]. Der Beweis (via Chernoff-Schranke) wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 111 / 159

112 Zwischenfazit (1) Unser Ziel ist der Nachweis, dass eine Menge von s Beispielen hoch-wahrscheinlich ein ε-netz ist, falls s hinreichend groß ist. (2) A s ist das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Wir wissen, dass prob[ A s ] 2 prob[ B s ] mit [ B s c ε (c) (3) Zeige, dass B s unwahrscheinlich ist. c S 1 = c S 2 ε s 2 (4) Für B s ziehe eine Beispielmenge S von 2s Beispielen: Zuerst die s Beispiele aus S1, dann die s Beispiele aus S2. ]. - Beachte, dass (c S) S 1 = c (S S 1 ) = c S 1 und (c S) S 2 = c (S S 2 ) = c S 2. - Ersetze c durch c S. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 112 / 159

113 Die Reduktion auf Sauer s Lemma (1/2) (1) Wir fassen die Einzelexperimente (ziehe zuerst S 1, dann S 2 ) zu Großexperimenten S zusammen: Ziehe zuerst S, dann zerlege S zufällig in S1 und S 2. (2) Fixiere ab jetzt das Großexperiment S. Wie groß ist die Wahrscheinlichkeit prob[ B s S ] des Ereignisses B s, wenn wir das Großexperiment S durchführen? prob[ B s S ] = prob[ c ε (c) : (c S) S 1 =, (c S) S 2 ε s 2 ] prob[ (c S) S 1 =, (c S) S 2 ε s 2 ]. c S,c ε(c) Wieviele Beispiele sind ausreichend? Die Reduktion auf Sauer s Lemma 113 / 159

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier

Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben?

1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben? Die Themen 1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben? Er sollte von wirklichen Zufallsgeneratoren nicht unterscheidbar sein?! Eine viel zu starke Forderung: Stattdessen sollte ein

Mehr

Beschreibungskomplexität von Grammatiken Definitionen

Beschreibungskomplexität von Grammatiken Definitionen Beschreibungskomplexität von Grammatiken Definitionen Für eine Grammatik G = (N, T, P, S) führen wir die folgenden drei Komplexitätsmaße ein: Var(G) = #(N), Prod(G) = #(P ), Symb(G) = ( α + β + 1). α β

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Lösungsvorschläge Blatt 4

Lösungsvorschläge Blatt 4 Theoretische Informatik Departement Informatik Prof. Dr. Juraj Hromkovič http://www.ita.inf.ethz.ch/theoinf16 Lösungsvorschläge Blatt 4 Zürich, 21. Oktober 2016 Lösung zu Aufgabe 10 (a) Wir zeigen mit

Mehr

Musterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2012/13

Musterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2012/13 Institut für Kryptographie und Sicherheit Prof. Dr. Jörn Müller-Quade Musterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 22/3 Vorname Nachname Matrikelnummer

Mehr

3. Kombinatorik und Wahrscheinlichkeit

3. Kombinatorik und Wahrscheinlichkeit 3. Kombinatorik und Wahrscheinlichkeit Es geht hier um die Bestimmung der Kardinalität endlicher Mengen. Erinnerung: Seien A, B, A 1,..., A n endliche Mengen. Dann gilt A = B ϕ: A B bijektiv Summenregel:

Mehr

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung 8a. Kovarianz und Korrelation Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Kapitel 3 Konvexität 3.1 Konvexe Mengen Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Definition 3.1 Konvexer Kegel. Eine Menge Ω R n heißt konvexer Kegel, wenn mit x

Mehr

Dank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Probleme über Sprachen. Teil II.

Dank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Probleme über Sprachen. Teil II. Dank Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen

Mehr

Streaming Data: Das Modell

Streaming Data: Das Modell Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer

Mehr

Vollständige Induktion

Vollständige Induktion Schweizer Mathematik-Olympiade smo osm Vollständige Induktion Aktualisiert: 1 Dezember 01 vers 100 Eine der wichtigsten Beweistechniken der Mathematik überhaupt ist die (vollständige) Induktion Wir nehmen

Mehr

Wahrscheinlichkeitstheorie und Statistik vom

Wahrscheinlichkeitstheorie und Statistik vom INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

Technische Universität München Zentrum Mathematik. Übungsblatt 7

Technische Universität München Zentrum Mathematik. Übungsblatt 7 Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 2013/14

Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 2013/14 Institut für Theoretische Informatik Prof. Dr. Jörn Müller-Quade Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 23/4 Vorname Nachname Matrikelnummer Hinweise Für die

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015 4. April 2016 Zu der Vorlesung wird ein Skript erstellt, welches auf meiner Homepage veröffentlicht wird: http://www.math.uni-hamburg.de/home/geschke/lehre.html

Mehr

2. Spezielle anwendungsrelevante Funktionen

2. Spezielle anwendungsrelevante Funktionen 2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für

Mehr

2 Die Dimension eines Vektorraums

2 Die Dimension eines Vektorraums 2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Randomisierte Algorithmen 2. Erste Beispiele

Randomisierte Algorithmen 2. Erste Beispiele Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest

Mehr

Ersetzbarkeitstheorem

Ersetzbarkeitstheorem Ersetzbarkeitstheorem Die Abgeschlossenheit läßt sich auch folgendermaßen formulieren: Ersetzbarkeitstheorem Seien F und G Formeln mit F G. SeienH und H Formeln, so daß H aus H hervorgeht, indem ein Vorkommen

Mehr

Unabhängigkeit KAPITEL 4

Unabhängigkeit KAPITEL 4 KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht

Mehr

Satz 16 (Multiplikationssatz)

Satz 16 (Multiplikationssatz) Häufig verwendet man die Definition der bedingten Wahrscheinlichkeit in der Form Damit: Pr[A B] = Pr[B A] Pr[A] = Pr[A B] Pr[B]. (1) Satz 16 (Multiplikationssatz) Seien die Ereignisse A 1,..., A n gegeben.

Mehr

Varianz und Kovarianz

Varianz und Kovarianz KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]

Mehr

Kapitel 6 Martingale

Kapitel 6 Martingale Kapitel 6 Martingale Martingale spielen eine große Rolle in der Finanzmathematik, und sind zudem ein wichtiges Hilfsmittel für die statistische Inferenz stochastischer Prozesse, insbesondere auch für Zählprozesse

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

Übungsaufgaben zu Formalen Sprachen und Automaten

Übungsaufgaben zu Formalen Sprachen und Automaten Universität Freiburg PD Dr. A. Jakoby Sommer 27 Übungen zum Repetitorium Informatik III Übungsaufgaben zu Formalen Sprachen und Automaten. Untersuchen Sie das folgende Spiel: A B x x 2 x 3 C D Eine Murmel

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Theoretische Informatik Kap 2: Berechnungstheorie

Theoretische Informatik Kap 2: Berechnungstheorie Gliederung der Vorlesung 0. Grundbegriffe 1. Formale Sprachen/Automatentheorie 1.1. Grammatiken 1.2. Reguläre Sprachen 1.3. Kontextfreie Sprachen 2. Berechnungstheorie 2.1. Berechenbarkeitsmodelle 2.2.

Mehr

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016 Prof. Dr. Christoph Karg 5.7.2016 Hochschule Aalen Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik Sommersemester 2016 Name: Unterschrift: Klausurergebnis Aufgabe 1 (15 Punkte) Aufgabe 3

Mehr

Handout zu Beweistechniken

Handout zu Beweistechniken Handout zu Beweistechniken erstellt vom Lernzentrum Informatik auf Basis von [Kre13],[Bün] Inhaltsverzeichnis 1 Was ist ein Beweis? 2 2 Was ist Vorraussetzung, was ist Behauptung? 2 3 Beweisarten 3 3.1

Mehr

1. Aufgabe [2 Punkte] Seien X, Y zwei nicht-leere Mengen und A(x, y) eine Aussageform. Betrachten Sie die folgenden Aussagen:

1. Aufgabe [2 Punkte] Seien X, Y zwei nicht-leere Mengen und A(x, y) eine Aussageform. Betrachten Sie die folgenden Aussagen: Klausur zur Analysis I svorschläge Universität Regensburg, Wintersemester 013/14 Prof. Dr. Bernd Ammann / Dr. Mihaela Pilca 0.0.014, Bearbeitungszeit: 3 Stunden 1. Aufgabe [ Punte] Seien X, Y zwei nicht-leere

Mehr

Diskrete Wahrscheinlichkeitstheorie - Probeklausur

Diskrete Wahrscheinlichkeitstheorie - Probeklausur Diskrete Wahrscheinlichkeitstheorie - robeklausur Sommersemester 2007 - Lösung Name: Vorname: Matrikelnr.: Studiengang: Hinweise Sie sollten insgesamt Blätter erhalten haben. Tragen Sie bitte Ihre Antworten

Mehr

kontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung

kontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung Theoretische Informatik Rainer Schrader Zentrum für Angewandte Informatik Köln 14. Juli 2009 1 / 40 2 / 40 Beispiele: Aus den bisher gemachten Überlegungen ergibt sich: aus der Chomsky-Hierarchie bleiben

Mehr

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

Satz 18 (Satz von der totalen Wahrscheinlichkeit) Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A 1,..., A n seien paarweise disjunkt und es gelte

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Mathematik I. Vorlesung 19. Metrische Räume

Mathematik I. Vorlesung 19. Metrische Räume Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors

Mehr

Diskrete Strukturen Kapitel 2: Grundlagen (Beweise)

Diskrete Strukturen Kapitel 2: Grundlagen (Beweise) WS 2014/15 Diskrete Strukturen Kapitel 2: Grundlagen (Beweise) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_14

Mehr

Grundbegriffe der Wahrscheinlichkeitsrechnung

Grundbegriffe der Wahrscheinlichkeitsrechnung Algorithmen und Datenstrukturen 349 A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich.

Mehr

TECHNISCHE UNIVERSITÄT MÜNCHEN

TECHNISCHE UNIVERSITÄT MÜNCHEN TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik PROF. DR.DR. JÜRGEN RICHTER-GEBERT, VANESSA KRUMMECK, MICHAEL PRÄHOFER Aufgabe 45. Polynome sind stets stetig. Höhere Mathematik für Informatiker II (Sommersemester

Mehr

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016 Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

5 Zwei spieltheoretische Aspekte

5 Zwei spieltheoretische Aspekte 5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,

Mehr

Probabilistische Analyse von Algorithmen

Probabilistische Analyse von Algorithmen Lehrstuhl Informatik I Algorithmen & Komplexität RWTH Aachen 27. Mai 2005 Übersicht Einführung 1 Einführung 2 Exkurs: Wahrscheinlichkeitstheorie Borgwardts 3 Idee 4 Formale Beschreibung des s Motivation

Mehr

Regulär variierende Funktionen

Regulär variierende Funktionen KAPITEL 4 Regulär variierende Funktionen Unser nächstes Ziel ist es, die Max-Anziehungsbereiche der Extremwertverteilungen zu beschreiben. Dies wird im nächsten Kapitel geschehen. Wir haben bereits gesehen,

Mehr

K8 Stetige Zufallsvariablen Theorie und Praxis

K8 Stetige Zufallsvariablen Theorie und Praxis K8 Stetige Zufallsvariablen Theorie und Praxis 8.1 Theoretischer Hintergrund Wir haben (nicht abzählbare) Wahrscheinlichkeitsräume Meßbare Funktionen Zufallsvariablen Verteilungsfunktionen Dichten in R

Mehr

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6.

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6. Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6. November 2014 (O-Notation, Theta, Omega) Junior-Prof. Dr. Olaf Ronneberger

Mehr

Konvergenz, Filter und der Satz von Tychonoff

Konvergenz, Filter und der Satz von Tychonoff Abschnitt 4 Konvergenz, Filter und der Satz von Tychonoff In metrischen Räumen kann man topologische Begriffe wie Stetigkeit, Abschluss, Kompaktheit auch mit Hilfe von Konvergenz von Folgen charakterisieren.

Mehr

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen. Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.

Mehr

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:

Mehr

6 Reelle und komplexe Zahlenfolgen

6 Reelle und komplexe Zahlenfolgen $Id: folgen.tex,v.7 200//29 :58:57 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Folgenkonvergenz In der letzten Sitzung hatten wir den Begriff der Konvergenz einer reellen oder komplexen Folge gegen

Mehr

Mathematik für Anwender II

Mathematik für Anwender II Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines

Mehr

24 KAPITEL 2. REELLE UND KOMPLEXE ZAHLEN

24 KAPITEL 2. REELLE UND KOMPLEXE ZAHLEN 24 KAPITEL 2. REELLE UND KOMPLEXE ZAHLEN x 2 = 0+x 2 = ( a+a)+x 2 = a+(a+x 2 ) = a+(a+x 1 ) = ( a+a)+x 1 = x 1. Daraus folgt dann, wegen x 1 = x 2 die Eindeutigkeit. Im zweiten Fall kann man für a 0 schreiben

Mehr

Einführung in die Informatik 2

Einführung in die Informatik 2 Einführung in die Informatik 2 Mathematische Grundbegriffe Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr,

Mehr

Der Primzahlsatz. Es gibt eine Konstante A, so daß f(x) g(x) Ah(x) für alle genügend großen x.

Der Primzahlsatz. Es gibt eine Konstante A, so daß f(x) g(x) Ah(x) für alle genügend großen x. Der Primzahlsatz Zusammenfassung Im Jahr 896 wurde von Hadamard und de la Vallée Poussin der Primzahlsatz bewiesen: Die Anzahl der Primzahlen kleiner gleich verhält sich asymptotisch wie / log. Für ihren

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 25. April 2016 Die Dimensionsformel Definition 3.9 Sei f : V W eine lineare Abbildung zwischen zwei K-Vektorräumen. Der Kern

Mehr

Probabilistische Primzahltests

Probabilistische Primzahltests 23.01.2006 Motivation und Überblick Grundsätzliches Vorgehen Motivation und Überblick Als Primzahltest bezeichnet man ein mathematisches Verfahren, mit dem ermittelt wird, ob eine gegebene Zahl eine Primzahl

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Kostenmodell. Daniel Graf, Tobias Pröger. 22. September 2016 (aktualisierte Fassung 5 vom 9. Oktober 2016)

Kostenmodell. Daniel Graf, Tobias Pröger. 22. September 2016 (aktualisierte Fassung 5 vom 9. Oktober 2016) Kostenmodell Daniel Graf, Tobias Pröger 22. September 2016 (aktualisierte Fassung 5 vom 9. Oktober 2016) Erklärung: Diese Mitschrift ist als Ergänzung zur Vorlesung gedacht. Wir erheben keinen Anspruch

Mehr

TU Darmstadt FB Mathematik, AG 9 WS 2004/2005 Jakob Creutzig (1 + ρ)

TU Darmstadt FB Mathematik, AG 9 WS 2004/2005 Jakob Creutzig (1 + ρ) TU Darmstadt FB Mathematik, AG 9 WS 2004/2005 Jakob Creutzig 9..04 Lösungsvorschläge zum 3. Aufgabenblatt der Vorlesung,,Einführung in die Finanzmathematik Gruppenübungen Aufgabe : Es sei Ω = {, +} n,

Mehr

Algorithmen II Vorlesung am

Algorithmen II Vorlesung am Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum

Mehr

ε δ Definition der Stetigkeit.

ε δ Definition der Stetigkeit. ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x

Mehr

Gleichungen und Ungleichungen

Gleichungen und Ungleichungen Gleichung Eine Gleichung erhalten wir durch Gleichsetzen zweier Terme. Kapitel 3 Gleichungen und Ungleichungen linke Seite = rechte Seite Grundmenge: Menge aller Zahlen, die wir als Lösung der Gleichung

Mehr

Übungen zur Linearen Algebra 1

Übungen zur Linearen Algebra 1 Übungen zur Linearen Algebra 1 Wintersemester 014/015 Universität Heidelberg - IWR Prof. Dr. Guido Kanschat Dr. Dörte Beigel Philipp Siehr Blatt 7 Abgabetermin: Freitag, 05.1.014, 11 Uhr Aufgabe 7.1 (Vektorräume

Mehr

Mathematik 1 für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler) Musterprüfung mit Lösungen

Mathematik 1 für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler) Musterprüfung mit Lösungen Mathematik für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler Musterprüfung mit Lösungen. Sei T N. (a Unter welchen beiden Voraussetzungen an T garantiert das Induktionsaxiom (nach

Mehr

2. Optimierungsprobleme 6

2. Optimierungsprobleme 6 6 2. Beispiele... 7... 8 2.3 Konvexe Mengen und Funktionen... 9 2.4 Konvexe Optimierungsprobleme... 0 2. Beispiele 7- Ein (NP-)Optimierungsproblem P 0 ist wie folgt definiert Jede Instanz I P 0 hat einen

Mehr

4 Diskrete Wahrscheinlichkeitsverteilungen

4 Diskrete Wahrscheinlichkeitsverteilungen 4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder

Mehr

Kapitel 3. Natürliche Zahlen und vollständige Induktion

Kapitel 3. Natürliche Zahlen und vollständige Induktion Kapitel 3 Natürliche Zahlen und vollständige Induktion In Kapitel 1 haben wir den direkten Beweis, den modus ponens, kennen gelernt, der durch die Tautologie ( A (A = B) ) = B gegeben ist Dabei war B eine

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

MAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss.

MAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss. 1. Konvexität in der absoluten Ebene In einem Dreieck in der Euklidischen Ebene hat die Strecke zwischen zwei Seitenmittelpunkten die halbe Länge der dritten Seite. In der absoluten Ebene hat man eine

Mehr

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS) Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,

Mehr

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Übungen zur Wahrscheinlichkeitstheorie und Statistik Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils

Mehr

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung

Mehr

3 Vom Zählen zur Induktion

3 Vom Zählen zur Induktion 7 3 Vom Zählen zur Induktion 3.1 Natürliche Zahlen und Induktions-Prinzip Seit unserer Kindheit kennen wir die Zahlen 1,, 3, 4, usw. Diese Zahlen gebrauchen wir zum Zählen, und sie sind uns so vertraut,

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Klausur zu Statistik II

Klausur zu Statistik II GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel

Mehr

Topologische Begriffe

Topologische Begriffe Kapitel 3 Topologische Begriffe 3.1 Inneres, Rand und Abschluss von Mengen Definition (innerer Punkt und Inneres). Sei (V, ) ein normierter Raum über K, und sei M V eine Menge. Ein Vektor v M heißt innerer

Mehr

Lineare Abhängigkeit

Lineare Abhängigkeit Lineare Abhängigkeit Vorbemerkung. Es sei X eine Menge. Eine Familie von Elementen von X ist eine Abbildung I X, i x i. I heißt dabei Indexmenge. Man verwendet dabei oft die Schreibweise (x i ) oder (x

Mehr

Kapitel VI. Euklidische Geometrie

Kapitel VI. Euklidische Geometrie Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und

Mehr

Einführung in die (induktive) Statistik

Einführung in die (induktive) Statistik Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung

Mehr

Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man

Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man x / M. Man sagt, M ist Teilmenge von N und schreibt M N, wenn für jedes x M auch x N gilt.

Mehr

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Wichtige Tatsachen und Formeln zur Vorlesung Mathematische Grundlagen für das Physikstudium 3 Franz Embacher http://homepage.univie.ac.at/franz.embacher/

Mehr