Herzlich willkommen!!!
|
|
- Evagret Brinkerhoff
- vor 7 Jahren
- Abrufe
Transkript
1 Computational Learning Theory Sommersemester 2017 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main Herzlich willkommen!!! 1 / 159
2 Einführung Einführung 2 / 159
3 Teil I: Statistische Lerntheorie (a) Das PAC-Modell Probably Approximately Correct (Supervised) Learning. eine unbekannte Verteilung D erzeugt klassifizierte Beispiele (also überwachtes Lernen), der Lernalgorithmus wird auf D evaluiert. (b) Die wesentlichen Fragen Beispielkomplexität Wie viele Beispiele sind für ein erfolgreiches Lernen hinreichend und notwendig? Die Vapnik-Chervonenkis Dimension. Algorithmische Komplexität Für welche Probleme können Hypothesen effizient bestimmt werden? Einführung Inhalt 3 / 159
4 Teil II: Online-Lernen (a) Gegenbeispiel-Komplexität Ein (bösartiger) Lehrer legt einem Schüler ein Beispiel vor. Der Schüler klassifiziert und erhält danach die richtige Antwort. Wiederhole, solange bis alle Antworten richtig sind. (b) Expertenauswahl Weighted-Majority: Experten geben Online Empfehlungen ab. Können wir, ohne den Sachverhalt zu kennen, eine Strategie entwickeln, die fast so gut ist wie der im Nachhinein beste Experte? Winnow: Finde wenige entscheidende aus vielen möglichen Gründen. Perzeptron: Trenne rote von blauen Vektoren im R n durch eine Hyperebene. Einführung Inhalt 4 / 159
5 Teil III: Lernverfahren (a) Grundlegende Methoden Validierung Boosting/Bagging Nicht-binäres Lernen stochastischer Gradientenabstieg (b) Lernalgorithmen: Nearest Neighbor Support Vektor Maschinen Neuronale Netzwerke Maximum Likelihood, Expectation-Maximization. (c) Aktives Lernen: Wie stark verbessert sich die Lernleistung, wenn der Schüler Fragen stellen darf? Einführung Inhalt 5 / 159
6 Worauf wird aufgebaut? Diskrete Modellierung: Beweisführung: Direkte und indirekte Beweise, vollständige Induktion. Datenstrukturen und Theoretische Informatik 1: Laufzeitanalyse: O, o, Ω, ω and Rekursionsgleichungen, Graphalgorithmen, NP-Vollständigkeit, Berechenbarkeit. Mathematik 3: Grundlagen der Wahrscheinlichkeitstheorie Siehe auch Kapitel 2.4 im Skript. Einführung Vorwissen 6 / 159
7 Literatur (1) S. Shalev-Shwartz und Shai Ben-David, Machine Learning: From Theory to Algorithms, Cambridge University Press (PAC Lernen und Support-Vektor-Maschinen) (2) M. Mohri, A. Rostamizadeh und A. Talwalkar, Foundations of Machine Learning, MIT Press (PAC Lernen und Support-Vektor-Maschinen) (3) M. J. Kearns und U. V. Vazirani, An Introduction to Computational Learning Theory, MIT Press (PAC Lernen) (4) M. H. G. Anthony und N. Biggs, Computational Learning Theory, Cambridge University Press (PAC Lernen) (5) I. Goodfellow, Y. Bengio und A. Courville, Deep Learning, MIT Press (Lernverfahren, insbesondere Neuronale Netzwerke) (6) Skript zur Vorlesung Computational Learning Theory, Goethe-Universität Frankfurt, Einführung Literatur 7 / 159
8 Organisatorisches Einführung Organisatorisches 8 / 159
9 Die Webseite Die Webseite enthält alle wichtigen Informationen zur Veranstaltung: Alle Vorlesungsmateralien (Skript, Folien, Zugang zu Extra-Materalien) finden Sie auf dieser Seite. Auch organisatorische Details zum Übungsbetrieb werden beschrieben. Unter Aktuelles finden Sie zum Beispiel: Anmerkungen zum Übungsbetrieb und gegebenenfalls Anmerkungen zu aktuellen Übungsaufgaben. Im Logbuch finden Sie Informationen, Beamer-Folien, weitere Referenzen zu den einzelnen Vorlesungsstunden. Einführung Organisatorisches 9 / 159
10 Prüfungen und Übungsbetrieb BITTE, BITTE, BITTE aktiv an den Übungen teilnehmen! Wöchentliche Übungszettel auf der Webseite mit Ausgabe am Montag. Der 1. Übungszettel wird in der 2. Vorlesungswoche ausgegeben. Rückgabe, nach 1-wöchiger Bearbeitungszeit, vor der Montag- Vorlesung. (Rückgabe auch im Briefkasten neben Büro 312 möglich.) Wenn die Prüfung bestanden ist: Bei mindestens 50% aller Übungspunkte eine Verbesserung um einen Notenschnitt, bei mindestens 70% eine Verbesserung um zwei Notenschritte. Bei nicht zu vielen Teilnehmern werden nur mündliche Prüfungen angeboten, sonst eine Klausur. Einführung Organisatorisches 10 / 159
11 BITTE, BITTE, BITTE 1 Bitte helfen Sie mir durch Fragen, Kommentare und Antworten! 2 Die Vorlesung kann nur durch Interaktion interessant werden. Ich muss wissen, wo der Schuh drückt. 3 Sie erreichen mich außerhalb der Vorlesung im Büro 303. Sprechstunde: Dienstags Kommen Sie vorbei. Einführung Organisatorisches 11 / 159
12 Studiengänge Neuer Master Informatik oder Master Wirtschaftsinformatik : Computational Learning Theory: Grundlagen (5 CP). Die Veranstaltung findet vom bis zum statt. Computational Learning Theory: Weiterführende Themen (5 CP) Die Veranstaltung findet vom bis zum statt. Als Veranstaltung vom 18.4 bis zum (10 CP). Alter Master Informatik oder Master Bioinformatik : Computational Learning Theory (4+2 SWS, 10 CP). Einführung Organisatorisches 12 / 159
13 Worum geht s? Konzepte und Hypothesen 13 / 159
14 Beispiele, Konzepte und Hypothesen Supervised Learning: Die zentralen Begriffe Sei X eine nicht notwendigerweise endliche Menge. (a) Wir nennen X den Beispielraum. (b) Ein Konzept c (über X) ist eine Teilmenge von X. (c) Eine Hypothese h (über X) ist ein Konzept (über X) und eine Hypothesenklasse H ist eine Menge von Hypothesen. (d) Für ein Konzept c ist x X ein positives Beispiel für c, falls x c und ansonsten ein negatives Beispiel. Insbesondere ist { (x, b) X {0, 1} : x c b = 1 } die Menge der gemäß c klassifizierten Beispiele. Konzepte und Hypothesen 14 / 159
15 Die Zielstellung c ist das unbekannte Konzept. Der Lernalgorithmus erhält gemäß klassifizierte Beispiele. Eine Hypothese ist zu bestimmen, die c möglichst gut erklärt. Welche Fragen sind zu klären? (1) Was ist Lernen? Wann erklärt die Hypothese h das Konzept c? Wann können wir behaupten, dass unsere Hypothese gut ist? (2) Algorithmische Komplexität: Kann eine gute Hypothese bei genügend vielen Beispielen in vertretbarer Zeit gefunden werden? (3) Beispielkomplexität: Wieviele Beispiele werden für ein erfolgreiches Lernen benötigt? Konzepte und Hypothesen 15 / 159
16 Anwendungsszenarien (1) Handschriftenerkennung: Für jeden Anwender x und jede Ziffer z {0, 1,..., 9} besteht das Konzept c x,z aus allen Schriftproben des Anwenders x, die der Ziffer z entsprechen. (2) Textinterpretation: Nachrichten sind zum Beispiel automatisch einer der Kategorien Politik, Wirtschaft, Kultur, Sport... zuzuordnen. Jede dieser Kategorien entspricht einem Konzept. (3) Bilderkennung: Eine Pixelmatrix ist einer Kategorie (wie etwa Sonnenaufgang, Wüste, Meer, Stadt,... ) zuzuordnen. (4) Bestimmung der Funktion von Proteinen: Sage die Funktion eines Proteins voraus. Proteinfamilien mit ähnlicher Funktion entsprechen Konzepten. Konzepte und Hypothesen 16 / 159
17 Welche Konzeptklassen sind von besonderem Interesse? Konzepte und Hypothesen 17 / 159
18 Die Konzeptklasse der monotonen Monome Jedes Beispiel x X := {0, 1} n wird als ein Vektor von n Eigenschaften (oder Features) repräsentiert. - Die unbekannte Konjunktion α := x i1 x ik sei zu lernen. Das entsprechende Zielkonzept c α ist die Menge c α = { x {0, 1} n : x erfüllt α }. aller positiven Beispiele. - Die Konzeptklasse MONOTON-MONOM n besteht aus der Menge aller Konzepte c α für eine monotone Konjunktion α. Konzepte und Hypothesen Boolesche Konzeptklassen 18 / 159
19 Weitere boolesche Konzeptklassen - Und wenn allgemeine Monome zu lernen sind? Jetzt entsprechen die unbekannten Zielkonzepte der Konzeptklasse MONOM n aller Monome mit den Literalen x 1, x 1,..., x n, x n. - Darf es ein wenig mehr sein? k-term DNF n ist die Konzeptklasse aller DNF-Formeln mit den Literalen x 1, x 1,..., x n, x n und höchstens k Monomen. - Und vielleicht noch ein wenig(?) mehr: BOOLEAN n ist die Konzeptklasse aller booleschen Funktionen f : {0, 1} n {0, 1}. Konzepte und Hypothesen Boolesche Konzeptklassen 19 / 159
20 Entscheidungsbäume Die Konzeptklasse DECISION n,s hat für jeden Entscheidungsbaum B mit höchstens s Knoten (über den Variablen x 1,..., x n ) ein Konzept c B. x x 1 x x Konzepte und Hypothesen Entscheidungsbäume 20 / 159
21 Automaten / Halbräume AUTOMAT n,σ besitzt für jeden DFA A mit höchstens n Zuständen ein Konzept, nämlich die von A akzeptierte Sprache L(A). A muss das Eingabealphabet Σ besitzen. HALBRAUM n besitzt für alle Gewichte w 1,..., w n R und jeden Schwellenwert (bzw. Threshold) t R das Konzept { x R n n w i x i t } i=1 HALBRAUM ist unsere erste reellwertige Kozeptklasse. Konzepte und Hypothesen Automaten / Halbräume 21 / 159
22 Halbräume = neuronale Netzwerke und SVMs - Die Konzeptklasse der neuronalen Netzwerke besteht aus Schaltungen mit neuronalen Gattern der Form g( n i=1 w i y i t). Zum Beispiel werden das Standard-Sigmoid g(x) = 1 1+e x rectified linear units g(z) = max{0, z} { 0 x < 0, oder die binäre Threshold-Funktion g(x) = verwandt. 1 sonst - In der Methode der Support Vektor Maschinen wird eine Feature-Funktion φ : X R n auf die Beispiele x 1,..., x s angewandt. Dann wird nach einer Hyperebene gesucht, die so weit es geht alle positiven Beispiele φ(x i ) von den negativen Beispielen φ(x j ) trennt. Konzepte und Hypothesen Halbräume und neuronale Netzwerke 22 / 159
23 Wichtige Fragestellungen (1) Wieviele Beispiele werden benötigt, um eine Chance zu haben die einzelnen Konzeptklassen erfolgreich zu erlernen? - Für MONOM n sollten sehr viel weniger Beispiele ausreichen als für BOOLEAN n. - Die Beispielzahl sollte von der Anzahl der Freiheitsgrade der Hypothesenklasse abhängen. - Wie misst man Freiheitsgrade? (2) Können wir tatsächlich lernen, wenn genügend viele Beispiele vorhanden sind? (3) Müssen wir ewig herum experimentieren oder können wir sagen, ob wir zumindest hoch-wahrscheinlich erfolgreich lernen werden? Konzepte und Hypothesen Beispielzahl und Lernbarkeit 23 / 159
24 PAC-Algorithmen Das PAC-Modell 24 / 159
25 Fehlermessung - Klassifizierte Beispiele werden zufällig und unabhängig voneinander, gemäß einer unbekannten Verteilung D 1, gezogen. - Der Lernalgorithmus L berechnet eine Hypothese h. - Wie gut ist h? Wir messen den Fehler zwischen dem unbekannten Zielkonzept c und der Hypothese h gemäß einer Verteilung D 2 : fehler D2 (c, h) = prob[ c h ] (Später betrachten wir allgemeinere Fehlermodelle.) Fairness-Bedingung: Wenn Beispiele nach der Verteilung D 1 erzeugt werden, dann sollte der Fehler auch gemäß D 1 gemessen werden. Wir fordern deshalb D 1 = D 2. Das PAC-Modell 25 / 159
26 Hochwahrscheinlich approximatives Lernen Der Anwender gibt einen Fehlerparameter ε vor. - Der Fehler, also der Unterschied zwischen Zielkonzept und Hypothese, soll höchstens ε betragen. - Aber wenn der Lernalgorithmus zufälligerweise wenig informative Beispiele erhält, dann wird die Hypothese i. A. nicht gut sein. Der Anwender gibt einen Misstrauensparameter δ vor und fordert: Der Fehler darf mit Wahrscheinlichkeit mindestens 1 δ den Fehlerparameter ε nicht übersteigen. Das PAC-Modell 26 / 159
27 PAC-Algorithmen PAC Lernen = probably (mit Wahrscheinlichkeit mindestens 1 δ) approximately (mit Fehler höchstens ε) correct. Wir möchten also hoch-wahrscheinlich approximativ korrekt lernen. Ein Lernalgorithmus A ist genau dann ein PAC-Algorithmus für eine Konzeptklasse C, wenn für alle ε (0, 1], für alle δ (0, 1], für alle Konzepte c C und für alle Verteilungen D prob D [ fehler D (c, h c ) ε ] 1 δ gilt, wobei h c die von A bestimmte Hypothese ist. Das PAC-Modell 27 / 159
28 Die Grundstruktur eines PAC-Algorithmus 1. Die Eingabe besteht aus dem Misstrauensparameter δ und dem Fehlerparameter ε. Die Hypothesenklasse H sei vorgegeben: Ein unbekanntes Konzept c ist mit Hilfe einer Hypothese h c H zu erlernen. 2. Fordere eine Trainingsmenge S = { (x 1, b 1 ),..., (x s, b s ) } von s = s(δ, ε) klassifizierten Beispielen an. /* Es gilt x i c b i = 1 für 1 i s. */ 3. Bestimme eine Hypothese h c H. Das PAC-Modell 28 / 159
29 Zentrale Fragen (1/2) - Fordern wir zuviel? In Anwendungen achtet man darauf, dass die Trainingsmenge aus möglichst informativen Beispielen besteht: Die Beispielverteilung D 1 ist dann sogar unterstützend. - Andererseits wäre die Existenz von PAC-Algorithmen A klasse, denn wir können A mit einem Gütesiegel versehen: Für jede Verteilung D, falls A mindestens s(ε, δ) Beispiele erhält, ist approximativ korrektes Lernen hoch-wahrscheinlich. Das PAC-Modell 29 / 159
30 Zentrale Fragen (2/2) - Wie groß ist die Beispielzahl s(ε, δ) in Abhängigkeit vom erlaubten Fehler ε und vom Vertrauensparameter δ? - Angenommen, A ist ein PAC-Algorithmus mit Fehler ε and Vertrauensparameter δ. Um wieviel steigt die Beispielzahl und Laufzeit an, wenn δ durch δ mit 0 < δ δ ersetzt wird? Um wieviel steigt die Beispielzahl und Laufzeit an, wenn ε durch ε mit 0 < ε ε ersetzt wird? Das PAC-Modell 30 / 159
31 Konsistente Hypothesen Das PAC-Modell 31 / 159
32 Ein Lernalgorithmus für MONOM n (1) Bestimme s = s n (ε, δ) und fordere s Beispiele an. (2) Die erste vorläufige Hypothese ist das Monom h x 1 x 1 x 2 x 2 x n x n. (3) Streiche jedes Literal, das irgendeinem positiven Beispiel widerspricht. (4) Gib die resultierende Hypothese aus. Das PAC-Modell Monome 32 / 159
33 h ist mit allen Beispielen konsistent (1) Das Literal x j (bzw. x j ) wird entfernt, falls ein positives Beispiel diesem Literal widerspricht. (2) Wir bestimmen somit das längste mit allen positiven Beispielen konsistente Monom h. (3) Ist y ein negatives Beispiel und ist M das unbekannte Zielmonom, dann gibt es i, so dass das Literal x i (bzw. x i ) in M vorkommt, und xi (bzw. x i ) verwirft das negative Beispiel y. Da h das längste mit allen positiven Beispielen konsistente Monom ist, kommt x i (bzw. x i ) in h vor und h verwirft y. Wir zeigen jetzt, dass unser Algorithmus ein PAC-Algorithmus für die Konzeptklasse MONOM n ist, falls s n (ε, δ) = 1 ( ) 1 ε ln + ln(3n ). δ ε Das PAC-Modell Monome 33 / 159
34 PAC-Algorithmen für endliche Konzeptklassen Konzepte einer Klasse C von endlich vielen Konzepten sind zu lernen. Vertrauensparameter δ und Fehlerparameter ε sind vorgegeben. (1) Setze s = 1 ε (ln C + ln ( 1 δ )). (2) Wähle irgendein Konzept h C als Hypothese, das mit allen s Beispielen konsistent ist. /* Eine Hypothese h ist genau dann konsistent, wenn h alle positiven Beispiele akzeptiert und alle negativen Beispiele verwirft. Für MONOM n genügen, wie versprochen, 1 ε ln ( ) 1 δ + ln(3 n ) ε Beispiele. Die Beispielkomplexität Die log C -Schranke 34 / 159
35 Die Analyse (1/3) Behauptung: Wir erhalten einen PAC-Algorithmus, der s = 1 ε (ln C + ln ( 1 δ )) Beispiele anfordert. - Wir müssen für jedes Konzept c C und jede Verteilung D nachweisen. prob D [ fehler D (c, h c ) ε ] 1 δ - Sei p = prob D [ fehler D (c, h c ) > ε ]. Dann ist p prob[ Es gibt eine konsistente Hypothese h mit ] fehler D (c, h) > ε prob[ h ist konsistente Hypothese ]. h C mit fehler D (c,h)>ε Die Beispielkomplexität Die log C -Schranke 35 / 159
36 Die Analyse (2/3) - Wenn h C eine Hypothese mit großem Fehler ist (also fehler D (c, h) > ε), dann wird h ein zufällig gezogenes Beispiel mit Wahrscheinlichkeit höchstens 1 ε richtig klassifizieren. - Also ist p h C mit fehler D (c,h)>ε h C mit fehler D (c,h)>ε(1 ε) s h C = C (1 ε) s. prob[h ist eine konsistente Hypothese ] (1 ε) s - Es ist p = prob D [ fehler D (c, h c ) > ε ]. Wir müssen p δ fordern! Die Beispielkomplexität Die log C -Schranke 36 / 159
37 Die Analyse (3/3) - Wir müssen C (1 ε) s δ erfüllen. - Logarithmiere beide Seiten der Ungleichung: ln C + s ln(1 ε) ln δ. }{{} ε (Es ist ln(1 ε) ε. Warum? ) - Somit reicht der Nachweis von ln C s ε ln δ. Diese Ungleichung ist äquivalent zu und das war zu zeigen. 1 (ln C ln δ) s ε Die Beispielkomplexität Die log C -Schranke 37 / 159
38 Weitere Anwendungen (a) Beispiel(MONOTON-MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ), Beispiel(MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (b) Beispiel(k-KNF n ) = O( nk ε + 1 ε ln ( 1 δ ) ) für festes k, Beispiel(k-DNF n ) = O( nk ε + 1 ε ln ( ) 1 δ ) für festes k. (c) Beispiel(k-KLAUSEL-KNF n ) = O( k n ε + 1 ε ln ( ) 1 δ ), Beispiel(k-TERM-DNF n ) = O( k n ε + 1 ε ln ( 1 δ ) ). (d) Beispiel(KNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(DNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(BOOLEAN n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ). (e) Beispiel(SYM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (f) Beispiel(AUTOMAT n,σ ) = O( n ε Σ log 2 n + 1 ε ln ( 1 δ ) ). Die Beispielkomplexität Die log C -Schranke 38 / 159
39 Diskussion Die Beispielzahl s = 1 ε (ln C + ln ( 1 δ )). - Eine große Verläßlichkeit, also ein kleines δ, kann billig erzielt werden, denn die Beispielanzahl wächst nur logarithmisch mit 1/δ. - Ein kleiner Fehler, also ein kleines ε, ist teuer, denn 1/ε geht linear in der Beispielanzahl ein. - Könnte ln C eine Definition der Anzahl der Freiheitsgrade sein? Nur wenn die Schranke für s scharf ist. Was tun für Konzeptklassen mit unendlich vielen Konzepten? - Unser PAC-Algorithmus wählt eine konsistente Hypothese. Wie bestimmt man konsistente Hypothesen effizient? Und wenn es keine effizienten Hypothesen gibt? Die Beispielkomplexität Diskussion 39 / 159
40 Was tun bei unendlich vielen Konzepten? (Allerdings pessimistische) Schranken für die Beispielzahl: - Konzepte aus HALBRAUM n werden durch n + 1 Parameter beschrieben: Die n Koeffizienten und der eine Schwellenwert. - Für die Darstellung einer Gleitkommazahl genügen c Bits: Die Anzahl der im Rechner darstellbaren Halbräume ist 2 c(n+1) = 1 ( ( )) 1 ε c (n + 1) ln 2 + ln δ klassifizierte Beispiele reichen, um den wahren Fehler ε mit Wahrscheinlichkeit mindestens 1 δ nicht zu überschreiten. Der genaue Wert von c ist rechner-abhängig. Für präzise Schranken der Beispielzahl benötigen wir neue Ideen. Die Beispielkomplexität Diskussion 40 / 159
41 Das ERM-Problem Die Beispielkomplexität Das ERM-Problem 41 / 159
42 Empirische Risiko Minimierung (ERM) (1/3) Wir möchten ein unbekanntes Konzept c mit der Hypothesenklasse H lernen und fordern klassifizierte Beispiele (x 1, b 1 ),..., (x s, b s ) an. Empirische Risiko Minimierung: Bestimme eine Hypothese h c H, so dass das empirische Risiko bzw der empirische Fehler { i : 1 i s, h c (x i ) b i } minimal ist. (Wenn möglich, bestimme konsistente Hypothesen.) Achtung, droht Overfitting (bzw Auswendiglernen)? Die vielen Freiheitsgrade der Hypothesenklasse werden nur teilweise durch die Beispiele gesetzt. Oder Underfitting? Die Hypothesenklasse hat zu wenige Freiheitsgrade. Die Beispielmenge ist auch näherungsweise nicht erklärbar. Die Beispielkomplexität Das ERM-Problem 42 / 159
43 Empirische Risiko Minimierung (ERM) (2/3) In der empirischen Risiko Minimierung mit induktivem Bias fließen Annahmen über wesentliche Eigenschaften der Konzeptklasse in die Definition der Hypothesenklasse ein. (a) Die Hypothesenklasse sollte möglichst wenige, (b) aber genügend viele Freiheitsgrade beitzen um einen kleinen empirischen Fehler und damit auch einen kleinen wahren Fehler zu garantieren. Die Beispielkomplexität Das ERM-Problem 43 / 159
44 Empirische Risiko Minimierung (ERM) (3/3) Sei H eine Hypothesenklasse über einer Menge X von Beispielen. (a) Im ERM-Problem für die Beispielmenge S = {(x 1, b 1 ),..., (x s, b s )} X {0, 1} ist eine Hypothese h S H zu bestimmen, die den empirischen Fehler (bzw das empirische Risiko) { i : 1 i s, h S (x i ) b i } unter allen Hypothesen in H minimiert. Wir nennen h S eine ERM-Hypothese. (b) Ein ERM-Algorithmus für H ist ein Lernalgorithmus, der nur ERM-Hypothesen für H ausgibt. (Später messen wir den Fehler auch auf andere Arten.) Die Beispielkomplexität Das ERM-Problem 44 / 159
45 Inkonsistente Hypothesen Die Beispielkomplexität Inkonsistente Hypothesen 45 / 159
46 Kritik - Für praktische Anwendungen können wir nicht davon ausgehen, dass jedes Zielkonzept auch in der Hypothesenklasse liegt: Die Schriftproben einer bestimmten Person werden wir nur approximativ, aber nicht exakt erkennen können! - Stattdessen sollten wir annehmen, dass es zu jedem Zielkonzept c C eine Hypothese h H mit kleinem Fehler gibt, d.h. es gelte fehler D (c, h) ε. Der Lernalgorithmus: (1) Bestimme die Beispielzahl s in Abhängigkeit von ε und δ. (3) Wähle irgendeine Hypothese h H, die mit mindestens (1 2ε) s Beispielen konsistent ist. Gib eine Fehlermeldung aus, wenn eine solche Hypothese nicht existiert. Die Beispielkomplexität Inkonsistente Hypothesen 46 / 159
47 Das Ziel Bestimme die Beispielzahl s so, dass gilt prob D [ Algorithmus findet eine Hypo these h c mit fehler D (c, h c ) 4ε ] 1 δ - Zwei Fehlerquellen: Es gibt keine fast konsistenten Hypothesen (Fehlermeldung) oder der Fehler ist zu groß. - Bestimme s, so dass prob D [ Algorithmus gibt eine Fehlermeldung ] δ 2 und prob D [ fehler D (c, h c ) 4ε ] δ 2 Die Beispielkomplexität Inkonsistente Hypothesen 47 / 159
48 Die Wahrscheinlichkeit einer Fehlermeldung (1/2) Die Situation: Es gibt eine Hypothese h H mit fehler D (c, h) ε, aber keine Hypothese, ist mit mindestens (1 2ε) s Beispielen konsistent. - h ist also mit mehr als 2ε s Beispielen inkonsistent. - Wenn wir aber s Beispiele zufällig ziehen, dann ist die erwartete Anzahl der durch h falsch klassifizierten Beispiele höchstens ε s. - Im Falle einer Fehlermeldung verstoßen wir signifikant gegen den Erwartungswert: Statt Inkonsistenz mit höchstens ε s Beispielen sogar Inkonsistenz mit mehr als 2ε s Beispielen. - Ein heftiger Verstoß gegen den Erwartungswert sollte doch unwahrscheinlich sein! Die Beispielkomplexität Inkonsistente Hypothesen 48 / 159
49 Die Wahrscheinlichkeit einer Fehlermeldung (2/2) Wir liegen mit 2εs zweifach über dem Erwartungswert und die Chernoff-Schranke für β = 1 liefert e εs 3. als Wahrscheinlichkeit einer Fehlermeldung. - Wir müssen die Wahrscheinlichkeit einer Fehlermeldung durch δ/2 nach oben beschränken. - Wir fordern s 3 ε ln ( 2 δ ). Die Beispielkomplexität Inkonsistente Hypothesen 49 / 159
50 Zu große Fehler (1/2) - Sei h H eine beliebige Hypothese mit zu großem Fehler, also fehler D (c, h) 4 ε. - Ist es nicht dann unwahrscheinlich, dass h mit höchstens 2ε s Beispielen inkonsistent ist? Mehr als 4ε s inkonsistente Beispiele sind zu erwarten. - Chernoff muss ran und zwar mit β = 1/2. p = prob D [ h ist mit höchstens 2εs Beispielen nicht konsistent ] e 4ε s 4 2 = e ε s 2 Die Beispielkomplexität Inkonsistente Hypothesen 50 / 159
51 Zu große Fehler (2/2) Für die Wahrscheinlichkeit q eines zu großen Fehlers gilt: q prob D [ h H mit fehler D (c,h) 4ε h ist mit 2εs Beispielen nicht konsistent ] - Also q h H e εs 2 = H e εs 2. - Um q δ/2 zu erhalten, fordere H e εs 2 δ/2. - Nach logarithmieren folgt ln H εs 2 ln ( δ [ ( )] 2 2 ε ln H + ln s. δ 2) und äquivalent Die Beispielkomplexität Inkonsistente Hypothesen 51 / 159
52 Zusammenfassung Wir erreichen fehler D (c, h) 4ε mit Wahrscheinlichkeit mindestens 1 δ, falls es eine Hypothese h mit fehler d (c, h ) ε gibt und falls s(δ, ε) 3 [ ( )] 2 ε ln H + ln. δ Die Beispielzahl steigt, im Vergleich zur garantierten Existenz konsistenter Lösungen nur moderat an!? Sind die Schranken für die Beispielzahl scharf? Sind ln( C ), bzw. ln( H ) gute Messungen der Anzahl der Freiheitsgrade von Konzept- bzw. Hypothesenklasse?? Wie bestimmt man (fast-)konsistente Hypothesen? Die Beispielkomplexität Inkonsistente Hypothesen 52 / 159
53 Das agnostische PAC-Modell Das agnostische PAC-Modell 53 / 159
54 Es wäre schön, wenn wir 1. Klassen C von Funktionen f : X Y mit beliebigem Wertebereich Y lernen könnten (bisher Y = 2), 2. Verteilungen D auf X Y zulassen könnten. (Bisher ist D nur auf dem Beispielraum X definiert.) Wir kennen das äußeren Erscheinungsbild x einer Frucht. Was sind die Schmeckt-lecker-Wahrscheinlichkeiten prob D [ Beispiel = x, y = 1 ]? Das agnostische PAC-Modell 54 / 159
55 Loss-Funktionen und erwarteter Loss Sei H eine Hypothesenklasse (a) Eine Funktion der Form l : H X Y R 0 wird als Loss-Funktion bezeichnet. { 0 h(x) = y Der 0-1 Loss l(h, x, y) = 1 h(x) y, y verschieden ist, bestraft, wenn h(x) von der quadratische Loss l(h, x, y) := (h(x) y) 2 bestraft große Abweichungen von y. (b) Der erwartete Loss einer Hypothese h H (bzgl. D und l) ist Loss D (h) := E (x,y) D [ l(h, x, y) ]. (Loss D (h) verallgemeinert unsere Definition von fehler D (c, h c ).) Das agnostische PAC-Modell Der erwartete Loss 55 / 159
56 Es ist Loss D (h) = fehler D (h) 0-1 Loss Sei l der 0-1 Loss. (a) Für eine Zielfunktion f : X Y und eine Hypothese h : X Y ist Loss D (h) = E (x,y) D [ l(h, x, y) ] = prob (x,y) D [ h(x) y ]. Die Verteilung D kann unterschiedliche Werte y h(x) in Abhängigkeit von x unterschiedlich gewichten (sprich: bestrafen) (b) Sei Y = {0, 1}, D eine Verteilung nur über dem Beispielraum X. Wir erhalten auch das alte Fehlermodell wie folgt: Setze D auf X {0, 1} fort. Das Paar (x, f (x)) übernimmt das Gewicht des Beispiels x. Das agnostische PAC-Modell Der erwartete Loss 56 / 159
57 Der quadratische Loss und lineare Regression Das einfache lineare Regressionsproblem: Experimentelle Beobachtungen (x 1, y 1 ),..., (x s, y s ) R 2 liegen vor: Allerdings sind Meßwerte u. U. verfälscht. Es wird nach einem linearen Zusammenhang zwischen den Größen x i und y i gesucht. Bestimme a, b R mit kleinem Trainingsfehler 1 s s (ax i + b y i ) 2. i=1 Hoffentlich ist der erwartete Loss Loss D (a, b) := E (x,y) D [(ax + b y) 2 ] (zur quadr. Loss-Funktion und Hypothese h(x) := ax + b) klein. Das agnostische PAC-Modell Der erwartete Loss 57 / 159
58 Agnostische PAC-Algorithmen Das agnostische PAC-Modell Agnostische PAC-Algorithmen 58 / 159
59 Wir wollen alles, aber H sei eine Konzeptklasse über X und Y Ein Lernalgorithmus A ist genau dann ein agnostischer PAC-Algorithmus für H (und eine Loss-Funktion l), wenn es für alle ε (0, 1] und alle δ (0, 1] eine Beispielzahl s = s(ε, δ) gibt, so dass A für alle Verteilungen D über X und Y, nach Erhalt von s Beispielen, eine Hypothese h bestimmt mit Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Das agnostische PAC-Modell Agnostische PAC-Algorithmen 59 / 159
60 Noch mal langsam... Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Der erwartete Loss E D [ l(h, x, y) ] ist eine Zufallsvariable, denn die Hypothese h hängt von den gezeigten Beispielen ab. Neue Perspektive: Der Approximationsfehler ist eine Eigenschaft der Hypothesenklasse und lässt sich nicht ändern. Wir sollten aber versuchen, den Schätzfehler klein zu halten. Gibt es agnostische PAC-Algorithmen? Das agnostische PAC-Modell Agnostische PAC-Algorithmen 60 / 159
61 Empirischer Loss (a) Für eine Menge S X Y von s klassifizierten Beispielen ist Loss S (h) := 1 s (x,y) S l(h, x, y) der empirische Loss (oder Trainingsfehler) für eine Loss-Funktion l und die Beispielmenge S. (b) Eine Hypothese h H ist eine ERM-Hypothese bezüglich l auf S, wenn Loss S (h) = min g H LossS (g). Was wäre toll? Wenn sich empirischer Loss und wahrer Loss nur unwesentlich unterscheiden. Das agnostische PAC-Modell Agnostische PAC-Algorithmen 61 / 159
62 ε-repräsentative Beispielmengen Das agnostische PAC-Modell ε-repräsentative Beispielmengen 62 / 159
63 ε-repräsentative Beispielmengen (1/6) H sei eine Hypothesenklasse über X und Y. Eine Beispielmenge S ist ε-repräsentativ für H, eine Loss-Funktion l und eine Verteilung D über X und Y, falls für alle Hypothesen h H gilt. Loss S (h) Loss D (h) ε Wenn ε-repräsentative Beispielmengen hoch-wahrscheinlich sind, dann gilt Loss S (h) Loss D (h) hoch-wahrscheinlich. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 63 / 159
64 ε-repräsentative Beispielmengen (2/6) Zeige: Für jede Verteilung D ist eine gemäß D zufällig ausgewählte Menge S von s = s(ε, δ) Beispielen ε-repräsentativ. mit Wahrscheinlichkeit mindestens 1 δ Zeige: p := prob D [ h H : ]! LossS (h) Loss D (h) ε δ. Für eine beliebige Hypothese h H ist E[ Loss S (h) ] = 1 s E[ l(h, x, y) ] = 1 s Loss D (h) = Loss D (h). (x,y) S (x,y) S Das agnostische PAC-Modell ε-repräsentative Beispielmengen 64 / 159
65 ε-repräsentative Beispielmengen (3/6) Gute Nachrichten: Der wahre Loss ist der Erwartungswert des empirischen Loss. Sind signifikante Abweichungen vom Erwartungswert relativ unwahrscheinlich, haben wir gewonnen! 1. Definiere die Zufallsvariable X h i := l(h, x i, y i ). 2. Fordere a i := 0 X h i 1 =: b i. Die Hoeffding-Ungleichung besagt prob[ LossS (h) Loss D (h) ε ] s ( = prob[ X h i E[ Xi h ] ) ε s ] 2 exp 2sε2. i=1 Das agnostische PAC-Modell ε-repräsentative Beispielmengen 65 / 159
66 ε-repräsentative Beispielmengen (4/6) [ ] p = prob D h H : LossS (h) Loss D (h) ε [ ] prob D Loss S (h) Loss D (h) ε h H H 2 exp 2sε2. Wir müssen p! δ erreichen und die Forderung H 2 exp 2sε2 δ ist zu erfüllen = s = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ) Beispiele sind ausreichend. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 66 / 159
67 ε-repräsentative Beispielmengen (5/6) Sei H eine Hypothesenklasse mit endlich vielen Hypothesen und sei l : H X Y [0, 1] eine Loss-Funktion. Es gelte }{{} Zu schwere Bestrafungen sind verboten s(ε, δ) = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ). }{{} Beispielzahl steigt um Faktor 1 ε an 1. Fordert man eine Menge S von s(ε/2, δ) Beispielen an und 2. bestimmt eine ERM-Hypothese h H bezüglich l, 3. so erhält man einen agnostischen PAC-Algorithmus bezüglich l. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 67 / 159
68 ε-repräsentative Beispielmengen (6/6) Fazit Ist die Beispielzahl genügend groß, dann sagt der Trainingsfehler den Verallgemeinerungsfehler hoch-wahrscheinlich voraus und zwar simultan für alle Hypothesen. Was bedeutet dies für praktische Anwendungen? Das agnostische PAC-Modell ε-repräsentative Beispielmengen 68 / 159
69 Occam-Algorithmen Das agnostische PAC-Modell Occam Algorithmen 69 / 159
70 Occam s Razor Non sunt multiplicanda entia praeter necessitatem. In freier Übersetzung: Wähle stets eine möglichst einfache Erklärung. Was ist eine einfache Erklärung (bzw. Hypothese)? Eine Erklärung, die zu einer Teilklasse H H mit möglichst wenigen Freiheitsgraden gehört. ( ) Hier weisen wir jeder Hypothese einen binären Namen zu. Wir suchen eine ERM-Hypothese mit möglichst kurzem Namen. Das agnostische PAC-Modell Occam Algorithmen 70 / 159
71 Die Konzeptklasse MONOM n Sei m ein Monom mit m = l 1 l 2 l k. l 1,..., l k sind Literale mit l j {x ij, x ij }. - Beschreibe m durch die Binärdarstellung b 1 code(i 1 ) b 2 code(i 2 ) b k code(i k ). code(i) ist die Binärdarstellung der Zahl i {0,..., n 1} mit führenden Nullen auf log 2 n Bits aufgefüllt. bj code(i j ) gibt an, ob l j = x ij (b j = 0) bzw. l j = x ij (b j = 1). - Die Beschreibungslänge ist k ( log 2 n + 1 ). Unser PAC-Algorithmus für MONOM n hat ein längstes konsistentes Monom bestimmt. War das eine gute Idee? Das agnostische PAC-Modell Occam Algorithmen 71 / 159
72 Occam-Algorithmen (1/2) Setup: Für h H sei länge(h) die Länge des binären Namens von h. H r : alle Hypothesen in H mit Namenslänge kleiner als r. Für welche Beispielzahl s r (ε, δ) erhalten wir einen PAC-Algorithmus, wenn wir eine konsistente Hypothese in H r finden? - Es ist H r r 1 i=0 2i = 2 r 1. - Sei p s,r die Wahrscheinlichkeit, dass es eine Hypothese h H r gibt, die mit s Beispielen konsistent ist und einen Fehler > ε hat. Dann ist p s,r (1 ε) s H r (1 ε) s 2 r. Das agnostische PAC-Modell Occam Algorithmen 72 / 159
73 Occam-Algorithmen (2/2) (1) Wir möchten p s,r δ erreichen und müssen fordern (1 ε) s 2 r δ. (2) Nach Logarithmieren ist dies äquivalent zu: s ln(1 ε) + r ln 2 ln δ. (3) Aber ln(1 ε) ε mit der Mutter aller Ungleichungen. Fordere s ε + r ln 2 ln(δ). Wenn für s r (ε, δ) = 1 ( ( ) ) 1 ε r ln 2 + ln δ Beispiele eine Hypothese h der Länge < r gefunden wird, dann hat h mit Wahrscheinlichkeit 1 δ einen Fehler ε. Das agnostische PAC-Modell Occam Algorithmen 73 / 159
74 Fazit: Occam-Algorithmen Erfolgreiches Lernen für Hypothesenlänge < r und s = 1 ( ( ) ) 1 ε r ln 2 + ln Beispiele. δ - Erfolgreiches Lernen, wenn die konsistente Hypothese wesentlich kürzer ist als die Anzahl der Beispiele, d.h. r << s. - Kurze Hypothesen komprimieren die Beispiele! Hat ein unbekanntes Monom höchstens k Literale, dann ( genügen 1 ε k log 2 n + ln ( ) ) 1 δ Beispiele. ( Unser erster Algorithmus benötigt 1 ε n + ln ( ) ) 1 δ Beispiele. Das agnostische PAC-Modell Occam Algorithmen 74 / 159
75 Zusammenfassung: Endliche Hypothesenklassen Das agnostische PAC-Modell Occam Algorithmen 75 / 159
76 Fazit (1/2) Was haben wir insgesamt erreicht? Das Gütesiegel hoch-wahrscheinlich kleiner Fehler kann bei Ω( 1 ε (ln( H ) + ln(1 δ ))) Beispielen an ERM-Hypothesen vergeben werden. Occam-Algorithmen erlauben eine Vergabe des Gütesiegels bei mgl. sehr kleiner Beispielmenge. Eine ERM-Hypothese erhält das Gütesiegel in Gold ( holt hoch-wahrscheinlich raus, was drin ist ) bei Ω( 1 ε 2 (ln( H ) + ln(1 δ ))) Beispielen: Schafft Verteilungen auf X Y und Loss-Funktionen! Das agnostische PAC-Modell Occam Algorithmen 76 / 159
77 Fazit (2/2) Ja, aber Werden so viele Beispiele auch tatsächlich benötigt? Kann man den Begriff Freiheitsgrad formalisieren? Lassen sich keine scharfen Aussagen über die Beispielzahl für reellwertige Hypothesenklassen wie etwa HALBRAUM n machen? Lassen sich ERM-Hypothesen effizient bestimmen? Modellieren wir Lern-Situationen in der Praxis? Sind die in Anwendungen gelieferten Beispiele unabhängig? Warum wird Lernen gegen jede Verteilung gefordert? Das agnostische PAC-Modell Occam Algorithmen 77 / 159
78 VC-Dimension und Freiheitsgrade Die VC-Dimension 78 / 159
79 Wie misst man Freiheitsgrade? Sei C eine Konzeptklasse (1) C zertrümmert eine Menge S von Beispielen, falls P(S) = {S c c C}. (P(S) = {T T S} ist die Potenzmenge von S.) (2) Die VC-Dimension VC(C) ist die maximale Mächtigkeit einer Menge S, die von C zertrümmert wird. Wenn C die Menge S zertrümmert, dann erhalten wir jede Teilmenge von S als den Durchschnitt von S mit einem Konzept in C: Wenn C die Menge S zertrümmert, dann muss bei kleinem Fehler die Klassifikation eines jeden Beispiels in S bekannt sein! Die VC-Dimension 79 / 159
80 Die Anzahl der Freiheitsgrade Wir definieren VC(C) als die Anzahl der Freiheitsgrade von C. Ist diese Definition vernünftig? BOOLEAN n besitzt ein Konzept c f für jede Boolesche Funktion f : {0, 1} n {0, 1}: c f = {x {0, 1} n f (x) = 1}. - BOOLEAN n sollte 2 n Freiheitsgrade besitzen, da der Wert von f auf jedem Argument x {0, 1} n bestimmt werden muss. - BOOLEAN n zertrümmert {0, 1} n, denn es gibt für jede Teilmenge T {0, 1} n ein Konzept c BOOLEAN n mit c = T. - Also ist VC(BOOLEAN n ) = 2 n. Die VC-Dimension 80 / 159
81 Die Konzeptklasse RECHTECK n RECHTECK n besitzt für jedes achsenprallele Rechteck R R n ein Konzept, das aus allen Punkten in R besteht. (1) Die Anzahl der Freiheitsgrade von RECHTECK 2 sollte vier sein, denn jedes Rechteck wird durch die vier Koordinaten diagonal gegenüber liegender Eckpunke beschrieben. (2) Die vier Punkte e 1 = ( 1, 0), e 2 = (0, 1), e 3 = (0, 1), e 4 = (1, 0) werden von RECHTECK 2 zertrümmert und VC(RECHTECK 2 ) 4 folgt. Die VC-Dimension Rechtecke 81 / 159
82 VC(RECHTECK 2 ) = 4 Wir zeigen VC(RECHTECK 2 ) 4. (1) Angenommen, RECHTECK 2 zertrümmert die fünf Punkte p 1, p 2, p 3, p 4, p 5. (2) p 1 und p 2 seien die Punkte mit minimaler (bzw. maximaler) x-koordinate. p 3 und p 4 seinen die Punkte mit minimaler (bzw. maximaler) y-koordinate. (3) Dann kann die Teilmenge T = {p 1, p 2, p 3, p 4 } aber nicht von p 5 getrennt werden! p 4 p 2 p1 p5 p 3 Die VC-Dimension Rechtecke 82 / 159
83 HALBRAUM n Jedes Konzept in HALBRAUM n besteht aus allen Punkten x R, die die Ungleichung n i=1 w i x i t erfüllen. HALBRAUM n sollte n + 1 Freiheitsgrade besitzen: Jedes Konzept wird durch die n Gewichte und den Schwellenwert beschrieben. - HALBRAUM n zertrümmert die n + 1 Punkte 0, e 1,..., e n, wobei e i der ite Einheitsvektor ist. Warum? Sei T {0, e 1,..., e n } eine beliebige Teilmenge. Wenn 0 T, wähle c als den Halbraum n i=1 w i x i 1 mit w i = 1, wenn e i T, und w i = 1, wenn e i T. Wenn 0 T, dann arbeite mit den gleichen Gewichten, setze aber den Schwellenwert auf 0. - Also ist VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 83 / 159
84 VC(HALBRAUM n ) n + 1 (1/2) - Sei S eine Menge von n + 2 Punkten. - Wie beschafft man sich eine Teilmenge T S, die nicht von ihrem Komplement S \ T getrennt werden kann? Der Satz von Radon Für jede Menge S R n mit S n + 2 gibt es eine nicht-leere Teilmenge T S, so dass konvexe Hülle(T ) konvexe Hülle(S \ T ). Zum Beispiel: Vier Punkte im R 2 besitzen stets eine Teilmenge T, die nicht von ihrem Komplement getrennt werden kann. Die VC-Dimension Halbräume 84 / 159
85 VC(HALBRAUM n ) n + 1 (2/2) Angenommen, n i=1 w i x i t für alle Punkte in T und n i=1 w i x i < t für alle Punkte in S \ T. (1) Setze H 1 = { x R n n w i x i t }, H 2 = { x R n i=1 n w i x i < t }. i=1 (2) Dann H 1 H 2 =. (3) Aber T H 1 und S \ T H 2 nach Annahme. (4) Wir erhalten einen Widerspruch zum Satz von Radon, denn H 1 und H 2 sind konvex. VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 85 / 159
86 Kugeln und konvexe Polygone (a) Die Konzeptklasse KUGEL d besitzt für jede Kugel K r (m) = {y R d : x m r} in R d ein Konzept. Es ist VC(KUGEL d ) = d + 1. (b) Die Konzeptklasse k-gons ist die Klasse der konvexen Polygone in R 2 mit höchstens k Ecken. Das Konzept besteht aus allen eingeschlossenen Punkten. Es ist VC(k-GONS) = 2k Der Beweis wird in den Übungen behandelt. - k-gons werden doch durch k Punkte mit jeweils zwei Koordinaten festgelegt?! (Aber höchstens k Ecken werden gefordert.) Die VC-Dimension Halbräume 86 / 159
87 Und dann sowas! Für a R definieren wir das Konzept Sinus(a) R 1 Es ist x Sinus(a) sin(a x) = 1. (Wir setzen 1 = 0.) 2 Die Konzeptklasse S besteht aus allen Konzepten Sinus(a). S wird durch einen Parameter beschrieben, aber VC(S) =. Welche Sichtweise ist richtig: Kann man S mit endlich vielen Beispielen lernen? Die VC-Dimension Halbräume 87 / 159
88 Einfache Eigenschaften der VC-Dimension (a) Wenn C 1 C 2, dann ist VC(C 1 ) VC(C 2 ). (b) C = { c c C } ist die Komplement-Konzeptklasse von C. Dann gilt VC(C) = VC ( C ). (c) Für jede endliche Konzeptklasse C ist VC(C) log 2 C. Zu Teil (c): ( ) Angenommen, C zertrümmert eine Beispielmenge S. ( ) Dann gibt es zu jeder Teilmenge T S ein Konzept c T C mit T = S c T. ( ) Also ist die Anzahl der Teilmengen von S höchstens so groß wie die Anzahl der Konzepte in C = 2 S C. ( ) = VC(C) log 2 C. Die VC-Dimension Eigenschaften der VC-Dimension 88 / 159
89 Die VC-Dimension wichtiger Konzeptklassen (a) VC(MONOTON-MONOM n ) = n. (b) VC(MONOM 1 ) = 2 und VC(MONOM n ) = n für n 2. (c) ( ) n k VC(k-KNFn ) = VC(k-DNF n ) ( n k) 2 k. (d) VC(k-KLAUSEL-KNF n ) = VC(k-Term-DNF n ) = Θ(k n) für k 2 n/2. (e) VC(BOOLEAN n ) = 2 n. (f) VC(SYM n ) = n + 1. (g) VC(AUTOMAT n,σ ) = Θ(n Σ log 2 n). (h) VC(RECHTECK n ) = 2n. (i) VC(HALBRAUM n ) = n + 1. Die VC-Dimension Eigenschaften der VC-Dimension 89 / 159
90 Die VC-Dimension von SYM n Eine boolesche Funktion f : {0, 1} n {0, 1} heißt symmetrisch, wenn der Wert f (x) nur von der Anzahl der Einsen in x abhängt. SYM n besitzt für jede symmetrische Funktion f das Konzept c f = {x f (x) = 1}. Behauptung: VC(SYM n ) = n + 1. Die Anzahl der symmetrischen Funktionen f stimmt mit der Anzahl der Funktionen g : {0,..., n} {0, 1} überein. = SYM n = 2 n+1 und VC(SYM n ) n + 1 folgt. Der Vektor e i habe Einsen in den Positionen 1,..., i und sonst nur Nullen. Wir zertrümmern S = {e 0,..., e n } mit e 0 = 0. Für T S definiere die symmetrische Funktion f mit { 1 ei T f (e i ) = 0 sonst, Dann ist S cf = T. Die VC-Dimension Eigenschaften der VC-Dimension 90 / 159
91 Konsistente Hypothesen: Untere Schranken für die Beispielzahl Wieviele Beispiele sind notwendig? 91 / 159
92 Wieviele Beispiele sind notwendig: Intervalle Die Konzeptklasse INTERVALL besteht aus allen Intervallen I [0, 1]. Wieviele Beispiele sind notwendig, um Intervalle mit Wahrscheinlichkeit 1 δ und Fehler höchstens ε zu lernen? - INTERVALL besteht aus überabzählbar unendlich vielen Konzepten. Unsere ln C -Schranke versagt völlig. - Angenommen, unser Lernalgorithmus gibt das kleinste Intervall, das alle positiven Beispiele enthält, als Hypothese aus. Übungen: s = Ω( ln(1/δ) ε ) Beispiele sind notwendig, um das Zielkonzept I = [0, 1] zu lernen. Wieviele Beispiele sind notwendig? Die Konzeptklasse INTERVALL 92 / 159
93 Eine weitreichende Verallgemeinerung (1/2) Nenne eine Konzeptklasse C trivial, wenn C nur aus einem Konzept oder aus disjunkten Konzepten besteht. (1) Wenn C nicht-trivial ist, dann gibt es zwei Beispiele x y und zwei Konzepte c 1, c 2 C mit {x, y} c 1 sowie x c 2, y c 2. (2) Mache x hoch-wahrscheinlich (Wahrscheinlichkeit 1 2ε) und y niedrig-wahrscheinlich (Wahrscheinlichkeit 2ε). (3) Ein deterministischer Lernalgorithmus irrt für entweder c 1 oder c 2, wenn Beispiel y nicht gesehen wird. Wenn der Lernalgorithmus y nicht sieht, dann folgt der unerlaubt große Fehler 2ε. Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 93 / 159
94 Eine weitreichende Verallgemeinerung (2/2) (1) Es muss gewährleistet sein, dass der Algorithmus Beispiel y mit Wahrscheinlichkeit höchstens δ nicht sieht. (2) Aber y wird mit Wahrscheinlichkeit (1 2ε) s = e Θ(ε s) nicht gesehen. (3) Wir müssen e Θ(ε s) δ, bzw. 1/δ e Θ(ε s) fordern. Für jede nicht-triviale Konzeptklasse C werden mindestens Beispiele benötigt. Ω( 1 ε ln(1 δ )) Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 94 / 159
95 Wieviele Beispiele sind notwendig: Der allgemeine Fall Es gelte VC(C) = d + 1 und C zertrümmere die Beispielmenge S = {x 0,..., x d } (1) S wird zertrümmert: Jede Teilmenge von S entspricht einem Konzept. (2) Wir definieren eine schwierige Verteilung D auf den Beispielen: x0 ist hoch-wahrscheinlich, und wird mit Wahrscheinlichkeit 1 4ε gewählt. Jedes andere xi erhält die Wahrscheinlichkeit 4ε/d. Beispiele außerhalb S erhalten die Wahrscheinlichkeit 0. (3) x 0 wird sehr häufig gewählt: Wann sieht ein Lernalgorithmus genügend viele verschiedene klassifizierte Beispiele in S? Wieviele Beispiele sind notwendig? Der allgemeine Fall 95 / 159
96 Wieviele Beispiele sind notwendig: Der allgemeine Fall Wenn s Beispiele angefordert werden und wenn d = VC(C): (1) Die erwartete Häufigkeit von x 0 ist s (1 4ε). (2) Der Algorithmus sieht nur s 4ε Beispiele aus {x 1,..., x d }. (3) Angenommen s d 8ε. Der Algorithmus sieht nur d/2 verschiedene Beispiele aus S. Die Klassifikation der nicht gesehenen Beispiele ist beliebig (denn S wird zertrümmert) und damit nicht prognostizierbar. Der Algorithmus muss die Klassifikation der nicht gesehenen d/2 Beispiele raten und wird sich für ein Zielkonzept irren. = der erwartete Fehler ist (d/2) (4ε/d) = 2ε. Mindestens Ω( VC(C) ) ε Beispiele müssen angefordert werden. Wieviele Beispiele sind notwendig? Der allgemeine Fall 96 / 159
97 Zusammenfassung Wir kombinieren die untere Schranke bei großer VC-Dimension mit der unteren Schranke für kleines δ: Für jede nicht-triviale Konzeptklasse C sind mindestens Ω( 1 [ ( )] 1 ε VC(C) + ln ) δ Beispiele notwendig bzw der Fehler beträgt mindestens Ω( 1 [ ( )] 1 s VC(C) + ln ). δ Diese untere Schranke ist in vielen Fällen asymptotisch exakt! Wieviele Beispiele sind notwendig? Der allgemeine Fall 97 / 159
98 Konsequenzen der unteren Schranke Da Ω( 1 ε (VC(C n) + ln( 1 δ ))) = Beispiel(C n) = O( 1 ε (ln( C n ) + ln( 1 δ ))), kann die Beispielzahl exakt vorausgesagt werden, wenn VC(C n ) = Θ(ln( C n )). (a) Beispiel(MONOTON-MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (b) Beispiel(MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (c) Beispiel(k-KNF n ) = Beispiel(k-DNF n ) = Θ( nk ε + 1 ε ln ( ) 1 δ ). (e) Beispiel(k-KLAUSEL-KNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (f) Beispiel(k-TERM-DNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (g) Beispiel(BOOLEAN n ) = Θ( 1 ε 2n + 1 ε ln ( ) 1 δ ). (h) Beispiel(SYM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (i) Beispiel(AUTOMAT n,σ ) = Θ( 1 ε n log 2 n + 1 ε ln ( ) 1 δ ) für Σ = 2. Wieviele Beispiele sind notwendig? Der allgemeine Fall 98 / 159
99 No free Lunch Wieviele Beispiele sind notwendig? No free Lunch 99 / 159
100 Gibt es universelle Lernalgorithmen? Sei X = {0, 1} n.? Warum wählen wir eine Hypothesenklasse a priori aus?? Warum nicht Algorithmen bauen, die prinzipiell jede mögliche Hypothese als Antwort geben können? Dann müssen wir mit der Hypothesenklasse BOOLEAN n arbeiten, die für jede Teilmenge von X = {0, 1} n ein Konzept besitzt. No-Free-Lunch-Theorem Der Lernalgorithmus A fordere weniger als X /2 Beispiele an = Es gibt ein Konzept c X, eine Verteilung D, eine reelle Zahl µ > 0, so dass für die von A bestimmte Hypothese h c gilt: prob[ fehler D (c, h c ) µ ] µ. Wieviele Beispiele sind notwendig? No free Lunch 100 / 159
101 Konsistente Hypothesen: Wieviele Beispiele genügen? Wieviele Beispiele sind ausreichend? 101 / 159
102 Das Ziel Die Konzeptklasse C sei gegeben mit VC(C) = d. Dann gibt es einen PAC-Algorithmus für C, der höchstens 4 ( ( ) ( )) 12 2 ε d ln + ln Beispiele anfordert. ε δ - Vollständig zertrümmerte Beispielmengen S sind chaotisch, denn jede Teilmenge kann als Konzept auftreten. - Bei genügend vielen Beispielen werden aber (fast) alle Freiheitsgrade gesetzt, und wir haben kein Problem. Was passiert, wenn der Algorithmus eine Beispielmenge S mit s >> VC(C) Beispielen sieht? Wie chaotisch ist S? Wieviele Beispiele sind ausreichend? 102 / 159
103 Das partielle Zertrümmern großer Beispielmengen C zertrümmert eine Beispielmenge S mit S = VC(C). Für größere Beispielmengen: Wieviele Teilmengen produziert C höchstens? - Für eine Beispielmenge S setze - Für s N ist Π C (S) := { c S c C }. Π C (s) := max{ Π C (S) S = s }. Sauer s Lemma Für d = VC(C) und jedes s N ist Für s d ist Π C (s) ( ) e s d. d Π C (s) d i=0 ( ) s. i Der (einfache) Beweis wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Sauer s Lemma 103 / 159
104 Sauer s Lemma: Eine Diskussion (1/2) Die Beispielmenge S sei gegeben und es gelte d = VC(C). (a) Wieviele Konzepte der Konzeptklasse C unterscheiden sich auf S? Genau ΠC (S) Konzepte, denn Π C (S) = { c S c C }. Es gibt höchstens d i=0 ( ) s ( e s i d )d Konzepte aus C, die sich auf S voneinander unterscheiden. (b) Wie scharf ist die obere Schranke in Sauer s Lemma? - Für s d = VC(C) ist Π C (s) = 2 s, denn es gibt Beispielmengen der Größe s, die vollständig zertrümmert werden können. - Sauer s Lemma ist exakt für s d: s ( ) s s ( ) s 2 s = Π C (s) = 1 i 1 s i = (1 + 1) s i i denn ( s i ) = 0 für i > s. i=0 Wieviele Beispiele sind ausreichend? Sauer s Lemma 104 / 159 i=0
105 Sauer s Lemma: Eine Diskussion (2/2) (c) Es gibt höchstens endlich viele verschiedene Konzepte über S, nämlich höchstens ( e s d )d Konzepte. Reine Spekulation (?!): Und wenn wir die Schranke für endliche Konzeptklassen anwenden? Für geeignete Konstanten C, D folgt: s C ( ε d ln( e s ) d ) + ln(1 δ ) D (d ε ln( 1ε ) ) + ln(1δ ) Beispiele genügen. Genau das möchten wir zeigen! Wieviele Beispiele sind ausreichend? Sauer s Lemma 105 / 159
106 ε-netze Wieviele Beispiele sind ausreichend? Epsilon-Netze 106 / 159
107 ε-netze Die Situation: - Eine Beispielmenge S mit s Beispielen wurde zufällig gewählt. - Das (unbekannte) Zielkonzept sei c C und D sei die Verteilung. - Gefahr: Es gibt konsistentes Konzept c C mit großem Fehler. c ist genau dann mit S konsistent, wenn S (c c ) =. Der Fehler ist zu groß, falls fehlerd (c, c ) > ε. Wir nennen ε (c) = {c c c C und fehler D (c, c ) > ε } die Menge der ε-fehlerregionen für c. Wieviele Beispiele sind ausreichend? Epsilon-Netze 107 / 159
108 ε-netze Wir nennen eine Beispielmenge S ein ε-netz, wenn für jede ε-fehlerregion c ε (c). S c Angenommen, S ist ein ε-netz und c ist eine konsistente Hypothese mit zu großem Fehler: - Dann ist c c eine ε-fehlerregion = c c ε (c). - Aber S ist ein ε-netz = S (c c ). - Es gibt ein x S mit x c c = c ist nicht auf S konsistent. Ein konsistenter Lernalgorithmus ist ein PAC-Algorithmus, falls prob[ S ist ein ε-netz ] 1 δ. Wieviele Beispiele sind ausreichend? Epsilon-Netze 108 / 159
109 Wahrscheinlichkeit eines ε-netzes (1/2) Sei A s das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Was ist die Wahrscheinlichkeit von A s? prob[ A s ] = prob[ S ist kein ε-netz ] = prob[ Es gibt ein c = c c ε (c) und S c = ] prob[ S c = ] c ε(c) Aber die Anzahl der Fehlerregionen in ε (c) kann sogar unendlich groß sein. So geht es leider nicht. Wieviele Beispiele sind ausreichend? Epsilon-Netze 109 / 159
110 Wahrscheinlichkeit eines ε-netzes (2/2) Es ist prob[ A s ] = prob[ Es gibt ein c = c c ε (c) und S c = ]. Wir definieren das Ereignis [ B s c ε (c) c S 1 = c S 2 ε s ] 2 für Beispielmengen S 1, S 2 von jeweils s Beispielen. B s tritt ein, wenn eine schlechte Hypothese c mit c = c c ( ) nicht auf den ersten s, ( ) wohl aber auf den zweiten s Beispielen auffällt. Wieviele Beispiele sind ausreichend? Epsilon-Netze 110 / 159
111 Das Ereignis B s (1) B s tritt für (S 1, S 2 ) ein. die schlechte Hypothese c fällt auf S 1 nicht auf S1 ist kein ε-netz Ereignis As tritt für S 1 ein. (2) Also folgt prob[ B s ] = prob[ B s A s ] prob[ A s ]. Eine schlechte Hypothese c sollte wahrscheinlich auf S 2 inkonsistent sein = prob[ B s A s ] sollte groß sein. Wenn s 8 ε, dann ist prob[ A s ] 2 prob[ B s ]. Der Beweis (via Chernoff-Schranke) wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 111 / 159
112 Zwischenfazit (1) Unser Ziel ist der Nachweis, dass eine Menge von s Beispielen hoch-wahrscheinlich ein ε-netz ist, falls s hinreichend groß ist. (2) A s ist das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Wir wissen, dass prob[ A s ] 2 prob[ B s ] mit [ B s c ε (c) (3) Zeige, dass B s unwahrscheinlich ist. c S 1 = c S 2 ε s 2 (4) Für B s ziehe eine Beispielmenge S von 2s Beispielen: Zuerst die s Beispiele aus S1, dann die s Beispiele aus S2. ]. - Beachte, dass (c S) S 1 = c (S S 1 ) = c S 1 und (c S) S 2 = c (S S 2 ) = c S 2. - Ersetze c durch c S. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 112 / 159
113 Die Reduktion auf Sauer s Lemma (1/2) (1) Wir fassen die Einzelexperimente (ziehe zuerst S 1, dann S 2 ) zu Großexperimenten S zusammen: Ziehe zuerst S, dann zerlege S zufällig in S1 und S 2. (2) Fixiere ab jetzt das Großexperiment S. Wie groß ist die Wahrscheinlichkeit prob[ B s S ] des Ereignisses B s, wenn wir das Großexperiment S durchführen? prob[ B s S ] = prob[ c ε (c) : (c S) S 1 =, (c S) S 2 ε s 2 ] prob[ (c S) S 1 =, (c S) S 2 ε s 2 ]. c S,c ε(c) Wieviele Beispiele sind ausreichend? Die Reduktion auf Sauer s Lemma 113 / 159
Lernalgorithmen SoSe 2008 in Trier. Henning Fernau Universität Trier
Lernalgorithmen SoSe 2008 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Lernalgorithmen Gesamtübersicht 0. Einführung 1. Identifikation (aus positiven Beispielen) 2. Zur Identifikation
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrWS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
MehrComputational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
Mehr1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben?
Die Themen 1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben? Er sollte von wirklichen Zufallsgeneratoren nicht unterscheidbar sein?! Eine viel zu starke Forderung: Stattdessen sollte ein
MehrBeschreibungskomplexität von Grammatiken Definitionen
Beschreibungskomplexität von Grammatiken Definitionen Für eine Grammatik G = (N, T, P, S) führen wir die folgenden drei Komplexitätsmaße ein: Var(G) = #(N), Prod(G) = #(P ), Symb(G) = ( α + β + 1). α β
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
MehrLösungsvorschläge Blatt 4
Theoretische Informatik Departement Informatik Prof. Dr. Juraj Hromkovič http://www.ita.inf.ethz.ch/theoinf16 Lösungsvorschläge Blatt 4 Zürich, 21. Oktober 2016 Lösung zu Aufgabe 10 (a) Wir zeigen mit
MehrMusterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2012/13
Institut für Kryptographie und Sicherheit Prof. Dr. Jörn Müller-Quade Musterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 22/3 Vorname Nachname Matrikelnummer
Mehr3. Kombinatorik und Wahrscheinlichkeit
3. Kombinatorik und Wahrscheinlichkeit Es geht hier um die Bestimmung der Kardinalität endlicher Mengen. Erinnerung: Seien A, B, A 1,..., A n endliche Mengen. Dann gilt A = B ϕ: A B bijektiv Summenregel:
Mehr1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6
Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere
MehrVorlesung 8a. Kovarianz und Korrelation
Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrDer Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.
Kapitel 3 Konvexität 3.1 Konvexe Mengen Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Definition 3.1 Konvexer Kegel. Eine Menge Ω R n heißt konvexer Kegel, wenn mit x
MehrDank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Probleme über Sprachen. Teil II.
Dank Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrVollständige Induktion
Schweizer Mathematik-Olympiade smo osm Vollständige Induktion Aktualisiert: 1 Dezember 01 vers 100 Eine der wichtigsten Beweistechniken der Mathematik überhaupt ist die (vollständige) Induktion Wir nehmen
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
Mehrx, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω
5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,
MehrTechnische Universität München Zentrum Mathematik. Übungsblatt 7
Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 7 Hausaufgaben Aufgabe 7. Für n N ist die Matrix-Exponentialfunktion
MehrAllgemeines zu Tests. Statistische Hypothesentests
Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer
MehrMusterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 2013/14
Institut für Theoretische Informatik Prof. Dr. Jörn Müller-Quade Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 23/4 Vorname Nachname Matrikelnummer Hinweise Für die
MehrMathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015
und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2015 4. April 2016 Zu der Vorlesung wird ein Skript erstellt, welches auf meiner Homepage veröffentlicht wird: http://www.math.uni-hamburg.de/home/geschke/lehre.html
Mehr2. Spezielle anwendungsrelevante Funktionen
2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für
Mehr2 Die Dimension eines Vektorraums
2 Die Dimension eines Vektorraums Sei V ein K Vektorraum und v 1,..., v r V. Definition: v V heißt Linearkombination der Vektoren v 1,..., v r falls es Elemente λ 1,..., λ r K gibt, so dass v = λ 1 v 1
MehrGrundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II
1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume
MehrRandomisierte Algorithmen 2. Erste Beispiele
Randomisierte Algorithmen Randomisierte Algorithmen 2. Erste Beispiele Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2016/2017 1 / 35 Randomisierter Identitätstest
MehrErsetzbarkeitstheorem
Ersetzbarkeitstheorem Die Abgeschlossenheit läßt sich auch folgendermaßen formulieren: Ersetzbarkeitstheorem Seien F und G Formeln mit F G. SeienH und H Formeln, so daß H aus H hervorgeht, indem ein Vorkommen
MehrUnabhängigkeit KAPITEL 4
KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht
MehrSatz 16 (Multiplikationssatz)
Häufig verwendet man die Definition der bedingten Wahrscheinlichkeit in der Form Damit: Pr[A B] = Pr[B A] Pr[A] = Pr[A B] Pr[B]. (1) Satz 16 (Multiplikationssatz) Seien die Ereignisse A 1,..., A n gegeben.
MehrVarianz und Kovarianz
KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]
MehrKapitel 6 Martingale
Kapitel 6 Martingale Martingale spielen eine große Rolle in der Finanzmathematik, und sind zudem ein wichtiges Hilfsmittel für die statistische Inferenz stochastischer Prozesse, insbesondere auch für Zählprozesse
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
MehrKapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
MehrÜbungsaufgaben zu Formalen Sprachen und Automaten
Universität Freiburg PD Dr. A. Jakoby Sommer 27 Übungen zum Repetitorium Informatik III Übungsaufgaben zu Formalen Sprachen und Automaten. Untersuchen Sie das folgende Spiel: A B x x 2 x 3 C D Eine Murmel
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrTheoretische Informatik Kap 2: Berechnungstheorie
Gliederung der Vorlesung 0. Grundbegriffe 1. Formale Sprachen/Automatentheorie 1.1. Grammatiken 1.2. Reguläre Sprachen 1.3. Kontextfreie Sprachen 2. Berechnungstheorie 2.1. Berechenbarkeitsmodelle 2.2.
MehrProf. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016
Prof. Dr. Christoph Karg 5.7.2016 Hochschule Aalen Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik Sommersemester 2016 Name: Unterschrift: Klausurergebnis Aufgabe 1 (15 Punkte) Aufgabe 3
MehrHandout zu Beweistechniken
Handout zu Beweistechniken erstellt vom Lernzentrum Informatik auf Basis von [Kre13],[Bün] Inhaltsverzeichnis 1 Was ist ein Beweis? 2 2 Was ist Vorraussetzung, was ist Behauptung? 2 3 Beweisarten 3 3.1
Mehr1. Aufgabe [2 Punkte] Seien X, Y zwei nicht-leere Mengen und A(x, y) eine Aussageform. Betrachten Sie die folgenden Aussagen:
Klausur zur Analysis I svorschläge Universität Regensburg, Wintersemester 013/14 Prof. Dr. Bernd Ammann / Dr. Mihaela Pilca 0.0.014, Bearbeitungszeit: 3 Stunden 1. Aufgabe [ Punte] Seien X, Y zwei nicht-leere
MehrDiskrete Wahrscheinlichkeitstheorie - Probeklausur
Diskrete Wahrscheinlichkeitstheorie - robeklausur Sommersemester 2007 - Lösung Name: Vorname: Matrikelnr.: Studiengang: Hinweise Sie sollten insgesamt Blätter erhalten haben. Tragen Sie bitte Ihre Antworten
Mehrkontextfreie Grammatiken Theoretische Informatik kontextfreie Grammatiken kontextfreie Grammatiken Rainer Schrader 14. Juli 2009 Gliederung
Theoretische Informatik Rainer Schrader Zentrum für Angewandte Informatik Köln 14. Juli 2009 1 / 40 2 / 40 Beispiele: Aus den bisher gemachten Überlegungen ergibt sich: aus der Chomsky-Hierarchie bleiben
MehrSatz 18 (Satz von der totalen Wahrscheinlichkeit)
Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A 1,..., A n seien paarweise disjunkt und es gelte
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrMathematik I. Vorlesung 19. Metrische Räume
Prof. Dr. H. Brenner Osnabrück WS 2009/2010 Mathematik I Vorlesung 19 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines Vektors
MehrDiskrete Strukturen Kapitel 2: Grundlagen (Beweise)
WS 2014/15 Diskrete Strukturen Kapitel 2: Grundlagen (Beweise) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_14
MehrGrundbegriffe der Wahrscheinlichkeitsrechnung
Algorithmen und Datenstrukturen 349 A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich.
MehrTECHNISCHE UNIVERSITÄT MÜNCHEN
TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik PROF. DR.DR. JÜRGEN RICHTER-GEBERT, VANESSA KRUMMECK, MICHAEL PRÄHOFER Aufgabe 45. Polynome sind stets stetig. Höhere Mathematik für Informatiker II (Sommersemester
MehrFakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016
Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 1 M. Sperber (matthias.sperber@kit.edu) S. Nguyen (thai.nguyen@kit.edu) Übungsblatt 3 Maschinelles Lernen und Klassifikation Abgabe online
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
Mehr5 Zwei spieltheoretische Aspekte
5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,
MehrProbabilistische Analyse von Algorithmen
Lehrstuhl Informatik I Algorithmen & Komplexität RWTH Aachen 27. Mai 2005 Übersicht Einführung 1 Einführung 2 Exkurs: Wahrscheinlichkeitstheorie Borgwardts 3 Idee 4 Formale Beschreibung des s Motivation
MehrRegulär variierende Funktionen
KAPITEL 4 Regulär variierende Funktionen Unser nächstes Ziel ist es, die Max-Anziehungsbereiche der Extremwertverteilungen zu beschreiben. Dies wird im nächsten Kapitel geschehen. Wir haben bereits gesehen,
MehrK8 Stetige Zufallsvariablen Theorie und Praxis
K8 Stetige Zufallsvariablen Theorie und Praxis 8.1 Theoretischer Hintergrund Wir haben (nicht abzählbare) Wahrscheinlichkeitsräume Meßbare Funktionen Zufallsvariablen Verteilungsfunktionen Dichten in R
MehrAlgorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6.
Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 3, Donnerstag 6. November 2014 (O-Notation, Theta, Omega) Junior-Prof. Dr. Olaf Ronneberger
MehrKonvergenz, Filter und der Satz von Tychonoff
Abschnitt 4 Konvergenz, Filter und der Satz von Tychonoff In metrischen Räumen kann man topologische Begriffe wie Stetigkeit, Abschluss, Kompaktheit auch mit Hilfe von Konvergenz von Folgen charakterisieren.
MehrDieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.
Dieses Quiz soll Ihnen helfen, Kapitel 2.5-2. besser zu verstehen. Frage Wir betrachten ein Würfelspiel. Man wirft einen fairen, sechsseitigen Würfel. Wenn eine oder eine 2 oben liegt, muss man 2 SFr zahlen.
MehrEntscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 4.1 4. Statistische Entscheidungsverfahren Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten Beispiel:
Mehr6 Reelle und komplexe Zahlenfolgen
$Id: folgen.tex,v.7 200//29 :58:57 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Folgenkonvergenz In der letzten Sitzung hatten wir den Begriff der Konvergenz einer reellen oder komplexen Folge gegen
MehrMathematik für Anwender II
Prof. Dr. H. Brenner Osnabrück SS 2012 Mathematik für Anwender II Vorlesung 32 Metrische Räume Euklidische Räume besitzen nach Definition ein Skalarprodukt. Darauf aufbauend kann man einfach die Norm eines
Mehr24 KAPITEL 2. REELLE UND KOMPLEXE ZAHLEN
24 KAPITEL 2. REELLE UND KOMPLEXE ZAHLEN x 2 = 0+x 2 = ( a+a)+x 2 = a+(a+x 2 ) = a+(a+x 1 ) = ( a+a)+x 1 = x 1. Daraus folgt dann, wegen x 1 = x 2 die Eindeutigkeit. Im zweiten Fall kann man für a 0 schreiben
MehrEinführung in die Informatik 2
Einführung in die Informatik 2 Mathematische Grundbegriffe Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag, 12:30-14:00 Uhr,
MehrDer Primzahlsatz. Es gibt eine Konstante A, so daß f(x) g(x) Ah(x) für alle genügend großen x.
Der Primzahlsatz Zusammenfassung Im Jahr 896 wurde von Hadamard und de la Vallée Poussin der Primzahlsatz bewiesen: Die Anzahl der Primzahlen kleiner gleich verhält sich asymptotisch wie / log. Für ihren
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
Mehrk np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr
Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p
MehrMathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016
und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 25. April 2016 Die Dimensionsformel Definition 3.9 Sei f : V W eine lineare Abbildung zwischen zwei K-Vektorräumen. Der Kern
MehrProbabilistische Primzahltests
23.01.2006 Motivation und Überblick Grundsätzliches Vorgehen Motivation und Überblick Als Primzahltest bezeichnet man ein mathematisches Verfahren, mit dem ermittelt wird, ob eine gegebene Zahl eine Primzahl
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrKostenmodell. Daniel Graf, Tobias Pröger. 22. September 2016 (aktualisierte Fassung 5 vom 9. Oktober 2016)
Kostenmodell Daniel Graf, Tobias Pröger 22. September 2016 (aktualisierte Fassung 5 vom 9. Oktober 2016) Erklärung: Diese Mitschrift ist als Ergänzung zur Vorlesung gedacht. Wir erheben keinen Anspruch
MehrTU Darmstadt FB Mathematik, AG 9 WS 2004/2005 Jakob Creutzig (1 + ρ)
TU Darmstadt FB Mathematik, AG 9 WS 2004/2005 Jakob Creutzig 9..04 Lösungsvorschläge zum 3. Aufgabenblatt der Vorlesung,,Einführung in die Finanzmathematik Gruppenübungen Aufgabe : Es sei Ω = {, +} n,
MehrAlgorithmen II Vorlesung am
Algorithmen II Vorlesung am 0..0 Minimale Schnitte in Graphen INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg und Algorithmen nationales Forschungszentrum
Mehrε δ Definition der Stetigkeit.
ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x
MehrGleichungen und Ungleichungen
Gleichung Eine Gleichung erhalten wir durch Gleichsetzen zweier Terme. Kapitel 3 Gleichungen und Ungleichungen linke Seite = rechte Seite Grundmenge: Menge aller Zahlen, die wir als Lösung der Gleichung
MehrÜbungen zur Linearen Algebra 1
Übungen zur Linearen Algebra 1 Wintersemester 014/015 Universität Heidelberg - IWR Prof. Dr. Guido Kanschat Dr. Dörte Beigel Philipp Siehr Blatt 7 Abgabetermin: Freitag, 05.1.014, 11 Uhr Aufgabe 7.1 (Vektorräume
MehrMathematik 1 für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler) Musterprüfung mit Lösungen
Mathematik für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler Musterprüfung mit Lösungen. Sei T N. (a Unter welchen beiden Voraussetzungen an T garantiert das Induktionsaxiom (nach
Mehr2. Optimierungsprobleme 6
6 2. Beispiele... 7... 8 2.3 Konvexe Mengen und Funktionen... 9 2.4 Konvexe Optimierungsprobleme... 0 2. Beispiele 7- Ein (NP-)Optimierungsproblem P 0 ist wie folgt definiert Jede Instanz I P 0 hat einen
Mehr4 Diskrete Wahrscheinlichkeitsverteilungen
4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder
MehrKapitel 3. Natürliche Zahlen und vollständige Induktion
Kapitel 3 Natürliche Zahlen und vollständige Induktion In Kapitel 1 haben wir den direkten Beweis, den modus ponens, kennen gelernt, der durch die Tautologie ( A (A = B) ) = B gegeben ist Dabei war B eine
Mehr18 Höhere Ableitungen und Taylorformel
8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a
MehrMAA = MAB + B AA = B CA + CAA BA A Nun sehen wir mit Proposition 10.7 aus dem Skript, dass A M AB gelten muss.
1. Konvexität in der absoluten Ebene In einem Dreieck in der Euklidischen Ebene hat die Strecke zwischen zwei Seitenmittelpunkten die halbe Länge der dritten Seite. In der absoluten Ebene hat man eine
MehrLiteratur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)
Dominating Set 59 Literatur Dominating Set Grundlagen 60 Dominating Set (DS) M. V. Marathe, H. Breu, H.B. Hunt III, S. S. Ravi, and D. J. Rosenkrantz: Simple Heuristics for Unit Disk Graphs. Networks 25,
MehrÜbungen zur Wahrscheinlichkeitstheorie und Statistik
Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils
MehrAnwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen
Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen David Knötel Freie Universität Berlin, Institut für Informatik Seminar über Algorithmen Leitfaden Wiederholung
Mehr3 Vom Zählen zur Induktion
7 3 Vom Zählen zur Induktion 3.1 Natürliche Zahlen und Induktions-Prinzip Seit unserer Kindheit kennen wir die Zahlen 1,, 3, 4, usw. Diese Zahlen gebrauchen wir zum Zählen, und sie sind uns so vertraut,
Mehr3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer
3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrKlausur zu Statistik II
GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel
MehrTopologische Begriffe
Kapitel 3 Topologische Begriffe 3.1 Inneres, Rand und Abschluss von Mengen Definition (innerer Punkt und Inneres). Sei (V, ) ein normierter Raum über K, und sei M V eine Menge. Ein Vektor v M heißt innerer
MehrLineare Abhängigkeit
Lineare Abhängigkeit Vorbemerkung. Es sei X eine Menge. Eine Familie von Elementen von X ist eine Abbildung I X, i x i. I heißt dabei Indexmenge. Man verwendet dabei oft die Schreibweise (x i ) oder (x
MehrKapitel VI. Euklidische Geometrie
Kapitel VI. Euklidische Geometrie 1 Abstände und Lote Wiederholung aus Kapitel IV. Wir versehen R n mit dem Standard Skalarprodukt x 1 y 1.,. := x 1 y 1 +... + x n y n x n y n Es gilt für u, v, w R n und
MehrEinführung in die (induktive) Statistik
Einführung in die (induktive) Statistik Typische Fragestellung der Statistik: Auf Grund einer Problemmodellierung sind wir interessiert an: Zufallsexperiment beschrieben durch ZV X. Problem: Verteilung
MehrDie Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man
Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man x / M. Man sagt, M ist Teilmenge von N und schreibt M N, wenn für jedes x M auch x N gilt.
MehrZufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen
Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen Wichtige Tatsachen und Formeln zur Vorlesung Mathematische Grundlagen für das Physikstudium 3 Franz Embacher http://homepage.univie.ac.at/franz.embacher/
Mehr