Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Ähnliche Dokumente
Was passt nicht dazu? Warum? Streiche durch! Wie nennt man diese Gegenstände mit einem Wort? Was fehlt auf diesem Bild? Zeichne das, was fehlt, ein!

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Lesen - rechnen - malen

die gelbe Jacke die rote Jacke die blaue Jacke die schwarze Jacke die violette Hose die rote Hose die grüne Hose die schwarze Hose

Kurzeinführung in UML

Mathematik I Prüfung für den Übertritt aus der 8. Klasse

Mathematische Grundlagen III

Moderne Methoden der KI: Maschinelles Lernen

Praktikum zu Einführung in die Informatik für LogWiIngs und WiMas Wintersemester 2015/16. Vorbereitende Aufgaben

Künstliche Intelligenz Maschinelles Lernen

2. Lernen von Entscheidungsbäumen

Probeklausur: Programmierung WS04/05


Kern- und Schulcurriculum Mathematik Klasse 5/6. Stand Schuljahr 2009/10

alt blau blau alt älter am ältesten dunkel böse dunkel böse böser dunkler am bösesten am dunkelsten gerne gerne gelb gelb groß groß gesund gesund

Zusammenfassung. Satz. 1 Seien F, G Boolesche Ausdrücke (in den Variablen x 1,..., x n ) 2 Seien f : B n B, g : B n B ihre Booleschen Funktionen

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

SUDOKU. l l l l l l l l l l l l l l l l. l l l l l l l l l l l l l l l l. l l l l l l l l l l l l l l l l

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Maschinelles Lernen. Kapitel 5

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Gegeben: Eine Menge von Objekten mit Merkmalen (beobachtet oder gemessen) Die gegebene Menge heißt auch Grundgesamtheit.

Beispiellösungen zu den Übungen Datenstrukturen und Algorithmen SS 2008 Blatt 6

Kompetenztest. Wiederholung aus der 2. Klasse. Das ist Mathematik. Kompetenztest. Testen und Fördern. Wiederholung aus der 2.

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Anwendungen des Fréchet-Abstandes Das Constrained Free Space Diagram zur Analyse von Körperbewegungen

Kombinatorik Platzierungsproblem 3 Berechnungsarten

Lohntabelle gültig ab 1. Januar 2016

Lohntabelle gültig ab 1. Januar 2015

8. Objektorientierte Programmierung. Informatik II für Verkehrsingenieure

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Access Verbrecherdatenbank Teil 3

Tafelbild zum Einstieg

Farbberatung bei ioro.de

Bauanleitung Duinocade Rev A. Duinocade. Bauanleitung. H. Wendt. Übersetzung der englischen Version. 1 of 8

Verschlucktes Licht Wenn Farben verschwinden

Känguru der Mathematik 2014 Gruppe Ecolier (3. und 4. Schulstufe) Lösungen

TOP Events. TOP Lifestyle TRAUBEN- UND WEINFEST GREVENMACHER CONCOURS D ELEGANCE UND LUXEMBOURG CLASSIC DAYS AYURVEDA UND MEHR MUST-HAVE LUXUSGIMMICKS

x 2 x 1 x Lernen mit Entscheidungsbäumen

Java. Prof. Dr. Stefan Enderle NTA Isny

Ein pfiffiges Legespiel in traumhafter Inselwelt für 2 bis 5 Spieler ab 8 Jahren

Routing Algorithmen. Begriffe, Definitionen

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Welcher Hauttyp sind Sie?

Mathematik I - Prüfung für den Übertritt aus der 9. Klasse

Einführung in Datenbanksysteme. H. Wünsch

Bezeichnung: F F Jede Kongruenzabbildung lässt sich durch Hintereinander Ausführen von höchstens drei Geradenspiegelungen darstellen

Tutoraufgabe 1 (2 3 4 Bäume):

Übung zur Vorlesung Algorithmische Geometrie

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Ein Wissenssystem für Experten. Alexander Mas INF-M3 Seminar/Ringvorlesung - Wintersemester 2007/ Januar 2008

Town Town Büro, Erdbergstrasse

Comic Life 2.x. Fortbildung zum Mediencurriculum

Nichtrealistische Darstellung von Gebirgen mit OpenGL

Bayes sches Lernen: Übersicht

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

C1: Tabellenkalkulation Daten und Relationen (14)

Protokoll. Farben und Spektren. Thomas Altendorfer

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Berechenbarkeit und Komplexität

Vorlesung Maschinelles Lernen

Minimale Anzahl von Hinweisen bei Sudoku

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Grundwissen Natur und Technik - Informatik 6/7

Das Gummibärchen-Orakel [1]

1.4 Steigung und Steigungsdreieck einer linearen Funktion

Fellfarben beim Welsh Corgi Pembroke Leitfaden fär die Wurfabnahme bis zur 3. Woche

28. Mathematik Olympiade 2. Stufe (Kreisolympiade) Klasse 5 Saison 1988/1989 Aufgaben und Lösungen

Biometric Switch Anleitung. Version

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Grundlagen von Corel Draw

Geometrie-Dossier Kreis 2

Math Eyes die Welt durch die Geometriebrille betrachten. Projektbeschreibung Kinderzimmer aufräumen

ZOOMAX AURORA HD Bildschirmlesegerät

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Tutorial zum Umgang mit Scratch

Objektorientierte Konzepte und Notation in UML. Objekt Klasse Attribut Operation

Dark Toffee. Cocoa. Navajo Brown. Espresso. Unsere Farben: Augenbrauen / kalte blonde und braune. Kalt -3 L-D 4 Kaltes Gelb & Grün

Fotos in einer Diashow bei PPT

5. Übungsblatt (Musterlösung)

Biene. Frosch. Krake. Kuh. Biene. Frosch. Krake. Kuh. Illustrationen: evarin20 by fotolia.de

Kapitel 5 Zustand eines Objekts

Sortierverfahren für Felder (Listen)

a) Wie viele ROM-Bausteine benötigen Sie für den Aufbau des 64x16 ROMs? c) Wie viele Bytes Daten können im 64x16 ROM insgesamt gespeichert werden?

HTTPS Checkliste. Version 1.0 ( ) Copyright Hahn und Herden Netzdenke GbR

Mathematik I Prüfung für den Übertritt aus der 9. Klasse

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Grafik-Programmierung

A2.3 Lineare Gleichungssysteme

Modulabschlussklausur Analysis II

Du darfst für jede erledigte Seite eine Sonne ausmalen und bekommst einen Fleißpunkt im neuen Schuljahr von mir! Name:

6.6 Vorlesung: Von OLAP zu Mining

Vorschlag informeller Test zu den Themen Die Grundlagen der Erde sowie Orientierung und Karten

Lehrwerk: Lambacher Schweizer, Klett Verlag

Transkript:

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1

Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende Hierarchie von Begriffen: Beobachtet werden Objekte, die durch Begriffspaare charakterisiert werden, die man an der untersten Ebene dieser Taxonomien finden kann (also z.b. blaues Dreieck ). Konzepte können auch höherliegende Begriffe verwenden (also z.b. dunkles Vieleck ). Überlegen Sie sich eine Generalisierungsvorschrift, die diese Taxonomien verwendet. 18. November 2015 2

Aufgabe 1: Version Space, Generalisierung und Spezialisierung (2) a) Wie sieht die minimale Generalisierung der Objekte blauer Kreis und grünes Dreieck aus? Lösung: Gesucht wurde hier die gemeinsame Generalisierung zweier Objekte. Geht man von grün und blau den kürzesten Weg nach oben, landet man bei dunkel. Geht man von Kreis und Dreieck den minimalen Schritt nach oben, landet man bei Objekt. dunkles Objekt b) Wie sehen minimale Spezialisierungen des Konzepts helles Objekt aus, sodaß das Beispiel oranger Kreis nicht mehr abgedeckt wird? Lösung: Entweder bei hell eine Ebene weiter runter (ohne bei orange zu landen) oder bei Objekt (ohne bei Kreis zu landen): gelbes Objekt und helles Vieleck. Gelbes Vieleck ist keine zulässige Lösung, da diese Spezialisierung nicht minimal ist. 18. November 2015 3

Aufgabe 1: Version Space, Generalisierung und Spezialisierung (3) c) Gegeben seien folgende S und G-Sets: G: { dunkles Vieleck, beliebiges Quadrat } S: { blaues Quadrat } Skizzieren Sie den Version Space, der durch diese Mengen definiert wird. Lösung: 18. November 2015 4

Aufgabe 1: Version Space, Generalisierung und Spezialisierung (4) d) Wie würden Sie mit Hilfe des oben gegebenen Version Spaces die folgenden Beispiele klassifizieren (mit Begründung): Objekt Klasse blaues Quadrat blauer Kreis blaues Dreieck Lösung: Das erste Beispiel ist im S-set enthalten und wird daher als positiv klassifiziert. Das zweite Beispiel ist nicht im G-set enthalten und wird daher als negativ klassifiziert. Beispiel 3 ist ein dunkles Vieleck, aber kein beliebiges Quadrat. Im S-set ist es nicht enthalten. Daher würde es nicht klassifizierbar sein und ein? erhalten. Wenn Beispiele teilweise im S-Set und im G-Set sind (d.h., von diesen Hypothesen abgedeckt werden), können diese nie eindeutig klassifiziert werden. (Vergleiche Lernen einzelner Regeln, Folien How to Classify these Examples?) Zusatzfrage: Wie würde man das Beispiel blaues Vieleck klassifizieren? 18. November 2015 5

Aufgabe 1: Version Space, Generalisierung und Spezialisierung (5) e) Gegeben seien wiederum die S- und G-sets aus c). Wie verändern sich die Sets nach Eintreffen des Beispiels (es wird der Candidate Elimination Algorithmus betrachtet): gelbes Dreieck + Lösung: Betrachtet wird der Candidate Elimination Algorithmus für das Auftreten eines positiven Beispiels. G-Set: Hier wird jede Hypothese im G-Set entfernt, die das Beispiel nicht abdeckt. Da gelbes Dreieck / G ist, werden beide Hypothesen entfernt. Dann gilt G = {}. S-Set: Da zum S-set nur die Hypothesen hinzugefügt werden, für die es eine Hypothese im G-set gibt, die genereller ist, werden keine Hypothesen hinzugefügt (da das G-set leer ist). Außerdem wurde das aktuelle Beispiel nicht abgedeckt. Daher gilt S = {}. Wie interpretieren Sie dieses Ergebnis? Lösung: Mit der Hinzunahme des Beispiels gelbes Dreieck + ist das Konzept mit dem vorliegenden Version Space nicht mehr lernbar. Wenn man sich die Beispiele betrachten würde, die zur Entstehung des Version Spaces geführt haben, und das aktuelle Beispiel hinzunehmen würde, so wäre diese Beispielmenge mit dem Candidate Elimination Algorithmus nicht mehr lernbar. 18. November 2015 6

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (1) Überlegen Sie sich eine geeignete Sprache, um den Candidate Elimination Algorithmus um die Behandlung von numerischen Daten zu erweitern. a) Wie sieht eine passende Generalisierungs/Spezialisierungsvorschrift aus? Lösung: Wir verwenden als Hypothesensprache Intervalle. Bei Generalisierungen sind diese abgeschlossen und bei Spezialisierungen entsprechend offen. Demnach sind die Hypothesen des G-Sets offen beziehungsweise die des S-Sets abgeschlossen. Spezialisierungen erfolgen durch Einschränkung beziehungsweise Aufteilung von Intervallen. Generalisierungen entstehen durch Erweiterung von Intervallen. 18. November 2015 7

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (2) b) Berechnen Sie den Version Space für folgende Beispiele: Nr. A1 A2 Klasse 1 0.5 1.5 2 1.1 1.2 + 3 1.8 1.0 + 4 1.5 2.1 5 2.1 1.2 Lösung: Wir verwenden den wie oben beschrieben modifizierten Candidate Elimination Algorithmus. 1. Wir beginnen mit: G 0 = {<?,? >} S 0 = {<, >} 2. Als nächsten erhalten wir folgendes Beispiel (0.5, 1.5, ): S 1 = S 0, da keine Hypothese in S 0 das Beispiel abdeckt {<?,? >} deckt das Beispiel ab, deshalb muß diese Hypothese entfernt und minimal spezialisiert werden. Alle möglichen minimalen Spezialisierung werden hinzugefügt, da G 0 die generellste Hypothese beinhaltet. G 1 = {< (, 0.5),? >, < (0.5, ),? >, <?, (, 1.5) >, <?, (1.5, ) >} 18. November 2015 8

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (3) 3. Nächstes Beispiel (1.1, 1.2, +): S1 = {<, >}, G 1 = {< (, 0.5),? >, < (0.5, ),? >, <?, (, 1.5) >, <?, (1.5, ) >} Wir entfernen alle Hypothesen aus G 1, die das Beispiel nicht abdecken: < (, 0.5),? >, <?, (1.5, ) >} G 2 = {< (0.5, ),? >, <?, (, 1.5) >} <, > aus S1 deckt das Beispiel nicht ab und muß generalisiert werden: S 2 = {< [1.1, 1.1], [1.2, 1.2] >} (alle Hypothesen in G 2 sind genereller) 4. Nächstes Beispiel (1.8, 1.0, +): Alle Hypothesen aus G 2 decken das Beispiel ab: G 3 = G 2 < [1.1, 1.1], [1.2, 1.2] > aus S2 deckt das Beispiel nicht ab und muß generalisiert werden: S 3 = {< [1.1, 1.8], [1.0, 1.2] >} 18. November 2015 9

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (4) 5. Nächstes Beispiel (1.5, 2.1, ): S3 = {< [1.1, 1.8], [1.0, 1.2] >}, G 3 = {< (0.5, ),? >, <?, (, 1.5) >} Keine Hypothese in S 3 deckt das Beispiel ab: S 4 = S 3 Wir spezialisieren alle Hypothesen in G 3, die das Beispiel abdecken: < (0.5, ),? > Mögliche Spezialisierungen werden hinzugefügt, falls eine Hypothese in S 3 spezifischer ist: < (0.5, 1.5),? >, keine Hypothese (in S) ist spezifischer < (1.5, ),? >, keine Hypothese (in S) ist spezifischer < (0.5, ), (, 2.1) >, < [1.1, 1.8], [1.0, 1.2] > ist spezifischer < (0.5, ), (2.1, ) >, keine Hypothese (in S) ist spezifischer Alle anderen Hypothesen in G 3 (also <?, (, 1.5) >) bleiben unverändert. G 4 = {<?, (, 1.5) >, < (0.5, ), (, 2.1) >} 18. November 2015 10

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (5) 6. Nächstes Beispiel (2.1, 1.2, ): S4 = {< [1.1, 1.8], [1.0, 1.2] >}, G 4 = {<?, (, 1.5) >, < (0.5, ), (, 2.1) >} Keine Hypothese in S 4 deckt das Beispiel ab: S 5 = S 4 Wir spezialisieren alle Hypothesen in G 4, die das Beispiel abdecken: < (0.5, ), (, 2.1) >, <?, (, 1.5) > Betrachten wir die möglichen Spezialisierungen der ersten Hypothese: < (0.5, 2.1), (, 2.1) >, < [1.1, 1.8], [1.0, 1.2] > ist spezifischer < (2.1, ), (, 2.1) >, keine Hypothese ist spezifischer < (0.5, ), (, 1.2) >, keine Hypothese ist spezifischer < (0.5, ), (1.2, 2.1) >, keine Hypothese ist spezifischer Die möglichen Spezialisierungen der zweiten Hypothese lauten wie folgt: < (, 2.1), (, 1.5) >, < [1.1, 1.8], [1.0, 1.2] > ist spezifischer < (2.1, ), (, 1.5) >, keine Hypothese ist spezifischer <?, (, 1.2) >, keine Hypothese ist spezifischer <?, (1.2, 1.5) >, keine Hypothese ist spezifischer G 5 = {< (0.5, 2.1), (, 2.1) >, < (, 2.1), (, 1.5) >} 18. November 2015 11

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (6) c) Skizzieren Sie das S-Set, das G-Set, und den Version Space im R 2. Lösung: 18. November 2015 12

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (7) d) Vertauschen Sie die Rolle der positiven und negativen Beispiele. Was passiert dann? Lösung: 1. Wir beginnen mit: G 0 = {<?,? >} S 0 = {<, >} 2. Als nächsten erhalten wir folgendes Beispiel (0.5, 1.5, +): Alle Hypothesen aus G 0 decken das Beispiel ab: G 1 = G 0 <, > aus S0 deckt das Beispiel nicht ab und muß generalisiert werden: S 1 = {< [0.5, 0.5], [1.5, 1.5] >} 18. November 2015 13

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (8) 3. Nächstes Beispiel (1.1, 1.2, ): Keine Hypothese in S 1 deckt das Beispiel ab: S 2 = S 1 {<?,? >} aus G1 deckt das Beispiel ab und muß spezialisiert werden: < (, 1.1),? >, < [0.5, 0.5], [1.5, 1.5] > ist spezifischer < (1.1, ),? >, keine Hypothese ist spezifischer <?, (, 1.2) >, keine Hypothese ist spezifischer <?, (1.2, ) >, < [0.5, 0.5], [1.5, 1.5] > ist spezifischer G 2 = {< (, 1.1),? >, <?, (1.2, ) >} 4. Nächstes Beispiel (1.8, 1.0, ): Keine Hypothese in S 2 deckt das Beispiel ab: S 3 = S 2 Keine Hypothese in G 2 deckt das Beispiel ab: G 3 = G 2 18. November 2015 14

Aufgabe 2: Version Space und Candidate Elimination Algorithmus (9) 5. Nächstes Beispiel (1.5, 2.1, +): Wir entfernen alle Hypothesen aus G 3, die das Beispiel nicht abdecken: < (, 1.1),? > G 4 = {<?, (1.2, ) >} < [0.5, 0.5], [1.5, 1.5] > aus S3 deckt das Beispiel nicht ab und muß generalisiert werden: S 3 = {< [0.5, 1.5], [1.5, 2.1] >} 6. Nächstes Beispiel (2.1, 1.2, +): Wir entfernen alle Hypothesen aus G 4, die das Beispiel nicht abdecken: <?, (1.2, ) > G 5 = < [0.5, 1.5], [1.5, 2.1] > aus S4 deckt das Beispiel nicht ab und muß generalisiert werden. Es können aber keine gültigen Generalisierungen gefunden werden, da G 5 = (Vergleiche Lernen einzelner Regeln, Folie Candidate Elimination Algorithm, Textstelle some hypothesis... ) S 5 = Da sowohl das G-set und das S-set leer sind, folgt, dass diese Beispielmenge nicht mit dem Algorithmus und der gegebenen Hypothesensprache lernbar ist. 18. November 2015 15

Aufgabe 3: Candidate Elimination Algorithmus (1) Gegeben sei ein Datensatz mit drei Attributen: Haarfarbe: Größe: Augenfarbe: blond, braun, schwarz klein, groß grün, blau Der Hypothesenraum besteht aus Disjunktionen (Oder-Verknüpfungen) von maximal einem Wert pro Attribut, einer speziellsten Theorie false, die keine Beispiele abdeckt, und einer allgemeinsten Theorie true, die alle Beispiele abdeckt. Zum Beispiel deckt die Hypothese blond blau alle Personen ab, die entweder blond oder blauäugig sind (in der Datenmenge aus Aufgabe 3b) sind das z.b. die Beispiele 1, 3, 4). Beachte: Hypothesen wie blond braun, die mehrere Werte desselben Attributs verwenden, sind nicht im Hypothesenraum. 18. November 2015 16

Aufgabe 3: Candidate Elimination Algorithmus (2) a) Geben Sie in dieser Hypothesensprache alle minimalen Generalisierungen und Spezialisierungen der Hypothese blond blau an. Lösung: Durch Hinzufügen einer weiteren disjunktiven Terms kann man nur mehr Beispiele abdecken, daher generalisiert diese Operation. Wegstreichen eines Teilterms spezialisiert dagegen. Minimale Generalisierungen = { blond blau klein, blond blau groß} Minimale Spezialisierungen = { blond, blau} 18. November 2015 17

Aufgabe 3: Candidate Elimination Algorithmus (3) b) Folgende Beispiele treffen in dieser Reihenfolge ein: 1 braun groß blau + 2 braun klein grün 3 schwarz klein blau 4 blond klein grün + Das erste Beispiel kodiert also eine Person, die braune Haare und blaue Augen hat und groß ist. Führen Sie auf diesen Beispielen den Candidate-Elimination Algorithmus zur Berechnung des Version Spaces durch und geben Sie nach jedem Schritt das S-Set und das G-Set an. 18. November 2015 18

Aufgabe 3: Candidate Elimination Algorithmus (4) Lösung: G 0 = { true } S 0 = { false } G 1 = { true } S 1 = { braun, groß, blau} (das sind drei Hypothesen!) G 2 = { blond groß blau, schwarz groß blau} S 2 = { groß, blau} (die Hypothese braun würde nun inkonsistent sein). G 3 = { blond groß} (schwarz groß blau wird inkonsistent und zu groß spezialisiert, was spezieller ist als blond groß) S 3 = { groß} (blau wird nun inkonsistent) G 4 = { blond groß} S 4 = { blond groß} (auf groß grün können wir nicht generalisieren, da diese Theorie keine Spezialisierung eines Elements in G ist). Der Version Space konvergiert also zu einer einzigen Lösung. 18. November 2015 19