Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Ähnliche Dokumente
Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze

Kapitel ML:IV (Fortsetzung)

Decision Tree Learning

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Semiüberwachte Paarweise Klassifikation

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Kapitel VI. Wahrscheinlichkeitsbegriff. Wahrscheinlichkeitsbegriff. LF: VI Bayesian Learning c STEIN

Data Mining und Maschinelles Lernen

Naive Bayes. Naive Bayes

Maschinelles Lernen: Symbolische Ansätze

Mathematische Grundlagen III

Entscheidungsbaum-Lernen: Übersicht

Bayes sches Lernen: Übersicht

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Bayes sches Lernen: Übersicht

3.3 Nächste-Nachbarn-Klassifikatoren

Induktion von Assoziationsregeln. Stefan Mandl

Entscheidungsbäume. Minh-Khanh Do Erlangen,

, Data Mining, 2 VO Sommersemester 2008

Maschinelles Lernen: Symbolische Ansätze

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

5.4 Nächste-Nachbarn-Klassifikatoren

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1

Rechentraining. 4 a) b) c) d) e) f) g) h)

fuzzy-entscheidungsbäume

1.5 Berechnung von Rangzahlen

Maschinelles Lernen: Symbolische Ansätze

Entscheidungsbaum-Lernen: Übersicht

Thema aus dem Bereich Analysis Funktionen 1.Grades

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Naive Bayes für Regressionsprobleme

Beispiellösungen DM. Prof. Dr. Jürgen Cleve. Das Beispiel zum Support und der Kondenz

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

b) Notieren Sie hier die Brüche aus der Tabelle, die sich noch kürzen lassen und kürzen Sie diese soweit als möglich: 1 2

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

2. Datenvorverarbeitung

Prüfung aus Statistik 2 für SoziologInnen

Data Warehousing und Data Mining

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Bruchrechnen ohne Variablen Anwendungen 11

Entscheidungsbäume aus großen Datenbanken: SLIQ

Bruchrechnen ohne Variablen Anwendungen 11 - Lösungen

Künstliche Intelligenz Maschinelles Lernen

4. Lernen von Entscheidungsbäumen

Mathematische Grundlagen III

Maschinelles Lernen: Symbolische Ansätze

ARBEITSBLATT 14 ANALYTISCHE BERECHNUNGEN AM KREIS

3.5 Beschreibende Statistik. Inhaltsverzeichnis

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Data Mining und maschinelles Lernen

Pareto optimale lineare Klassifikation

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 8 1. Semester ARBEITSBLATT 8 RECHNEN MIT POTENZEN. 1) Potenzen mit negativer Basis

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

Übung Algorithmen I

1 Singulärwertzerlegung und Pseudoinverse

Statistisches Testen

Der χ 2 -Test (Chiquadrat-Test)

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Klausur Statistik Lösungshinweise

Lösungen der Aufgaben

Thema aus dem Bereich Analysis Differentialrechnung I. Inhaltsverzeichnis

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Sinus und Cosinus. Ich kann zu vorgegebenen Daten eine Sinusfunktion entwickeln, die diese Daten näherungsweise beschreibt.

Kapitel 2. Mittelwerte

Parametrische vs. Non-Parametrische Testverfahren

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Elemente der Stochastik (SoSe 2016) 10. Übungsblatt

Lernzirkel Grundrechenarten und Terme Mathematik Nikolaus-von-Kues-Gymnasium Fachlehrer : W. Zimmer Blatt 1 /18. a + b = c

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Statistik und Wahrscheinlichkeitsrechnung

TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN

V. Metriken. Gliederung. I. Motivation. Lesen mathematischer Symbole. Wissenschaftliche Argumentation. Matrizenrechnung. Seite 67

1 Boolesches Retrieval (2)

1 Grundwissen 6 2 Dezimalbrüche (Dezimalzahlen) 9 3 Brüche 11 4 Rationale Zahlen 16 5 Potenzen und Wurzeln 20 6 Größen und Schätzen 24

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

1. Klausur zu Vektor- und Matrizenrechnung I und II WS 2009/10 und SS 2010 am Dienstag, dem 27. Juli 2010

Parallele und funktionale Programmierung Wintersemester 2016/ Übung Abgabe bis , 16:00 Uhr

Privacy-Maße k-anonymity, l-diversity, t-closeness

Methodenkurs Text Mining 01: Know Your Data

Lernzirkel Grundrechenarten und Terme Mathematik Cusanus-Gymnasium Wittlich Fachlehrer : W. Zimmer Blatt 1 /21

Methoden der Klassifikation und ihre mathematischen Grundlagen

Mathematik für Informatiker 1 Wintersemester 2013/14 Übungsblatt 12

Felix Lauffer. Mathematik. Ziffern und Zahlen. Ω µz ü r c h e r k a n t o n a l e m i t t e l s t u f e n k o n f e r e n z v e r l a g z k m.

Machine Learning Tutorial

Aggregatfunktionen in SQL

Addition und Subtraktion Addieren heißt zusammenzählen, plus rechnen oder die Summe bilden.

Lage- und Streuungsparameter

Ingenieurinformatik II Numerik für Ingenieure Teil 2

Lösung zu Serie 3. Lineare Algebra D-MATH, HS Prof. Richard Pink. Sei K ein beliebiger Körper.

Es geht also im die SQL Data Manipulation Language.

Ähnlichkeits- und Distanzmaße

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Transkript:

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1

Aufgabe 1a) Auffüllen von Attributen (1) Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny 26 High No D2 Sunny 28 High Strong No D3 Overcast 29 High Weak Yes D4 Rain 23 High Weak Yes D5 Rain Normal Weak Yes D6 Rain 12 Normal Strong No D7 Overcast 8 Strong Yes D8 Sunny 25 High Weak No D9 Sunny 18 Normal Weak Yes D10 Rain 20 Normal Weak Yes D11 Sunny 20 Normal Strong D12 Overcast High Strong Yes D13 26 Normal Weak Yes D14 Rain 24 High Strong No D15 Sunny 23 Normal Weak No D16 Sunny Normal Weak Yes Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 2

Aufgabe 1a) Auffüllen von Attributen (2) a) Um fehlende Werte zu behandeln, kann man diese einfach auffüllen, indem man die am naheliegendsten Nachbarn zu diesem Beispiel verwendet. Benutzen Sie hierfür 3-NN zum Ausfüllen dieser Werte. Normieren Sie das numerische Attribut, wie im Skript beschrieben (Foliensatz Instance-based Learning, Folie Distance Functions for Numeric Attributes ), nehmen Sie für nominale Attribute die 0/1-Distanz (Foliensatz Instance-based Learning, Folie Distance Functions for Symbolic Attributes ) und benutzen Sie als Distanzfunktion für 3-NN die Manhattan-Distanz. Beziehen Sie für das Auffüllen von Werten die Klassifikation der Beispiele mit ein oder nicht? Warum? Überlegen Sie sich auch, wie sie beim Auffüllen mit fehlenden Attributen in den Nachbarn umgehen. Verwenden Sie die so ausgefüllten Werte auch für die nächsten Aufgaben. Welche Distanzfunktion ergibt sich für das numerische Attribut? Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 3

Aufgabe 1a) Auffüllen von Attributen (3) Lösung: Beziehen Sie für das Auffüllen von Werten die Klassifikation der Beispiele mit ein oder nicht? Wir betrachten beim Ausfüllen der fehlenden Werte eines Beispiels dessen eigene Klasse. Das heißt, wir suchen die k nächsten Nachbarn des Beispiels, die zu dessen Klasse gehören. Warum? Damit ist gewährleistet, daß keine Eigenschaften einer anderen Klasse übernommen werden. Wie in der Übung bereits diskutiert geht es hier darum, dass jede Klasse eigene Eigenschaften (also Attribut-Wert-Paare) aufweist, die für die jeweilige Klasse charakterisierend sind. Würde man nun fehlende Werte auffüllen, indem man Beispiele, die zu einer anderen Klasse gehören, verwendet, würde man Eigenschaften dieser Klasse verwenden, die nicht für die Klasse charakterisierend sind, zu der das Beispiel gehört. Zusatzfrage: Was geschieht, wenn Klasseninformation nicht vorhanden sind, z.b. in zu klassifizierenden Testdaten? Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 4

Numerische Attribute (1) Welche Distanzfunktion ergibt sich für das numerische Attribut? Für numerische Attribute verwenden wir die im Skript angebene normierte Abstandsfunktion, da deren Funktionswerte auch im Intervall [0, 1] liegen und deshalb besser mit den Abständen bei nominalen Attributen vergleichbar sind. min j v j und max j v j : Im Augenblick liegen die Werte des Attributes Temperatur zwischen 8 und 29, damit ergibt sich eine maximale Differenz von. Zukünftige Attributewerte außerhalb des Intervalls: Sollten später weitere Instanzen hinzukommen, deren Attributwerte nicht in dem Intervall [8, 29] liegen, müssen die Grenzen und die maximale Differenz angepaßt werden, da der normierte Wert ansonsten auch größer als 1 werden kann. Nichtsdestotrotz ergibt sich für die vorliegenden Daten die folgende Abstandsfunktion: d(a 1, a 2 ) = a 1 a 2 = a 1 a 2 max v j min v j Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 5

Nominale Attribute (1) Für nominale Attibute setzen wir die 0/1 Distanz ein. Zur Erinnerung, diese sieht für zwei nominale Attribute a 1 und a 2 wie folgt aus: { 0, falls a 1 = a 2 d(a 1, a 2 ) = 1, sonst Die endgültige Distanzfunktion ergibt sich dann aus der Summe der Distanzen aller Attribute (Manhattan Distanz). Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 6

Auffüllen der Lücken (1) D1: Betrachten wir nun die Beispiele, die zum Ausfüllen der Werte des Beispiels D1 benötigt werden, und berechnen deren Abstand zu D1. Welche sind das? Day Outlook Temperature Humidity Wind Abstand D2 Sunny 28 High Strong 2/ D6 Rain 12 Normal Strong 2 14/ D8 Sunny 25 High Weak 1/ D14 Rain 24 High Strong 1 2/ D15 Sunny 23 Normal Weak 1 3/ Die Beispiele D2, D8 und D14 sind die nächsten Beispiele. Wir erhalten zweimal Strong und einmal Weak und setzen deshalb den fehlenden Wert von D1 auf Strong. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 7

Auffüllen der Lücken (2) D5: Diesmal müssen wir einen numerischen Wert auffüllen. Hierfür bestimmen wir wiederum die nächsten Nachbarn und berechnen die mittlere Distanz ihrer Attributwerte. Zwei Probleme bei D5: Day Outlook Temperature Humidity Wind Abstand D3 Overcast 29 High Weak 2 D4 Rain 23 High Weak 1 D7 Overcast 8 Strong 3 D9 Sunny 18 Normal Weak 1 D10 Rain 20 Normal Weak 0 D12 Overcast High Strong 3 D13 26 Normal Weak 1 D16 Sunny Normal Weak 1 Instanzen D7 und D13 fehlen auch Attributwerte Keine genau 3 nächste Nachbarn bestimmbar, da 4 Beispiele den Abstand 1 haben Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 8

Auffüllen der Lücken (3) Zwei Probleme bei D5: Instanzen D7 und D13 fehlen auch Attributwerte: Wir treffen die Annahme, daß sich diese (fehlenden) Attributwerte von dem von D5 unterscheiden (Abstand 1). Keine genau 3 nächste Nachbarn bestimmbar, da 4 Beispiele den Abstand 1 haben: Wir können nun einfach den Mittelwert der Attributwerte der fünf nächsten Beispiele verwenden oder einfach 3 zufällig auswählen. Wir entscheiden uns für die erste Variante, bei der wir anschließend auf die nächste ganze Zahl abrunden: 23 + 18 + 20 + 26 + 108 5 = 5 = Wir füllen den fehlenden Wert also mit auf. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 9

Auffüllen der Lücken (4) D7, D13: Das Auffüllen der fehlende Werte erfolgt analog zu D1. Übung für zu Hause! Aufkommende Zusatzfrage: Was ist die Distanz zu einem fehlenden numerischen Attribut? D11: Fehlendes Klassenattribut! Das Beispiel D11 entfernen wir komplett aus den Daten, da es uns keinen Nutzen für unsere Klassifikation bringt. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 10

Auffüllen der Lücken (5) Damit erhalten wir den folgenden vollständigen Datensatz. Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny 26 High Strong No D2 Sunny 28 High Strong No D3 Overcast 29 High Weak Yes D4 Rain 23 High Weak Yes D5 Rain Normal Weak Yes D6 Rain 12 Normal Strong No D7 Overcast 8 High Strong Yes D8 Sunny 25 High Weak No D9 Sunny 18 Normal Weak Yes D10 Rain 20 Normal Weak Yes D12 Overcast High Strong Yes D13 Rain 26 Normal Weak Yes D14 Rain 24 High Strong No D15 Sunny 23 Normal Weak No D16 Sunny Normal Weak Yes Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 11

Aufgabe 1b) Klassifizierung (1) b) Benutzen Sie für die Berechnung von k-nn die gleichen Eckdaten wie in der vorherigen Aufgabe (Normierung für numerische Attribute, 0/1-Distanz für nominale Attribute und die Manhattan Distanz). Klassifizieren Sie so mit 1-NN das folgende Beispiel. D17: Outlook=Sunny, Temperature=23, Humidity=High, Wind=Strong Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 12

Aufgabe 1b) Klassifizierung (2) Lösung:Wir berechnen zuerst die Abstände der einzelnen Trainingsbeispiele zum Klassifikationsbeispiel. Day Outlook Temperature Humidity Wind Klasse Abstand D1 Sunny 26 High Strong No 3/ D2 Sunny 28 High Strong No 5/ D3 Overcast 29 High Weak Yes 2 6 / D4 Rain 23 High Weak Yes 2 D5 Rain Normal Weak Yes 3 2 / D6 Rain 12 Normal Strong No 2 11 / D7 Overcast 8 High Strong Yes 1 15 / D8 Sunny 25 High Weak No 1 2 / D9 Sunny 18 Normal Weak Yes 2 5 / D10 Rain 20 Normal Weak Yes 3 3 / D12 Overcast High Strong Yes 1 2 / D13 Rain 26 Normal Weak Yes 3 3 / D14 Rain 24 High Strong No 1 1 / D15 Sunny 23 Normal Weak No 2 D16 Sunny Normal Weak Yes 2 2 / Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 13

Aufgabe 1b) Klassifizierung (3) Wir sortieren die Beispiele aufsteigend nach ihrem Abstand zum Klassifikationsbeispiel. Day Outlook Temperature Humidity Wind Klasse Abstand D1 Sunny 26 High Strong No 3/ D2 Sunny 28 High Strong No 5/ D14 Rain 24 High Strong No 1 1 / D8 Sunny 25 High Weak No 1 2 / D12 Overcast High Strong Yes 1 2 / D7 Overcast 8 High Strong Yes 1 15 / D4 Rain 23 High Weak Yes 2 D15 Sunny 23 Normal Weak No 2 D16 Sunny Normal Weak Yes 2 2 / D9 Sunny 18 Normal Weak Yes 2 5 / D3 Overcast 29 High Weak Yes 2 6 / D6 Rain 12 Normal Strong No 2 11 / D5 Rain Normal Weak Yes 3 2 / D10 Rain 20 Normal Weak Yes 3 3 / D13 Rain 26 Normal Weak Yes 3 3 / Betrachten wir nun diese Tabelle sehen wir, daß das Beispiel für k = 1 (1 Beispiel negativ, 0 positiv) negativ klassifiziert wird. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 14

Aufgabe 1c) (1) c) Testen Sie nun verschiedene k. Für welches k ändert sich die Klassifikation gegenüber k = 1? Day Outlook Temperature Humidity Wind Klasse Abstand D1 Sunny 26 High Strong No 3/ D2 Sunny 28 High Strong No 5/ D14 Rain 24 High Strong No 1 1 / D8 Sunny 25 High Weak No 1 2 / D12 Overcast High Strong Yes 1 2 / D7 Overcast 8 High Strong Yes 1 15 / D4 Rain 23 High Weak Yes 2 D15 Sunny 23 Normal Weak No 2 D16 Sunny Normal Weak Yes 2 2 / D9 Sunny 18 Normal Weak Yes 2 5 / D3 Overcast 29 High Weak Yes 2 6 / D6 Rain 12 Normal Strong No 2 11 / D5 Rain Normal Weak Yes 3 2 / D10 Rain 20 Normal Weak Yes 3 3 / D13 Rain 26 Normal Weak Yes 3 3 / Lösung:Betrachten wir wieder die sortierte Tabelle aus der vorherigen Aufgabe, sehen wir, dass sich erst beim Einbeziehen des elftnächsten Beispiels (D3, 6 positiv, 5 negativ, k = 11) eine Veränderung der Klassifikation ergibt. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 15

Aufgabe 1d) (1) d) Berechnen Sie den Klassifikationswert obiger Instanz mittels abstandsgewichtetem NN (Inverse Distance Weighting). Überlegen Sie sich hierzu, wie Sie diese Methode auf nominale Attribute anwenden können. Lösung:Die im Skript angebene Methode (Foliensatz Instance-based Learning, Folie Weighted Prediction ) bezieht sich auf einen numerischen Klassenwert. Möglichkeiten der Anwendung auf nominale Klassen? Benutzte Alternative: Wir berechnen für beide Klassen getrennt die Summe der quadrierten Kehrwerte der Abstände zwischen dem Trainingsbeispiel der jeweiligen Klasse und des Klassifikationsbeispiels. Anschließend normieren wir diese Summen, indem wir sie durch ihre Summe teilen. Positive Klasse: ( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 sum + = + + + + + 23 36 42 44 47 48 ( ) 2 ( ) 2 ( ) 2 + + + 2, 337 65 66 66 Negative Klasse: ( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 ( ) 2 sum = + + + + + 3 5 22 23 42 53 68, 792 Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 16

Aufgabe 1d) (2) Man sieht jetzt schon, daß die negative die bessere (höhere) Bewertung bekommt. Der Form halber normieren wir diese Werte noch. Für positiv gilt: Für negativ gilt: sum + sum + + sum 0, 033 sum sum + + sum 0, 967 Wie bereits zuvor erwähnt, wird das Beispiel mittels abstandsgewichtetem NN als negativ klassifiziert. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 17

Aufgabe 1e) Value Difference Metric (1) e) Gehen Sie nun vom originalen, unveränderten Datensatz von Aufgabe 1c) aus und benutzen Sie für die Berechnung von k-nn wieder für numerische Attribute die normierte Distanzfunktion und für nominale Attribute diesmal die Value Difference Metric (VDM) (Foliensatz Instance-based Learning, Folie Distance Functions for Symbolic Attributes ). Nehmen Sie für die Berechnung der VDM einen Wert von k = 1 an und normieren Sie die Distanzen mit der Anzahl der Klassen. Überlegen Sie sich dabei auch, was mit fehlenden Attributwerten geschieht. Klassifizieren Sie so das Beispiel aus Aufgabe b), verwenden Sie dabei 1-NN und die euklidische Distanz (Foliensatz Instance-based Learning, Folie Distance Functions ). Ändert sich die Klassifikation im Vergleich zur Aufgabe b)? Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 18

Aufgabe 1e) Value Difference Metric (2) Lösung: Für numerische Werte benutzen wir wieder die normierte Distanz wie in Aufgabe a). Für nominale Werte wird nun aber die VDM verwendet. Die VDM war definiert als: d A (v 1, v 2 ) = n 1,c n 2,c k n c 1 n 2 wobei n 1,c die Häufigkeit von Attributwert 1 in Klasse c ist, und n 1 die Häufigkeit von Attributwert 1 über alle Klassen darstellt. Da k = 1 gilt, fällt die Potenz also weg. Um die Distanzen auszurechnen gehen wir analog zum Skript vor und berechnen Tabellen für die jeweiligen Attribute: outlook sunny overcast rain yes 2 3 3 no 4 0 2 Diese Werte kommen zustande, indem man für jede Klasse die Häufigkeit der jeweiligen Ausprägungen des Attributs outlook zählt. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 19

Aufgabe 1e) Value Difference Metric (3) outlook sunny overcast rain yes 2 3 3 no 4 0 2 Für die Distanzen ergibt sich für das Attribut outlook: d(sunny, overcast) = 1 3 1 + 2 1,3 0 1, 3 = 0, 65 3 2 d(sunny, rain) = 1 3 3 5 + 2 3 2 0,53 0, 53 = 0, 265 5 2 d(overcast, rain) = 1 3 5 + 0 2 0,8 = 0, 8 5 2 = 0, 4 Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 20

Aufgabe 1e) Value Difference Metric (4) Nun vervollständigen wir die Tabellen für die beiden verbleibenden Attribute: humidity high normal yes 3 5 no 4 2 wind strong weak yes 2 7 no 3 2 Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt

Aufgabe 1e) Value Difference Metric (5) Wir berechnen nun alle nötigen Distanzen im Voraus und dividieren diese gleich mit der Anzahl der Klassen (2): für das Attribut outlook d(sunny, overcast) = 1 3 1 + 2 1,3 0 1, 3 = 0, 65 3 2 d(sunny, rain) = 1 3 3 5 + 2 3 2 0,53 0, 53 = 0, 265 5 2 d(overcast, rain) = 1 3 5 + 0 2 0,8 = 0, 8 5 2 = 0, 4 für das Attribut humidity d(high, normal) = 3 7 5 7 + 4 7 2 0,57 0, 57 = 0, 285 7 2 für das Attribut wind d(strong, weak) = 2 5 7 9 + 3 5 2 0,76 0, 76 = 0, 38 9 2 Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 22

Aufgabe 1e) Value Difference Metric (6) Wir ermittlen die Distanzen mittels der euklidischen Distanz d(x 1, x 2 ) = A d A(v 1,A, v 2,A ) 2 (wir gehen davon aus, dass die Distanz zwischen fehlenden Attributwerten und einem regulären Attributwert maximal ist, wie im Skript (Foliensatz Instance Based Learning, Folie Other Distance Functions beschrieben), beispielhaft für D10: Day Outlook Temperature Humidity Wind Klasse D10 Rain 20 Normal Weak Yes D17 Sunny 23 High Strong? d(d17, D10) = 0, 265 2 + ( 3 )2 + 0, 285 2 + 0, 38 2 0, 5624 Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 23

Aufgabe 1e) Value Difference Metric (7) d(d17, D1) = 0 + ( 3 ) 2 + 0 + 1 2 1, 0102 d(d17, D2) = 0 + ( 5 ) 2 + 0 + 0 0,2381 d(d17, D3) = 0, 65 2 + ( 6 ) 2 + 0 + 0, 38 2 0, 8053 d(d17, D4) = 0, 265 2 + 0 + 0 + 0, 38 2 0, 4633 d(d17, D5) = 0, 265 2 + 1 + 0, 285 2 + 0, 38 2 1, 1384 d(d17, D6) = 0, 265 2 + ( 11 ) 2 + 0, 285 2 + 0 0, 88 d(d17, D7) = 0, 65 2 + ( 15 ) 2 + 1 + 0 1, 3902 d(d17, D8) = 0 + ( 2 ) 2 + 0 + 0, 38 2 0, 3918 d(d17, D9) = d(d17, D10) = 0 + ( 5 ) 2 + 0, 285 2 + 0, 38 2 0.5313 0, 265 2 + ( 3 ) 2 + 0, 285 2 + 0, 38 2 0, 5624 d(d17, D11) = 0 + ( 3 ) 2 + 0, 285 2 + 0 0, 3188 d(d17, D12) = 0, 65 2 + ( 2 ) 2 + 0 + 0 0, 6569 d(d17, D13) = 1 + ( 3 ) 2 + 0, 285 2 + 0, 38 2 1, 1163 d(d17, D14) = d(d17, D15) = d(d17, D16) = 0, 265 2 + ( 1 ) 2 + 0 + 0 0, 2692 0 + 0 + 0, 285 2 + 0, 38 2 0, 475 0 + ( 2 ) 2 + 0, 285 2 + 0, 38 2 0, 4845 Das nächste Beispiel ist im Vergleich zum Ausfüllen nicht mehr D1, sondern D2. Allerdings ändert sich dadurch an der Vorhersage nichts. Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 24