11. Übung Knowledge Discovery

Größe: px

Ab Seite anzeigen:

Download "11. Übung Knowledge Discovery"

Georg Bachmeier
vor 6 Jahren
Abrufe

1 Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den Attributen A,..., A a und den Klassen bis. Sei {i A i {,..., m A }} die disjunte, vollständige Partitionierung von, die durch einen Split auf dem Attribut A erzeugt wird wobei m A die Anzahl von Ausprägungen von A ist.. Gleichverteilung Berechnen Sie unter der Annahme, dass die Klassenzugehörigeiten in gleichverteilt und unabhängig von den Ausprägungen von A sind entropie, entropiei A für i {,..., m A } sowie rmationsgewinn, A. Interpretieren Sie Ihr Ergebnis! entropie entropie A i m A entropie A i p i log p i i i j j log i log i log j A j A i A i log log A i entropie A i m A log i A i i i i log A log log log rmationsgewinn, A entropie entropie A log log Durch die Gleichverteilung der Klassenzugehörigeit und die Unabhängigeit von den Mermalsausprägungen von A ist der Informationsgewinn gleich Null. Denn aus den Ausprägungen von A läßt sich nicht auf die Klassenzugehörigeit schließen.

2 . Zusätzliche gleichverteilte Ausprägung Wir wollen untersuchen, inwieweit die Anzahl der Ausprägungen den Informationsgewinn beeinflusst. Betrachten wir dazu ein beliebiges Attribut A mit seinen m A Ausprägungen. Wie ändert sich der rmationsgewinn, A wenn wir A durch A mit m A m A Ausprägungen ersetzen, wobei die relativen Häufigeiten in den Ausprägungen bis m A von A identisch zu A sind und in der Ausprägung m A eine Gleichverteilung der Klassen herrscht? Interpretieren Sie Ihr Ergebnis! rmationsgewinn, A rmationsgewinn, A A m A log Der Informationsgewinn wird leiner, denn die zusätzliche Ausprägung ann nicht zum Lernen der Klassenzugehörigeit genutzt werden.. Attribute mit sehr vielen Ausprägungen Sei A ein Attribut mit zufälligen, nicht mit der Klasse der Objete orrelierten Werten. Weiterhin verfüge A über so viele Ausprägungen, dass eine zwei Objete der rainingsmenge zu derselben Ausprägung in A gehören. Was geschieht in dieser Situation beim Aufbau das Entscheidungsbaumes? Was ist daran problematisch? Der Entscheidungsbaum lernt die raingsmenge auswendig, d.h. jedes Blatt enthält genau ein rainingsobjet. Das hat zur Folge, dass neue Objete nicht orret lassifiziert werden önnen, wenn sie nicht exat die gleichen Mermalsausprägungen wie eines der rainingsobjete haben. Entscheidungsbäume. Welche Form sollte ein Entscheidungsbaum haben? Möglichst breit oder möglichst tief? Warum? Weder Breite noch iefe sind ein qualitatives Maß für einen Entscheidungsbaum. Ziel ist eine einfache Klassenbeschreibung. Die Form des Entscheidungsbaumes ist zusätzlich abhängig vom Verfahren binäre Splits ergeben weniger breite Bäume. Große iefe und Breite önnen im Extremfall zu Überspezialisierung Overfitting führen.. Ein Kranenhaus möchte die Diagnosefähigeit seiner Ärzte unterstützen. Dazu wurden Daten über gesunde und rane Patienten gesammelt. Die Kranenhausleitung hat erfahren, dass man mit einem Entscheidungsbaumverfahren anhand vorhandener Beispieldaten ein Modell generieren ann, welches die Entscheidung eines Arztes simuliert. Berechnen Sie mittels der folgenden Daten einen Entscheidungsbaum und zeichnen Sie diesen auf.

3 Patient Nr. Heart Rate Blood Pressure Klasse ir Normal Ill Normal Healthy ir Ab Ill ir Normal Ill Normal Healthy Ab Ill 7 Normal Healthy Normal Healthy Nutzen Sie zum Erstellen des Entscheidungsbaumes das Kriterium des Informationsgewinns. Ohne aschenrechner nähern Sie bitte den Logarithmus mittels folgender Formel an log x /x. Folgende Formeln sind hier wichtig rmationsgewinnx entropie entropie X i i entropie log entropie X n i entropie i i i entropie i i i i i i i log i Dabei ist n die Anzahl der unterschiedlichen Ausprägungen des Attributs X und i die Menge der Objete für die Attribut X die Ausprägung i hat. Des weiteren ist die Anzahl der unterschiedlichen Ausprägungen des Klassifiationsattributes und i die Menge der Objete, die als i lassifiziert wurden. Schließlich ist die Menge aller Objete.

4 Im onreten Beispiel gilt nun * * Und folglich * * Heart Rate gilt nun Für X log -* ir ir dabei ir ir ir ir ir ir ir ir ir - gain - gain Ingesamt erhalten wir also * * Und somit * * Blood Pressure Weiter für X ab ab dabei ab ab ab ab ab ab ab ab ab Folglich ist HeartRate das bessere d.h. stärer disriminierende Attribut und sollte im Entscheidungsbaum vor BloodPressure stehen.

5 . Definieren Sie den Begriff Overfitting. Schlagen Sie eine Strategie zur Vermeidung vor. Overfitting ist die Überanpassung des gelernten Modells Entscheidungsbaum an die rainingsdaten und daraus resultierendes schlechtes Abschneiden des Klassifiators auf unbeannten Daten. Strategien zur Vermeidung von Overfitting sind neben der Wahl geeigneter Parameter Größe der rainingsmenge, minimaler Support, minimale Konfidenz vor allem das Entfernen fehlerhafter rainingsdaten, nachträgliches Pruning Abschneiden von Ästen des Baumes und Überreuz-Validierung.. Beschreiben Sie das prinzipielle Vorgehen, um das Entscheidungsbaumlernen zu parallelisieren. Durch getrennte Attributlisten an jedem Knoten des Entscheidungsbaumes lässt sich der Algorithmus parallelisieren. Dazu wird die Datenmenge an jedem Knoten gesplittet und auf die Äste verteilt. Jeder Ast ann dann parallel berechnet werden. Praxisaufgabe Implementieren Sie den -nächste-nachbarn Klassifiationsalgorithmus. Füllen Sie dazu in der Klasse de.uniassel.cs.de.dd.knearestneighbormodelexercise die Methode predictlass und integrieren Sie die Klasse in Yale. esten Sie Ihre Implementierung an selbstgewählten Beispielen evtl. aus der Vorlesung/Übung.

Ähnliche Dokumente

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume