ID3 und Apriori im Vergleich

Größe: px
Ab Seite anzeigen:

Download "ID3 und Apriori im Vergleich"

Transkript

1 ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument umfasst die Beschreibung der Algorithmen ID3 und Apriori und deren Vergleich im Bezug auf die Klassifizierung.

2 Table of Contents 1. Klassifikation mittels ID Realisierung in KNIME Assoziationsanalyse mittels Apriori Apriori in KNIME Datenvorverarbeitung für Apriori in KNIME Beispiel Hautkrebsdatensatz Klassifikation mittel Apriori Realisierung in KNIME Probleme bei der Umsetzung Auswertung der Ergebnisse Zusammenfassung und Ausblick... 16

3 1. Klassifikation mittels ID3 Bei der Klassifikation mittels ID3-Aglorithmus wird der berechnete Entscheidungsbaum zum Klassifizieren der Datensätze genutzt, das heißt die Daten werden in entsprechende Klassen aufgeteilt. Der ID3-Algorithmus wird meistens dann verwendet, wenn bei großen Datenmengen zahlreiche verschiedene Attribute von Bedeutung sind. Und somit ein Entscheidungsbaum ohne große Berechnungen generiert werden soll. Mit Hilfe dieses Algorithmus entstehen meist einfache Entscheidungsbäume. Das der mit ID3 berechnete Entscheidungsbaum der Beste (kompakteste) ist kann nicht garantiert werden, es könnte auch besseren Bäume geben. Er basiert auf einer iterativen Struktur. Zu jedem noch nicht benutzten Attribut, der Trainingsmenge wird der Informationsgehalt berechnet. Das Attribut mit dem höchsten Informationsgehalt, also der größten Entropie, wird gewählt und daraus ein neuer Baum-Knoten generiert. Das Verfahren terminiert, wenn alle Trainingsinstanzen klassifiziert wurden, d.h. wenn jedem Blattknoten eine Klassifikation zugeordnet ist. Die Funktion des ID3-Algorithmus wird am besten ein einem kleinen Beispiel deutlich. Hierzu wurde der Wetterdatensatz gewählt. Dieser Datensatz gibt Auskunft darüber ob ein Golfspiel stattfindet oder nicht. Es soll also die Klasse Play klassifiziert werden. outlook temperature in F humidity windy play sunny FALSE no sunny TRUE no overcast FALSE yes rainy FALSE yes rainy FALSE yes rainy TRUE no overcast TRUE yes sunny FALSE no sunny FALSE yes rainy FALSE yes sunny TRUE yes overcast TRUE yes overcast FALSE yes rainy TRUE no Um aus dieses Tabelle einen Entscheidungsbaum, der für die Vorhersage der Zielklasse (Play) verwendet werden kann, erzeugen zu können, müssen die Daten vorverarbeite werden. Die ist notwendig um den Arbeitsaufwand zu minimieren. Es müssen die metrischen Datentypen der Spalten temperature und humidity in Intervalle aufgeilt werden. Diesen Intervallen werden dann mit

4 nominalen Datentypen bezeichnet. Die Anzahl der Intervalle sollte sinnvoll und möglichst klein sein. Die Spalte temperatur wurde wie folgt aufgeteilt: cool - F bis 70 F; mild 71 F bis 80 F; hot 81 F bis F. Die Aufteilung der Spalte humidity erfolgte nach normal - % bis 70% und high 71% bis. Zu Beginn wird der Informationsgehalt des Datensatzes ermittelt. Hierzu werden die Wahrscheinlichkeiten der unterschiedlichen Werte des Zielattributs benötigt. = = Anschließend wird der Informationsgehalt der Tabelle bzw. des Datensatzes berechnet. = = = 0,940 Da für die Entscheidung, welches Attribut den nächsten Knoten bildet, der Gewinn an Informationen des jeweiligen Attributes benötigt wird, muss für jeden Wert jedes Attributes der Informationsgehalt ermittelt werden. Es wird nur die Wahrscheinlichkeitsverteilung innerhalb der Play-Spalte betrachtet, da dieses das Zielattribut ist. Im nachfolgenden werden die Informationsgehalte und der jeweilige Gewinn berechnet. outlook play yes no sunny 2 3 overcast 4 0 rainy 3 2 $%&'' = = 0,971 $+,-%. = = 0 $,/' = = 0,971 0&.1 = = 0, &.1 = 0,940 0,694 = 0,246 play temperatur yes no cool 3 1 mild 4 3 hot 2 1

5 $- = = 0,811 $7/8 = = 0,985 $h. = = 0, ,.&, = , , ,918 = 0, ,.&, = 0,940 0,918 = 0,022 humidity play yes no normal 3 1 high 6 4 $',7 = = 0,811 $h/h = = 0, ,.&, = , ,963 = 0, ,.&, = 0,940 0,919 = 0,021 windy play yes no FALSE 6 2 TRUE 3 3 $;<=>? = = 0,811 $@A? = = 0, ,.&, = , ,918 = 0, ,.&, = 0,940 0,892 = 0,048

6 Wie aus den Berechnungen hervorgeht hat das Attribut outlook den höchsten Gewinn an Information. Darum wird outlook als Wurzelknoten des Baumes gewählt. Von diesem Knoten gehen Zweige entsprechend der verschiedenen Werte des Attributs ab. outlook 1? 2? overcast 3? Die Knoten zu denen die Zweige führen sind noch nicht bekannt. Sie werden nach dem selben Prinzip wie der Wurzelknoten ermittelt. Allerdings muss nun nicht mehr die komplette Datenbank bzw. der komplette Datensatz betrachtet werden. Es müssen lediglich alle Fälle zum zu berechnenden Knotenpunkt führen betrachtet werden. Das heißt für Konten 1 müssen nur alle Fälle in den outlook = sunny ist betrachtet werden. Dieses Prinzip wird solange fortgesetzt bis alle Attribute auf Knoten abgebildet sind. outlook humidity overcast windy yes no yes yes no 1.1 Realisierung in KNIME Das Erzeugen von Entscheidungsbäumen kann mithilfe von KNIME relativ einfach umgesetzt werden, da alle benötigten Bausteine vorhanden sind. Die Daten werden über den File Reader eingelesen. Wenn in diesen Daten nicht nur

7 ausschließlich nominale Werte vorhanden sind, müssen diese mithife des Numeric-Binners in Intervalle aufgeteilt und durch einen nominalen Wert dargestellt werden. Wie schon erwähnt sollte eine möglichst logische und geringe Intervallaufteilung erfolgen um die Komplexität des Baumes zu minimieren. Sind die Daten in das richtige Format umgewandelt muss, falls keine Trainingsdaten vorhanden sind, eine Partitionierung in Test und Trainingsdaten erfolgen. In den Experimenten wurden stets 30% der Testdaten zum Training genutzt. Anschließend wird über das ID3-Modul der Entscheidungsbaum aus den Trainingsdaten generiert. Für die Klassifizierung bzw. für das Vorhersagen der Klasseneinteilung der Testdaten wird der Weka-Predictor mit dem generierten Entscheidungsbaum und den Testdaten gefüttert. Die Anzahl der korrekt zugeordneten Datensätze wird mithilfe des Scorer-Moduls ausgegeben. Um neben dem Apriori und dem ID3 noch einen weiteren Vergleichswert zuhaben, wurde parallel zum ID3 noch der normale Decision Tree von KNIME zur Auswertung hinzugezogen. Der Decision Tree Learner bekommt die gleichen Daten wie das ID3 -Modul, intern wird der Baum aber dann mit Hilfe des C4.5-Algorithmus berechnet. Auf diesen wird aber nicht genauer eingegangen. Der Decision Tree Predictor bekommt für die Vorhersage der Klassen ebenfalls die gleichen Testdaten, aber auch den mit dem zugehörigen Learner erzeugten Baum.

8 2. Assoziationsanalyse mittels Apriori Bei dem Apriori-Algorithmus handelt es sich um ein iteratives Verfahren zur Erzeugung von Assoziationsregeln. Der Algorithmus benötigt eine Datenbasis mit Transaktion (Tupeln) aus binären Items. Weiterhin werden als Eingabeparameter ein minimaler Supportwert sowie eine minimale Konfidenz benötigt. Die Funktionsweise lässt sich in 2 Abschnitte untergliedern. 1. Join und Pruning Phase: Zunächst einmal wird für jedes Item einzeln betrachtet ob es den Support erfüllt. Ein Support von 0,1 sagt z.b. aus, dass das Item mit einer Wahrscheinlichkeit von 10% in einer Transaktion binär eins gesetzt ist. Die Items, die den Support nicht erfüllen werden, werden im Folgenden ignoriert. Im nächsten Schritt werden Itemsets aus allen möglichen Zweierkombinationen der restlichen Items gebildet. Es folgt wiederum die Prüfung des Supports der Itemsets und ein Herausnehmen derer, die den Support nicht erfüllen. Ab einer Itemsetsgröße von drei wird das Pruning betrachtet, hierbei wird für jedes Itemset geprüft, ob alle Teilmengen den Support erfüllen. Tut dies eine Teilmenge nicht, wird auch das gesamte Itemset den Support nicht mehr erfüllen und fällt so heraus. Dieser Abschnitt endet, sobald eine Maximalgröße an Itemsets gefunden wurde, die den Support erfüllt. 2. Bilden der Regeln Anhand der gefundenen Itemsets werden nun Assoziationsregeln gebildet. In diesem Schritt wird zusätzlich zum Support auch die minimale Konfidenz betrachtet. Ein Itemset aus drei Items kann theoretisch zu drei Assoziationsregeln führen. Somit muss für jede Kombination geprüft werden, ob die minimale Konfidenz zutrifft. Die Konfidenz ergibt sich aus dem Support der zur Regel führenden Transaktionen geteilt durch den Support des Zielattributes. Führen A und B zu C ist die Konfidenz dieser Regeln das Verhältnis der Häufigkeit des Itemsets {A, B, C} zu der Häufigkeit vom Itemset {C}.

9 2.1 Apriori in KNIME KNIME bietet mit der WEKA Erweiterung ein Apriori Modul. Dieses Modul erwartet als Eingang einen Datensatz mit binären Daten. Die Erzeugung dieser binären Daten wird im Abschnitt zur Datenenvorverarbeitung genauer beleuchtet. Auf dem Bild erkennt man zur Rechten erkennt die Einstellungsmöglichkeiten des Moduls. Der lowerboundminsupport steht für den minimum Support dem man übergibt. metrictype ist standardweise auf Confidence gestellt, weswegen man in dem Feld minmetric die minimale Konfidenz angibt. Außerdem von Bedeutung ist das Feld numrules. Hierbei wird angegeben wieviele gefundene Assoziationsregeln das Apriori Modul ausgeben soll. Dabei tritt eine Besonderheit auf, denn das Modul besitzt keinen Ausgang. Es kann lediglich ein Textfeld mit den gefundenen Itemsets und den daraus erzeugten Regeln angezeigt werden, wie im Rechten Bild zu sehen. Demnach ergeben sich auch bestimmte Anforderungen für die Weiterverarbeitung wie im Kapitel (3.1) aufgezeigt wird.

10 2.2 Datenvorverarbeitung für Apriori in KNIME Bei der Datenvorverarbeitung für Apriori sind folgende Module von Bedeutung: Der Numeric-Binner wird verwendet um Attribute mit numerischen Daten in Intervalle zu untergliedern. Da Apriori nur mit binären Werten umgehen kann, müssen alle Attribute mit mehr als zwei Intervallen in mehrere Spalten mit binärem Wert unterteilt werden. Also werden aus Spalte X mit möglichen Wert {a,b,c} Spalten A,B,C mit jeweils dem Wert 1 oder 0. Dieses Modul ist dazu da alle nummerischen Werte in Strings umzuwandeln. Das Apriori Modul erwartet als Eingabe nur Attribute dieses Typs. Das Partitionierungsmodul dient zur Aufteilung der Datenmenge in Trainings- und Testdaten. Es bietet hierbei auch die Möglichkeit einzustellen, dass das Zielattribut im Verhältnis von Trainings- und Testdaten gleichmäßig aufgeteilt wird und die Einstellung eines Seed-Wertes, um für einen Vergleich eine identische Verteilung zu erreichen. Der Column-Filter ermöglicht das Herausnehmen von Spalten aus einem Datensatz. Im Apriori Ablauf wird er benötigt, um z.b. die Spalte eines Zielattributes zu löschen, das Zuvor mit dem One2Many Modul in mehrere Spalten aufgeteilt wurde.

11 2.3 Beispiel Hautkrebsdatensatz Eine besondere Herausforderung stellt der Hautkrebsdatensatz dar. Dieser besitzt eine Reihe an Attributen mit nummerischen Werten, die in der Datenvorverarbeitung in binäre umgewandelt werden müssen. Besonders auffällig ist hierbei aber das Zielattribut state. Dieses kann drei unterschiedliche Werte annehmen und somit wird es im One2Many -Modul in drei Spalten aufgeteilt. Von diesen drei Spalten gelangt jeweils eine in ein separates Apriori Modul. Die Begründung für die Dreiteilung liegt in der Auswertung der Apriori Ergebnisse, denn Apriori würde ohne die Filterung der anderen Spalten viele Regeln finden, in denen die beiden anderen Zielattribute selbstverständlich den invertierten Wert des betrachteten aufweisen. Diese Regeln weisen außerdem eine Konfidenz mit dem Wert 1 auf und stehen dann den eigentlichen Regeln in der Ausgabe des Apriori Moduls im Weg, wenn diese manuell herausgefiltert werden müssen.

12 3. Klassifikation mittel Apriori Bei der Klassifikation mittels Apriori werden die über die Assoziationsanalyse aufgestellten Regeln dafür genutzt die Daten in bestimmte Klassen zu unterteilen. Da der Apriori-Algorithmus nur mit booleschen Werten arbeiten kann müssen bei der Daten-Vorverarbeitung besonderen Schritte beachtet werden. Zum einen müssen die Daten der Datensätze die keine booleschen Werte enthalten sinnvoll aufgeteilt werden. Dazu das folgende Beispiel: Nehmen wir an in einer Tabelle befinden sich Datensätze von Personen. Für die Klasse Person wurde das Attribut Alter als numerischer Wert definiert. Apriori kann allerdings nur boolesche Werte verarbeiten. Die Spalte muss dem zu folge in mehrere logische Kategorien unterteilt werden von denen jede in eine Spalte umgewandelt wird. Beispielsweise könnte man die Spalte Alter in 3 Intervalle unterteilen: Alter < 18 (A), Alter =>18 & < 50(B), Alter >= 50(C). Die Menge aller Werte für dieses Attribut wurde somit auf 3 diskrete Intervalle, A,B, C herunter gebrochen. 3 Intervalle d.h. 3 unterschiedliche Werte die eine Variable annehmen kann. Um die Spalte nun für Apriori nutzbar zu machen muss die Spalte auf 3 Spalten aufgeteilt werden. ID Alter ID Alter 1 A 2 A 3 B 4 B 5 C 6 C ID A B C Nachdem die Daten entsprechend vorverarbeitet worden sind können sie mittels Apriori-Assoziationsanalyse erzeugt werden. (siehe Kapitel : Assoziationsanalyse mittels Apriori). Die für das Zielattribut relevanten Regeln können anschließend aus dem Datensatz der gewonnenen Regeln extrahiert und für die Klassifikation genutzt werden. 3.1 Realisierung in KNIME Für die Erzeugung der relevanten Assoziationsregeln wird wie in Kapitel 2 beschrieben, das Apriori Modul genutzt. Zu beachten war hier zum einen das beseitigen der irrelevanten Spalten. Beispielsweise könnte eine Einteilung in 3 unterschiedliche Klassen vorgenommen werden. Für jede dieser Klassen wird eine Spalte benötigt. Nehmen wir an, es sollen Assoziationsregeln für die Klassen X, Y, und Z erzeugt werden. So spielen beispielsweise die Klassen X und Y bei der Klassifizierung nach Z keine Rolle. Sie können also aus dem Datensatz entfernt werden. Nachdem die Regeln für jede Klasse erzeugt worden sind, können sie auf die zu untersuchenden Daten angewendet werden. In KNIME wird für das Klassifizieren mittels bestimmter Regeln die RULE-Einige zur Verfügung gestellt.

13 Hier können die Regeln manuell eingetragen werden um sie anschließend über den Scorer auszugeben. Ein einfacher Aufbau könnte folgendermaßen aussehen. Problem bei dieser Konfiguration ist, dass sie für eine größere Anzahl von Klassen nicht angewendet werden kann. Die Rule-Engine kann lediglich eine neue Spalte an die bestehende Tabelle anhängen. Es lassen sich also nicht alle regeln für die unterschiedlichen Klassen in einer Rule-Engine sammeln. Weshalb Für die Klassifizierung mehrerer Klassen mehrere Rule-Engines genutzt

14 4. Probleme bei der Umsetzung Im folgenden Abschnitt sollen die Probleme die bei der Umsetzung der Aufgabenstellung aufgetreten sind kurz zusammengefasst werden. In einigen Datensätze sind numerische Werte vorhanden. Diese müssen mithilfe des Numeric-Binnes in Intervalle eingeteilt werden. Damit das Apriori-Modul mit diesen Werten arbeiten kann, müssen die entsprechenden Intervalle auf mehrere Spalten mit booleschen Attributwerten aufgeteilt werden. Besitzt der Datensatz ein Zielattribut mit drei Klassen steigt somit der Aufwand für die Umsetzung, weil der Workflow nach der Partitionierung der Daten dreigeteilt werden muss. Das schwerwiegendste Problem ergibt sich ebenfalls durch die KNIME Apriori Umsetzung, da das Modul keinen Ausgang besitzt. Die Regeln, die das Apriori Modul ausgibt müssen per Hand in die Rule-Engine eingetragen werden, welche wiederrum eine aufwendige Benutzeroberfläche aufweist. Mit ansteigender Anzahl an Klassen ergibt sich zum einen die Problematik, dass die gefundenen Regeln des Apriori Moduls sinnvoll zu filtern sind und zum Anderen, dass diese anschließend per Hand in die Rule-Engine eingetragen werden müssen. Der zeitliche Aufwand der damit verbunden ist, ist im Rahmen der Umsetzung ab einem bestimmten Grenzwert nicht mehr zu tragen. Im Ergebnis war der Vergleich von Apriori und ID3 willkürlichen Faktoren unterworfen, der Auswahl der Regeln für die Rule-Engine und der Begrenzung der Anzahl der gefundenen Regeln durch den Wert numrules im Apriori Modul.

15 5. Auswertung der Ergebnisse Bei den Ausarbeitungen wurde der Fokus auf vier unterschiedliche Datensätze gelegt. Sie unterscheiden sich sowohl in der Anzahl der Datentupel als auch in der Anzahl der Attribute. Im nachfolgenden Bild ist ein Vergleich der unterschiedlichen Verfahren unter Verwendung von verschieden Datensätzen dargestellt. Der Graph stellt dabei die Anzahl der korrekt klassifizierten Datensätze dar. Datensatz Anzahl Einträge Anzahl Attribute Anzahl Zustände Zielattributs Wetter Bronchitis Hautkrebs DMC Ergebnis dieser Arbeit ist, dass sich für die untersuchten Datensätze, die Klassifikation mittels Apriori annähernd gleich verhält wie ID3. Probleme wie insbesondere das Fehlen von Ein und Ausgängen an den KNIME-Modulen hinderten das Team aufgrund des zusätzliches Aufwands daran den Ansatz für größere Datensätze durchzuführen. Abhängig von der Anzahl der Klassen wurde eine bessere Klassifizierung mittels Apriori war genommen. Allerdings kann aufgrund der geringen Anzahl der untersuchten Datensätze nur eine Vermutung aufgestellt werden. In Zukunft müsste diese These durch die Untersuchung unterschiedlichster Datensätze genauer betrachtet und eventuell gefestigt werden.

16 6. Zusammenfassung und Ausblick Ergebnis dieser Arbeit ist, dass sich für die untersuchten Datensätze, die Klassifikation mittels Apriori annähernd gleich verhält wie ID3. Probleme wie insbesondere das Fehlen von Ein und Ausgängen an den KNIME-Modulen hinderten das Team aufgrund des zusätzliches Aufwands daran den Ansatz für größere Datensätze durchzuführen. Abhängig von der Anzahl der Klassen wurde eine bessere Klassifizierung mittels Apriori war genommen. Allerdings kann aufgrund der geringen Anzahl der untersuchten Datensätze nur eine Vermutung aufgestellt werden. In Zukunft müsste diese These durch die Untersuchung unterschiedlichster Datensätze genauer betrachtet und eventuell gefestigt werden.

17

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume als Repräsentationsformalismus Semantik: Klassifikation Lernen von Entscheidungsbäumen vollst. Suche vs. TDIDT Tests, Ausdrucksfähigkeit Maße: Information

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1 Vortragsthema Klassifikation OS Data Mining SS0 Madeleine Weiand Agenda Agenda I III Begriff Klassifikation Abgrenzung Anforderungen Anwendungsgebiete Dimensionsreduktion Umsetzung in Software Vergleich

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Fuzzy-Rule-Learner Dokumentation

Fuzzy-Rule-Learner Dokumentation Fuzzy-Rule-Learner Dokumentation Wissensextraktion / Data-Mining Wirtschaftsinformatik Master Hochschule Wismar Bearbeiter: Adil Khalat, Tobias Oeberst, Marian Sakowski Inhalt 1. Algorithmus... 3 1.1.

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007. Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 13. Übungsblatt 9. Februar 2016 1 Aufgabe 1: Apriori (1) Gegeben seien folgende Beobachtungen vom Kaufverhalten von

Mehr

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr) Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr) 3 Ausgabe: Wissensrepräsentation Entscheidungstabellen Entscheidungsbäume Entscheidungsregeln Assoziationsregeln

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Frequent Itemset Mining + Association Rule Mining

Frequent Itemset Mining + Association Rule Mining Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben

Mehr

Decision-Tree-Klassifikator

Decision-Tree-Klassifikator D3kjd3Di38lk323nnm Decision-Tree-Klassifikator Decision Trees haben einige Vorteile gegenüber den beiden schon beschriebenen Klassifikationsmethoden. Man benötigt in der Regel keine so aufwendige Vorverarbeitung

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Lernen von Assoziationsregeln Literatur J. Han, M. Kamber: Data Mining i Concepts and Techniques. J. Han et. al: Mining i Frequent Patterns without t Candidate Generation.

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Überdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b :

Überdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b : Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgae 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Erstes Mathe-Tutorium am Themen können gewählt werden unter: Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für

Mehr

Lernen von Assoziationsregeln

Lernen von Assoziationsregeln Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr)

Techniken des Maschinellen Lernens für Data Mining. Ian Witten, Eibe Frank. (übersetzt von Norbert Fuhr) Techniken des Maschinellen Lernens für Data Mining Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr) 2 Eingabe: Konzepte, Instanzen, Attribute Terminologie Was ist ein Konzept? Klassifikation, Assoziation,

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2) Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

4 Induktion von Regeln

4 Induktion von Regeln 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Praktikum Data Warehousing und Data Mining

Praktikum Data Warehousing und Data Mining Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

Projektarbeit. Java-Application zur Generierung von Zahlenrätseln

Projektarbeit. Java-Application zur Generierung von Zahlenrätseln Projektarbeit Java-Application zur Generierung von Zahlenrätseln Stefan Novak Allgemeine Informatik Matrikelnummer: 11022144 April 2005 Inhalt 1. Einleitung 2. Der Algorithmus 2.1 Struktur generieren 2.2

Mehr

Naive Bayes. Naive Bayes

Naive Bayes. Naive Bayes Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Association Rule Mining Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Association Rule Mining (ARM) A-Priori Algorithmus Varianten Ulf Leser:

Mehr

Data Mining. I. H. Witten and E. Frank

Data Mining. I. H. Witten and E. Frank Data Mining I. H. Witten and E. Frank 4 Algorithmen Die grundlegenden Methoden Das Einfachste zuerst: 1R Berücksichtigung aller Attribute: Der Naive Bayes sche Ansatz Entscheidungsbäume: ID3 Abdeckungsalgorithmen:

Mehr

Kapitel 7: Assoziationsregeln

Kapitel 7: Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Data Mining. I. H. Witten and E. Frank. übersetzt von N. Fuhr

Data Mining. I. H. Witten and E. Frank. übersetzt von N. Fuhr Data Mining I. H. Witten and E. Frank übersetzt von N. Fuhr 2 4 Algorithmen Die grundlegenden Methoden Das Einfachste zuerst: 1R Berücksichtigung aller Attribute: Der Naive Bayes sche Ansatz Entscheidungsbäume:

Mehr

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R Bivariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-09 In der LV Statistik 1 haben wir auch den Zusammenhang von 2 Variablen untersucht. Hier werden die dazugehörenden R-Befehle

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Classification and Regression Trees. Markus Müller

Classification and Regression Trees. Markus Müller Classification and Regression Trees Markus Müller Gliederung Lernen Entscheidungsbäume Induktives Lernen von Bäumen ID3 Algorithmus Einfluß der Beispielmenge auf den Baum Möglichkeiten zur Verbesserung

Mehr

Es geht also im die SQL Data Manipulation Language.

Es geht also im die SQL Data Manipulation Language. 1 In diesem Abschnitt wollen wir uns mit den SQL Befehlen beschäftigen, mit denen wir Inhalte in Tabellen ( Zeilen) einfügen nach Tabelleninhalten suchen die Inhalte ändern und ggf. auch löschen können.

Mehr

Selbstständiges Lernen

Selbstständiges Lernen Kapitel 5 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken SQL, Häufige Mengen Nico Piatkowski und Uwe Ligges 11.05.2017 1 von 16 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Dokumentation Datamining

Dokumentation Datamining Hochschule Wismar University of Applied Sciences Technology, Business and Design Fakultät für Ingenieurwissenschaften, Bereich EuI Dokumentation Datamining Eingereicht am: 13. Mai 2012 von: Karsten Diepelt

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

int i=1; //Integerzahl i anlegen und mit 1 initialisieren float wert; //Floatzahl deklarieren scanf( %f,&wert); //Wert über Tastatur eingeben

int i=1; //Integerzahl i anlegen und mit 1 initialisieren float wert; //Floatzahl deklarieren scanf( %f,&wert); //Wert über Tastatur eingeben Datenfelder (Array) Seite 1 von 7 Bei den bisherigen Programmen wurde für jede verwendete Variable (oder für jedes Objekt) ein eigener Typ und Name vergeben. Die Initialisierung, d.h. die Belegung mit

Mehr

Managen Sie Ihr 3D-Gebäudemodell interaktiv. Von Anfang an.

Managen Sie Ihr 3D-Gebäudemodell interaktiv. Von Anfang an. Managen Sie Ihr 3D-Gebäudemodell interaktiv. Von Anfang an. 1 Erstellen von Terminplänen Autor: jh DESITE MD: 2.2 2 1 ÜBERSICHT 3 1 Erstellen von Terminplänen Terminpläne können auf Grundlage eines Gebäudemodells

Mehr