Data Mining und Text Mining Einführung. S2 Einfache Regellerner



Ähnliche Dokumente
4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Kapiteltests zum Leitprogramm Binäre Suchbäume

Künstliche Intelligenz Maschinelles Lernen

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Informationsblatt Induktionsbeweis

1 topologisches Sortieren

Professionelle Seminare im Bereich MS-Office

Die Post hat eine Umfrage gemacht

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

SPIELBESCHREIBUNGEN DART RADIKAL SYSTEM

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Erstellen von x-y-diagrammen in OpenOffice.calc

Anmerkungen zur Übergangsprüfung

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Was meinen die Leute eigentlich mit: Grexit?

Partner Registration Tool. Ein begleitendes Dokument für die Cisco Partnerregistrierung

Grundbegriffe der Informatik

BERECHNUNG DER FRIST ZUR STELLUNGNAHME DES BETRIEBSRATES BEI KÜNDIGUNG

Zeichen bei Zahlen entschlüsseln

4 Aufzählungen und Listen erstellen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Leseauszug DGQ-Band 14-26

teamsync Kurzanleitung

Theoretische Informatik SS 04 Übung 1

HintergrÜnde. zur Urheberrechtsabgabe. rechnen sie mit uns.

Grundbegriffe der Informatik

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

Nachtrag zu binären Suchbäumen

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

15 Optimales Kodieren

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Primzahlen und RSA-Verschlüsselung

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Theoretische Grundlagen der Informatik

Einrichten einer Festplatte mit FDISK unter Windows 95/98/98SE/Me

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Einführung in. Logische Schaltungen

Anlegen eines Speicherbereichs mit DB, DW eleganter in Kombination mit EQU, Timer-Interrupt

Tutorial. Wie kann ich meinen Kontostand von meinen Tauschpartnern in. übernehmen? Zoe.works - Ihre neue Ladungsträgerverwaltung

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

Väter in Familienunternehmen Die Ursachenstiftung Oktober 2012

Mit einem Mausklick sind s aus ACT! heraus in Outlook geschrieben, die dann wiederum auf Wunsch in ACT! dokumentiert werden.

Anleitung Outlook 2002 & 2003

1. Einführung. 2. Die Abschlagsdefinition

Wie Sie beliebig viele PINs, die nur aus Ziffern bestehen dürfen, mit einem beliebigen Kennwort verschlüsseln: Schritt 1

Grundlagen der Künstlichen Intelligenz

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Leichte-Sprache-Bilder

Pages, Keynote. und Numbers

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

1.5 Umsatzsteuervoranmeldung

Kurze Anleitung zum Guthaben-Aufladen bei.

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

Organisation. Was kommt zum Test? Buch Informatik Grundlagen bis inkl. Kapitel 7.4 Wissensfragen und Rechenbeispiele

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

FIS: Projektdaten auf den Internetseiten ausgeben

Data Mining: Einige Grundlagen aus der Stochastik

Uwes Wiests Training

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Die Komplexitätsklassen P und NP

Musterdepot +134% seit Auflegung Trading Depot für alle kurzfristig orientieren Anleger

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Process4.biz Release Features Übersicht. Repository. Das Schützen von Diagrammen wurde optimiert (check-in, check-out)

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Maschinelles Lernen: Symbolische Ansätze

Pflegende Angehörige Online Ihre Plattform im Internet

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Daten sammeln, darstellen, auswerten

Repetitionsaufgaben Wurzelgleichungen

Automatisches Beantworten von - Nachrichten mit einem Exchange Server-Konto

Zeit- und Feriensaldoberechnung TimeSafe Leistungserfassung

WS 2013/14. Diskrete Strukturen

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Beweisbar sichere Verschlüsselung

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Programmiersprachen und Übersetzer

Vorkurs Informatik WiSe 15/16

Verwaltungsnummer festlegen oder ändern mit Ausnahme der 1XPPHUSie bestätigen die Eintragungen mit Drücken der Taste Return.

Anwendungsbeispiele Buchhaltung

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

6.2 Scan-Konvertierung (Scan Conversion)

Programmierkurs Java

11. Rent-Seeking 117

Transkript:

Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de

Inhalt Einiges über Regeln und Bäume R1 ein einfacher Regellernalgorithmus Top Down Induktion von Entscheidungsbäumen Page 2, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Klassifikation: Regelformate Die Sprache für die Wissensrepräsentation beim DM sind die Zielregeln der Lernverfahren. Entscheidungstabellen Einfache Auflistung der Fakten Entscheidungsbäume Kompaktes Regelformat mit offengelegter Kontrolle Von der Wurzel aus bei jeder Verzweigung ein Test Blätter sind Klas sifikationsergebnisse Klassifikationsregeln Regeln sind logische Disjunkte LH S von Regeln sind logische Konjunkte DM Techniken verwenden (üblicherweise) nur Aussagenlogik Nicht verwendet beim DM werden Logikprogramme Prädikatenlogik Enthalten Rekursion Page 3, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Regeln für Relationen If width(block) > height (block) Then lying(block) versus If width > 3.5 and height > 7.0 Then lying Page 4, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Klassifikationsregeln vs. Entscheidungsbaum Prinzipiell kann für jeden Baum eine Regelmenge und für jede Regelmenge ein Baum konstruiert werden. In Gebrauch und Kompaktheit sind Regeln und Bäume sehr verschieden. Regeln können sehr kompakte Disjunktionen ausdrücken. Bäume können sehr kompakt Konkjunktketten (= Reihenfolgen) ausdrücken. Baum zu Regel Algorithmus: Für jedes Blatt erzeuge eine Regel bei der die Tests auf dem Pfad von der Wurzel zum Blatt die LHS ergibt. Regel zu Baum ist komplizierter Page 5, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

OR Darstellung im Baum If a and b then x If c and d then x Replicated Subtree Problem Page 6, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Replicated Subtree Problem bei X-OR Regeln sind kompakter als Bäume Je tiefer ein Baum, desto höher die Redundanz bei Oder s Page 7, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

R1 Verfahren Das Auswählen der besten einen Regel R1 kann sehr einfach gute Regeln erzeugen R1 ist sinnvoll, um schnell einen Einblick in bis dato unbekannte Daten zu erhalten. R1 ist kein professionelles DM Verfahren R1 zeigte, dass sehr einfache Verfahren schon leistungsfähig sein können. R1 Findet einen EB der Tiefe 1 für ein ausgewähltes Attribut Wählt die Möglichkeit aus, die Fehler-minimal ist. Page 8, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

R1 Algorithmus Für jedes Attribut Für jeden Wert W des Attributs A, erstelle eine Regel: Zähle, wie oft jede Klasse für das Attribut vorkommt. Wähle die häufigste Klasse K Erstelle die Regel, Wenn A = W dann K Berechnen Sie die Fehlerrate aller Regeln Wähle die Regel mit der kleinsten Fehlerrate Page 9, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Weather-Play Tabelle Page 10, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

R1 Beispiel Weather-Play Beispiel Kriterium für Güte einer Regel ist die Fehlerrate Aus einem Attribut werden Prädiktionen für alle Ausprägungen abgeleitet Dadurch werden strukturelle Tendenzen der Daten offengelegt. Page 11, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Weather-Play Tabelle mit Numerischen Werten Page 12, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Zahlenwerte und Diskretisierung für R1 Sortiere alle Werte und fasse die Intervalle zusammen, für die die Klasse jeweils gleich ist. Wähle die Grenzen-Werte und Beschreibe die Intervalle mit Aussagen <, > bezüglich dieser Werte Humidity < 66.5 AND > 70.5 -> yes...... Page 13, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Top Down Konstruktion von Entscheidungsbäumen (nach Ross Quillian s Algorithmus ID3) ID3 startet mit einem leeren EB Der leere EB führt zu einer Verteilung für die Zielklasse Z.B: 5 no, 9 yes Wenn wir immer auf yes tippen, dann liegen wir langfristig zu ca. 65% richtig. ID3 fügt das Attribut A an die Wurzel an Für jeden Wert von A gibt es eine Verteilung der Zielklasse A wird so gewählt, dass die Sicherheit beim tippen möglichst wächst. Wiederhole dies für jeden neuen Ast rekursiv bis die Verteilungen deterministisch werden. Page 14, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Wetter-Sport Beispiel Page 15, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Kandidaten für den ersten Test im EB outlook bringt das größte Maß an Sicherheit ein outlook = overcast Ist sogar bereits ein Rekursionsende Page 16, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

E B Kandidaten im zweiten Schritt Bei Ast sunny führt Attribut humidity schon zu Sicherheit Alle anderen Attribute sind schlechter Page 17, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Hier sind alle Äste deterministisch Der Algorithmus ist beendet Der Baum ist relativ klein. Page 18, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Formaler Hintergrund von ID3 ID3 führt von relativer Informationsarmut zum Determinismus Als Mass für die Sicherheit ist dient die Entropie. Um eine Regel einzuführen wird die Differenz der mittleren Entropie vor und nach der Regeleinführung maximiert. Page 19, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Entropie für ID3 Entropie (p1, p2,..pn) = -p1 log p1 + -p2 log p2 +.. + -pn log pn Entropie (1.0) = -1 * log 1 = 0 Entropie (0.5, 0.5) = (-0.5 * -1) + (-0.5 * -01) = 1 Entropie (0.25, 0.25, 0.25, 0.25) =... = 2 Entropie (0.6, 0.4) = 0.44 + 0,53 = 0,97 Page 20, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Entropie eines Teil EB Relative Häufigkeiten von yes/no als Verteilungen von Teil- Entscheidungsbäumen Attribut-Wert-Verteilung = yes / yes + no, no / yes + no, für die Werte des Attributes bezogen auf die Zielklasse. Outlook-Sunny-Verteilung = 0.4, 0.6, bei 2 yes zu 3 no Entropie(Outlook-Sunny-Verteilung) = 0.97 Entropie(Outlook-Overcast-Verteilung) = 0.0 Entropie(Outlook-Rainy-Verteilung) = 0.97 Mittlere Entropie (Outlook) = 5/14 *0.97 + 4/14 *0 + 5/14 *0.97 = 0.69 Mittlere Entropie = Σ Entropie(Attribut-Wert-V) * ( Wert / Datensätze ) Page 21, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Scoring Funktion für die Auswahl eine TE B Wähle den TEB als nächstes, der die größte Verbesserung der Entropie erzielt. Der EB ist der Entscheidungsbaum ohne das neue Attribut am aktuell bearbeiteten Baum Das neue Attribut A soll eingefügt werden. Gain_EB (A) = Entropie(EB) Entropie_EB(A) Zu Begin: Entropie(Wurzel) = Entropie(5/14,9/14) = 0.94 Page 22, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Teilbäume und deren Entropiegewinn nach der Wurzel Gain(outlook) = Entopie(Wurzel) Entropie(Outlook) = 0.94-0.69 = 0.25 Gain(termperature)= 0.03 Gain(humidity)= 0.15 Gain(windy)=0.05 Page 23, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Teilbäume und deren Entropiegewinn nach Outlook-Sunny Gain(temperature) = Entropie(Outlook-Sunny) - Entropie(temperature) = 0.97 (0*2/5 + 1*2/5 + 0*1/5) = 0.97 0.4 = 0.57 Gain(humidity) = 0.97 Gain(windy) = 0.02 Page 24, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Teilbäume und deren Entropiegewinn bei Outlook-Rainy Gain(windy) = Entropie(Outlook-Rainy) - Entropie(windy) = 0.97 (0*1/2 + 0*1/2) = 0.97 0 = 0.97 Gain(temperature)= 0.97 (0.92*3/5 + 1*2/5) = 0.97 0.95 = 0.02 Gain(humidity)= 0.97 (0.92*3/5 + 1*2/5) = 0.97 0.95 = 0.02 Temperature mild : yes yes no Humidity normal: yes yes no cool : yes no high: yes no Page 25, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

ID3 und Verzweigung von Attributen ID3 bevorzugt Attribute, die viele verschiedene Werte haben Das kann zum Auswendiglernen führen -> Überadaption -> Auswendiglernen Page 26, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner

Alternative: Gain Ratio Entropie(ID) = Entropie(0,1) +.. + Entropie (0,1) = 0 Gain(ID) = 0.97 Alternativ: SplitInfo(1,1,1,1...,1) = 1/14 * log 1/14 * 14 = 3.807 GainRation(X) = Gain(X) / SplitInfo (X) Also im Beispiel GainRatio(ID) = 0.97 / 3.807 = 0.25 GainRatio(outlook) = 0.25 / 1.577 = 0.156 Realistisch ist die Data Cleansing Methode: IDs und stark splittende Attribute werden in der Vorverabeitung eliminiert Page 27, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner