Überdeckende Algorithmen. Vorlesungsplan. Regeln vs. Bäume. Beispiel: Erzeugung einer Regel. Mögliche Regelmenge für Klasse b :

Transkript

1 Vorlesungsplan Einleitung Ein- und Ausgae Reformationstag, Einfache Regeln Naïve Bayes, Entscheidungsäume Entscheidungsregeln, Assoziationsregeln Lineare Modelle, Instanzasiertes Lernen Clustering I Clustering II Evaluation I Evaluation II 9.1. Entscheidungsäume, Klassifikationsregeln Lineare Modelle, Numerische Vorhersage Clustering Attriut-Selektion, Diskretisierung, Transformationen 6.2. Komination von Modellen, Lernen von nicht-klassifizierten Beispielen Üerdeckende Algorithmen Konvertierung Entscheidungsaum in Regelmenge Direkt möglich, aer Regelmenge ist unnötig kompliziert Effektivere Konvertierungen sind nicht trivial Anstelle, erzeuge Regelmenge direkt für jede Klasse: finde Regelmenge, die alle Instanzen üerdeckt (Instanzen die nicht in der Klasse sind, werden ausgeschlossen) Üerdeckungsansatz: in jedem Schritt finde Regel, die einige Instanzen üerdeckt Seite 147 Seite 148 y Beispiel: Erzeugung einer Regel a a a a x a a y a a a a 1 2 a a x y 2 6 a a a a 1 2 a a x Regeln vs. Bäume Zugehöriger Entscheidungsaum: (findet exakt dieselen Vorhersagen) If true then class = a If x > 1.2 then class = a If x > 1.2 and y > 2.6 then class = a Mögliche Regelmenge für Klasse : If x 1.2 then class = If x > 1.2 and y 2.6 then class = Mehr Regeln perfektionieren Regelmenge Seite 149 Aer: Regelmenge kann verständlicher sein, wenn Entscheidungsaum replizierte Teiläume enthält Auch: Bei Mehrklassenprolem Üerdeckungsalg. konzentriert sich nur auf eine Klass, Alg. zum Lernen eines Entscheidungsaums etrachtet Verteilung aller Klassen Seite 150

2 Einfacher Üerdeckungsalgorithmus Erzeuge Regeln durch Hinzufügen von Tests, welche die Genauigkeit veressern Ähnliche Situation wie Entscheidungsäume: wähle ein Attriut zum Aufteilen Aer: eim Lernen von Entscheidungsäumen wird Gesamtreinheit maximiert Jeder neue Test reduziert die Üerdeckung der Regel Beispiel: Kontaktlinsen Daten Aktuelle Regel: Mögliche Tests: Age = Age = Pre-presyopic Age = Presyopic Spectacle prescription = Spectacle prescription = Astigmatism = no Astigmatism = yes Tear production rate = Tear production rate = If? 2/8 1/8 1/8 3/12 1/12 0/12 4/12 0/12 4/12 Seite 151 Seite 152 Veränderte Regel & zugehörige Daten Age Regel mit estem Test: Üerdeckte Instanzen: Pre-presyopic Pre-presyopic Pre-presyopic Pre-presyopic Presyopic Presyopic Presyopic Presyopic Spectacle prescription Astigmatism Tear production rate Recommended lenses hard Seite 153 Aktuell: Mögliche Tests: Weiterer Aufau Age = Age = Pre-presyopic Age = Presyopic Spectacle prescription = Spectacle prescription = Tear production rate = Tear production rate = and? 2/4 1/4 1/4 3/6 1/6 0/6 4/6 Seite 154

3 Veränderte Regel & zugehörige Daten Regel mit estem Test : and tear production rate = normal Aktuell : Mögliche Tests : Weiterer Aufau and tear production rate = normal and? Üerdeckte Instanzen : Age Pre-presyopic Pre-presyopic Presyopic Presyopic Spectacle prescription Astigmatism Tear production rate Recommended lenses hard Seite 155 Age = Age = Pre-presyopic Age = Presyopic Spectacle prescription = Spectacle prescription = Gleichstand zwischen erstem und viertem Test Wähle Regel mit größerer Üerdeckung 2/2 1/2 1/2 3/3 1/3 Seite 156 Ergenis Pseudo-Kode für PRISM Regel: Zweite Regel für hard lenses : (erzeugt auf Instanzen, die nicht von der ersten Regel üerdeckt werden) and tear production rate = normal and spectacle prescription = myope If age = young and astigmatism = yes and tear production rate = normal For each class C Initialize E to the instance set While E contains instances in class C Create a rule R with an empty left-hand side that predicts class C Until R is perfect (or there are no more attriutes to use) do For each attriute A not mentioned in R, and each value v, Consider adding the condition A = v to the left-hand side of R Select A and v to maximize the accuracy p/t (reak ties y choosing the condition with the largest p) Add A = v to R Remove the instances covered y R from E Diese zwei Regeln üerdecken alle hard lenses : Prozeß wird wiederholt mit den anderen eiden Klassen Seite 157 Seite 158

4 Regeln vs. Entscheidungslisten PRISM ohne äußere Schleife erzeugt Entscheidungsliste für eine Klasse Spätere Regeln sind für Instanzen, die nicht durch frühere Regeln üerdeckt werden Aer: Reihenfolge spielt keine Rolle, da alle Regeln diesele Klasse vorhersagen Äußere Schleife etrachtet die Klassen seperat Keine Reihenfolge der Klassen wird angenommen Proleme: üerlappende Regeln => Default-Regel erforderlich Aussondern und Herrschen Methoden wie PRISM (zum Behandeln einer Klasse) sind separate-and-conquer Algorithmen: (i) finde nützliche Regel (ii) sondere die üerdeckten Instanzen aus (iii) conquer die ürigen Instanzen Unterschied zu divide-and-conquer Methoden: Teilmengen, die von einer Regel üerdeckt werden, rauchen nicht weiter eareitet zu werden Seite 159 Seite 160 Assoziationsregeln Assoziationsregeln können jedes Attriut und Attriutkominationen vorhersagen sind nicht dafür gedacht als Menge genutzt zu werden Prolem: extrem große Anzahl von möglichen Assoziationsregeln Ausgae muß auf die esten Regeln eschränkt werden nur solche mit hoher Üerdeckung (support) und hoher Konfidenz Üerdeckung und Konfidenz einer Regel Üerdeckung (Support): Anzahl (asolut/relativ) der Instanzen, die korrekt vorhergesagt werden Konfidenz: Anzahl der korrekt Vorhersagen im Verhältnis zu allen Instanzen, auf die die Regel zutrifft Beispiel: If temperature = cool then humidity = normal Üerdeckung = 4, Konfidenz = Anwendung: minimale Üerdeckung und Konfidenz wird vorgegeen (z.b. 58 Regeln mit Üerdeckung 2 und Konfidenz 95% für Wetterdaten) Seite 161 Seite 162

5 Outlook Temp Humidity Windy Play Interpretation von Assoziationsregeln Interpretation ist nicht offensichtlich: If windy = false and play = no then outlook = sunny and humidity = high ist nicht das gleiche wie If windy = false and play = no then outlook = sunny If windy = false and play = no then humidity = high Aer es edeutet, daß folgendes auch zutrifft: If humidity = high and windy = false and play = no then outlook = sunny Seite 163 Seite 164 Finden von Assoziationsregeln Naïve Methode: Nutze separate-and-conquer Methode Behandele jede mögliche Komination von Attriutwerten als separate Klasse Lassen Regeln weg, die nicht minimale Üerdeckung und Konfidenz erfüllen Zwei Proleme: Berechnungskomplexität Anzahl der untersuchten Regeln Aer: Regeln mit hoher Üerdeckung direkt finden! Item-Mengen Üerdeckung: Anzahl der korrekt üerdeckten Instanzen Entspricht der Anzahl der Instanzen die allen Tests in der Regel genügen (linke und rechte Seite) Item: ein Test/Attriutwert Paar Item-Menge : alle Items, die in einer Regel auftreten Ziel: nur Regeln, die minimale Üerdeckung erfüllen Finde Item-Mengen, die min. Üerdeckung erfüllen und generiere Regeln von diesen! Seite 165 Seite 166

6 Item-Mengen für Wetterdaten Outlook Temp Humidity Windy Play One-item sets Outlook = (5) Temperature = (4) Two-item sets Outlook = Temperature = (2) Outlook = Humidity = (3) Outlook = Humidity = Windy = (2) Three-item sets Outlook = Temperature = Humidity = (2) Four-item sets Outlook = Temperature = Humidity = Play = (2) Outlook = Temperature = Windy = Play = (2) Gesamt: 12 one-item-mengen, 47 two- Item-Mengen, 39 three-item-mengen, 6 four-item-mengen und 0 five-item-mengen (mit minimaler Üerdeckung 2) Seite 167 Seite 168 Erzeugen von Regeln aus Item-Mengen Item-Mengen mit minimaler Üerdeckung können in Regeln gewandelt werden Beispiel: Humidity =, Windy =, Play = (4) Sieen (2 N -1) mögliche Regeln: If Humidity = and Windy = then Play = If Humidity = and Play = then Windy = If Windy = and Play = then Humidity = If Humidity = then Windy = and Play = If Windy = then Humidity = and Play = If Play = then Humidity = and Windy = If then Humidity = and Windy = and Play = 4/4 4/6 4/6 4/7 4/8 4/9 4/12 Seite Regeln für Wetterdaten Regeln mit Üerdeckung > 1 und Konfidenz = : 58 Association rule Humidity= Windy= Temperature= Outlook= Temperature=Cold Play=... Outlook= Temperature= Gesamt: 3 Regeln mit Üerdeckung vier 5 Regeln mit Üerdeckung drei 50 Regeln mit Üerdeckung zwei Play= Humidity= Play= Humidity=... Humidity= Sup Conf.... Seite 170

7 Beispiele für Regeln von einer Item-Menge Item-Menge : Temperature =, Humidity =, Windy =, Play = (2) Ergenis Regeln (alle mit Konfidenz): Temperature =, Windy = Humidity =, Play = Temperature =, Windy =, Humidity = Play = Temperature =, Windy =, Play = Humidity = wegen folgender häufigen Item-Mengen: Temperature =, Windy = (2) Temperature =, Humidity =, Windy = (2) Temperature =, Windy =, Play = (2) Effizientes Finden von Item-Mengen Prolem: finde alle häufigen Item-Mengen Finden von Einer-Item-Mengen ist leicht Idee: nutze Einer-Item-Mengen um Zweier- Item-Mengen zu generieren, aus Zweier-Item- Mengen generiere Dreier-Item-Mengen, Falls (A B) häufig ist, dann müssen (A) und (B) häufig sein! Allgemein: falls X eine häufige k-item-menge ist, dann müssen alle (k-1)-item-teilmengen von X häufig sein Berechne Kandidaten für k-item-mengen durch Zusammenfassen von (k-1)-item-mengen Seite 171 Seite 172 Beispiel Gegeen: 5 Dreier-Item-Mengen (A B C), (A B D), (A C D), (A C E), (B C D) Lexikographisch geordnet! Kandidaten für Vierer-Item-Mengen: (A B C D) OK weil (B C D) (A C D E) Nicht OK weil (C D E) fehlt Kandidatentest durch Zählen der Instanzen in der Datenmenge! (k 1)-Item-Mengen werden in Hash gespeichert Effiziente Erzeugung der Regeln Suche nach Regeln mit hoher Konfidenz Üerdeckung der Voraussetzung aus dem Hash Aer: rute-force Methode kostet in O(2 N -1) Besserer Weg: erzeuge Regeln mit (c+1) Attriuten in der Schlußfolgerung aus denen die nur c Attriute dort haen. Beoachtung: (c + 1)-Schlußfolgerungsregel kann nur zutreffen, wenn alle korrespondierenden c- Schlußfolgerungsregel zutreffen Algorithmus ist ähnlich zu finden von häufigen Item-Mengen Seite 173 Seite 174

8 Beispiel 1- Schlußfolgerungsregel: If Outlook = and Windy = and Play = then Humidity = (2/2) If Humidity = and Windy = and Play = then Outlook = (2/2) Korrespondierende 2- Schlußfolgerungsregel: If Windy = and Play = then Outlook = and Humidity = (2/2) Test der Voraussetzung gegen den Hash! Erweiterungen (1) Prolem: selst hohe minimale Konfidenz garantiert nicht immer interessante Regeln z.b. falls alle Instanzen Z enthalten, dann hat jede Regel I => Z Konfidenz. Lift einer Regel I => J als anderes Maß zum Filtern lift = Pr(J I) / Pr(J) Hinweis: Pr(I) = (Support von I) / (Anzahl der Instanzen) Pr(J I) = (Support von I vereinigt mit J) / (Support von I) Verhältnis von Konfidenz zu erwarteter Konfidenz Interpretation: Falls lift > 1, dann I und J sind positiv korreliert lift < 1, dann I und J sind negativ korreliert lift = 1, dann I und J sind unkorreliert Seite 175 Seite 176 Erweiterungen (2) in vielen Anwendungen: Item-Taxonomien (is-a Hierarchien) Kleidung Jacken Oerkleidung Ski-Hosen suche Assoziationsregeln zwischen astrakten Items z.b. zwischen Warengruppen wesentlich höherer Support Hemden Straßenschuhe Schuhe viele triviale Regeln, durch die Taxonomie induziert, müssen ausgeschlossen werden Bergstiefel Assoziationsregeln: Diskussion Apriory Methode läuft für jede Größe der Kandidaten-Item-Mengen üer die Daten generiere (k+2)-item-mengen statt (k+1) => weniger Datendurchläufe Kandidaten Menge ist zu groß nutze Depth-First Search statt BFS durch den Suchraum Item-Mengen sind redundant, A ist Teil-Item- Mengen von A mit gleicher Üerdeckung geschlossene Item-Mengen Genaue Üerdeckung von Item-Mengen ist nicht wichtig maximale Item-Mengen, alle Teilmengen einer häufigen Item-Menge werden weggelassen Seite 177 Seite 178

9 Assoziationsregeln: Diskussion Standard ARFF Format (feste Vektorlänge) sehr ineffizient für typische Supermarktdaten Bit-Matrix mit vielen Nullen Dünne Datenrepräsentation Einsen in Bitmatrix sind wichtiger als Nullen => keine Negation in den Regeln Instanzen werden auch Transaktionen genannt Konfidenz ist nicht notwendigerweise das este Maß Andere Maße mit ähnlichen Eigenschaften (Monotonie) Seite 179