Frequent Itemset Mining + Association Rule Mining

Transkript

1 Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16

2 Frequent Itemset Mining (FIM)

3 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen, computerbasierten Data Mining betrachtet werden und wird deshalb hier vorgestellt. Aus algorithmischer Sicht handelt es sich um ein nichtmathematisches Verfahren, nämlich der schnellen Suche in einer Datenbank (Datenmenge) nach häufig vorkommenden Samples. Aus datenanalytischer Sicht lassen sich die erhaltenen Ergebnisse als Wahrscheinlichkeiten für das Vorkommen bestimmter Samples deuten

4 Diskussion eines Beispiels Situation: An neun amerikanischen Schulen wurden Schüler der Klassen 4 bis 6 (Alter 7 bis 13 Jahre) danach befragt, wie wichtig ihnen Schulnoten, Beliebtheit und Sport als persönliche Ziele sind. Weiter sollten die Schüler angeben wie wichtig Sportlichkeit, Aussehen, Schulnoten und Geld ihrer Meinung nach für die Beliebtheit eines Schülers sind. Datenmenge: 478 Datensätze mit 11 Merkmalen Merkmale: Geschlecht, Klassenstufe (4-6), Alter (7-13), Hautfarbe (weiß, andere), Lage des Wohnorts (Stadt, Vorstadt, ländlich), Name der Schule, wichtigstes Ziel (siehe oben), Wichtigkeit von Schulnoten (1-4), Wichtigkeit von Sport (1-4), Wichtigkeit von Aussehen (1-4), Wichtigkeit von Geld (1-4). Anmerkung: Der Datensatz stammt aus einer Untersuchung zur Rolle des Sports in der sozialen Entwicklung von Kindern aus dem Jahr

5 Diskussion eines Beispiels Mögliche Zielsetzung einer Datenanalyse: Entdeckung von Hinweisen auf einen Zusammenhang zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern in der Altersklasse 7-13 Jahre. Quantifizierung der Stärke dieser Hinweise, falls vorhanden. Ansatz / Idee: Benutze die Häufigkeit des Auftretens bestimmter Kombinationen von Merkmalsausprägungen als Hinweis auf einen in der Wirklichkeit vorhandenen Zusammenhang und dessen Stärke. Da die wahre Häufigkeit unbekannt ist, schätzt man diese anhand der vorliegenden Daten. Annahme dabei: die erhobenen Daten sind repräsentativ, das heißt typisch, für amerikanische Kinder der betrachteten Altersklasse

6 Diskussion eines Beispiels Wichtige Anmerkung: Man kann nicht erwarten, dass es strikte deterministische Zusammenhänge zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern gibt, zum Beispiel von der Art: Mädchen, die in der Stadt wohnen, haben stets Beliebtheit als wichtigstes persönliches Ziel. Die gesuchten Zusammenhänge sind probabilistischer Art: Mädchen, die in der Stadt wohnen, haben mit hoher Wahrscheinlichkeit (>75%) Beliebtheit als wichtigstes persönliches Ziel. Wahrscheinlichkeiten kommen ins Spiel, weil für die Ausprägung persönlicher Ziele viele, auch zufällige Einflüsse wie zum Beispiel Vorbilder (Freunde/Freundinnen, Eltern, Personen aus der Literatur oder dem Fernsehen) eine Rolle spielen. Der Zufall ist untrennbarer Bestandteil der gesuchten Zusammenhänge

7 Diskussion eines Beispiels Zum Vorgehen: Für die Fragestellung interessant sind die Merkmale Geschlecht, wichtigstes Ziel und Wohnortlage. Betrachte also nur diese Merkmale in der Analyse. Bestimme die Häufigkeiten der Ausprägungskombinationen dieser drei Merkmale. Betrachte die»häufig«vorkommenden Ausprägungskombinationen näher und interpretiere sie. In RapidMiner können die Häufigkeiten effizient mit dem Operator FP-Growth bestimmt werden, den man unter Modeling\Association and Itemset Mining findet

8 Diskussion eines Beispiels Zum Vorgehen: Was bedeutet»häufig«? Es gibt insgesamt mögliche Ausprägungskombinationen der Merkmale Geschlecht, Wohnort und Ziel. Bei einer rein zufälligen Verteilung der Ausprägungen mit gleicher Wahrscheinlichkeit für das Auftreten jeder Kombination kommt jede Kombination mit ungefähr der Häufigkeit ,6% vor.»häufig«sollte also sicher bedeuten: deutlich höher als 5,6%

9 Diskussion eines Beispiels Zum Vorgehen: Während Geschlecht und Wohnortlage annähernd gleichverteilte Ausprägungen aufweisen, gilt dies für die Ausprägungen des Merkmals Ziel nicht: Noten: 51,7%, Beliebtheit: 29,5%, Sport: 18,8%. Es ist daher in Bezug auf die Fragestellung günstiger die Zielausprägungen jeweils separat zu betrachten: Man bestimmt bei fester Zielausprägung die Häufigkeiten der Ausprägungskombinationen von Geschlecht und Wohnortlage. Es gibt 6 Ausprägungskombinationen von Geschlecht und Wohnortlage, womit als»häufig«nun Werte deutlich oberhalb von 16% gelten. Die Häufigkeiten werden jetzt in Bezug auf die Anzahl Datensätze berechnet, in denen das Merkmal wichtigstes Ziel den entsprechenden Wert besitzt

10 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Noten 23,5 % Junge Vorstadt Noten 20,6 % Junge Stadt Noten 18,2 % Mädchen Vorstadt Noten 14,6 % Mädchen ländlich Noten 14,6 % Junge ländlich Noten 8,5 %

11 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Beliebtheit 27,0 % Mädchen ländlich Beliebtheit 22,0 % Mädchen Vorstadt Beliebtheit 15,6 % Junge Vorstadt Beliebtheit 14,2 % Junge ländlich Beliebtheit 13,5 % Junge Stadt Beliebtheit 7,8 %

12 Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Junge ländlich Sport 28,9 % Junge Vorstadt Sport 20,0 % Mädchen ländlich Sport 17,8 % Junge Stadt Sport 17,8 % Mädchen Stadt Sport 11,1 % Mädchen Vorstadt Sport 4,4 %

13 Diskussion eines Beispiels Ergebnisse: Schulnoten sind in der betrachteten Altersklasse ohne Berücksichtigung von Geschlecht und Wohnortlage das dominante Ziel. Schulnoten spielen für Mädchen im städtischen Bereich eine deutlich höhere Rolle als im vorstädtischen und ländlichen Bereich. Bei Jungen sind in Bezug auf Schulnoten städtischer und vorstädtischer deutlicher vom ländlichen Bereich getrennt. Das Ziel Beliebtheit ist deutlich geschlechtsspezifisch: Mädchen im ländlichen und städtischen Bereich betonen dieses Ziel stärker als Jungen, besonders auffällig ist der Unterschied zu Jungen im städtischen Bereich. Beim Ziel Sport beobachtet man dieselbe Situation wie bei Beliebtheit, aber mit vertauschten Geschlechterrollen

14 Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,,. Gesucht ist für jede Kombination (,, ) von Ausprägungen der Merkmale,,,, die Häufigkeit h(,, ) (,,, ). Große Häufigkeiten h(,, ) werden als Hinweis auf einen entsprechenden Zusammenhang zwischen den beteiligten Merkmalen gedeutet

15 Allgemeine Darstellung der Methode Theoretisch kann es in X bis zu der interessierenden Ausprägungen geben. Ein einfaches Abzählen der Datensätze ist daher bei großen Datenmengen nicht effektiv. Zur effektiven Lösung des Problems gibt es verschiedene Algorithmen: Apriori, Eklat, FP-Growth. Die Algorithmen basieren nicht auf besonderen mathematischen Methoden, sondern gehören in den Bereich der angewandten Informatik. Sie werden in dieser Vorlesung daher nicht behandelt

16 Steckbrief: Frequent Itemset Mining (FIM) Ziel Entdeckung von Abhängigkeiten zwischen Merkmalen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten

17 Association Rule Mining (ARM)

18 Logische Abhängigkeiten von Merkmalen Mit Hilfe von FIM kann man zwar Hinweise auf Abhängigkeiten zwischen bestimmten Merkmalen erhalten, aber zunächst nicht auf die Art der Abhängigkeit. Eine besonders einfache Art von Zusammenhängen sind logische Implikationen:»Wenn ein Mädchen im städtischen Umfeld wohnt, dann sind Schulnoten sein wichtigstes persönliches Ziel.«oder formal: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT Ziel = Schulnoten. Wiederum sind solche Regeln probabilistisch nicht deterministisch gemeint. Wie kann man solche Regeln ermitteln, sowie ihre»stärke«?

19 Diskussion eines Beispiels Das (probabilistische) Vorliegen der logischen Implikation: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT wichtigstes Ziel = Schulnoten. würde sich in einer repräsentativen Datenmenge X wie folgt äußern: 1. In der Teilmenge Y aller Datensätze in X der Form (Geschlecht = Mädchen, Wohnortlage = Stadt, Ziel = beliebig) tritt die Ausprägung Ziel = Schulnoten häufig auf. Diese Eigenschaft kann auch dann vorliegen, wenn die Teilmenge Y klein im Vergleich zu X ist, zum Beispiel nur aus zwei Elementen besteht. In diesem Fall hätte man wenig Vertrauen in die Gültigkeit der Implikation. Man fordert daher zusätzlich: 2. Die Teilmenge Y ist»hinreichend groß«

20 Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,, und j,,. Gesucht sind Häufigkeitshinweise auf logische Zusammenhänge der Form: ( = UND UND = ) IMPLIZIERT ( = UND UND = ) (R) Einen solche Zusammenhang nennt man eine Assoziationsregel (englisch: Association Rule). Es gibt auch Assoziationsregeln mit komplexeren Bedingungen in der Prämisse oder der Folgerung

21 Allgemeine Darstellung der Methode Zum Bewerten einer gegebenen Assoziationsregel (R) bestimmt man zunächst ihren Support: Support(R) (,,, ). Ist der Support»groß genug«, so bestimmt man die Konfidenz: Konfidenz(R) (,,, ), Was»groß genug«bedeutet und welche Konfidenz mindestens vorliegen sollte, muss der Anwender entscheiden. Achtung: FIM und ARM nutzen a priori keine statistischen Mittel um etwa Vertrauensintervalle für eine Regel (R) anzugeben

22 Steckbrief: Association Rule Mining (ARM) Ziel Entdeckung von logischen Abhängigkeiten zwischen Merkmalskombinationen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten

23 Fragen