Frequent Itemset Mining + Association Rule Mining

Ähnliche Dokumente
Maschinelles Lernen: Symbolische Ansätze

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining: Einige Grundlagen aus der Stochastik

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Wahrscheinlichkeitsrechnung und Stochastik

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Kapitel 2. Mittelwerte

Schließende Statistik

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

6: Diskrete Wahrscheinlichkeit

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Apriori-Algorithmus zur Entdeckung von Assoziationsregeln

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

6.6 Vorlesung: Von OLAP zu Mining

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

2. Datenvorverarbeitung

Formale Logik. PD Dr. Markus Junker Abteilung für Mathematische Logik Universität Freiburg. Wintersemester 16/17 Sitzung vom 9.

TU7 Aussagenlogik II und Prädikatenlogik

3. Lektion: Deskriptive Statistik

Statistische Tests (Signifikanztests)

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Auswahlverfahren. Zufallsauswahl Bewusste Auswahl Willkürliche Auswahl. Dipl.-Päd. Ivonne Bemerburg

Induktion von Assoziationsregeln. Stefan Mandl

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

5. Assoziationsregeln

1 Grundprinzipien statistischer Schlußweisen

IR Seminar SoSe 2012 Martin Leinberger

Didaktik der Stochastik (Leitidee: Daten und Zufall)

Tabelle 1.5: Relative Wichtigkeit von Ausprägungen.

Mathematik für Biologen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Einführung in die Wahrscheinlichkeitsrechnung

Inhaltsbereich Wahrscheinlichkeit und Statistik

Maschinelles Lernen: Symbolische Ansätze

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung

Statistisches Testen

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Statistics, Data Analysis, and Simulation SS 2017

Kapitel 10. Stichproben

5 Assoziationsmessung in Kontingenztafeln

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

3 Vom Zählen zur Induktion

Datenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer)

Statistische Datenanalyse

8. Konfidenzintervalle und Hypothesentests

4. Grundzüge der Wahrscheinlichkeitsrechnung

Klausur vom

Streaming Data: Das Modell

Statistik und Wahrscheinlichkeitsrechnung

Forschungsstatistik I

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

HM I Tutorium 1. Lucas Kunz. 27. Oktober 2016

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Vorkurs Mathematik 2016

VS PLUS

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Aufgaben zu Kapitel 8

Wahrscheinlichkeiten

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Konkretes Durchführen einer Inferenzstatistik

Klausur über den Stoff der Vorlesung Grundlagen der Informatik II (90 Minuten)

Probleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Items Einstellungen sportliches Engagement der Freundinnen und Freunde Frauen keinen Wenige / niemand meiner Freundinnen und Freunde sind der Meinung,

Formale Sprachen und Automaten

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Grundlagen der Biometrie in Agrarwissenschaften / Ernährungswissenschaften

Kryptoanalyse: Der Friedman-Test (und seine Anwendung)

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Kinga Szűcs

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Kapitel 1. Aussagenlogik

Kapitel 1.0. Aussagenlogik: Einführung. Mathematische Logik (WS 2011/12) Kapitel 1.0: Aussagenlogik: Einführung 1/ 1

TU8 Beweismethoden. Daniela Andrade

Vorkurs: Mathematik für Informatiker

Motivation und Geschichte. Geschichte der Logik Logik und Informatik

Willkommen zur Vorlesung Statistik (Master)

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Analyse von Kontingenztafeln

Kapitel 1.4. Exkurs: Entscheidbarkeit und Komplexität. Mathematische Logik (WS 2012/3) K. 1.4: Entscheidbarkeit und Komplexität 1/10

Einführung in die (induktive) Statistik

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Tutorial: Balken- und Tortendiagramm

Graphische Darstellung einer univariaten Verteilung:

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Wahrscheinlichkeits - rechnung und Statistik

Transkript:

Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16

Frequent Itemset Mining (FIM) 21.10.2015 2

Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen, computerbasierten Data Mining betrachtet werden und wird deshalb hier vorgestellt. Aus algorithmischer Sicht handelt es sich um ein nichtmathematisches Verfahren, nämlich der schnellen Suche in einer Datenbank (Datenmenge) nach häufig vorkommenden Samples. Aus datenanalytischer Sicht lassen sich die erhaltenen Ergebnisse als Wahrscheinlichkeiten für das Vorkommen bestimmter Samples deuten. 21.10.2015 3

Diskussion eines Beispiels Situation: An neun amerikanischen Schulen wurden Schüler der Klassen 4 bis 6 (Alter 7 bis 13 Jahre) danach befragt, wie wichtig ihnen Schulnoten, Beliebtheit und Sport als persönliche Ziele sind. Weiter sollten die Schüler angeben wie wichtig Sportlichkeit, Aussehen, Schulnoten und Geld ihrer Meinung nach für die Beliebtheit eines Schülers sind. Datenmenge: 478 Datensätze mit 11 Merkmalen Merkmale: Geschlecht, Klassenstufe (4-6), Alter (7-13), Hautfarbe (weiß, andere), Lage des Wohnorts (Stadt, Vorstadt, ländlich), Name der Schule, wichtigstes Ziel (siehe oben), Wichtigkeit von Schulnoten (1-4), Wichtigkeit von Sport (1-4), Wichtigkeit von Aussehen (1-4), Wichtigkeit von Geld (1-4). Anmerkung: Der Datensatz stammt aus einer Untersuchung zur Rolle des Sports in der sozialen Entwicklung von Kindern aus dem Jahr 1992. 21.10.2015 4

Diskussion eines Beispiels Mögliche Zielsetzung einer Datenanalyse: Entdeckung von Hinweisen auf einen Zusammenhang zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern in der Altersklasse 7-13 Jahre. Quantifizierung der Stärke dieser Hinweise, falls vorhanden. Ansatz / Idee: Benutze die Häufigkeit des Auftretens bestimmter Kombinationen von Merkmalsausprägungen als Hinweis auf einen in der Wirklichkeit vorhandenen Zusammenhang und dessen Stärke. Da die wahre Häufigkeit unbekannt ist, schätzt man diese anhand der vorliegenden Daten. Annahme dabei: die erhobenen Daten sind repräsentativ, das heißt typisch, für amerikanische Kinder der betrachteten Altersklasse. 21.10.2015 5

Diskussion eines Beispiels Wichtige Anmerkung: Man kann nicht erwarten, dass es strikte deterministische Zusammenhänge zwischen dem Geschlecht, dem Wohnumfeld und den Zielen von Kindern gibt, zum Beispiel von der Art: Mädchen, die in der Stadt wohnen, haben stets Beliebtheit als wichtigstes persönliches Ziel. Die gesuchten Zusammenhänge sind probabilistischer Art: Mädchen, die in der Stadt wohnen, haben mit hoher Wahrscheinlichkeit (>75%) Beliebtheit als wichtigstes persönliches Ziel. Wahrscheinlichkeiten kommen ins Spiel, weil für die Ausprägung persönlicher Ziele viele, auch zufällige Einflüsse wie zum Beispiel Vorbilder (Freunde/Freundinnen, Eltern, Personen aus der Literatur oder dem Fernsehen) eine Rolle spielen. Der Zufall ist untrennbarer Bestandteil der gesuchten Zusammenhänge. 21.10.2015 6

Diskussion eines Beispiels Zum Vorgehen: Für die Fragestellung interessant sind die Merkmale Geschlecht, wichtigstes Ziel und Wohnortlage. Betrachte also nur diese Merkmale in der Analyse. Bestimme die Häufigkeiten der Ausprägungskombinationen dieser drei Merkmale. Betrachte die»häufig«vorkommenden Ausprägungskombinationen näher und interpretiere sie. In RapidMiner können die Häufigkeiten effizient mit dem Operator FP-Growth bestimmt werden, den man unter Modeling\Association and Itemset Mining findet. 21.10.2015 7

Diskussion eines Beispiels Zum Vorgehen: Was bedeutet»häufig«? Es gibt insgesamt 2 3 3 18 mögliche Ausprägungskombinationen der Merkmale Geschlecht, Wohnort und Ziel. Bei einer rein zufälligen Verteilung der Ausprägungen mit gleicher Wahrscheinlichkeit für das Auftreten jeder Kombination kommt jede Kombination mit ungefähr der Häufigkeit 1 18 5,6% vor.»häufig«sollte also sicher bedeuten: deutlich höher als 5,6%. 21.10.2015 8

Diskussion eines Beispiels Zum Vorgehen: Während Geschlecht und Wohnortlage annähernd gleichverteilte Ausprägungen aufweisen, gilt dies für die Ausprägungen des Merkmals Ziel nicht: Noten: 51,7%, Beliebtheit: 29,5%, Sport: 18,8%. Es ist daher in Bezug auf die Fragestellung günstiger die Zielausprägungen jeweils separat zu betrachten: Man bestimmt bei fester Zielausprägung die Häufigkeiten der Ausprägungskombinationen von Geschlecht und Wohnortlage. Es gibt 6 Ausprägungskombinationen von Geschlecht und Wohnortlage, womit als»häufig«nun Werte deutlich oberhalb von 16% gelten. Die Häufigkeiten werden jetzt in Bezug auf die Anzahl Datensätze berechnet, in denen das Merkmal wichtigstes Ziel den entsprechenden Wert besitzt. 21.10.2015 9

Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Noten 23,5 % Junge Vorstadt Noten 20,6 % Junge Stadt Noten 18,2 % Mädchen Vorstadt Noten 14,6 % Mädchen ländlich Noten 14,6 % Junge ländlich Noten 8,5 % 21.10.2015 10

Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Mädchen Stadt Beliebtheit 27,0 % Mädchen ländlich Beliebtheit 22,0 % Mädchen Vorstadt Beliebtheit 15,6 % Junge Vorstadt Beliebtheit 14,2 % Junge ländlich Beliebtheit 13,5 % Junge Stadt Beliebtheit 7,8 % 21.10.2015 11

Diskussion eines Beispiels Ergebnisse der Datenanalyse: Geschlecht Wohnort Wichtigstes Häufigkeit Ziel Junge ländlich Sport 28,9 % Junge Vorstadt Sport 20,0 % Mädchen ländlich Sport 17,8 % Junge Stadt Sport 17,8 % Mädchen Stadt Sport 11,1 % Mädchen Vorstadt Sport 4,4 % 21.10.2015 12

Diskussion eines Beispiels Ergebnisse: Schulnoten sind in der betrachteten Altersklasse ohne Berücksichtigung von Geschlecht und Wohnortlage das dominante Ziel. Schulnoten spielen für Mädchen im städtischen Bereich eine deutlich höhere Rolle als im vorstädtischen und ländlichen Bereich. Bei Jungen sind in Bezug auf Schulnoten städtischer und vorstädtischer deutlicher vom ländlichen Bereich getrennt. Das Ziel Beliebtheit ist deutlich geschlechtsspezifisch: Mädchen im ländlichen und städtischen Bereich betonen dieses Ziel stärker als Jungen, besonders auffällig ist der Unterschied zu Jungen im städtischen Bereich. Beim Ziel Sport beobachtet man dieselbe Situation wie bei Beliebtheit, aber mit vertauschten Geschlechterrollen. 21.10.2015 13

Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,,. Gesucht ist für jede Kombination (,, ) von Ausprägungen der Merkmale,,,, die Häufigkeit h(,, ) (,,, ). Große Häufigkeiten h(,, ) werden als Hinweis auf einen entsprechenden Zusammenhang zwischen den beteiligten Merkmalen gedeutet. 21.10.2015 14

Allgemeine Darstellung der Methode Theoretisch kann es in X bis zu der interessierenden Ausprägungen geben. Ein einfaches Abzählen der Datensätze ist daher bei großen Datenmengen nicht effektiv. Zur effektiven Lösung des Problems gibt es verschiedene Algorithmen: Apriori, Eklat, FP-Growth. Die Algorithmen basieren nicht auf besonderen mathematischen Methoden, sondern gehören in den Bereich der angewandten Informatik. Sie werden in dieser Vorlesung daher nicht behandelt. 21.10.2015 15

Steckbrief: Frequent Itemset Mining (FIM) Ziel Entdeckung von Abhängigkeiten zwischen Merkmalen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten. 21.10.2015 16

Association Rule Mining (ARM) 21.10.2015 17

Logische Abhängigkeiten von Merkmalen Mit Hilfe von FIM kann man zwar Hinweise auf Abhängigkeiten zwischen bestimmten Merkmalen erhalten, aber zunächst nicht auf die Art der Abhängigkeit. Eine besonders einfache Art von Zusammenhängen sind logische Implikationen:»Wenn ein Mädchen im städtischen Umfeld wohnt, dann sind Schulnoten sein wichtigstes persönliches Ziel.«oder formal: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT Ziel = Schulnoten. Wiederum sind solche Regeln probabilistisch nicht deterministisch gemeint. Wie kann man solche Regeln ermitteln, sowie ihre»stärke«? 21.10.2015 18

Diskussion eines Beispiels Das (probabilistische) Vorliegen der logischen Implikation: Geschlecht = Mädchen UND Wohnortlage = Stadt IMPLIZIERT wichtigstes Ziel = Schulnoten. würde sich in einer repräsentativen Datenmenge X wie folgt äußern: 1. In der Teilmenge Y aller Datensätze in X der Form (Geschlecht = Mädchen, Wohnortlage = Stadt, Ziel = beliebig) tritt die Ausprägung Ziel = Schulnoten häufig auf. Diese Eigenschaft kann auch dann vorliegen, wenn die Teilmenge Y klein im Vergleich zu X ist, zum Beispiel nur aus zwei Elementen besteht. In diesem Fall hätte man wenig Vertrauen in die Gültigkeit der Implikation. Man fordert daher zusätzlich: 2. Die Teilmenge Y ist»hinreichend groß«. 21.10.2015 19

Allgemeine Darstellung der Methode Gegeben ist eine Datenmenge X mit nominalen regulären Merkmalen,,, deren Ausprägungen in den endlichen Mengen,, liegen. Von Interesse für die Analyse sind die Merkmale mit den Nummern,, und j,,. Gesucht sind Häufigkeitshinweise auf logische Zusammenhänge der Form: ( = UND UND = ) IMPLIZIERT ( = UND UND = ) (R) Einen solche Zusammenhang nennt man eine Assoziationsregel (englisch: Association Rule). Es gibt auch Assoziationsregeln mit komplexeren Bedingungen in der Prämisse oder der Folgerung. 21.10.2015 20

Allgemeine Darstellung der Methode Zum Bewerten einer gegebenen Assoziationsregel (R) bestimmt man zunächst ihren Support: Support(R) (,,, ). Ist der Support»groß genug«, so bestimmt man die Konfidenz: Konfidenz(R) (,,, ), Was»groß genug«bedeutet und welche Konfidenz mindestens vorliegen sollte, muss der Anwender entscheiden. Achtung: FIM und ARM nutzen a priori keine statistischen Mittel um etwa Vertrauensintervalle für eine Regel (R) anzugeben. 21.10.2015 21

Steckbrief: Association Rule Mining (ARM) Ziel Entdeckung von logischen Abhängigkeiten zwischen Merkmalskombinationen durch die Bestimmung von häufig auftretenden Kombinationen von Merkmalsausprägungen. Datentyp Prinzipiell: Nominale Daten. Es können andere Merkmalstypen analysiert werden, sofern die Anzahl verschiedener Ausprägungen nicht zu groß ist, und das Ignorieren einer ev. vorhandenen Anordnung bzw. der Zahleigenschaft keine großen Nachteile mit sich bringt. Mathematische Grundlage Interpretation von Häufigkeiten als genäherte Wahrscheinlichkeiten. 21.10.2015 22

Fragen 21.10.2015 23