DBS5 Kap. 4. Data Mining
|
|
|
- Waltraud Kranz
- vor 9 Jahren
- Abrufe
Transkript
1 DBS5 Kap. 4 Data Mining Klassifikationen und Cluster-Bildung: Auffinden von Regeln zur Partitionierung von Daten in disjunkte Teilmengen (Anwendungsbeispiel: Risikoabschätzung) bzw. Herstellen von Gruppierungen von Daten (sätzen) mit ähnlichen Eigenschaften Assoziationen: Sequenzen: Identifikation von Assoziationen zwischen (Mengen von) Dingen aufgrund von (hinreichend vielen) Beobachtungen (Anwendungsbeispiel: Warenkorbanalysen) Analyse von Daten bzw. Ereignissen, die z.b. zeitlich geordnet sind (Anwendungsbeispiel: Aktienmarkt) 4.1 Ziele, Motivationen und Anwendungen des Data Mining Ziele: 1. Auswertung von Daten, zum Entdecken von: - (neuen) Zusammenhängen - Trends - Statistiken - Verhaltensmustern, Patterns" wobei häufig nicht genau klar ist, wonach man sucht 2. Herausfinden nützlicher Information, und zwar möglichst automatisiert und mit minimalem Input von außen, 3. Klassifikation von Daten zum Zwecke der Risikoabschätzung oder der Entscheidungsfindung. Motivation: "There's gold in your data, but you can't see it". Teil des Prozesses von Knowledge Discovery in Databases (kurz KDD) =>Wissensentdeckung in Datenbanken Schritten des KDD:
2 1. Verstehen des Anwendungsbereichs, der bereits in einem Datenwarenhaus abgebildet sein kann 2. Bilden der zu analysierenden Datenmengen, gegebenenfalls mittels einem Data Cleansing, Daten-Inkonsistenzen zu bereinigen 3. Extrahieren von Klassifikationen, Mustern, Regeln; in genau diesem Schritt erfolgt das eigentliche Data Mining 4. Nachbearbeitung des entdeckten Wissens, insbesondere geeignete Interpretation, gegebenenfalls erneutes Auswerten, also Iteration der Schritte 3 und 4 5. Verwertung der Ergebnisse. Man kann Data Mining unabhängig von einem Datenwarenhaus betreiben. 4.2 Klassifikationen Beispiel: Vorgehen bei Risikoabschätzung 1. Einfache Bedingungen für ein erstes Attribut finden, die dessen Wertemenge disjunkt zerlegen; 2. falls sich die Datenbank damit tatsächlich in Übereinstimmung bringen lässt, reicht diese Zerlegung bereits zur Klassifikation; 3. ansonsten finde man Bedingungen für ein weiteres Attribut und 4. iteriere, bis eine verlässliche" Klassifikation gefunden ist. Cluster-Bildung Gruppieren gegebener Datensätze anhand ähnlicher Eigenschaften. 4.3 Assoziationsregeln Warenkorbanalyse (Beispiel für das Auffinden von Assoziationsregeln): Unter einem Warenkorb versteht man dabei eine Sammlung von Dingen, die ein Kunde etwa in einem Supermarkt in einer Transaktion erworben hat. Lieferanten oder Ladeninhaber sowie Supermarktbetreiber möchten nun herausfinden, welche Dinge zusammen gekauft werden, etwa um deren Platzierung im Regal oder in der Werbung zu verbessern. (Warenkorb-) Tabelle TID KundenID Datum Teil Preis Qty Füller Tinte Heft Seife Füller Tinte Heft Füller 35 1
3 Heft Füller Tinte Seife 1 4 Idee der Assoziationsregel: informal erkennen des Zusammenhangs zwischen verschiedenen Teilen: => z.b. gemeinsam in Kundentransaktionen erscheinende Teil: "Füller => Tinte" Ziel: einen gewissen Rahmen zu schaffen, in welchem sich derartige Aussagen (oder Vermutungen) einerseits erhärten und andererseits sogar systematisch ermitteln lassen. Assoziationsregel: LS => RS wobei LS (linke Seite) und RS (rechte Seite) disjunkte Mengen von Dingen ( Itemsets11) sind und die Bedeutung analog zum Beispiel lautet: Wird jedes Teil in der linken Seite LS gekauft, so wird (wahrscheinlich) auch jedes Teil in der rechten Seite RS gekauft. Wir gehen damit also aus von einer Menge I = {i i... i m } von Dingen oder Items und bezeichnen Mengen von Dingen, also Teilmengen T I, als Transaktionen. Der Gegenstand der Analyse ist eine "Datenbank" D = {T i... T k } von Transaktionen. formale Beschreibung von Warenkorb: Die betrachtete Menge D umfasst vier Transaktionen, die jeweils durch einen Identifikator eindeutig gekennzeichnet sind. Die Transaktionen sind über einer Menge I = {Füller, Tinte, Heft, Seife,...} von Teilen gebildet. Assoziationsregeln schreiben wir dann auch in der Form R: LS => RS und gilt dann LS, RS I sowie LS RS = Ø Mass für Assoziation: 1. Support einer Menge von Dingen Die Wichtigkeit" oder Bedeutung einer Menge von Dingen. Je höher der durch das Maß zugeordnete Wert, desto wichtiger die betreffende Menge.
4 Zu gegebener Menge I von Dingen und gegebener Datenbank D von k Transaktionen sei J I eine Auswahl von Dingen. Der Support von J ist dann definiert als oder in Worten: Der Support von J gibt an, wie viel Prozent der Transaktionen die Menge J enthalten. Dieses Maß lässt sich unmittelbar auf Assoziationsregeln übertragen: Der Support einer Regel der Form R: LS => RS ist definiert als supp(r) := supp(ls RS). Symmetrieeigenschaft Man erkennt an dieser Definition unmittelbar eine Eigenschaft des Support: Hat eine Regel R die Form LS => RS und eine Regel R' die Form RS => LS, so gilt stets supp(r) = supp(r') 2. Confidence Die Stärke" einer Regel. Die Confidence einer Regel R: LS => RS: bezeichnet man der Prozentsatz der Transaktionen, die RS umfassen, falls sie auch alle Elemente von LS enthalten: Die Confidence einer Regel deutet damit den Grad der Korrelation zwischen Verkäufen von Mengen von Dingen (in der Datenbank) an. Diese Definition von Confidence benutzt den Support, d.h. sie sind aus mathematischer Sicht nicht unabhängig voneinander. Man kann dies durchaus als eine gewisse Kritik an diesen beiden Maßen ansehen Betrachten wir hierzu einige Beispiele: Die oben bereits betrachtete Regel R : Füller => Tinte" lässt sich wie folgt bewerten: 1. Da die Teile Füller und Tinte in drei der vier in Transaktionen gemeinsam vorkommen, gilt supp(r) = 3/4 = 0,75 Weiter gilt supp(füller) = 4/4 = 1, also erhält man conf(r) = 0,75/1 = 0,75 Es enthalten also 3/4 der Transaktionen Tinte, sofern sie bereits Füller enthalten.
5 2. Die Regel laute Bier =>Chips": Ein Support von 0,8 bedeutet dann, dass in 80 % der Transaktionen Bier und Chips gemeinsam vorkommen; unabhängig davon bedeutet eine Confidence von 0,5, dass die Hälfte der Leute, die Bier gekauft haben, auch Chips (dazu) gekauft haben. Ist der Support gering, kann es sich um einen zufälligen Zusammenhang handeln (z.b. "Heft => Seife") Iist die Confidence einer Regel gering, so ist die linke Seite nicht stark mit der rechten korreliert (z.b. bei "Heft => Seife"). In realen Anwendungen wird man meistens so vorgehen, dass man einen Mindest-Support sowie eine Minimal-Confidence vorgibt und sich dann nur für Regeln interessiert, welche beides enthalten. Vorgabe von Support und Confidence Für einen (vorgegebenen) Mindest-Support von 0,5 und eine geforderte Minimal-Confidence von 0,5 erhält man hier die folgenden beiden Regeln: l => 3 mit Support 2/4 = 0,5 und Confidence 2/3 = 0,67; 3 => l mit Support 2/4 = 0,5 und Confidence 2/2=1. An dieser Stelle können wir die oben erwähnte Symmetrie-Eigenschaft" des Support benutzen, welche jetzt besagt, dass der Support der Regel 3 => l mit dem der Regel l => 3 übereinstimmen muss. 4.4 Berechnung von Assoziationsregeln Apriori-Algorithmus: benötigte Eingabe: 1. eine Warenkorbtabelle, gebildet über einer festen Menge I von Dingen 2. einen geforderten Mindest-Support σ 3. eine geforderte Mindest-Confidence γ Verfahren 1. Man finde so genannte "häufige Mengen", d.h. Mengen J I von Dingen mit Support supp(r) > σ 2. man erzeuge potenzielle Assoziationsregeln R durch Aufteilen einer jeden häufigen Menge J in zwei Mengen LS und RS, so dass J = LS RS gilt, ferner LS RS = Ø und R: LS => RS; 3. man berechne die Confidence einer jeden in Schritt (2) erzeugten Regel R und gebe diejenigen aus mit Confidence conf(r) > γ Bestimmung häufiger Mengen,
6 Bestimmen zunächst die häufigen Einermengen (Mengen mit einem Element) zu und aus diesen sukzessive größere häufige Mengen zusammenzusetzen so lange, bis sich keine weiteren häufigen Mengen mehr bilden lassen. Sodann kann mit den gerade bereits beschriebenen Schritten 2 und 3, also der Bildung von Assoziationsregeln aus den häufigen Mengen, fortgefahren werden. Pseudo-Code Die Ausgabe einer Sammlung häufiger Mengen: Gegeben sei eine Menge J von Dingen sowie eine Datenbank D = {T i... T k } von Transaktionen: 1. Initialisiere M := Ø ; 2. foreach A J do teste, ob supp({a}) > σ falls ja: nimm {A} in die Menge häufiger Mengen auf: M := M {A}; 3. i := l ; 4. repeat (* schrittweises Vergrößern häufiger Mengen *) foreach Menge J M mit i Elementen begin erzeuge alle Obermengen J' mit i+1 Elementen durch Hinzufügen häufiger Einermengen aus M; teste die erzeugten Mengen J' auf die Eigenschaft häufig", falls ein J' häufig ist: M := M J' end; i := i + l; until keine neuen häufigen Mengen mehr gefunden werden or i = I + 1; Beispiel Warenkorbtabelle mit σ = 0.7 und γ = 0.8: I = {Füller, Tinte, Heft, Seife} häufige Einermenge: {{Füller}, {Tinte}, {Heft}} häufige Zweiermenge: {{Füller, Tinte}, {{Füller, Heft}} potenziellen Regeln: Füller => Tinte Tinte => Füller Füller => Heft Heft => Füller Überprüfen mit Confidence: conf(1) = 0.75 conf(2) = 1
7 conf(1) = 0.75 conf(4) = 1 Ergebis: Regel 2 und 4 werden als Assoziationsregeln ausgegeben. 4.5 Analyse von Ereignissequenzen Es geht um Ereignisse, die in einer bestimmten zeitlichen Abfolge auftreten: Zusammenhang zwischen den Ereignissen und ihrem Auftreten feststellen "Ereignismuster" identifizieren, die dann z.b. für die Prognosen und Vorhersagen Regeln aus zeitlichen Verläufen ableiten. "häufigen" Ereignissen bzw. Ereignissequenzen fragen und diese z.b. mit einer vorgegebenen Klasse von Ereignismustern korrelieren. Eine Folge von Produktmengen bezeichnet die Folge der Produktmengen in aufeinander folgenden Transaktionen eines Kunden. In der Warenkorb-Tabelle erkennt man z.b. bei Kunde 201 die Folge {Füller, Tinte, Seife}, {Füller, Tinte, Heft, Seife}. Eine Teilfolge entsteht einfach durch Weglassen von Mengen aus einer gegebenen Folge. Eine Folge A 1...A m ist dann in einer anderen Folge S enthalten, falls S eine Teilfolge B i...b m enthält mit A i B i, l< i < m. Als Beispiel ist in unserem Warenkorb die Folge {Füller}, {Tinte, Heft}, {Füller, Seife} enthalten in der Folge {Füller, Tinte}, {Hemd}, {Milch, Tinte, Heft}, {Heft, Füller, Seife}. Der Support einer Folge S ist der Anteil der (Kunden-) Folgen, in denen S als Teilfolge vorkommt. Die Identifikation sequenzieller Muster ist dann die Aufgabe des Bestimmens aller Folgen mit einem vorgegebenen Mindest-Support. Informal besagt eine solche Folge A 1...A m, dass ein Kunde, der die Produkte in A 1 kauft, wahrscheinlich danach die in A 2, danach die in A 3 usw. kauft. Ist dann eine Datenbank von zeitlich geordneten Folgen gegeben, so sucht man alle Folgen, die zu einer vorgegebenen ähnlich" sind, oder alle Paare von "ähnlichen" Folgen.
8 Hierfür gibt es eine Reihe von Anwendungen, z.b. die Identifikation von Firmen mit ähnlichem Wachstumsverhalten, die Bestimmung von Produkten mit ähnlichen Verkaufsmustern, die Identifikation von Aktien mit ähnlichen Preisbewegungen oder auch das Auffinden von nicht ähnlichen seismischen Wellen zur Lokalisierung geologischer Unregelmäßigkeiten. An einem anderen Anwendungsbeispiel wollen wir als Nächstes das Mining in Ereignissequenzen noch etwas genauer erläutern und Ihnen aufzeigen, in welcher Weise man in diesem Bereich auch zu formal präzisen Begriffen kommen kann. Wir betrachten exemplarisch ein Telekommunikations-Netzwerk (TK-Netzwerk), in welchem abnormale Situationen durch Alarmsignale angezeigt werden. Man kann in einem typischen Netz z.b. davon ausgehen, dass bis zu 200 verschiedene Signale unterschieden werden und zwischen und Signale pro Tag ausgelöst werden. Traditionell legt die Überwachungszentrale des Netzes eingehende Signale in einer Datenbank ab, und ein Operateur entscheidet jeweils über zu ergreifende Maßnahmen. Durch geeignete Data-Mining-Maßnahmen und -Werkzeuge kann man es dem Operateur ermöglichen, einerseits Regelmäßigkeiten in Alarm-Folgen zu lokalisieren und diese andererseits zu nutzen für Vorhersagen des Netzwerkverhaltens. Beispiele möglicherweise automatisch, also durch ein geeignetes Data-Mining-Werkzeug erkennbarer Regeln sind die folgenden: 1. Falls eine bestimmte Signal-Kombination innerhalb eines Zeitintervalls auftritt, so wird ein bestimmter Alarm (ebenfalls) innerhalb einer gegebenen Zeit auftreten. 2. Falls ein Alarm vom Typ A auftritt, so folgt ein Alarm vom Typ B innerhalb von 30 Sekunden mit Wahrscheinlichkeit 0,8. 3. Falls Signale der Form A und B innerhalb von 5 Sekunden vorkommen, so erscheint innerhalb von 60 Sekunden ein Alarm vom Typ C mit Wahrscheinlichkeit 0,7. 4. Falls A einem Alarm vom Typ B vorangeht und C einem Alarm vom Typ D vorangeht, alles innerhalb von 15 Sekunden, so folgt E innerhalb von 4 Minuten mit Wahrscheinlichkeit 0,6. Episoden Mengen von Ereignissen, die nahe beieinander in einer gegebenen Ordnung auftreten; diese Ordnung muss nicht notwendigerweise total, sondern kann im allgemeinen Fall partiell sein. Episoden werden entweder vorgegeben oder im Laufe von Beobachtungen ermittelt. Der Zweck besteht darin, Episoden mit beobachtbaren, tatsächlich aufgetretenen und protokollierten Ereignisfolgen abzugleichen bzw. darin zu identifizieren. Ereignisseguenz Es sei nun T eine Menge von Signal-Typen, und ein Alarm-Signal habe die Form (A, t), wobei A T gilt und t eine ganze Zahl (der Zeitpunkt des Auftretens von A) ist. Eine (Ereignis-) Sequenz S über T ist dann ein Tripel der Form mit: S = (s, t s, t e )
9 1. s = <(A 1, t 1 ),(A 2, t 2 ),...,(A n, t n )> ist eine Folge von Signalen aus T und t i < t i+1 für l < i < n- l, d.h. die in s auftretenden Alarm-Signale seien zeitlich sortiert, 2. t s bezeichnet die Startzeit, 3. t e bezeichnet die Endezeit, 4. t s < t i < t e für alle i, d.h. sämtliche Zeitmarken liegen zwischen der Start- und der Endezeit. Eine zentrale Aufgabe besteht nun darin, aus einer Klasse vorgegebener Episoden alle diejenigen herauszufinden, die in einer gegebenen Sequenz "häufig" auftreten, wobei nur solche ausgewählt werden sollen, die "interessant" sind, d.h. zeitlich nahe beieinander liegen. Man geht dazu wie folgt vor: Man unterteilt eine gegebene Sequenz S in überlappende Windows (Fenster) W, wobei natürlich der Benutzer die Weite dieser Fenster spezifiziert und angibt, in wie vielen Fenstern eine Episode vorkommen muss, um als "häufig" zu gelten. Als Beispiel zeigt Abbildung 21 zwei Windows der Weite 5, von denen das eine das diskrete Zeitintervall [35, 40), das andere das Intervall [36, 41) umfasst. Eine Episode ist ein Tripel der Form = (V,, g) mit: V ist eine Menge von Knoten, ist eine partielle Ordnung auf V,S (bis hierhin handelt es sich bei einer Episode also um einen gerichteten Graphen), eine Abbildung g : V > T assoziiert jeden Knoten mit einem Signal-Typ. Eine solche Zuordnung soll nicht willkürlich erfolgen, sondern muss so beschaffen sein, dass die Ereignisse in g(v) T in der durch gegebenen Ordnung auftreten.
10 Als Beispiel zeigt Abbildung 22 drei Episoden. Episode α ist seriell, Episode β ist parallel, und Episode γ ist weder seriell noch parallel. Betrachten wir sodann die in den Abbildungen 20 und 21 gezeigten Ereignissequenzen, so kommen im Window [35, 40) die Signale A, B, C, E sowie die Episoden β, γ vor (nicht aber α); außerdem entsprechen z.b. den Knoten der Episode γ Signale in der Folge, welche die partielle Ordnung respektieren. Es lässt sich hier auch beobachten, dass manche Episoden Subepisoden von anderen sind (z.b. β γ). γ Maße für Episoden Als die Frequenz fr( ) einer Episode bezeichnet man den Anteil von Windows, in denen vorkommt; relativ zu einer gegebenen Mindesthäufigkeit min fr ist eine Episode dann häufig, falls fr( ) min fr gilt. Die häufigen Maße für Episoden dienen der Aufstellung von Regeln, welche die Zusammenhänge Episoden zwischen Ereignissen in einer Sequenz beschreiben. Ein Beispiel ist die folgende Regel: Falls β in 4,2 % und γ in 4,0 % der Windows vorkommt, so ist mit einer Wahrscheinlichkeit von 0,95 zu erwarten, dass ein Window mit A und B auch C enthält (wegen β γ, 0,95 = 4.0% / 4.2%). 4.6 Sprachkonstrukte für das Data Mining Es kann in "ungünstigen" Fällen, also bei einer ungünstigen Konstellation der Transaktionen im zu analysierenden Warenkorb sowie geringem geforderten Mindest-Support und geringer Mindest-Confidence passieren, dass der Apriori-Algorithmus eine sehr große Ausgabe erzeugt. Ein Problem besteht dann darin, aus einer großen Menge algorithmisch erzeugter Regeln die bedeutungsvollen zu extrahieren bzw. die unwichtigen zu eliminieren. Daneben ist im Bereich des Data Mining im Unterschied zum OLAP derzeit auch die folgende Lücke zu beobachten: Während sich für OLAP-Operatoren wie den Cube, bereits SQL-Erweiterungen abzeichnen, die auch in kommerziellen Systemen zur Verfügung stehen, ist dies für die Datenwarenhaus-Anwendung des Data Mining bisher nicht der Fall. Es gibt bis heute lediglich Vorschläge für Spracherweiterung bzw. Sprachkonstrukte, mit denen Data- Mining-Aufgaben bewältigt werden können.
11 Lösungsansätze Für das Erzeugen sowie Weiterzuverarbeiten vom Ergebnis des Apriori-Algorithmus: LS RS supp conf Füller Tinte Tinte Füller Füller Heft Heft Füller 0.7 1
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Lösungsvorschlag für das 12. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 12. Übungsblatt 1 Aufgabe 1: Apriori (1) Gegeben
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Apriori-Algorithmus zur Entdeckung von PG 42 Wissensmanagment Lehrstuhl für Künstliche Intelligenz 22. Oktober 21 Gliederung Motivation Formale Problemdarstellung Apriori-Algorithmus Beispiel Varianten
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid
Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung
INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate
Maschinelles Lernen: Symbolische Ansätze
Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 13. Übungsblatt Aufgabe 1: Apriori Gegeben seien folgende Beobachtungen vom Kaufverhalten von Kunden: beer chips dip
Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung
Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.
6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
Kapitel 7: Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2007/2008 Kapitel
Lernen von Assoziationsregeln
Lernen von Assoziationsregeln Gegeben: R eine Menge von Objekten, die binäre Werte haben t eine Transaktion, t! R r eine Menge von Transaktionen S min " [0,] die minimale Unterstützung, Conf min " [0,]
Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2009/2010 Kapitel
Induktion von Assoziationsregeln. Stefan Mandl
Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen
Kapitel 11: Association Rules
Kapitel 11: Association Association Einleitung Association : Eine wichtige Art von Mustern, an der man im Data-Mining Kontext interessiert ist. Muster mit einfacher Struktur. Ziel im folgenden: Finden
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln
Erkennung Sequenzieller Muster Algorithmen und Anwendungen
Achim Eisele, Thema 1.4.3: Sequenzielle Muster 1 FernUniversität in Hagen Seminar 01912 im Sommersemester 2008 Erkennung Sequenzieller Muster Algorithmen und Anwendungen Thema 1.4.3: Sequenzielle Muster
5. Assoziationsregeln
5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines
Data Mining im Einzelhandel Methoden und Werkzeuge
Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.
Data Mining auf Datenströmen Andreas M. Weiner
Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas
Kapitel 7: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel
5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16
Was sind»daten«? Studiengang Angewandte Mathematik WS 2015/16 Daten: Überblick Im Data Mining werden Daten analysiert um allgemein über Data Mining Verfahren sprechen zu können, benötigt man also eine
5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?
Mining über RDBMSe von Christian Widmer Wie gut lässt sich Mining mit SQL realisieren? Müssen neue Konstrukte zur Verfügung gestellt werden, wenn ja welche? Vortragsüberblick Association Rules Apriori
Übersicht. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung Finden von Assoziationsregeln für
Frequent Itemset Mining + Association Rule Mining
Frequent Itemset Mining + Association Rule Mining Studiengang Angewandte Mathematik WS 2015/16 Frequent Itemset Mining (FIM) 21.10.2015 2 Einleitung Das Frequent-Itemset-Mining kann als Anfang des modernen,
1 Grundprinzipien statistischer Schlußweisen
Grundprinzipien statistischer Schlußweisen - - Grundprinzipien statistischer Schlußweisen Für die Analyse zufallsbehafteter Eingabegrößen und Leistungsparameter in diskreten Systemen durch Computersimulation
Kapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold
Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2015 Kapitel 8: Assoziationsregeln
Kapitel 8: Assoziationsregeln
Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Sommersemester 2014 Kapitel 8: Assoziationsregeln
Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
Umkehrfunktionen 1-E. Ma 1 Lubov Vassilevskaya
Umkehrfunktionen 1-E Wiederholung: Funktion als eine Abbildung Abb. 1-1: Darstellung einer Abbildung Eine Funktion f (x) beschreibt eine Abbildung von X nach Y f X Y, x f x Der erste Ausdruck charakterisiert
Maschinelles Lernen: Symbolische Ansätze
Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:
4.2 Constraints für Assoziationsregeln
4.2 Constraints für Assoziationsregeln zu viele Frequent Item Sets Effizienzproblem zu viele Assoziationsregeln Evaluationsproblem Motivation manchmal Constraints apriori bekannt nur Assoziationsregeln
Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07. Nichtdeterministische Turingmaschinen und NP
Proseminar Komplexitätstheorie P versus NP Wintersemester 2006/07 Vortrag am 17.11.2006 Nichtdeterministische Turingmaschinen und NP Yves Radunz Inhaltsverzeichnis 1 Wiederholung 3 1.1 Allgemeines........................................
Data Mining. Informationssysteme, Sommersemester 2017
Data Mining Informationssysteme, Sommersemester 2017 Literatur zu Data-Mining Pang-Ning Tan, Michael Steinbach, Vipin Kuma. Introduction to Data Minig. Ein paar relevante Kapitel sind frei verfügbar unter
23. Daten-Analyse. Datenwarenhäuser. Grundlagen des OLAP (On-Line Analytical Processing)
23. Daten-Analyse Datenwarenhäuser Grundlagen des OLAP (On-Line Analytical Processing) Data Mining: Klassifikation, Assoziationsregeln, Sequenzanalyse Datenmodelle, Datenbanksprachen und Datenbankmanagement-Systeme,
Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items
Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig
XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten
- XQuery Teil 2 - Datamining auf XML Dokumenten Seminarvortrag von Dominik Westhues [email protected] 21.11.2005 Überblick XQuery & Datamining Verknüpfungsregeln Apriori Algorithmus Verknüpfungsregel
5. Äquivalenzrelationen
5. Äquivalenzrelationen 35 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will, so kann es sinnvoll sein, zunächst kleinere, einfachere Mengen (bzw. Gruppen)
Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus
FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der
Mengen und Abbildungen
1 Mengen und bbildungen sind Hilfsmittel ( Sprache ) zur Formulierung von Sachverhalten; naive Vorstellung gemäß Georg Cantor (1845-1918) (Begründer der Mengenlehre). Definition 1.1 Eine Menge M ist eine
2. Datenvorverarbeitung
Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy
3. Relationen Erläuterungen und Schreibweisen
3. Relationen Eine Relation ist allgemein eine Beziehung, die zwischen Dingen bestehen kann. Relationen im Sinne der Mathematik sind ausschließlich diejenigen Beziehungen, bei denen stets klar ist, ob
Definition der Greibach-Normalform
Definition der Greibach-Normalform Ähnlich wie die CNF wollen wir noch eine zweite Normalform einführen, nämlich die Greibach-Normalform (GNF), benannt nach Sheila Greibach: Definition: Eine Typ-2 Grammatik
Aufgabe Gegeben sind die folgenden aussagenlogischen Formeln F, G, H über den Variablen u, w, y, z:
Aufgabe 1.1 8 (a) Zeichnen Sie einen einfachen Graphen mit der Gradsequenz (1, 2, 2, 2, 3, 4). (b) Ist jeder einfache Graph mit der Gradsequenz (1, 2, 2, 2, 3, 4) zusammenhängend? (c) Hat jeder einfache
Aufgabe Gegeben sind die folgenden aussagenlogischen Formeln F, G, H über den Variablen s, u, w, y:
Aufgabe 3.1 8 (a) Zeichnen Sie einen einfachen Graphen mit der Gradsequenz (2, 3, 3, 3, 3, 4). (b) Ist jeder einfache Graph mit der Gradsequenz (2, 3, 3, 3, 3, 4) zusammenhängend? (c) Hat jeder einfache
Aufgabe Gegeben sind die folgenden aussagenlogischen Formeln F, G, H über den Variablen s, p, w, y:
Aufgabe 2.1 8 (a) Zeichnen Sie einen einfachen Graphen mit der Gradsequenz (1, 1, 2, 2, 4, 4). (b) Ist jeder einfache Graph mit der Gradsequenz (1, 1, 2, 2, 4, 4) zusammenhängend? (c) Hat jeder einfache
Theoretische Grundlagen der Informatik
Theoretische Grundlagen der Informatik Vorlesung am 17. Januar 2012 INSTITUT FÜR THEORETISCHE 0 KIT 18.01.2012 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der
Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive
Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive Grammatik G mit L(G) = L(G ). Beweis im Beispiel (2.): G = (V,Σ, P, S) : P = {S asbc, S abc, CB BC, ab ab, bb bb, bc bc, cc cc}. (i) G
Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II Data Mining & Knowledge Discovery Was ist Data Mining? Sabine Queckbörner Was ist Data Mining? Data Mining Was ist Data Mining? Nach welchen Mustern wird gesucht?
Dieses Kapitel vermittelt:
2 Funktionen Lernziele Dieses Kapitel vermittelt: wie die Abhängigkeit quantitativer Größen mit Funktionen beschrieben wird die erforderlichen Grundkenntnisse elementarer Funktionen grundlegende Eigenschaften
Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.
Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer
Matthias Pretzer [email protected] http://diko-project.de/ Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Inhalt: Motivation Grundlagen Anwendungsszenario
R. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 17.3.21 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
Algorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
Aufgaben zur Klausurvorbereitung
Vorlesung Graphen und Optimierung Sommersemester 2013/14 Prof. S. Lange Aufgaben zur Klausurvorbereitung Hier finden Sie eine Reihe von Übungsaufgaben, die wir an den beiden Vorlesungsterminen am 29.01.2014
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln
Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln Praktikum: Data Warehousing und Data Mining Clusteranalyse Clusteranalyse Idee Bestimmung von Gruppen ähnlicher Tupel in multidimensionalen Datensätzen.
Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme
10 Matching-Probleme 10.1 Definition von Matching-Probleme Definition 21 [2-dimensionales Matching] Sei G = (V, E) ein ungerichteter Graph und E E. E ist ein Matching, wenn für alle Kantenpaare e 1, e
5. Äquivalenzrelationen
36 Andreas Gathmann 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will so kann es sinnvoll sein zunächst kleinere einfachere Mengen (bzw. Gruppen) zu betrachten
KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B
KAPITEL 5 Boolesche Polynome Polynome über R, d.h. reelle Funktionen der Form p(x) = a 0 + a 1 x + + a n x n, x R, sind schon aus der Schulmathematik bekannt. Wir beschäftigen uns nun mit Booleschen Polynomen,
Mathematik. Juni 2015 AHS. Kompensationsprüfung 13 Angabe für Kandidatinnen/Kandidaten
Name: Datum: Klasse: Kompensationsprüfung zur standardisierten kompetenzorientierten schriftlichen Reifeprüfung AHS Juni 2015 Mathematik Kompensationsprüfung 13 Angabe für Kandidatinnen/Kandidaten Hinweise
Clustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
ID3 und Apriori im Vergleich
ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument
R. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 24.2.214 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
2. Klausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2017/2018
2. Klausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2017/2018 Hier Aufkleber mit Name und Matrikelnummer anbringen Vorname: Nachname: Matrikelnummer: Beachten Sie: Bringen Sie
Funktionen. x : Variable von f oder Argument f x : Funktionswert, Wert der Funktion f an der Stelle x D f. : Definitionsmenge(Urbildmenge)
Funktionen Eine Funktion oder Abbildung ist eine Beziehung zwischen zwei nicht leere Mengen D f und Z, die jedem Element x aus einer Menge D f genau ein Element y aus anderer Menge Z zuordnet. f : D f
Lösung 10 Punkte Teil a) Auch bei Fortsetzung der Folge der Quadratzahlen liefert die zweite Differenzenfolge
0 Mathematik-Olympiade Stufe (Schulstufe) Klasse 9 0 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden ev wwwmathematik-olympiadende Alle Rechte vorbehalten 00 Lösung 0 Punkte Teil a) Auch bei
Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung
2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0
Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
Kapitel 8: Bipartite Graphen Gliederung der Vorlesung
Gliederung der Vorlesung 1. Grundbegriffe. Elementare Graphalgorithmen und Anwendungen 3. Kürzeste Wege 4. Minimale spannende Bäume 5. Färbungen und Cliquen 6. Traveling Salesman Problem 7. Flüsse in Netzwerken
Greedy Algorithms - Gierige Algorithmen
Greedy Algorithms - Gierige Algorithmen Marius Burfey 23. Juni 2009 Inhaltsverzeichnis 1 Greedy Algorithms 1 2 Interval Scheduling - Ablaufplanung 2 2.1 Problembeschreibung....................... 2 2.2
Teil 2: Dynamische Spiele mit vollständigen Informationen
Teil : Dynamische Spiele mit vollständigen Informationen Kapitel 5: Grundsätzliches Literatur: Tadelis Chapter 7 Prof. Dr. Philipp Weinschenk, Lehrstuhl für Mikroökonomik, TU Kaiserslautern Kapitel 5.:
Berechnung von Abständen
3. Kreis- und Wegeprobleme Abstände in Graphen Abstände in Graphen Definition 3.4. Es sei G = (V, E) ein Graph. Der Abstand d(v, w) zweier Knoten v, w V ist die minimale Länge eines Weges von v nach w.
