INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

Größe: px
Ab Seite anzeigen:

Download "INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen"

Transkript

1 INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen

2 Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate Generation. C. Zhang, S. Zhang: Association Rule Mining.

3 Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten.

4 Unüberwachtes Lernen Arten von Modellen & Lernproblemen Clustern von Instanzen: Finden und deterministische bzw. probabilistische Zuweisung zu Bereichen mit vielen Datenpunkten (Cluster). Clustern von Attributen: Häufig zusammen auftretende (ähnliche bzw. korrelierte) Attribute finden. Clustern von Instanzen & Attributen (Co-Clustern): Gleichzeitiges Clustern von Instanzen und Attributen. Outlier Detection: Suche nach seltenen/auffälligen Datenpunkten. 4

5 Clustern von Attributen Problemstellung m Gegeben: Menge von n Trainingsdaten xi X mit m m n Attributen (Datenmatrix X X mit Spaltenvektoren x i ). Gesucht: Numerische Attribute: Cluster von ähnlichen, assoziierten oder redundanten Attributen analog zu Clustern von Instanzen (transponierte Datenmatrix segmentieren). Diskrete Attribute: Finden von Frequent Itemsets, d.h. häufig auftretender Muster bspw. für Kompression, Visualisierung etc. Lernen von Assoziationsregeln der Form wenn die Attribute,, die Werte a, b, c annehmen, dann haben die Attribute 4, 5 die Werte d, e. 5

6 Clustern von Attributen Anwendung Warenkorbanalyse. z.b. für Katalog-Design, Cross-/Up-Selling, Empfehlungssysteme, Produktanordnung in Supermärkten usw. Analyse des Surfverhaltens von Internetnutzern. z.b. zur Optimierung der Navigation auf einer Webseite. Gruppierung von Dokumenten. z.b. für -Batch-Erkennung, Plagiat-Erkennung. 6

7 Lernen von Assoziationsregeln Gesucht sind Assoziationsregeln der Form wenn die Attribute p i der Menge P { p,..., ps} {,..., m} bestimmte Werte y i annehmen, dann haben die Attribute q j der Menge Q { q,..., q } {,..., m}, P Q die Werte y. j Definition: Boolesche Funktion Definition: Assoziationsregel t wahr xp y g( x, p, y) falsch xp y g( x, p, y ) g( x, p, y ) g( x, q, y) g( x, q, y) s s t t 7

8 Lernen von Assoziationsregeln Beispiel Beispiel Warenkorbanalyse: Welche Produkte werden (nicht) zusammen gekauft? Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja Mögliche boolesche Fragen: Kaufte Kunde Milch? Kaufte Kunde keine Eier? Mögliche Assoziationsregeln: Wer Milch kauft, kauft auch Müsli: Wer Bier und Eier kauft, kauft kein Brot: g( x,bier, ja) g( x,eier, ja) g( x,brot,nein) g( x,milch, ja) wahr g( x,eier,nein) falsch g( x,milch, ja) g( x,müsli, ja) 8

9 Lernen von Assoziationsregeln Dateneigenschaften Wertebereich der Attribute: Binäre/boolesche, nominale oder ordinale Attribute. Numerische Attribute: müssen zuvor diskretisiert werden. Bedeutung der Attribute: Verschiedene Attribute/Belegungen unterschiedlich wichtig. z.b. Wer Computer kauft, kauft auch Computer-Zubehör ist evtl. informativer als Wer einen Dell-PC kauft, kauft auch eine Maus. z.b. Wer Milch kauft, kauft auch Müsli ist evtl. informativer als Wer Milch kauft, kauft kein Bier. Redundanz, d.h. Ähnlichkeit/Korrelation zwischen Attributen führt zu semantisch gleichen (redundanten) Regeln. 9

10 Lernen von Assoziationsregeln Bewertung von Assoziationsregeln Es gibt exponentiell viele mögliche Assoziationsregeln. Assoziationsregeln unterschiedlich stark durch Daten gestützt, d.h. unterschiedlich wahrscheinlich. Betrachten Ereignisse: A g( x, p, y ) g( x, p, y ) B g( x, q, y) g( x, q, y) Frage: Wie wahrscheinlich ist eine Assoziationsregel gegeben die Daten? P( A B X) P( A B X) P( A X) P( A, B X) Aus PA ( X ) 0 folgt jedoch P( A B X). t s t s A B 0

11 Lernen von Assoziationsregeln Bewertung von Assoziationsregeln Betrachten daher zwei Kriterien: Rückhalt (support), d.h. wie häufig treten die Ereignisse A und B gemeinsam ein: supp( A B) P( A, B X) Vertrauen (confidence), d.h. wie oft tritt B ein wenn A eingetreten ist: conf( A B) P( B A, X) P( A, B X) P( A X) Assoziationsregel A B ist stark mit Mindest-Support s min und Mindest-Konfidenz c min falls: supp( A B) s und min conf ( A B) cmin

12 Lernen von Assoziationsregeln Beispiel (Fortsetzung) Beispiel für s min = 40% und c min = 60%: Wer Milch kauft, kauft auch Müsli: supp P( g( x,milch, ja), g( x,müsli, ja)) conf P( g( x,müsli, ja) g( x,milch, ja)) Starke Assoziationsregel 4 g( x,milch, ja) g( x,müsli, ja) Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja Wer Bier und Eier kauft, kauft kein Brot: supp P( g( x,bier, ja), g( x,eier, ja), g( x,brot,nein)) conf P( g( x,brot,nein) g( x,bier, ja), g( x,eier, ja)) 4 Schwache Assoziationsregel g( x,bier, ja) g( x,eier, ja) g( x,brot,nein)

13 Lernen von Assoziationsregeln Lösungsansatz Frequent-Itemset-Suche: Finde zunächst alle Mengen mit Mindest-Support, d.h. P( g( x, p, y),, g( x, ph, yh)) smin. Regel-Extraktion: Für jede dieser Mengen I, bilde alle nicht-leeren Teilmengen D I und prüfe ob erfüllt ist; falls ja, ist I { g( x, p, y ),, g( x, p, y )} PI () conf ( D I \ D) c PD ( ) D I \ D h h min starke Assoziationsregel.

14 Frequent-Itemset-Suche Für eine gegebene Menge gelten folgende Aussagen: Der Support von I ist größer oder gleich dem Mindest- Support, d.h. supp( I) P( g( x, p, y ),, g( x, p, y )) s. Ereignisse x gemeinsam beobachtet. g(, p, y ),, g( x, p, y ) Menge I bildet ein Frequent Itemset. I { g( x, p, y ),, g( x, p, y )} wurden in den Daten häufig Jede Teilmenge von I bildet ein Frequent Itemset. h h h min h h h 4

15 Frequent-Itemset-Suche A-Priori-Eigenschaft: Jede Teilmenge eines Frequent Itemsets ist ein Frequent Itemset. Beispiel: Wenn Milch & Müsli oft gekauft wird, wird auch Milch oft gekauft bzw. wird auch Müsli oft gekauft. Folge: Frequent Itemset mit k + Elementen besteht aus Vereinigung zweier k-elementiger Frequent Itemsets (mit k gleichen Elementen). Beginnend mit -elementigen Frequent Itemsets lassen sich so beliebig große Frequent Itemsets finden (Apriori- Algorithmus). 5

16 Frequent-Itemset-Suche Apriori-Algorithmus Algorithmus: Apriori(Datenmatrix X, Mindest-Support s min ) Setze k = 0, C {{ g( x, i, yi)} i m, yi Yi} DO WHILE RETURN k = k + L, k Ck FOR IC k IF supp( I) s Ck min THEN FOR J L k IF I J k THEN Ck Ck { I J} L L {} I k k L L k C k sind alle Kandidaten für Frequent Itemsets der Größe k L k sind alle Frequent Itemsets der Größe k I und J sind Frequent Itemsets der Größe k mit k gleichen Elementen 6

17 Elementarereignisse (Items) Frequent-Itemset-Suche Apriori-Algorithmus: Beispiel Betrachten beispielhaft nur positive Items und s min = 50%: C L C Itemset Support Itemset Support Itemset Support {} b { m} {} e {} r {} s L {{ m},{ e},{ r},{ s}} { m} {} e {} r {} s 4 4 { me, } { mr, } 4 { er, } 4 { ms, } { es, } { rs, } 0 Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja b g( x, Brot, ja) b g( x, Brot, nein) m g( x, Milch, ja) m g( x, Milch, nein) e g( x, Eier, ja) e g( x, Eier, nein) r g( x, Bier, ja) r g( x, Bier, nein) s g( x, Müsli, ja) s g( x, Müsli, nein) 7

18 Elementarereignisse (Items) Frequent-Itemset-Suche Apriori-Algorithmus: Beispiel Betrachten beispielhaft nur positive Items und s min = 50%: C Itemset Support { me, } { mr, } 4 { er, } 4 { ms, } { es, } { rs, } 0 L {{ m},{ e},{ r},{ s}} L {{ m, e},{ m, s},{ e, s}} L C Itemset Support { me, } { ms, } { es, } Itemset Support { m, e, s} Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja b g( x, Brot, ja) b g( x, Brot, nein) m g( x, Milch, ja) m g( x, Milch, nein) e g( x, Eier, ja) e g( x, Eier, nein) r g( x, Bier, ja) r g( x, Bier, nein) s g( x, Müsli, ja) s g( x, Müsli, nein) 8

19 Elementarereignisse (Items) Frequent-Itemset-Suche Apriori-Algorithmus: Beispiel Betrachten beispielhaft nur positive Items und s min = 50%: C Itemset Support L C4 Itemset Support { m, e, s} { m, e, s} L {{ m},{ e},{ r},{ s}} L {{ m, e},{ m, s},{ e, s}} L {{ m, e, s}} Itemset Support Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja b g( x, Brot, ja) b g( x, Brot, nein) m g( x, Milch, ja) m g( x, Milch, nein) e g( x, Eier, ja) e g( x, Eier, nein) r g( x, Bier, ja) r g( x, Bier, nein) s g( x, Müsli, ja) s g( x, Müsli, nein) 9

20 Frequent-Itemset-Suche Apriori-Algorithmus: Implementierung Mengenoperationen: Verwendung von Hashs bzw. Hash-Bäumen. Berechnung des Supports: Ignoriere Items die nicht Element eines Frequent Itemset der Größe k sind bei Berechnungen für Itemsets der Größe >k. Partitionierung der Daten: Frequent Itemset bzgl. aller Daten muss Frequent Itemset mindestens einer Partition sein. Berechne Frequent Itemsets aller Partitionen und prüfe welche davon auch Frequent Itemsets bzgl. aller Daten sind. 0

21 Frequent-Itemset-Suche Apriori-Algorithmus: Bewertung Vorteile: Effektiv und relativ einfach zu implementieren. Nachteile: Sehr viele Kandidaten (hohe Laufzeit/Speicherverbrauch). 0 4 elementare Frequent Itemsets erzeugen 0 7 zwei-elementige Kandidaten. Suche nach Frequent Itemset der Größe 00 erfordert mindestens Kandidaten. Viele Iterationen über die Daten. Frequent Itemset der Größe k erfordert k + Iterationen.

22 Frequent-Itemset-Suche FP-Growth-Algorithmus Idee: Daten als Frequent-Pattern-Baum darstellen und daraus Frequent Itemsets extrahieren. Aufbau des FP-Baums: Speichert nur Informationen welche zum Finden von Frequent Itemsets notwendig sind (Sufficient Statistics). Benötigt lediglich Iterationen über die Daten. Extraktion der Frequent Itemsets: Divide & Conquer-Ansatz, d.h. Reduktion des Suchproblems in viele kleine Optimierungsprobleme. Vermeidung aufwendiger Kandidaten-Generierung.

23 Elementarereignisse (Items) Frequent-Itemset-Suche FP-Growth-Algorithmus: Aufbau des FP-Baums Bestimmung aller Elementarereignisse (Items) und Sortierung nach ihrer Häufigkeit. Kunde Brot Milch Eier Bier Müsli nein ja ja nein ja ja ja nein ja nein nein nein ja ja nein 4 nein ja ja nein ja Kunde Häufigkeit Entferne alle Attribute mit zu kleinem Support. b g( x, Brot, ja) b g( x, Brot, nein) m g( x, Milch, ja) m g( x, Milch, nein) e g( x, Eier, ja) e g( x, Eier, nein) r g( x, Bier, ja) r g( x, Bier, nein) s g( x, Müsli, ja) s g( x, Müsli, nein)

24 Frequent-Itemset-Suche FP-Growth-Algorithmus: Aufbau des FP-Baums Betrachten beispielhaft nur positive Items. Konstruktion des Präfix-Baums der Instanzen: Kunde m e r s b Nicht berücksichtigt bei Konstruktion des FP-Baums da zu kleiner Support 4

25 Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Alle Frequent Itemsets, welche g k enthalten und g k+,, g m nicht enthalten, sind Teilmengen eines Pfades von der Wurzel zu einem Knoten g k. Idee: Rekursiv alle Frequent Itemsets extrahieren. 5

26 Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Algorithmus: Für alle Knoten (Items) g k, betrachte Teilbaum mit allen Pfaden von der Wurzel zu einem Knoten (Item) g k. Berechne Support der Items für diesen Teilbaum. Falls g k ein Frequent Item ist: Erzeuge FP-Baum mit allen Frequent Items g p (p < k) des Teilbaumes und bestimme davon rekursiv alle Frequent Itemsets I,, I z. Rückgabe aller Frequent Itemsets { g }, I { g },..., I { g }. Sonst, Rückgabe der leeren Menge. k k z k 6

27 Beispiel für n = 5, s min = 40%: Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Teilbaum für g 6 :

28 Beispiel für n = 5, s min = 40%: Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Teilbaum für g 6 : Frequent Items des Teilbaumes

29 Beispiel für n = 5, s min = 40%: Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Teilbaum für g 6 : FP-Baum des Teilbaumes

30 Frequent-Itemset-Suche FP-Growth-Algorithmus: Extraktion der Frequent Itemsets Beispiel für n = 5, s min = 40%: Teilbaum für g 6 : Rekursion bzgl. g 6 ergibt: { g } { g },{ g, g } { g },{ g, g },{ g, g },{ g, g, g } { g },{ g, g },{ g, g },{ g, g, g },{ g, g },{ g, g, g },{ g, g, g },{ g, g, g, g } { g },{ g, g },{ g, g },{ g, g, g },{ g, g },{ g, g, g },{ g, g, g },{ g, g, g, g },

31 Frequent-Itemset-Suche FP-Growth-Algorithmus: Bewertung Vorteile: FP-Growth ist deutlich schneller als Apriori. Keine Kandidaten-Generierung. Iterationen über kompakte Datenstruktur (FP-Baum) statt über alle Daten. Nachteile: Höherer Implementierungsaufwand. Innerhalb der Rekursion werden viele gleiche Bäume erzeugt; viele redundante Berechnungen.

32 Zusammenfassung Ziel: Identifikation ähnlicher bzw. korrelierter Attribute. Assoziationsregeln, Frequent Itemsets, Sequenzmuster. Frequent-Itemset-Suche mit Kandidaten-Generierung (z.b. Apriori-Algorithmus): Idee: Teilmenge eines Frequent Itemsets ist wieder ein Frequent Itemset Konstruktion großer Itemsets aus kleinen. Frequent-Itemset-Suche ohne Kandidaten-Generierung (z.b. FP-Growth-Algorithmus): Idee: Konstruktion eines Präfix-Baumes Finden von Frequent Itemsets durch rekursives Traversieren und Restrukturieren des Baumes.

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

5. Assoziationsregeln

5. Assoziationsregeln 5. Generieren von Assoziationsregeln Grundbegriffe 5. Assoziationsregeln Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.b. den Artikeln eines

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:

Mehr

11.1 Grundlagen - Denitionen

11.1 Grundlagen - Denitionen 11 Binärbäume 11.1 Grundlagen - Denitionen Denition: Ein Baum ist eine Menge, die durch eine sog. Nachfolgerrelation strukturiert ist. In einem Baum gilt: (I) (II) 1 Knoten w ohne VATER(w), das ist die

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold

Algorithms for Pattern Mining AprioriTID. Stefan George, Felix Leupold Algorithms for Pattern Mining AprioriTID Stefan George, Felix Leupold Gliederung 2 Einleitung Support / Confidence Apriori ApriorTID Implementierung Performance Erweiterung Zusammenfassung Einleitung 3

Mehr

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus

FernUniversität in Hagen. Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln. Thema 1.1.1 Der Apriori-Algorithmus FernUniversität in Hagen Seminar 01912 Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema 1.1.1 Der Apriori-Algorithmus Referentin: Olga Riener Olga Riener. Thema 1.1.1. Der

Mehr

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.

Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen. PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock. Vom Suchen und Finden individueller Empfehlungen aus großen Objektmengen PD Dr.-Ing. habil. Meike Klettke meike.klettke@uni-rostock.de 1 Informationsflut Amazon: Alle lieferbaren Bücher (930.000 Titeln

Mehr

Data Mining im Einzelhandel Methoden und Werkzeuge

Data Mining im Einzelhandel Methoden und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Professur Technische Informationssysteme Proseminar Technische Informationssysteme Data Mining im Einzelhandel Methoden und Werkzeuge Betreuer: Dipl.-Ing.

Mehr

Management Support Systeme

Management Support Systeme Management Support Systeme WS 24-25 4.-6. Uhr PD Dr. Peter Gluchowski Folie Gliederung MSS WS 4/5. Einführung Management Support Systeme: Informationssysteme zur Unterstützung betrieblicher Fach- und Führungskräfte

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen 5. Zwei spieltheoretische Aspekte Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2015/2016 1 / 36 Überblick

Mehr

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Dynamische Programmierung. Problemlösungsstrategie der Informatik als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Optimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis

Optimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis Optimierungsprobleme Instanz eines Optimierungsproblems zulässiger Bereich (meist implizit definiert) Zielfunktion Optimierungsrichtung opt {max, min} Optimierungsproblem Menge von Instanzen meist implizit

Mehr

VII.3 Assoziationsregeln

VII.3 Assoziationsregeln VII.3 Assoziationsregelverfahren VII.3. Einführung [Bollinger 96] VII.3 Assoziationsregeln Algorithmen zum Entdecken von Assoziationsregeln sind typische Vertreter von Data Mining Verfahren. Assoziationsregeln

Mehr

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen

Vorlesung. Datenschutz und Privatheit in vernetzten Informationssystemen Vorlesung Datenschutz und Privatheit in vernetzten Informationssystemen Kapitel 7: Privacy Preserving Data Mining Thorben Burghardt, Erik Buchmann buchmann@ipd.uka.de Thanks to Chris Clifton & Group IPD,

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Bäume, Suchbäume und Hash-Tabellen

Bäume, Suchbäume und Hash-Tabellen Im folgenden Fokus auf Datenstrukturen, welche den assoziativen Zugriff (über einen bestimmten Wert als Suchkriterium) optimieren Bäume: Abbildung bzw. Vorberechnung von Entscheidungen während der Suche

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Unterscheidung: Workflowsystem vs. Informationssystem

Unterscheidung: Workflowsystem vs. Informationssystem 1. Vorwort 1.1. Gemeinsamkeiten Unterscheidung: Workflowsystem vs. Die Überschneidungsfläche zwischen Workflowsystem und ist die Domäne, also dass es darum geht, Varianten eines Dokuments schrittweise

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Einführung in Heuristische Suche

Einführung in Heuristische Suche Einführung in Heuristische Suche Beispiele 2 Überblick Intelligente Suche Rundenbasierte Spiele 3 Grundlagen Es muss ein Rätsel / Puzzle / Problem gelöst werden Wie kann ein Computer diese Aufgabe lösen?

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Abstrakte Algorithmen und Sprachkonzepte

Abstrakte Algorithmen und Sprachkonzepte Abstrakte Algorithmen und Sprachkonzepte Thomas Röfer Begriff des Algorithmus Algorithmenaufbau Programmiersprachliche Grundkonzepte Interative und rekursive Algorithmen Rückblick Aufbau und Funktionsweise

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

Data Mining zur Entscheidungsunterstützung in der Hydrologie

Data Mining zur Entscheidungsunterstützung in der Hydrologie Data Mining zur Entscheidungsunterstützung in der Hydrologie Thomas Seidl, Ralph Krieger, Ira Assent, Boris Glavic, Heribert Nacken, Sabine Bartusseck, Hani Sewilam Zusammenfassung Zur Umsetzung der europäischen

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik

Teil 2 - Softwaretechnik. Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2. Übersicht. Softwaretechnik Grundlagen der Programmierung 1 Modul: Programmierung B-PRG Grundlagen der Programmierung 1 Teil 2 Softwaretechnik Prof. Dr. O. Drobnik Professur Architektur und Betrieb verteilter Systeme Institut für

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme Studienprojekt Invisible Web (Dipl.-Inform. Gudrun Fischer - WS 2003/04) Blockseminar

Mehr

Grundlagen der Künstlichen Intelligenz

Grundlagen der Künstlichen Intelligenz Grundlagen der Künstlichen Intelligenz 9. Klassische Suche: Baumsuche und Graphensuche Malte Helmert Universität Basel 13. März 2015 Klassische Suche: Überblick Kapitelüberblick klassische Suche: 5. 7.

Mehr

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005 Paradigmen im Algorithmenentwurf Problemlösen Problem definieren Algorithmus entwerfen

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1 3.2 Binäre Suche Beispiel 6.5.1: Intervallschachtelung (oder binäre Suche) (Hier ist n die Anzahl der Elemente im Feld!) Ein Feld A: array (1..n) of Integer sei gegeben. Das Feld sei sortiert, d.h.: A(i)

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r ) Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen

Mehr

Einführung in die Informatik 1

Einführung in die Informatik 1 Einführung in die Informatik 1 Algorithmen und algorithmische Sprachkonzepte Sven Kosub AG Algorithmik/Theorie komplexer Systeme Universität Konstanz E 202 Sven.Kosub@uni-konstanz.de Sprechstunde: Freitag,

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel : Andere dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4.8-4.11: Andere dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.6 AVL-Bäume 4.8 Rot-Schwarz-Bäume Idee: Verwende Farben, um den Baum vertikal zu

Mehr

Uninformierte Suche in Java Informierte Suchverfahren

Uninformierte Suche in Java Informierte Suchverfahren Uninformierte Suche in Java Informierte Suchverfahren Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Suchprobleme bestehen aus Zuständen

Mehr

WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT

WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT WIRTSCHAFTSUNIVERSITÄT WIEN DIPLOMARBEIT Titel der Diplomarbeit: Visualisierung von Assoziationsregeln mit R Verfasserin/Verfasser: Martin Vodenicharov Matrikel-Nr.: 0253795 Studienrichtung: Betriebswirtschaft

Mehr

Algorithmentheorie. 13 - Maximale Flüsse

Algorithmentheorie. 13 - Maximale Flüsse Algorithmentheorie 3 - Maximale Flüsse Prof. Dr. S. Albers Prof. Dr. Th. Ottmann . Maximale Flüsse in Netzwerken 5 3 4 7 s 0 5 9 5 9 4 3 4 5 0 3 5 5 t 8 8 Netzwerke und Flüsse N = (V,E,c) gerichtetes Netzwerk

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Rekursion. Annabelle Klarl. Einführung in die Informatik Programmierung und Softwareentwicklung

Rekursion. Annabelle Klarl. Einführung in die Informatik Programmierung und Softwareentwicklung Annabelle Klarl Zentralübung zur Vorlesung Einführung in die Informatik: http://www.pst.ifi.lmu.de/lehre/wise-13-14/infoeinf WS13/14 Action required now 1. Smartphone: installiere die App "socrative student"

Mehr

Informatik 11 Kapitel 2 - Rekursive Datenstrukturen

Informatik 11 Kapitel 2 - Rekursive Datenstrukturen Fachschaft Informatik Informatik 11 Kapitel 2 - Rekursive Datenstrukturen Michael Steinhuber König-Karlmann-Gymnasium Altötting 15. Januar 2016 Folie 1/77 Inhaltsverzeichnis I 1 Datenstruktur Schlange

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken

Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Diplomarbeit Beschreibung von Web- Nutzungsverhalten unter Verwendung von Data Mining Techniken Irina Alesker Diplomarbeit am Fachbereich Informatik der Universität Dortmund 23. Juni 2005 Betreuer: Prof.

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Customization (Zuschneiden)

Customization (Zuschneiden) Customization (Zuschneiden) Anpassen der (Graph)Datenstruktur an die Anwendung. I Ziel: schnell, kompakt. I benutze Entwurfsprinzip: make the common case fast I Listen vermeiden Mögliches Problem: Software-Engineering-Alptraum

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

13. Binäre Suchbäume

13. Binäre Suchbäume 1. Binäre Suchbäume Binäre Suchbäume realiesieren Wörterbücher. Sie unterstützen die Operationen 1. Einfügen (Insert) 2. Entfernen (Delete). Suchen (Search) 4. Maximum/Minimum-Suche 5. Vorgänger (Predecessor),

Mehr

Datenstruktur, die viele Operationen dynamischer Mengen unterstützt

Datenstruktur, die viele Operationen dynamischer Mengen unterstützt Algorithmen und Datenstrukturen 265 10 Binäre Suchbäume Suchbäume Datenstruktur, die viele Operationen dynamischer Mengen unterstützt Kann als Wörterbuch, aber auch zu mehr eingesetzt werden (Prioritätsschlange)

Mehr

Mining top-k frequent itemsets from data streams

Mining top-k frequent itemsets from data streams Seminar: Maschinelles Lernen Mining top-k frequent itemsets from data streams R.C.-W. Wong A.W.-C. Fu 1 Gliederung 1. Einleitung 2. Chernoff-basierter Algorithmus 3. top-k lossy counting Algorithmus 4.

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Maximale s t-flüsse in Planaren Graphen

Maximale s t-flüsse in Planaren Graphen Maximale s t-flüsse in Planaren Graphen Vorlesung Algorithmen für planare Graphen June 1, 2015 Ignaz Rutter INSTITUT FÜR THEORETISCHE INFORMATIK PROF. DR. DOROTHEA WAGNER KIT Universität des Landes Baden-Württemberg

Mehr

Warenkorbanalyse mit Hilfe der Statistiksoftware R

Warenkorbanalyse mit Hilfe der Statistiksoftware R Warenkorbanalyse mit Hilfe der Statistiksoftware R Michael Hahsler (1), Kurt Hornik (2) & Thomas Reutterer (3) (1) Institut für Informationswirtschaft, WU-Wien. (2) Institut für Statistik und Mathematik,

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr.

Masterarbeit. im Studiengang Informatik. Kombinationen von Data Mining-Verfahren: Analyse und Automatisierung. Ulf Mewe Matrikel.-Nr. LEIBNIZ UNIVERSITÄT HANNOVER FAKULTÄT FÜR ELEKTROTECHNIK UND INFORMATIK INSTITUT FÜR PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Kombinationen

Mehr

8 Diskrete Optimierung

8 Diskrete Optimierung 8 Diskrete Optimierung Definition 8.1. Ein Graph G ist ein Paar (V (G), E(G)) besteh aus einer lichen Menge V (G) von Knoten (oder Ecken) und einer Menge E(G) ( ) V (G) 2 von Kanten. Die Ordnung n(g) von

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume

Effiziente Algorithmen und Datenstrukturen I. Kapitel 9: Minimale Spannbäume Effiziente Algorithmen und Datenstrukturen I Kapitel 9: Minimale Spannbäume Christian Scheideler WS 008 19.0.009 Kapitel 9 1 Minimaler Spannbaum Zentrale Frage: Welche Kanten muss ich nehmen, um mit minimalen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10 Binäre Bäume Bäume gehören zu den wichtigsten Datenstrukturen in der Informatik. Sie repräsentieren z.b. die Struktur eines arithmetischen Terms oder die Struktur eines Buchs. Bäume beschreiben Organisationshierarchien

Mehr

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012 Repetitorium Data Warehousing und Data Mining 11/12 Sebastian Wandelt 13./16. Februar 2012 Inhalt Data Warehousing und Data Mining auf 40 Slides Weder in-, noch exklusiv! Subjektive Zusammenfassung pro

Mehr

Datenstrukturen und Algorithmen

Datenstrukturen und Algorithmen Datenstrukturen und Algorithmen VO 708.031 Bäume robert.legenstein@igi.tugraz.at 1 Inhalt der Vorlesung 1. Motivation, Einführung, Grundlagen 2. Algorithmische Grundprinzipien 3. Sortierverfahren 4. Halden

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Dipl. Inform. Andreas Wilkens aw@awilkens.com Überblick Grundlagen Definitionen Elementare Datenstrukturen Rekursionen Bäume 2 1 Datenstruktur Baum Definition eines Baumes

Mehr

Vorlesung 4 BETWEENNESS CENTRALITY

Vorlesung 4 BETWEENNESS CENTRALITY Vorlesung 4 BETWEENNESS CENTRALITY 101 Aufgabe! Szenario: Sie arbeiten bei einem sozialen Online-Netzwerk. Aus der Netzwerk-Struktur Ihrer Benutzer sollen Sie wichtige Eigenschaften extrahieren. [http://www.fahrschule-vatterodt.de/

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Entwurf von Algorithmen - Kontrollstrukturen

Entwurf von Algorithmen - Kontrollstrukturen Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer

Mehr

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Maschinelles Lernen und Data Mining: Methoden und Anwendungen Maschinelles Lernen und Data Mining: Methoden und Anwendungen Eyke Hüllermeier Knowledge Engineering & Bioinformatics Fachbereich Mathematik und Informatik GFFT-Jahrestagung, Wesel, 17. Januar 2008 Knowledge

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Quantitatives Frequent-Pattern Mining über Datenströmen

Quantitatives Frequent-Pattern Mining über Datenströmen Quantitatives Frequent-Pattern Mining über Datenströmen Daniel Klan, Thomas Rohe Department of Computer Science & Automation TU Ilmenau, Germany {first.last}@tu-ilmenau.de Abstract Das Aufdecken unbekannter

Mehr

Projekt Systementwicklung

Projekt Systementwicklung Projekt Systementwicklung Effiziente Codierung: Laufzeitoptimierung Prof. Dr. Nikolaus Wulff Effiziente Codierung Der Wunsch effizienten Code zu schreiben entstammt mehreren Quellen: Zielplattformen mit

Mehr

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v) Ein Baum T mit Knotengraden 2, dessen Knoten Schlüssel aus einer total geordneten Menge speichern, ist ein binärer Suchbaum (BST), wenn für jeden inneren Knoten v von T die Suchbaumeigenschaft gilt: Der

Mehr

Bäume. 2006 Jiri Spale, Algorithmen und Datenstrukturen - Bäume 1

Bäume. 2006 Jiri Spale, Algorithmen und Datenstrukturen - Bäume 1 Bäume 2006 Jiri Spale, Algorithmen und Datenstrukturen - Bäume 1 Inhalt Grundbegriffe: Baum, Binärbaum Binäre Suchbäume (Definition) Typische Aufgaben Suchaufwand Löschen allgemein, Methode Schlüsseltransfer

Mehr

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder Programmieren in PASCAL Bäume 1 1. Baumstrukturen Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder 1. die leere Struktur oder 2. ein Knoten vom Typ Element

Mehr

DNA-Algorithmus für das Partitionsproblem

DNA-Algorithmus für das Partitionsproblem odul olekulare Algorithmen Projektvortrag DNA-Algorithmus für das Partitionsproblem Lennart Dabelow 06.07.2015 Übersicht Problemstellung DNA-Algorithmus zur Lösung Bewertung des Algorithmus odul: olekulare

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen Was bisher geschah abstrakter Datentyp : Signatur Σ und Axiome Φ z.b. ADT Menge zur Verwaltung (Finden, Einfügen, Entfernen) mehrerer Elemente desselben Typs Spezifikation einer Schnittstelle Konkreter

Mehr

Algorithmen und Datenstrukturen Kapitel 10

Algorithmen und Datenstrukturen Kapitel 10 Algorithmen und Datenstrukturen Kapitel 10 Flüsse Frank Heitmann heitmann@informatik.uni-hamburg.de 6. Januar 2016 Frank Heitmann heitmann@informatik.uni-hamburg.de 1/8 Flüsse Graphen Grundlagen Definition

Mehr

Adaptive Tutorsysteme

Adaptive Tutorsysteme Adaptive Tutorsysteme Definitionen: Adaptierbare Systeme bieten Konfigurationsmöglichkeiten, so dass der Benutzer das System sich an seine Bedürfnisse anpassen kann. Vorteil: Einfach zu implementieren

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

15 Wahrscheinlichkeitsrechnung und Statistik

15 Wahrscheinlichkeitsrechnung und Statistik 5 Wahrscheinlichkeitsrechnung und Statistik Alles, was lediglich wahrscheinlich ist, ist wahrscheinlich falsch. ( Descartes ) Trau keiner Statistik, die du nicht selbst gefälscht hast. ( Churchill zugeschrieben

Mehr