Kapitel 1: Einleitung

Ähnliche Dokumente
Kapitel 4: Data Mining

Kapitel 1: Einleitung

Kapitel 1: Einleitung

Klausur: Der Stoff der Klausur wird in der Vorlesung und in den Übungen besprochen.

Kapitel 1: Einleitung

Kapitel 1: Einleitung

Kapitel 1: Einleitung

Knowledge Discovery in Databases

Knowledge Discovery in Databases

Kapitel 4: Data Mining

Überblick. 4.1 Einleitung 42Cl 4.2 Clustering 4.3 Klassifikation. 4.4 Outlier Detection

Neuronale Netze. Christian Böhm.

Knowledge Discovery in Databases Dr. Andreas Hotho FG Wissensverarbeitung FB Mathematik/Informatik

Knowledge Discovery in Databases

Hauptseminar Data Mining im Wintersemester 2008 / 2009

Hauptseminar KDD SS 2002

Knowledge Discovery in Databases II Winter Semester 2013/2014. Kapitel 1: Einleitung und Überblick

Kapitel 7: Assoziationsregeln

Kapitel 2: Preprocessing, Merkmalsräume

GEO-INFORMATIONSSYSTEME

Kapitel 2: Preprocessing, Merkmalsräume

Kapitel 12: Objekt-relationale Erweiterungen

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Clustering 2010/06/11 Sebastian Koch 1

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

Skript zur Vorlesung. Knowledge Discovery in Databases. im Wintersemester 2009/2010. Assoziationsregeln

Kapitel 4: Data Mining

Whisky-Empfehlungen. Whisky-Empfehlungen - Joachim Schole

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

GEO-INFORMATIONSSYSTEME

Data Mining im Einzelhandel Methoden und Werkzeuge

Business Intelligence & Machine Learning

Kapitel 7: Assoziationsregeln

Maschinelles Lernen und Data Mining

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Inhaltliche Planung für die Vorlesung

Einführung in das Maschinelle Lernen I

Ähnlichkeits- und Distanzmaße

Einführung. Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2008

Kapitel 8: Assoziationsregeln

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Kapitel 8: Assoziationsregeln

Bild-Erkennung & -Interpretation

Teil VIII. Weiterführende Veranstaltungen im FG Wissensverarbeitung

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

DOAG BI Data-Mining in sozialen Online-Netzwerken

Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz

Mustererkennung und Klassifikation

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

VII Unüberwachte Data-Mining-Verfahren

Entscheidungen bei der Durchführung einer Cluster-Analyse

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Was sind»daten«? Prof. Dr. Hagen Knaf Studiengang Angewandte Mathematik WS 2015/16

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer

1. Referenzpunkt Transformation

Selbstständiges Lernen

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Case-Based Reasoning und anderen Inferenzmechanismen

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Instanzenbasiertes Lernen: Übersicht

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Frequent Itemset Mining + Association Rule Mining

Mathematische Grundlagen III

Informationssysteme. Prof. Dr. Hans Czap. Lehrstuhl für Wirtschaftsinformatik I. Lehrstuhl für Wirtschaftsinformatik I - II - 1 -

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Klassifikation und Ähnlichkeitssuche

Data Mining auf Datenströmen Andreas M. Weiner

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung

Kapitel ML: X (Fortsetzung)

Karl Entacher. FH-Salzburg

Vorlesung Statistisches Lernen

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Support Vector Machines, Kernels

Strukturerkennende Verfahren

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Einführung in die Programmierung

WEKA A Machine Learning Interface for Data Mining

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Evolutionäre Algorithmen Einführung

Kapitel 9 Kombination von Vektor- und Rasterdaten

Deep Learning Prof. Dr. E. Rahm und Mitarbeiter

Projekt-INF Folie 1

Klassifikation von Textabschnitten

Was bisher geschah. Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch

Transkript:

Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2003/2004 Kapitel 1: Einleitung Vorlesung: Christian Böhm Übungen: Karin Kailing und Peer Kröger Skript 2003 Christian Böhm, Martin Ester, Eshref Januzaj, Karin Kailing, Peer Kröger, Jörg Sander und Matthias Schubert http://www.dbs.informatik.uni-muenchen.de/lehre/kdd 1 Vorlesungs-Team Peer Kröger Oettingenstr. 67, Zimmer E 1.08 Tel. 089/2180-9327 Sprechstunde: Mi, 10 00-11 00 Karin Kailing Oettingenstr. 67, Zimmer E 1.06 Tel. 089/2180-9325 Sprechstunde: Fr, 10 00-11 00 Christian Böhm Oettingenstr. 67, Zimmer 1.58 Tel. 089/2180-9194 Sprechstunde: Do, 11 00-12 00 2

Motivation Kreditkarten Scanner-Kassen Telefongesellschaft Astronomie Riesige Datenmengen werden in Datenbanken gesammelt Analysen können nicht mehr manuell durchgeführt werden 3 Von den Daten zum Wissen Daten Methode Wissen Verbindungsd. Rechnungserst. Outlier Detection Betrug Transaktionen Abrechnung Klassifikation Kreditwürdigkeit Transaktionen Lagerhaltung Assoziationsregeln Gemeinsam gekaufte Produkte Bilddaten Kataloge Klassifikation Klasse eines Sterns 4

Definition KDD [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung. 5 Teilbereiche KDD Statistik modellbasierte Inferenzen Schwerpunkt auf numerischen Daten KDD Datenbanksysteme Machine Learning Suchverfahren Schwerpunkt auf symbolischen Daten [Berthold & Hand 1999] [Mitchell 1997] Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays,...) Integration mit kommerziellen Datenbanksystemen [Chen, Han & Yu 1996] 6

Das KDD-Prozessmodell Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth Fokussieren Vorverarbeitung Transformation Data Mining Evaluation Datenbank Muster Wissen Fokussieren: Beschaffung der Daten Verwaltung (File/DB) Selektion relevanter Daten Vorverarbeitung: Integration von Daten aus unterschiedlichen Quellen Vervollständigung Konsistenzprüfung Transformation Diskretisierung numerischer Merkmale Ableitung neuer Merkmale Selektion relevanter Merkm. Data Mining Generierung der Muster bzw. Modelle Evaluation Bewertung der Interessantheit durch den Benutzer Validierung: Statistische Prüfung der Modelle 7 Merkmale ( Features ) von Objekten Oft sind die betrachteten Objekte komplex Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale (Features) zu definieren bzw. auszuwählen, die für die Unterscheidung (Klassifikation, Ähnlichkeit) der Objekte relevant sind. Beispiel: CAD-Zeichnungen: ax 2 +bx+c Mögliche Merkmale: Höhe h Breite w Kurvatur-Parameter (a,b,c) 8

Merkmals-Vektoren Objekt-Raum Merkmals-Raum w h ax 2 +bx+c (h, w, a, b, c) c h a b w Im Kontext von statistischen Betrachtungen werden die Merkmale häufig auch als Variablen bezeichnet Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature Vector) zusammengefasst Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.) 9 Weitere Beispiele für Merkmale Bilddatenbanken: Farbhistogramme Gen-Datenbanken: Expressionslevel Häufigk Farbe Text-Datenbanken: Begriffs-Häufigkeiten Data 25 Mining 15 Feature 12 Object 7... Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten verschiedenster Anwendungsklassen 10

Ähnlichkeit von Objekten Spezifiziere Anfrage-Objekt und suche ähnliche Objekte Range-Query (Radius ) suche die k ähnlichsten Objekte Nearest Neighbor 11 Ähnlichkeit von Objekten Euklidische Norm (L 1 ): 1 = ((p 1 q 1 ) 2 +(p 2 q 2 ) 2 +...) 1/2 Manhattan-Norm (L 2 ): 2 = p 1 q 1 + p 2 q 2 +... Maximums-Norm (L ): = max{ p 1 q 1, p 2 q 2,...} p q p q p q Natürlichstes Distanzmaß Die Unähnlichkeiten der einzelnen Merkmale werden direkt addiert Die Unähnlichkeit des am wenigsten ähnlichen Merkmals zählt Verallgemeinerung L p -Abstandsmaß: p = ( p 1 q 1 p + p 2 q 2 p +...) 1/p 12

Anpassbare Ähnlichkeitsmaße Gewichtete Euklidische Norm: = (w 1 (p 1 q 1 ) 2 + w 2 (p 2 q 2 ) 2 +...) 1/2 Quadratische Form: = ((p q)m (p q) T ) 1/2 p q p q Häufig sind die Wertebereiche der Merkmale deutlich unterschiedlich. Beispiel: Merkmal M 1 [0.01.. 0.05] Merkmal M 2 [3.1.. 22.2] Damit M 1 überhaupt berücksichtigt wird, muss es höher gewichtet werden Bei den bisherigen Ähnlichkeitsmaßen wird jedes Merkmal nur mit sich selbst verglichen (p 1 nur mit q 1 usw.) Besonders bei Farbhistogrammen müssen auch verschiedene Merkmale verglichen werden, z.b. p Hellblau mit q Dunkelblau Statt mit Distanzmaßen, die die Unähnlichkeit zweier Objekte messen, arbeitet man manchmal auch mit positiven Ähnlichkeitsmaßen 13 Skalen-Niveaus von Merkmalen Nominal (kategorisch) Charakteristik: Nur feststellbar, ob der Wert gleich oder verschieden ist. Keine Richtung (besser, schlechter) und kein Abstand. Merkmale mit nur zwei Werten nennt man dichotom Beispiele: Geschlecht (dichotom) Augenfarbe Gesund/krank (dichotom) Ordinal Charakteristik: Es existiert eine Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand Beispiele: Schulnote (metrisch?) Güteklasse Altersklasse Metrisch Charakteristik: Sowohl Differenzen als auch Verhältnisse zwischen den Werten sind aussagekräftig. Die Werte können diskret oder stetig sein. Beispiele: Gewicht (stetig) Verkaufszahl (diskret) Alter (stetig oder diskret) 14

Data Mining Aufgaben Wichtigste Data-Mining-Verfahren auf Merkmals-Vektoren: Clustering Outlier Detection Klassifikation Regression Unsupervised Learning Supervised Learning Supervised: Ein Ergebnis-Merkmal soll gelernt/geschätzt werden Unsupervised: Die Datenmenge soll lediglich in Gruppen unterteilt werden Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.b. auf Texten, Mengen, Graphen arbeiten. 15 Clustering Cluster 1: Klammern Cluster 2: Nägel Clustering heisst: Zerlegung einer Menge von Objekten (bzw. Feature-Vektoren) so in Teilmengen (Cluster), dass die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen 16

Anwendung: Thematische Karten Aufnahme der Erdoberfläche in 5 verschiedenen Spektren Wert in Band 2 Pixel (x 1,y 1 ) Pixel (x 2,y 2 ) Wert in Band 1 Cluster-Analyse Wert in Band 2 Wert in Band 1 Rücktransformation in xy-koordinaten Farbcodierung nach Cluster-Zugehörigkeit 17 Anwendung: Gewebeklassifikation CBV Schwarz: Ventrikel + Hintergrund Blau: Gewebe 1 Grün: Gewebe 2 Rot: Gewebe 3 Dunkelrot: Große Gefäße TTP Blau Grün Rot TTP 20.5 18.5 16.5 (s) CBV 3.0 3.1 3.6 (ml/100g) RV CBF 18 21 28 (ml/100g/min) RV 30 23 21 Ergebnis: Klassifikation cerebralen Gewebes anhand funktioneller Parameter mittels dynamic CT möglich. 18

Outlier Detection Datenfehler? Betrug? Outlier Detection bedeutet: Ermittlung von untypischen Daten Anwendungen: Entdeckung von Missbrauch etwa bei Kreditkarten Telekommunikation Datenfehler 19 Klassifikation Schrauben Nägel Klammern Trainingsdaten Neue Objekte Aufgabe: Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch) 20

Anwendung: Neugeborenen-Screening Blutprobe des Neugeborenen Massenspektrometrie Metabolitenspektrum 14 analysierte Aminosäuren: alanine phenylalanine arginine pyroglutamate argininosuccinate serine citrulline tyrosine glutamate valine glycine leuzine+isoleuzine methionine ornitine Datenbank 21 Anwendung: Neugeborenen-Screening 2000 1800 1600 PKU subgroup 1 Phenylalanine 1400 1200 1000 800 600 PKU subgroup 2 Ergebnis: Neuer diagnostischer Test Glutamin als bisher unbekannter Marker 400 200 0 0 1000 2000 3000 4000 5000 6000 7000 8000 Glutamine 22

Regression 0 Grad der Erkrankung 5 Neue Objekte Aufgabe: Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt bzw. geschätzt werden soll, ist metrisch 23 Überblick über die Vorlesung 1 Einleitung 2 Grundlagen Datenbanksysteme Statistik 3 Clustering und Outlier Hierarchische Verfahren Partitionierende Verf. Subspace Clustering Correlation Clustering 4 Klassifikation Bayes-Klassifikation Nächste-Nachbarn Support Vector Machines 5 Assoziationsregeln A Priori Algorithmus Taxonomien 6 Besondere Anwendungen Temporales Data Mining Verteiltes/paralleles DM Text-Mining Web-Mining Molekularbiologie 7 Andere Paradigmen Neuronale Netze Genetische Algorithmen Induktive Logik 24

Literatur Lehrbuch zur Vorlesung (deutsch): Ester M., Sander J. Knowledge Discovery in Databases: Techniken und Anwendungen ISBN: 3540673288, Springer Verlag, September 2000, 39,95 Weitere Bücher (englisch): Berthold M., Hand D. J. (eds.) Intelligent Data Analysis: An Introduction ISBN: 3540430601, Springer Verlag, Heidelberg, 1999, 63,24 Han J., Kamber M. Data Mining: Concepts and Techniques ISBN: 1558604898, Morgan Kaufmann Publishers, August 2000, 54,30 Mitchell T. M. Machine Learning ISBN: 0071154671, McGraw-Hill, 1997, 61,30 Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations ISBN: 1558605525, Morgan Kaufmann Publishers, 2000, 50,93 25