Kapitel 1: Einleitung

Transkript

1 Ludwig-Maximilians-Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases im Wintersemester 2010/2011 Kapitel 1: Einleitung Vorlesung+Übungen: PD Dr. Peer Kröger, Dr. Arthur Zimek Skript 2003 Johannes Aßfalg, Christian Böhm, Karsten Borgwardt, Martin Ester, Eshref Januzaj, Karin Kailing, Peer Kröger, Jörg Sander, Matthias Schubert, Arthur Zimek Knowledge Discovery in Databases I: Einführung 1 Organisatorisches Aktuelles Vorlesung: Donnerstag, Uhr (Raum 002 Schellingstr.) Übung: Freitag, Uhr (Raum M 001 Hauptgebäude) Freitag, Uhr (Raum M 001 Hauptgebäude) Anmeldung für die Klausur auf der Homepage unter Klausur: Der Stoff der Klausur wird in der Vorlesung und in den Übungen besprochen. (Das Skript ist lediglich eine Lernhilfe) Knowledge Discovery in Databases I: Einführung 2

2 Motivation Digitalkameras Kreditkarten Scanner-Kassen Astronomie Telefongesellschaft WWW Riesige Datenmengen werden in Datenbanken gesammelt Analysen können nicht mehr manuell durchgeführt werden Knowledge Discovery in Databases I: Einführung 3 Von den Daten zum Wissen Daten Methode Wissen Verbindungsd. Rechnungserst. Outlier Detection Betrug Transaktionen Abrechnung Klassifikation Kreditwürdigkeit Transaktionen Lagerhaltung Assoziationsregeln Gemeinsam gekaufte Produkte Bilddaten Kataloge Klassifikation Klasse eines Sterns Knowledge Discovery in Databases I: Einführung 4

3 Definition KDD [Fayyad, Piatetsky-Shapiro & Smyth 1996] Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig bisher unbekannt und potentiell nützlich ist. Bemerkungen: (semi-) i automatisch: im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. gültig: im statistischen ti ti Sinn. bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen. potentiell nützlich: für eine gegebene Anwendung. Knowledge Discovery in Databases I: Einführung 5 Teilbereiche KDD Statistik modellbasierte Inferenzen Schwerpunkt auf numerischen Daten KDD Machine Learning Such-/Optimierungsverfahren Schwerpunkt auf symbolischen Daten [Berthold & Hand 1999] [Mitchell 1997] Datenbanksysteme Skalierbarkeit für große Datenmengen Neue Datentypen (Webdaten, Micro-Arrays,...) Integration mit kommerziellen Datenbanksystemen [Chen, Han & Yu 1996] Knowledge Discovery in Databases I: Einführung 6

4 Das KDD-Prozessmodell Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth Fokussieren Vorverarbeitung Transformation Data Mining Evaluation Dt Datenbank Muster Wissen er Daten aten le/db) anter Da eren: ffung de tung (Fil on releva okussie Beschaf Verwalt Selektio Fo B V S aus llen ng: n Daten a hen Quel ung fung rbeitun tion von hiedlich ständigu enzprüf Vorverar Integrat untersch Vervolls Konsist male Merkm. n g numeri i- e er Merkm anter M ransfor rmation Tr D isierung Merkmale ng neue on releva Diskreti scher M Ableitun Selektio A S D ata Mi ining Generie erung de er Muste er bzw. Mo odelle santer he Interess Benutze atistisch odelle ion ung der ch den B rung: Sta g der Mo valuati Ev B Bewertu heit dur Validier Prüfung Knowledge Discovery in Databases I: Einführung 7 Data Mining Aufgaben Die wichtigsten Data-Mining-Techniken: Supervised: z.b. Klassifikation, Regression, Outlier Detection Ein Ergebnis-Merkmal soll aufgrund von Vorwissen gelernt/geschätzt werden. Das Vorwissen steht typischerweise als Trainingsdaten bereit. Unsupervised: z.b. Clustering, Outlier Detection, Assoziationsregeln Die Datenmenge soll ohne weiteres Vorwissen in Gruppen unterteilt werden. Die Gruppen haben je nach Aufgabe unterschiedliche Charakteristika. Die meisten Verfahren arbeiten auf sog. Merkmalsvektoren. Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren, sondern z.b. auf Texten, Mengen, Graphen arbeiten. Knowledge Discovery in Databases I: Einführung 8

5 Clustering Höhe [cm m] Cluster 2: Nägel Cluster 1: Klammern Breite [cm] Clustering heißt: Zerlegung einer Menge von Objekten (bzw. Feature- Vektoren) in Teilmengen (Cluster) ähnlicher Objekte Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von Objekten; bei unbek. Anzahl und Bedeutung der Klassen Knowledge Discovery in Databases I: Einführung 9 Anwendung: Thematische Karten Aufnahme der Erdoberfläche in 5 verschiedenen Spektren in Band 2 Wert Pixel (x 1,y 1 ) Pixel (x 2,y 2 ) Wert in Band 1 Cluster-Analyse Wert in Band 2 Wert tin Band 1 Rücktransformation in xy-koordinaten Farbcodierung nach Cluster-Zugehörigkeit Knowledge Discovery in Databases I: Einführung 10

6 Outlier Detection Datenfehler? Betrug? Outlier Dt Detectionti bd bedeutet: tt Ermittlung von untypischen Daten Idee: Outlier könnten hindeuten auf Missbrauch etwa bei Kreditkarten Telekommunikation Datenfehler Knowledge Discovery in Databases I: Einführung 11 Anwendung Analyse der SAT.1-Ran-Fußball-Datenbank (Saison 1998/99) 375 Spieler Primäre Attribute: Name, Einsätze, Tore, Spielposition (Torwart, Abwehr, Mittelfeld, Sturm), Abgeleitetes Attribut: Tore pro Spiel Outlier Analyse auf (Spielposition, Einsätze, Tore pro Spiel) Ergebnis: Top 5 Outliers Rang Name Einsätze Tore Position Erklärung 1 Michael Preetz Sturm Torschützenkönig 2 Michael Schjönberg 15 6 Abwehr Abwehrspieler mit den meisten Toren 3 Hans-Jörg Butt 34 7 Torwart Torwart mit den meisten Toren 4 Ulf Kirsten Sturm 2. Torschützenkönig 5 Giovanne Elber Sturm Hohe Tore-pro-Spiel Quote Knowledge Discovery in Databases I: Einführung 12

7 Klassifikation Schrauben Nägel Klammern Trainingsdaten Neue Objekte Aufgabe: Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue Objekte nur aufgrund der Merkmale zu klassifizieren Das Ergebnismerkmal l(klassenvariable) )ist nominal l(kategorisch) Knowledge Discovery in Databases I: Einführung 13 Anwendung: Neugeborenen-Screening Blutprobe des Massenspektrometrie Metabolitenspektrum Neugeborenen 14 analysierte Aminosäuren: alanine phenylalanine arginine pyroglutamate argininosuccinate serine citrulline tyrosine Datenbank glutamate valine glycine leucine+isoleucine methionine ornitine Knowledge Discovery in Databases I: Einführung 14

8 Anwendung: Neugeborenen-Screening Ergebnis: Neuer diagnostischer Test Glutamin als bisher unbekannter Marker Knowledge Discovery in Databases I: Einführung 15 Anwendung: Gewebeklassifikation CBV Schwarz: Ventrikel + Hintergrund Blau: Gewebe 1 Grün: Gewebe 2 Rot: Gewebe 3 Dunkelrot: Große Gefäße TTP Blau Grün Rot TTP (s) CBV (ml/100g) RV RV CBF (ml/100g/min) RV Ergebnis: Klassifikation a cerebralen Gewebes anhand a funktioneller Parameter mittels dynamic CT möglich. Knowledge Discovery in Databases I: Einführung 16

9 Regression 0 Grad der Erkrankung 5 Neue Objekte Af Aufgabe: Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt bzw. geschätzt twerden soll, ist metrisch ti Knowledge Discovery in Databases I: Einführung 17 Anwendung: Precision Farming Bodenparameter Wetter Düngemittel Ertrag Wasserkapazität 2D Ertrags- kurve Düngemittel Erstellen einer Ertragskurve, die von mehreren Parametern wie Bodenbeschaffenheit, Wetter und Düngemittelausbringung abhängt. Erst eine geeignete Anpassung der Düngemittelausbringung kann eine ertragsoptimale Nutzung in Abhängigkeit von Umweltfaktoren bewirken. Das Thema ist auch wegen der Umweltbelastung durch Überdüngung wichtig. Knowledge Discovery in Databases I: Einführung 18

10 Assoziationsregeln a,b,c,d,e b,c,d a,b,c,d In 5 von 7 (ca. 71 %) a,b,c,d,e der Fälle kommt b,c,d a,c,e,f zusammen vor. dcef d,c,e,f a,b,c,d,f In 5 von 5 Fällen (100 %) gilt: Wenn b,c in der Menge, dann ist auch d in der Menge. Aufgabe: Finde alle Regeln in einer Datenbank von diskreten Mengen der folgenden Art: Wenn a, b, c in der Menge M enthalten sind, dann ist auch t mit einer Wh Wahrscheinlichkeit hi lihki vom >X %i in der Menge enthalten. Knowledge Discovery in Databases I: Einführung 19 Anwendung: Warenkorbanalyse evtl. Verallgemeinerung: Paprika-Chips Knabbereien Anreichern mit Kundendaten Ergebnis: Warenkorb = Menge der gleichzeitig bezahlten Waren Data Warehouse Assoziationsregeln Häufig zusammen gekaufte Artikel können im Supermarkt besser zueinander positioniert werden: Windeln werden häufig mit Bierkästen zusammen gekauft => Positioniere Bier auf dem Weg von Windeln zur Kasse Generiere Empfehlungen für Kunden mit ähnlichen Warenkörbe: Kunden die Krieg der Sterne I-VI gekauft haben, sind vielleicht auch an Herr der Ringe I-III interessiert. Knowledge Discovery in Databases I: Einführung 20

11 Überblick über die Vorlesung (Momentaner Stand der Planung) 1. Einleitung 6. Outlier Detection 2. Merkmalsräume 7. Assoziationsregeln 3. Klassifikation 8. Data Warehousing und Generalisierung 4. Regression 9. High-Performance Data Mining 5. Clustering 10. Ausblick Knowledge Discovery in Databases I: Einführung 21 Literatur Lehrbuch zur Vorlesung (deutsch): Ester M., Sander J. Knowledge Discovery in Databases: Techniken und Anwendungen Springer Verlag, September 2000 Weitere Bücher (englisch): Han J., Kamber M. Data Mining: Concepts and Techniques Morgan Kaufmann Publishers, March 2006 Tan P.-N., Steinbach M., Kumar V. Introduction to Data Mining Addison-Wesley, 2006 Mitchell T. M. Machine Learning McGraw-Hill, 1997 Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques 2. Auflage. Morgan Kaufmann Publishers, 2005 Knowledge Discovery in Databases I: Einführung 22