Knowledge Discovery in Databases
Springer-V erlag Berlin Heidelberg GmbH
Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer
Dr. Martin Ester Dr. J6rg Sander Ludwig-Maximilians-Universitiit Institut fur Informatik OettingenstraBe 67 80538 Munchen {ester, sander }@dbs.informatik.uni-muenchen.de http://www.dbs.informatik.uni-muenchen.de/-ester / Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ester, Martin: Knowledge discovery in databases: Techniken und Anwendungen / Martin Ester; Jorg Sander. - Berlin; Heidelberg; New York; Barcelona; Hongkong; London; Mailand; Paris; Singapur; Tokio: Springer, 2000 ISBN 978-3-540-67328-6 ISBN 978-3-642-58331-5 (ebook) DOI 10.1007/978-3-642-58331-5 Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfâ.ltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer-Verlag Berlin Heidelberg 2000 Urspriinglich erschienen bei Springer-Verlag Berlin Heidelberg New York 2000 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dafi solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden diirften. Umschlaggestaltung: Kiinkel + Lopka, Heidelberg Satz: Belichtungsfertige Daten von den Autoren Gedruckt auf saurefreiem Papier - SPIN: 10765301 33/3142 GF- 54321 O
Vorwort Kommerzielle Gerate und wissenschaftliche Instrumente liefem taglich immer gro Bere Mengen von immer komplexeren Daten, die Hingst nicht mehr manuell analysiert werden konnen. Ziel des Knowledge Discovery in Databases ist deshalb die (semi-)automatische Extraktion von giiltigem, aber bisher unbekanntem und potentiell ntitzlichem Wissen aus groben Datenbanken. Dieses Buch richtet sich einerseits an Studenten der Informatik und verwandter Facher, andererseits an Praktiker mit guten Informatikgrundlagen, die sich in das neue Gebiet des Knowledge Discovery in Databases einarbeiten wollen. Die zentralen Aufgaben des Knowledge Discovery in Databases werden in jeweils eigenen Kapiteln behandelt. Dort werden die wichtigsten Algorithmen mit den zugrundeliegenden Konzepten sowie einige typische Anwendungen vorgestellt. Jedes Kapitel diskutiert Kriterien, die bei der Auswahl eines geeigneten Algorithmus fur eine gegebene Anwendung helfen sollen. Damit wird der Leser in die Lage versetzt, Vorund Nachteile der verschiedenen Methoden einzuschatzen und fur eigene Anwendungen Algorithmen auszuwahlen, einzusetzen bzw. selbst zu entwickeln. Das Buch ist aus unserer Vorlesung "Knowledge Discovery in Databases" am Institut fur Informatik der Ludwig-Maximilians-Universitat entstanden. Markus Breunig hat die Ubungen zu dieser Lehrveranstaltung konzipiert und viele wertvolle Kommentare und Verbesserungsvorschlage zum Skript beigetragen. Auch den Horem unserer Vorlesung verdanken wir zahlreiche Korrekturen und Klarstellungen. Die andere Quelle dieses Buches sind unsere eigenen Forschungsprojekte an der Lehr- und Forschungseinheit von Professor Hans-Peter Kriegel, dem wir fur die ausgesprochen inspirierende Umgebung und seine langjahrige personliche Untersttitzung danken mochten. Unsere Kollegen, insbesondere Mihael Ankerst und Markus Breunig, haben im Laufe der Jahre mit vielen intensiven Diskussionen und praktischen Projekten zu unserem Verstandnis des Knowledge Discovery in Databases entscheidend beigetragen. Besonders verdient gemacht urn dieses Buch haben sich Matthias GroB, der mit grobem Engagement Korrektur gelesen und am Stil gefeilt hat, und Susanne Grienberger, die uns vor allem bei der aufwendigen Erstellung der vielen Abbildungen untersttitzt hat. Zum SchluB mochten wir Hermann Engesser und Gabriele Fischer yom Springer-Verlag fur die gute Kooperation bei der Planung und Realisierung dieses Buches danken. Viel Freude und Gewinn beim Lesen! Mtinchen, im Juli 2000 Martin Ester und Jorg Sander Vorwort V
Inhaltsverzeichnis Einleitung 1 1.1 Grundbegriffe des Knowledge Discovery in Databases 1 1.2 Typische KDD-Anwendungen 6 1.3 Inhalt und Aufbau dieses Buches l0 1.4 Literatur 12 Grundlagen 15 2.1 Datenbanksysteme 15 2.2 Statistik 29 2.3 Literatur 44 Clustering 45 3.1 Einleitung.45 3.2 Partitionierende Verfahren 51 3.3 Hierarchische Verfahren 76 3.4 Datenbanktechniken zur Leistungssteigerung 85 3.5 Besondere Anforderungen und Verfahren 97 3.6 Zusammenfassung 103 3.7 Literatur 103 Klassifikation 107 4.1 Einleitung 108 4.2 Bayes-Klassifikatoren 111 4.3 Nachste-Nachbarn-Klassifikatoren 119 4.4 Entscheidungsbaum-Klassifikatoren 126 Inhaltsverzeichnis VII
4.5 Skalierung fur grobe Datenbanken 138 4.6 Zusammenfassung 156 4.7 Literatur 157 Assoziationsregeln 159 5.1 Einleitung 159 5.2 Einfache Assoziationsregeln: Der Apriori-Algorithmus 160 5.3 Hierarchische Assoziationsregeln beztiglich Item-Taxonomien 169 5.4 Quantitative Assoziationsregeln 178 5.5 Zusammenfassung 186 5.6 Literatur 187 Generalisierung 189 6.1 Einleitung 190 6.2 Data Cubes 192 6.3 Effiziente Anfragebearbeitung in Data Cubes 197 6.4 Attributorientierte Induktion 206 6.5 Inkrementelle attributorientierte Induktion 215 6.6 Zusammenfassung 219 6.7 Literatur 220 Besondere Datentypen und Anwendungen 223 7.1 Temporal Data Mining 223 7.2 Spatial Data Mining 234 7.3 Text- und Web-Mining 245 7.4 Literatur 261 Andere Paradigmen 263 8.1 Induktive Logik-Programmierung 263 8.2 Genetische Algorithmen 265 8.3 Neuronale Netze 266 8.4 Selbstorganisierende Karten (Kohonen Maps) 271 8.5 Literatur 273 Index 275 VIII Inhaltsverzeichnis