Knowledge Discovery in Databases

Ähnliche Dokumente
Paul-Gerhard Kanis. Praxistips ffir die Karriere

Walter Schmidt. Wie fuhre ich richtig?

Informatiker in der Wirtschaft

Springer-Verlag Berlin Heidelberg GmbH

Dietrich [uhl Technische Dokumentation

CRM erfolgreich einführen

Niere und Blutgerinnung

Verkaufserfolg bei professionellen Kunden

Storungen der Motilitat des oberen Gastrointestinaltraldes

Vortrage Reden Erinnerungen

Virtuelle Unternehmen

Konzept Nachhaltigkeit

MARKUS GASTPAR WERNER HEINZ THOMAS POEHLKE PETER RASCHKE. Glossar: Substitutionstherapie bei Drogenabhängigkeit

Westhoff Terlinden -Arzt. Entscheidungsorientierte psychologische Gutachten für das Familiengericht

Ralf-Stefan Lossack Wissenschaftstheoretische Grundlagen für die rechnerunterstützte Konstruktion

MedR. Schriftenreihe Medizinrecht

Java für Fortgeschrittene

Schriftenreihe der Juristischen Fakultat der Europa-Universitat Viadrina Frankfurt (Oder)

Springer-Verlag Berlin Heidelberg GmbH

ALBERT EINSTEIN. Grundzüge der Relativitätstheorie

Kundenorientierte Dienstleistungsentwicklung in deutschen Unternehmen

Neue Naturschutzkonzepte für Mensch und Umwelt Biosphärenreservate in Deutschland

Die Behandlung psychischer Erkrankungen in Deutschland

G. Mödder Erkrankungen der Schilddrüse

Aufgaben. Technische Mechanik 1-3. Statik, Elastostatik, Kinetik. Springer-V erlag Berlin Heidelberg GmbH. W. Hauger H. Lippmann V.

Albert Thiele. Die Kunst zu überzeugen

K. Peter/R. Putz (Hrsg.) Klinische Untersuchung und Diagnostik Band 1 E. Hoffmann/G. Steinbeck Kursleitfaden Kardiovaskulares System

W6rterbuch und Lexikon der Hydrogeologie

Monographien der Breuninger-Stiftung Stuttgart. Herausgegeben von Horst Kachele

Arbeitsbuch zur Volkswirtschaftslehre 1

Gerhard Girmscheid Leistungsermittlung für Baumaschinen und Bauprozesse

Depressionen verstehen und bewaltigen

Albert Thiele. Die Kunst zu überzeugen

Übungsbuch Makroökonomik

J. SCHERER Angststörungen nach ICD-10. K. KUHN Manual zu Diagnostik und Therapie

Übungsbuch zur Linearen Algebra und analytischen Geometrie

Das Geheimnis (-- des kürzesten Weges. Springer-Verlag Berlin Heidelberg GmbH

J. SCHÖPF Angstkrankheiten und ihre Therapie "W W"""" ""

Psychotherapie und Psychosomatik

Vermögenseinlagen stiller Gesellschafter, Genußrechtskapital und nachrangige Verbindlichkeiten als haftendes Eigenkapital von Kreditinstituten

Die wichtigsten Diagnosen in der Nuklearmedizin

Die Rechenmaschinen von Konrad Zuse

Usability-Engineering in der Medizintechnik

Recht schnell erfasst

Relationship Marketing

Aufgaben zu Technische Mechanik 1 3

Arbeitsbuch Statistik

Praxis der Brustoperationen

Nichtmedikamentose Therapie kardiovaskularer Risikofaktoren

Das Geheimnis des kürzesten Weges

G. Prede D. Scholz. Elektropneumatik FESTD

Gero Vogl. Wandern ohne Ziel. Von der Atomdiffusion zur Ausbreitung von Lebewesen und Ideen

Erstellung eines Prototyps zum sicheren und gesteuerten Zugriff auf Dateien und Dokumente auf Basis von Lotus Domino und Notes

Bibliografische Information der Deutschen Nationalbibliothek:

Flugtriebwerke. Alfred Urlaub. Grundlagen, Systeme, Komponenten

Massenentlassungen, Betriebsstilllegungen, Unternehmensinsolvenzen

Einführung in das Management von Geschäftsprozessen

Die gesetzliche Unfallversicherung - von der Behörde zum modernen Dienstleistungsunternehmen

X.systems.press ist eine praxisorientierte Reihe zur Entwicklung und Administration von Betriebssystemen, Netzwerken und Datenbanken.

Bachelorarbeit. Grundlagen im Dienstleistungsunternehmen. Mit Qualitätsmanagement und Kundenorientierung zum Erfolg. Tobias Müller

Markus Schäfer. Menschenrechte und die Europäische Union. Geschichte und Gegenwart der Menschenrechte in Europa. Diplomica Verlag

M. Lüngen K. Lauterbach Ergebnisorientierte Vergütung bei DRG

Mikroskopische Diagnostik pflanzlicher Nahrungs-, Genußund Futtermitte~ einschließlich Gewürze

c. SCHMID I J. D. SCHMITTO I H. H. SCHELD Herztransplantation in Deutschland

Spätes Bietverhalten bei ebay-auktionen

Rekrutierung von Hochschulabsolventen. über professionelles Personalmarketing

Informatik. Christian Kuhn. Web 2.0. Auswirkungen auf internetbasierte Geschäftsmodelle. Diplomarbeit

Bibliografische Information der Deutschen Nationalbibliothek:

PANIK. Angstanfälle und ihre Behandlung. J. Margraf S. Schneider. Springer-Verlag Berlin Heidelberg GmbH

Usability Analyse des Internetauftritts der Firma MAFI Transport-Systeme GmbH

Wie funktioniert MRI?

Roman Teschner. Glasfasern

Sport. Silke Hubrig. Afrikanischer Tanz. Zu den Möglichkeiten und Grenzen in der deutschen Tanzpädagogik. Examensarbeit

Selektive Re-uptake-Hemmung und ihre Bedeutung für die Depression

U. Walkenhorst. H. Burchert (Hrsg.) Management in der Ergotherapie

Kapitalbedarfs- und Liquiditätsplanung bei einer Existenzgründung

MedR Schriftenreihe Medizinrecht

Weichteilsarkome. P. M. Schlag K. Winkler (Hrsg.) Diagnostik und aktuelle Therapiestrategien

Principal-Agent-Problematik im E-Recruitment

Projektmanagement und interkulturelle Kommunikation

SPD als lernende Organisation

Gudrun Höhne. Unternehmensführung in Europa. Ein Vergleich zwischen Deutschland, Großbritannien und Frankreich. Diplomica Verlag

DOI /

Transkript:

Knowledge Discovery in Databases

Springer-V erlag Berlin Heidelberg GmbH

Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Mit 150 Abbildungen i Springer

Dr. Martin Ester Dr. J6rg Sander Ludwig-Maximilians-Universitiit Institut fur Informatik OettingenstraBe 67 80538 Munchen {ester, sander }@dbs.informatik.uni-muenchen.de http://www.dbs.informatik.uni-muenchen.de/-ester / Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ester, Martin: Knowledge discovery in databases: Techniken und Anwendungen / Martin Ester; Jorg Sander. - Berlin; Heidelberg; New York; Barcelona; Hongkong; London; Mailand; Paris; Singapur; Tokio: Springer, 2000 ISBN 978-3-540-67328-6 ISBN 978-3-642-58331-5 (ebook) DOI 10.1007/978-3-642-58331-5 Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfâ.ltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer-Verlag Berlin Heidelberg 2000 Urspriinglich erschienen bei Springer-Verlag Berlin Heidelberg New York 2000 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dafi solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden diirften. Umschlaggestaltung: Kiinkel + Lopka, Heidelberg Satz: Belichtungsfertige Daten von den Autoren Gedruckt auf saurefreiem Papier - SPIN: 10765301 33/3142 GF- 54321 O

Vorwort Kommerzielle Gerate und wissenschaftliche Instrumente liefem taglich immer gro Bere Mengen von immer komplexeren Daten, die Hingst nicht mehr manuell analysiert werden konnen. Ziel des Knowledge Discovery in Databases ist deshalb die (semi-)automatische Extraktion von giiltigem, aber bisher unbekanntem und potentiell ntitzlichem Wissen aus groben Datenbanken. Dieses Buch richtet sich einerseits an Studenten der Informatik und verwandter Facher, andererseits an Praktiker mit guten Informatikgrundlagen, die sich in das neue Gebiet des Knowledge Discovery in Databases einarbeiten wollen. Die zentralen Aufgaben des Knowledge Discovery in Databases werden in jeweils eigenen Kapiteln behandelt. Dort werden die wichtigsten Algorithmen mit den zugrundeliegenden Konzepten sowie einige typische Anwendungen vorgestellt. Jedes Kapitel diskutiert Kriterien, die bei der Auswahl eines geeigneten Algorithmus fur eine gegebene Anwendung helfen sollen. Damit wird der Leser in die Lage versetzt, Vorund Nachteile der verschiedenen Methoden einzuschatzen und fur eigene Anwendungen Algorithmen auszuwahlen, einzusetzen bzw. selbst zu entwickeln. Das Buch ist aus unserer Vorlesung "Knowledge Discovery in Databases" am Institut fur Informatik der Ludwig-Maximilians-Universitat entstanden. Markus Breunig hat die Ubungen zu dieser Lehrveranstaltung konzipiert und viele wertvolle Kommentare und Verbesserungsvorschlage zum Skript beigetragen. Auch den Horem unserer Vorlesung verdanken wir zahlreiche Korrekturen und Klarstellungen. Die andere Quelle dieses Buches sind unsere eigenen Forschungsprojekte an der Lehr- und Forschungseinheit von Professor Hans-Peter Kriegel, dem wir fur die ausgesprochen inspirierende Umgebung und seine langjahrige personliche Untersttitzung danken mochten. Unsere Kollegen, insbesondere Mihael Ankerst und Markus Breunig, haben im Laufe der Jahre mit vielen intensiven Diskussionen und praktischen Projekten zu unserem Verstandnis des Knowledge Discovery in Databases entscheidend beigetragen. Besonders verdient gemacht urn dieses Buch haben sich Matthias GroB, der mit grobem Engagement Korrektur gelesen und am Stil gefeilt hat, und Susanne Grienberger, die uns vor allem bei der aufwendigen Erstellung der vielen Abbildungen untersttitzt hat. Zum SchluB mochten wir Hermann Engesser und Gabriele Fischer yom Springer-Verlag fur die gute Kooperation bei der Planung und Realisierung dieses Buches danken. Viel Freude und Gewinn beim Lesen! Mtinchen, im Juli 2000 Martin Ester und Jorg Sander Vorwort V

Inhaltsverzeichnis Einleitung 1 1.1 Grundbegriffe des Knowledge Discovery in Databases 1 1.2 Typische KDD-Anwendungen 6 1.3 Inhalt und Aufbau dieses Buches l0 1.4 Literatur 12 Grundlagen 15 2.1 Datenbanksysteme 15 2.2 Statistik 29 2.3 Literatur 44 Clustering 45 3.1 Einleitung.45 3.2 Partitionierende Verfahren 51 3.3 Hierarchische Verfahren 76 3.4 Datenbanktechniken zur Leistungssteigerung 85 3.5 Besondere Anforderungen und Verfahren 97 3.6 Zusammenfassung 103 3.7 Literatur 103 Klassifikation 107 4.1 Einleitung 108 4.2 Bayes-Klassifikatoren 111 4.3 Nachste-Nachbarn-Klassifikatoren 119 4.4 Entscheidungsbaum-Klassifikatoren 126 Inhaltsverzeichnis VII

4.5 Skalierung fur grobe Datenbanken 138 4.6 Zusammenfassung 156 4.7 Literatur 157 Assoziationsregeln 159 5.1 Einleitung 159 5.2 Einfache Assoziationsregeln: Der Apriori-Algorithmus 160 5.3 Hierarchische Assoziationsregeln beztiglich Item-Taxonomien 169 5.4 Quantitative Assoziationsregeln 178 5.5 Zusammenfassung 186 5.6 Literatur 187 Generalisierung 189 6.1 Einleitung 190 6.2 Data Cubes 192 6.3 Effiziente Anfragebearbeitung in Data Cubes 197 6.4 Attributorientierte Induktion 206 6.5 Inkrementelle attributorientierte Induktion 215 6.6 Zusammenfassung 219 6.7 Literatur 220 Besondere Datentypen und Anwendungen 223 7.1 Temporal Data Mining 223 7.2 Spatial Data Mining 234 7.3 Text- und Web-Mining 245 7.4 Literatur 261 Andere Paradigmen 263 8.1 Induktive Logik-Programmierung 263 8.2 Genetische Algorithmen 265 8.3 Neuronale Netze 266 8.4 Selbstorganisierende Karten (Kohonen Maps) 271 8.5 Literatur 273 Index 275 VIII Inhaltsverzeichnis