Data Mining und Wissensentdeckung in Datenbanken

Transkript

1 Data Mining und Wissensentdeckung in Datenbanken Stefan Wrobel Das Gebiet des Data Mining bzw. der Wissensentdeckung in Datenbanken beschšftigt sich mit der Extraktion von Wissen aus DatenbestŠnden. Dieser Beitrag gibt einen berblick Ÿber die grundlegenden Aufgabenstellungen, Forschungsfragen und Verfahrensklassen dieses Feldes. ber die Definitionen der Begriffe Data Mining und KDD herrscht derzeit weitgehend Einigkeit. Im wissenschaftlichen Bereich wird die folgende Definition des Begriffs KDD oft zitiert (vgl. Fayyad et al., 1996b): ãwissensentdeckung in Datenbanken ist der nichttriviale Proze der Identifikation gÿltiger, neuer, potentiell nÿtzlicher und schlu endlich verstšndlicher Muster in (gro en) DatenbestŠnden.Ò Data Mining wird dabei als Bezeichnung fÿr den eigentlichen Analyseschritt, in dem Hypothesen gesucht und bewertet werden, verwendet, d.h. Data Mining ist ein Teilschritt des KDD-Prozesses. Im kommerziellen Bereich wird diese Unterscheidung oft nicht getroffen, hier wird der Begriff Data Mining in der Regel als Synonym von bzw. anstatt des (vielleicht zu unhandlich langen) Begriffs ãknowledge Discovery in DatabasesÒ verwendet. In obiger Definition wird der Begriff ãmusterò bewu t allgemein und eher im Sinne von ãwissenò aufgefa t, welches sehr unterschiedliche Formen annehmen kann (beispielsweise Regeln, Assoziationen, Objektgruppierungen, EntscheidungsbŠume, lineare oder nichtlineare PrŠdiktoren, s.u.). Das entdeckte Wissen soll gÿltig sein, d.h. die vorliegenden Daten, oder besser noch, die dahinterliegenden PhŠnomene richtig beschreiben. Neuigkeit, NŸtzlichkeit und VerstŠndlichkeit sind ebenso wichtig, jedoch ungleich schwerer formal zu erfassen. Die verlangte NichttrivialitŠt schlie lich betont den Aspekte der automatischen Suche nach gÿltigen Mustern und grenzt KDD so z.b. gegen simple Datenbankabfragen ab, die zwar auch Wissen produzieren, jedoch keine Entdeckungen im eigentlichen Sinne darstellen. Auch das populšre OLAP (Online Analytical Processing), bei dem Abfragen entlang vorbestimmter Aggregationsdimensionen schnell beantwortet werden kšnnen, wird deshalb gemeinhin nicht als KDD angesehen. Die Betonung des Proze aspektes in der Definition verweist auf die umfassende Sichtweise, die KDD auf den Proze der Datenanalyse hat: es werden alle Schritte von der ersten BeschŠftigung mit einer DomŠne bis hin zur Verwendung der Ergebnisse in Reports oder installierten Softwaresystemen betrachtet (Abbildung 1).

2 Analyseverfahren auswšhlen Anwendung verstehen Ziele festlegen Daten aus Quellsystemen beschaffen und integrieren Voranalyse Visualisieren Analysedatensatz erzeugen: Verfahrensparameter festlegen AnalyselŠufe durchfÿhren Ergebnisse bewerten und sšubern Visualisieren Ergebnisse nutzen: Reports, operationale Systeme Sampling Transformation SŠuberung Abbildung 1: Der KDD-Proze Dieser KDD-Proze verlšuft dynamisch und iterativ: abhšngig von den Ergebnissen erster Analysen werden andere Daten beschafft, oder es kommen andere Vorverarbeitungsschritte oder Analyseverfahren bzw. andere Parametrisierungen zum Einsatz. Auch wenn sich die meisten Arbeiten im Bereich des KDD mit einzelnen Schritten, in der Regel mit dem Data Mining/Analyseschritt befassen, ist doch die Proze sicht und deren UnterstŸtzung von entscheidender Wichtigkeit fÿr den Erfolg einer KDD-Anwendung (siehe z.b. den Projektbericht von Engels et al. in diesem Heft Ÿber BenutzerunterstŸtzung beim KDD-Proze ). Der Proze des Extrahierens von Daten aus verschiedenen operationalen Datenbanksystemen (OLTP-Datenbanken, online transaction processing) und das ZusammenfŸhren und geeignete Speichern dieser Daten fÿr Auswertungszwecke wird auch als Data Warehousing bezeichnet; im kommerziellen Bereich existieren dafÿr speziell optimierte Datenbankserver, die allerdings mehr auf OLAP-Anfragen als auf die Anforderungen von KDD-Verfahren abgestimmt sind. KDD und Nachbargebiete Die Elemente der obigen Definition kšnnen auch verwendet werden, um Gemeinsamkeiten und Unterschiede zu anderen Disziplinen herauszuarbeiten, die sich ebenfalls mit der Analyse von Daten beschšftigen. So unterscheidet die starke Betonung der automatischen rechnergestÿtzten Suche nach mšglichen Hypothesen das KDD von weiten Bereichen der Statistik (siehe z.b. Hartung et al., 1995), wo eher die (natÿrlich auch fÿr KDD relevanten) Fragen im Vordergrund stehen, mit welcher Sicherheit eine bestimmte Hypothese bei gegebenen Daten als gÿltig angesehen werden kann bzw. wie die Parameter eines gegebenen Modells so geschštzt werden kšnnen, da eine mšglichst hohe Genauigkeit oder Modellwahrscheinlichkeit erreicht wird. Allerdings liest sich bereits die Aufgabenstellung der explorativen Datenanalyse (EDA, Tukey, 1977) in der Statistik sehr Šhnlich wie die allgemeine KDD-Aufgabe, und neuere Entwicklungen der Statistik betrachten bereits stšrker die Frage der Modellwahl (vgl. Elder und Pregibon, 1996). Schlie lich kommen einige der populšrsten Analysemethoden des KDD aus der Statistik (s.u.). Ein weiterer Unterschied zwischen Statistik und KDD, der auch das Maschinelle Lernen (ML, siehe z.b. Mitchell, 1997) von KDD unterscheidet, liegt in den Anforderungen an die Skalierbarkeit der Verfahren. Hier betont KDD sehr viel stšrker als die Statistik oder das ML die Notwendigkeit, mit ãgro enò Datenmengen umzugehen. Dabei bezieht sich Grš e sowohl auf die Anzahl der Variablen (Spalten der einzelnen Tabellen), wo einige Hundert bis einige Tausend angestrebt werden, als auch auf die Anzahl der Datenpunkte (Zeilen), wo die Ziele im

3 Millionen bis Milliardenbereich liegen. So ist denn auch der Datenbankbereich eine der wichtigsten zu KDD beitragenden Nachbardisziplinen, denn bei Datenmengen, die nicht mehr im Hauptspeicher gehalten werden kšnnen, mÿssen die Verfahren auf die Mšglichkeiten der Datenbankengine abgestimmt werden bzw. die Datenbanken und ihre Abfragealgorithmen so strukturiert werden, da sie KDD-typische Abfragen gut bearbeiten kšnnen. Sowohl in der Forschung als auch in der Praxis werden allerdings im Moment hauptsšchlich noch hauptspeicherorientierte Verfahren betrachtet, falls notwendig auf ausgewšhlten Teilmengen der Daten (ãsamplingò), so da de facto die Grš e der bearbeiteten DatenbestŠnde momentan ein problematisches Abgrenzungskriterium ist (wie auch die BeitrŠge in diesem Heft zeigen). Schlie lich bleibt als zentrales Merkmal von KDD die Betonung des interaktiven und iterativen Prozesses, bei dem Mensch und Data Mining-Verfahren gemeinsam verstšndliches und interessantes Wissen entdecken. Dies unterscheidet KDD von all den Bereichen zum Beispiel des Maschinellen Lernens oder der Mustererkennung, in denen Analyseverfahren ohne Interaktion mit dem Menschen Modelle erzeugen, bei denen im wesentlichen die Vorhersageoder Beschreibungsgenauigkeit zur Bewertung herangezogen wird, oder wo Lernverfahren genutzt werden, um adaptives Verhalten zu erzeugen. Die interaktive Proze sicht betont auch die QuerbezŸge zum Gebiet der Visualisierung (siehe z.b. Keim und Kriegel, 1995), durch die die menschliche WahrnehmungsfŠhigkeit fÿr KDD ausgenutzt werden kann. KDD-Aufgaben und Verfahren Je nachdem, wie in obiger Definition die Begriffe ãmusterò und ãdatenbestandò interpretiert werden, ergeben sich unterschiedliche KDD-Analyseaufgaben. So ist mit ãdatenbestandò in aller Regel eine Datenbanktabelle gemeint, in der jede Zeile ein Objekt, jede Spalte ein Attribut oder eine (numerische oder kategoriale) Variable darstellt. FŸr diesen klassischen Bereich propositionaler Daten existieren die meisten Analyseverfahren, und auch die verfÿgbaren kommerziellen Data Mining Systeme beschršnken sich im wesentlichen auf die UnterstŸtzung solcher Datenformate. Neuere Entwicklungen in der Induktiven Logikprogrammierung (ILP, siehe z.b. Lavrac und Wrobel, 1996) haben jedoch Verfahren hervorgebracht, die direkt auch mit mehreren Relationen (und komplexen Termen) arbeiten kšnnen; diese Techniken finden im Moment Eingang in erste kommerzielle Systeme. Auch der Bereich nicht oder nicht ausschlie lich relationaler Daten findet im KDD immer stšrker Beachtung. Handelt es sich bei den zu analysierenden Daten um Textdokumente, wird oft von ãtext MiningÒ gesprochen; sollen Bilddatenbanken untersucht werden, wird der Begriff ãimage MiningÒ verwendet. FŸr raumbezogene und geographische Daten ist ãspatial Data MiningÒ Ÿblich (siehe den Beitrag von Ester et al. in diesem Heft), fÿr Wissenssuche im World-Wide- Web naheliegenderweise ãweb MiningÒ (zum Text und Web Mining siehe auch den Diskussionbeitrag von Feldman und Klšsgen in diesem Heft). UnabhŠngig von der Art der zur VerfŸgung stehenden Daten lassen sich KDD/Data Mining Verfahren nach der Art des erzeugten Wissens, also nach der gelšsten Analyseaufgabe einteilen. Abweichungsentdeckungsverfahren suchen innerhalb einer vorgegebenen Objektmenge nach Mustern, die verschiedene Arten statistisch auffšlliger Abweichungen von Subgruppen beschreiben, etwa Subgruppen, die mit Bezug auf vorhergehende DatenbestŠnde besonders auffšllig sind (zeitliche VerŠnderung) oder sich besonders stark von der Populationsgesamtheit unterscheiden. AbhŠngigkeitsentdeckungsverfahren suchen nach statistischen AbhŠngigkeiten zwischen den beschreibenden Variablen, nicht notwendigerweise zu Klassifikations- oder Vorhersagezwecken. Dies kšnnen z.b. Assoziationsregeln sein, die AbhŠngigkeiten zwischen binšren Attributen erfassen, oder Wahrscheinlichkeitsnetze, die die probabilistischen ZusammenhŠnge zwischen Variablen erfassen (siehe den Beitrag von Borgelt et al. in diesem Heft). Clusteringverfahren teilen eine Menge von Objekten in neu gebildete Gruppen auf, oft so, da innerhalb einer Gruppe eine verfahrensspezifische oder benutzerdefinierte hnlichkeitsfunktion zwischen Objekten maximiert und zwischen verschiedenen Gruppen minimiert wird (siehe den Beitrag von Ester et al.).

4 Klassifikations- oder Vorhersageverfahren verarbeiten eine Menge von Objekten (ãbeispielenò), bei denen der gewÿnschte Wert einer Zielfunktion vorgegeben ist (z.b. Zuordnung diskreter Klassenwerte oder kontinuierlicher Vorhersagegrš en) und erlernen daraus eine allgemeine Funktionsbeschreibung, die dann bei neuen Objekten zur Vorhersage des Zielfunktionswertes genutzt werden kann (siehe den Beitrag von Paa und Kindermann, in dem ein Bayessches Vorhersageverfahren beschrieben wird). FŸr jede dieser Aufgaben gibt es wiederum unterschiedliche Verfahrensgruppen, die auf unterschiedlichen Techniken basieren. Beispiele populšrer Techniken fÿr Vorhersage und Klassifikation sind: Entscheidungsbaumverfahren. Diese ursprÿnglich aus der Statistik stammende Verfahrensklasse produziert BŠume, mit denen sich kategorische oder numerische Variablen vorhersagen lassen. Die Baumknoten fragen Attribute ab und verzweigen dann je nach vorgefundenem Wert des Attributs in unterschiedliche TeilbŠume, bis ein Blatt erreicht wird, das eine vorhergesagte Klasse angibt (z.b. C4.5, Quinlan, 1993) oder eine Regressionsfunktion fÿr numerische Werte enthšlt (CART, Breiman et.al, 1984). Da auf jeder Ebene nur ein Attribut abgefragt wird, gelten BŠume bei nicht zu gro em Umfang als relativ leicht verstšndlich. Hier gibt es auch schon datenbankoptimierte Verfahren (z.b. SLIQ, Mehta et al., 1996). Regellernverfahren. Eine der klassischen Verfahrensklassen aus dem maschinellen Lernen, bei der propositionale oder relationale Wenn-Dann-Regeln aus Daten erzeugt und zu Vorhersage und Klassifikation genutzt werden (z.b. CN2, Clark und Niblett, 1989). Auch probabilistische und unscharfe Regeln kšnnen von geeigneten Verfahren produziert werden (siehe z.b. Nauck et al., 1996). FŸr das Entscheidungsbaumverfahren C4.5 existiert ein Nachbearbeitungsmodul, das aus einem Entscheidungsbaum Regeln erzeugt (Quinlan, 1993). Regressionsverfahren sind numerische Vorhersageverfahren aus der Statistik, bei denen mittels eines Optimierungsverfahrens die Parameter einer linearen oder nichtlinearen Funktion bestimmt werden. Unter den nichtlinearen Regressionsverfahren sind die Neuronalen Netze (feedforward Netze mit RŸckpropagation, siehe z.b. Nauck et al., 1996) und die adaptiven Regressions-Splines (z.b. MARS, Friedman, 1989) populšr. Bei diesen Verfahren wird jedoch aus KDD-Sicht oft mangelnde VerstŠndlichkeit kritisiert. Bayes-Verfahren nutzen im wesentlichen das Bayes-Theorem: gegeben die Daten, verwende das Modell bzw. sage die Klasse voraus, welche die grš te a posteriori Wahrscheinlichkeit aufweisen. Diese Verfahren kšnnen theoretisch sehr gut begrÿndet werden und erreichen hervorragende Ergebnisse (siehe den Beitrag von Paa und Kindermann in diesem Heft). FŸr Abweichungs- und AbhŠngigkeitsentdeckung sind populšr: Assoziationsregelverfahren. Diese Verfahren sind vor allem aus der Warenkorbanalyse bekannt, wo AbhŠngigkeiten zwischen dem Kauf verschiedener Waren aufgedeckt werden sollen (ã80% aller KŠufer von Bier und Chips kaufen auch SŸ warenò). Diese Verfahren kšnnen fÿr den Ablauf auf Datenbanken optimiert werden und bieten dann quasi-lineare LaufzeitkomplexitŠt, was sie auch fÿr sehr gro e Probleme attraktiv macht (siehe Agrawal et al., 1996). Subgruppenverfahren. Bei diesen Verfahren gibt der Benutzer ein Abweichungsmuster an, das fÿr die zu betrachtende Population von Interesse, und erhšlt vom Verfahren alle oder ausgewšhlte Subgruppen, bei denen sich das Abweichungsmuster signifikant verifizieren lš t. Bei kategorialen Variablen wird z.b. nach auffšlligen Werteverteilungen gesucht, bei numerischen Attributen werden Durchschnittswerte oder ãmarktanteileò zum Vergleich herangezogen (z.b. EXPLORA, Klšsgen, 1996 und die relationale Variante MIDOS, Wrobel, 1997). Probabilistische Netze modellieren die AbhŠngigkeit zwischen Variablen explizit durch Kanten, die zwei Variablen durch einen Einflu bestimmter StŠrke miteinander verbinden. Dies kann auch zu Vorhersagezwecken genutzt werden (siehe den Beitrag von Borgelt et al. in diesem Heft). KDD-Anwendungen

5 Die klassischen KDD-Anwendungen liegen im geschšftlich-kommerziellen Bereich. Sowohl beim Database Marketing, also der Marketingsteuerung mit Datenbankinformationen, als auch bei der Sortimentsoptimierng und KreditwŸrdigkeitsprŸfung finden sich Anwendungen, zum Beispiel: Kundensegmentierung (Clusterung), um Profile von typischen Kundengruppen zu erhalten, die dann jeweils gemeinsam behandelt werden kšnnen. Antwortvorhersage/Mail scoring. Hier geht es um die Auswahl von Kunden fÿr die direkte Ansprache, z.b. per Brief. Bei begrenztem Budget sollten zunšchst die Kunden angeschrieben werden, bei denen eine positive Antwort am wahrscheinlichsten ist. KŸndigungsanalyse. Ebenfalls ein Vorhersageproblem, bei dem mšgliche KŸndigungsabsichten vorhergesagt werden sollen, um ggf. mit geeigneten Ma nahmen gegensteuern zu kšnnen. KreditwŸrdigkeitsentscheidungen. Soll einem Kunden ein (weiterer) Kredit eingeršumt werden? Warenkorbanalyse. Die klassische Anwendung der Assoziationsregeln. Welche Waren werden zusammen oder nacheinander gekauft? Solche Waren kšnnen geeignet plaziert oder durch Paketangebote verbunden werden. Auch wenn dies die bekanntesten Anwendungen sind, so liegt doch ein ebenso gro es Potential fÿr KDD-Methoden in technisch-wissenschaftlichen Fragestellungen, beispielsweise Proze optimierung (welche ZustŠnde eines technischen Prozesses fÿhren zu besserer, welche zu schlechterer ProduktqualitŠt?) oder chemisch/biologische Klassifikation (wie kann ich aktive von inaktiven MolekŸlen unterscheiden?). Die KDD-Konferenzen der vergangenen Jahre (siehe Serviceteil) enthalten vielfšltige Beschreibungen weiterer Anwendungen in diesen Bereichen. (Siehe auch den Beitrag von Burgard et al. in diesem Heft). KDD-Systeme Der Markt fÿr KDD-Systeme ist Šu erst dynamisch und bietet zahlreiche Alternativen (siehe Serviceteil). Nachdem in der KDD-FrŸhphase vor allem Systeme mit einem einzigen Analyseverfahren verfÿgbar waren, die zudem ausschlie lich den Analyseschritt unterstÿtzten, bietet die heutige Systemgeneration UnterstŸtzung fÿr den gesamten KDD-Proze von der Datenbeschaffung bis zur Nutzung der Ergebnisse. Aktuelle Systeme enthalten auch alternative Analysemethoden aus den oben beschriebenen Verfahrensklassen oder sind sogar vom Benutzer erweiterbar. Entscheidungsbaumverfahren sind dabei in nahezu jedem System verfÿgbar. Im Bereich der Datenbankanbindung und Skalierbarkeit ist zwar der Importzugriff auf Datenbanken Standard, nur wenige Systeme kšnnen jedoch direkt mit den Daten in der Datenbank arbeiten oder vorverarbeitete Daten und Analyseergebnisse dort ablegen. Von Skalierbarkeit in den Terabyte-Bereich kann generell im Moment nicht ausgegangen werden. Ebenso fehlt generell noch die BenutzerunterstŸtzung bei der Auswahl geeigneter KDD-Schritte (siehe den Beitrag von Engels et al. in diesem Heft). KDD-Forschungsfragen Die Forschungsfragen, die zur Zeit das Gebiet des KDD/Data Mining bestimmen, sind zum Teil identisch mit den Fragen, die in den benachbarten Gebieten Statistik und Maschinelles Lernen gestellt werden: Vorhersagegenauigkeit. Wie kšnnen Verfahren entwickelt werden, die auf den in der Praxis auftretenden DatenbestŠnden eine noch hšhere Vorhersagegenauigkeit erreichen? Verrauschte und fehlerhafte Daten. Wie kšnnen Analyseverfahren besser damit umgehen, da ein gewisser Teil der zur VerfŸgung stehenden Daten systematische oder zufšllige Fehler aufweist? VerŠnderliche Daten. Wie kšnnen Analyseverfahren erkennen, da sich der einer Datensammlung zugrundeliegende Proze gešndert hat, und da es daher nicht sinnvoll ist, alle Daten mit gemeinsamen Mustern oder Vorhersagefunktionen zu beschreiben? VerlŠ lichkeit und Signifikanz. Wie kann verhindert werden, da Klassifikatoren nur auf den zu ihrer Erzeugung benutzten Daten genau sind, weil sie z.b. diese Daten viel zu genau

6 abbilden (overfitting)? Wie kann verhindert werden, da zufšllige Fluktuationen als Entdeckungen berichtet werden? (J. Buhmann Šu ert sich dazu in einem Diskussionbeitrag in diesem Heft.) Andere Forschungsfragen dagegen kennzeichnen das Gebiet KDD, und werden in Nachbardisziplinen hšufig nicht betrachtet: Skalierbarkeit. Wie kann im KDD-Proze mit DatenbestŠnden im Gigabyte- bzw. Terabyte- Bereich umgegangen werden, wie mit DatenbestŠnden mit hunderten oder Tausenden von Attributen, wie mit multirelationalen Daten? Wie mu DatenbankunterstŸtzung aussehen? (Ester et al. diskutieren das in diesem Heft fÿr ršumliche Datenbanken.) Interessantheit/VerstŠndlichkeit. Wie kann der Rechner den Interessantheitsbegriffs des Benutzers erfassen und zur Steuerung der Suche nutzen? Welche Art von Ergebnissen ist fÿr den Benutzer verstšndlich? Benutzerinteraktion und -unterstÿtzung. Wie lš t sich anderes Benutzerwissen sinnvoll in die Suche der Verfahren einbinden? Wie kšnnen weniger erfahrene Benutzer bei der DurchfŸhrung des KDD-Prozesses unterstÿtzt werden? Welche Interaktionsformen und Visualisierungen sind angemessen? (siehe den Beitrag von Engels et al. in diesem Heft). Systeme und Integration. Wie integriert sich KDD in die existierende Infrastruktur eines Unternehmens? Welche Architektur sollten KDD-Systeme aufweisen? Wie kšnnen Data Mining Ergebnisse unternehmensweit genutzt werden? Besonders interessant und aktuell relevant sind schlie lich die Fragen, die sich aus der Betrachtung nichtstrukturierter DatenbestŠnde im KDD ergeben: Text- und Web Mining. Wie kšnnen die grš tenteils textuellen Ressourcen im World-Wide- Web sinnvoll zur Extraktion von Wissen genutzt werden? (siehe den Beitrag von Feldman und Klšsgen in diesem Heft) Multimediale Daten. Wie kšnnen Bild- und Tondaten einer Analyse zugšnglich gemacht werden? Raumbezug. Viele Daten haben Raumbezug und sind in Geographischen Informationssystemen (GIS) bzw. spatial data bases abgelegt. Wie mÿssen Analyseverfahren gešndert werden, um den besonderen Gegebenheiten ršumlicher Daten (Nachbarschaft) Rechnung zu tragen? (siehe den Beitrag von Ester et al. in diesem Heft) KDD in diesem KI-Themenheft Das vorliegende Themenheft Data Mining der KI spiegelt aktuelle Trends und Forschungsfragen des KDD wider. Die drei FachbeitrŠge befassen sich mit dem Teil von KDD, auf den sich immer noch die meisten Forschungsarbeiten konzentrieren Ð neue und bessere Verfahren fÿr den eigentlichen Analyseschritt. Der Beitrag von Borgelt, Kruse und Lindner befa t sich mit den oben erwšhnten probabilistischen und possibilistischen Netzen, beschreibt deren Grundlagen und eine Anwendung in der Automobilindustrie. Der Beitrag von Paa und Kindermann betrachtet ebenfalls probabilistische AnsŠtze (Bayes), konzentriert sich dabei aber auf die aktuelle Frage,wie mehrere Klassifikatoren (Modelle) so kombiniert werden kšnnen, da die Gesamtvorhersagegenauigkeit verbessert wird. WŠhrend diese beiden Arbeiten mit klassischen strukturierten Tabellendaten arbeiten und Vorhersageprobleme betrachten, behandelt der Beitrag von Ester, Kriegel, Sander und Xu den neuen Bereich des Spatial Data Mining und dabei speziell die Frage der Bildung von Clustern in ršumlichen Datenbanken. Hier geht es, im Gegensatz zu den ersten beiden BeitrŠgen, um die Analyse von DatenbestŠnden, die nicht in den Hauptspeicher passen, also um eines der KDDspezifischen Probleme.

7 Einem anderen KDD-spezifischen Problem, der BenutzerunterstŸtzung im KDD-Proze, widmet sich ein Projektbeitrag von Engels, Lindner und Studer. Die Autoren zeigen, wie Modellierungskonzepte aus dem Bereich wiederverwendbaren Problemlšsungswissens abgewandelt und fÿr die KDD-UnterstŸtzung eingesetzt werden kšnnen. Anwendungen sind auf den ersten Blick in diesem Heft nur in einem Beitrag vertreten, bei dem sich W. Burgard et al. mit der BrandfrŸherkennung im Bergbau beschšftigen. Ein interessanter Beitrag aus zwei GrŸnden: zum einen wird das erstellte System tatsšchlich in der Praxis genutzt, zum anderen zeigt der Beitrag, da keineswegs notwendigerweise hochkomplexe Techniken eingesetzt werden mÿssen, um erfolgreich zu sein. Hier konnten einfache statistische Modellierungen zusammen mit einem regelbasierten System erfolgreich genutzt werden. Weitere Anwendungen verstecken sich aber auch in anderen BeitrŠgen: eine Anwendung im Automobilbau bei Borgelt et al. und eine Bankanwendung bei Paa und Kindermann. Abgerundet wird das Heft schlie lich durch DiskussionsbeitrŠge, Rezensionen, Tagungsberichte und einen Serviceteil. Die Diskussionen befassen sich mit aktuellen Forschungs- und Praxisfragen des KDD. Der Beitrag von J. Buhmann stellt die Frage nach der VerlŠ lichkeit von Data Mining-Ergebnissen, Feldman und Klšsgen diskutieren auf der Basis einer entsprechenden Diskussion auf der KDD-97 Aspekte des Web- und Text Mining, und J. Feist stellt Forderungen an das Data Mining aus praktischer Sicht. Weitergehende Informationen Vertiefende Informationen zu den hier angesprochenen Themen bieten sowohl die KonferenzbŠnde der jšhrlichen KDD-Tagungen als auch eine Vielzahl von BŸchern zum Thema Data Mining. Insbesondere der auch hier zitierte Sammelband (Fayyad et al. 96a) ist eine populšre Anlaufstation, aber auch erste zusammenhšngende LehrbŸcher zum Thema sind erschienen (siehe Rezensionen). ber Software, Anbieter, Web-Seiten usw. informiert schlie lich die Knowledge Discovery Mine im WWW. (Genaue Titel und Adressen siehe Serviceteil). Dank FŸr hilfreiche Kommentare danke ich meinem Kollegen Willi Klšsgen. Literaturhinweise (Agrawal et al., 1996) Association rules. Agrawal, R., Mannila, H., Srikant, R., Toivonen H. und Verkamo, I., Fast Discovery of Association Rules, in (Fayyad et al., 1996a), Kapitel 12, S (Breiman et.al, 1984) Breiman, L. and Friedman, J.H. and Olshen, R.A. and Stone, C.J., Classification and regression trees, Belmont, Wadsworth. (Clark und Niblett, 1989) Clark, P. und Niblett, T., The CN2 Induction Algorithm, Machine Learning, 3:4, S (Elder und Pregibon, 1996) Elder, J.F. und Pregibon, D., A Statistical Perspective on Knowledge Discovery in Databases, in (Fayyad et al., 1996a), Kapitel 4, S (Fayyad et al., 1996a) Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. und Uthurusamy, R., Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Cambridge. (Fayyad et al., 1996b) Fayyad, U., Piatetsky-Shapiro, G. und Smyth, P., From Data Mining to Knowledge Discovery: An Overview, in (Fayyad et al., 1996a), Kapitel 1, S (Friedman, 1989) Friedman, J.H., Multivariate Adaptive Regression Splines, Annals of Statistics, 19:

8 (Hartung et al., 1995) Hartung, J., Elpelt, B. und Klšsener, K.-H., Lehr- und Handbuch der angewandten Statistik, 10. Auflage, Oldenbourg, MŸnchen. (Keim und Kriegel, 1995) Keim D. A. und Kriegel H.-P., Visualisierungstechniken zur Exploration und Analyse sehr gro er Datenbanken, in Proc. Datenbanksysteme in BŸro, Technik und Wissenschaft (BTW), Dresden, 1995, Springer Verlag. (Klšsgen, 1996) Klšsgen, W., Explora: A Multipattern and Multistrategy Discovery Assistant, in (Fayyad et al., 1996a), Kapitel 10, S (Lavrac und Wrobel, 1996) Lavrac, N. und Wrobel, S. Induktive Logikprogrammierung - Grundlagen und Techniken, KI - KŸnstliche Intelligenz, 10:3, S , (Mehta et al., 1996) Mehta, M., Agrawal R. und Rissanen, J., SLIQ: A Fast Scalable Classifier for Data Mining, in Proc. of the Fifth Int. Conference on Extending Database Technology, Avignon, France. (Mitchell, 1997) Mitchell, T., Machine Learning, McGraw-Hill, New York. (Nauck et al., 1996) Nauck, D., Klawonn, F. und Kruse, R., Neuronale Netze und Fuzzy- Systeme, 2. Auflage, Vieweg Verlag, Wiesbaden. (Quinlan, 1993) Quinlan, J.R., C4.5 Ð Programs for Machine Learning. Morgan Kaufman, Palo Alto. (Tukey, 1977) Tukey, J.W., Exploratory Data Analysis, Addison-Wesley, Reading/London. (Wrobel, 1997) An Algorithm for Multirelational Discovery of Subgroups, in Proc. First Europ. Symp. on Principles of Data Mining and Knowledge Discovery, Komorowski, J. und Zytkow, J. (Hrsg.), S , Springer Verlag.