Methoden zur Datenanalyse Inhaltsverzeichnis 1 Übersicht 2 1.1 Seite 1................................. 2 2 Statistische Schätz- und Testmethoden 3 2.1 Seite 1................................. 3 3 Methoden zur Segmentierung von Daten 4 3.1 Clusteranalyse............................ 4 3.1.1 Nebenpfad: Partitionierende Clusterverfahren....... 4 3.1.2 Nebenpfad: Hierarchische Clusterverfahren........ 4 3.1.3 Nebenpfad: Dichtebasierte Clusterverfahren........ 4 4 Methoden zur Klassifikation von Daten 6 4.1 Seite 1................................. 6 4.1.1 Nebenpfad: Naive-Bayes-Klassifikation........... 6 4.1.2 Nebenpfad: Bayes-Netzwerke................ 6 4.1.3 Nebenpfad: Entscheidungsbäume.............. 6 4.1.4 Nebenpfad: eitere Klassifikationsmethoden....... 7 5 Modelle und Methoden der Zeitreihenanalyse 8 5.1 Seite 1................................. 8 6 Methoden der Abhängigkeitsanalyse 10 6.1 Seite 1................................. 10 6.1.1 Nebenpfad: Assoziationsregeln............... 10 1
1 Übersicht 1.1 Seite 1 In den folgenden Kapiteln finden Sie Hinweise auf ausgewählte rundlagenliteratur, () eiterführende Literatur und () Software (S) zu: Statistische Schätz- und Testmethoden Methoden zur Segmentierung von Daten Methoden zur Klassifikation von Daten Modelle und Methoden der Zeitreihenanalyse Methoden der Abhängigkeitsanalyse Diese Auswahl erhebt keinen Anspruch auf Vollständigkeit. Übersicht Eine gute Übersicht über Methoden zur Datenanalyse geben auch: Han/Kamber: Data Mining, 2001 2
2 Statistische Schätz- und Testmethoden 2.1 Seite 1 Bleymüller, J./ehlert,./ülicher, H.: Statistik für irtschaftswissenschaftler. Franz Vahlen, München 1991. Bohley, P.: Statistik-Lehrbuch für irtschaftswissenschaften. Oldenbourg, München 1989. Elpelt, H.: rundkurs Statistik. Oldenbourg, München 1987. Fahrmeir, L./Künstler, R./Pigeot, I./Tutz,.: Statistik. 5. Aufl., Springer, Berlin Heidelberg New York 2004. Hennig, C.: Modellwahl und Variablenselektion in der Statistik. Veröffentlichtes Vorlesungsskript, Universität Hamburg, Fachbereich Mathematik (SPST), SS 2004, auf URL: http://www.math.unihamburg.de/home/hennig/lehre/mskript1.pdf Hochstädter, D.: Statistische Methodenlehre. 8. Aufl., Verlag Harri Deutsch, Frankfurt/Main 1996. Litz, H. P.: Statistische Methoden in den irtschafts- und Sozialwissenschaften. Oldenbourg Verlag, München ien 2003. Schlittgen, R.: Einführung in die Statistik. Oldenbourg, München 1991. Zöfel, P.: Statistik für irtschaftswissenschaftler. Pearson Studium 2003. 3
3 Methoden zur Segmentierung von Daten 3.1 Clusteranalyse Han/Kamber: Data Mining, 2001 Kaufman, L./Rousseeuw, P.J.: Finding roups in Data: an Introduction to Cluster Analysis. John iley & Sons, 1990. Partitionierende Clusterverfahren Hierarchische Clusterverfahren Dichtebasierte Clusterverfahren 3.1.1 Nebenpfad: Partitionierende Clusterverfahren CLARA Kaufman, L./Rousseeuw, P.J.: Finding roups in Data: an Introduction to Cluster Analysis. John iley & Sons, 1990. CLARANS Ng, R./Han, J.: Efficient and effective clustering method for spatial data mining, in: Proceedings of the 1994 Int. Conf. on Very Large Data Bases, Santiago, Chile, 1994, pp. 144-155. 3.1.2 Nebenpfad: Hierarchische Clusterverfahren BIRCH Zhang, T./Ramakrishnan, R./Livny, M.: BIRCH: an efficient data clustering method for very large databases, in: Proceedings of the 1996 ACM SIMOD international conference on Management of data, Montreal, Canada 1996, pp. 103-114. Chameleon Karypis,./Han, E.-H./Kumar, V.: Chameleon: Hierarchical Clustering using Dynamic Modeling, in: IEEE Computer, Vol. 32(8), 1999, pp. 68-75. 3.1.3 Nebenpfad: Dichtebasierte Clusterverfahren DBSCAN Ester, M./Kriegel, H.-P./Sander, J./ Xu, X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, in: Proceedings of the 2nd Int. Conf. on Knowledge Discovery and Data Mining, Menlo Park, California, 1996, pp. 226-231. 4
DENCLUE Hinneburg A./ Keim D.A.: An Efficient Approach to Clustering in Large Multimedia Databases with Noise, in: Proceedings of the 4th Int. Conf. on Knowledge Discovery and Data Mining, AAAI Press, 1998, auf URL: http://citeseer.ifi.unizh.ch/hinneburg98efficient.html (25.08.2005). OPTICS Ankerst, M./Breunig, M.M./Kriegel, H.-P. Sander, J.: OPTICS: ordering points to identify the clustering structure, in: Proceedings of the 1999 ACM SIMOD international conference on Management of data, Philadelphia, Pennsylvania, United States, 1999, pp. 49-60. 5
4 Methoden zur Klassifikation von Daten 4.1 Seite 1 Han/Kamber: Data Mining, 2001 Naive Bayes-Klassifikatoren Bayes-Netzwerke Entscheidungsbäume eitere Klassifikationsmethoden 4.1.1 Nebenpfad: Naive-Bayes-Klassifikation Mitchell, T.: Machine Learning. Macraw-Hill 1997, Kap. 6, pp 154-184. Sahami, M./Dumais, S./Heckermann, D./Horvitz, E.: A Bayesian approach to filtering junk e-mail, in: AAAI-98 orkshop on Learning for Text Categorization, 1998. Katirai, H.: Filtering Junk E-Mail-A Performance Comparison between enetic Programming & Naive Bayes, University of aterloo 1999 4.1.2 Nebenpfad: Bayes-Netzwerke eman, S./eman, D.: Stochastic relaxation, ibbs distributions and the Bayesian restoration of images, in: IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 6, 1984, pp. 721-742. Heckerman, D.: Bayesian networks for data mining Robers, U.: Modellbasierte Fehlerdiagnose komplexer Systeme mit Hilfe Bayes scher Netze, Jahresbericht 1998 des Zentrums für Beratungssysteme in der Technik, Dortmund e.v. 4.1.3 Nebenpfad: Entscheidungsbäume C4.5- Quinlan, J.R.: C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California 1993. 6
CART- Breimann, L./Friedman, J.H./Olshen, R.A./Stone, C.J.: Classification and Regression Trees. adsworth International roup 1984. CHAID- Sonquist, J.A. and Morgan, J.N.: The Detection of Interaction Effects. Survey Research Center, Institute for Social Research, University of Michigan 1964. ID3- Quinlan, J.R.: Induction of Decision Trees, in: Machine Learning, Vol. 1, 1986, pp. 81-106. Prune- Verfahren Quinlan, J.R.: Simplifying Decision Trees, in: International Man-Machine Studies, 1987, pp. 221-234. SLIQ- Mehta, M./Agrawal, R./Rissanen, J.: SLIQ: A Fast Scalable Classifier for Data Mining, IBM Almaden Research Center, San Jose 1996 4.1.4 Nebenpfad: eitere Klassifikationsmethoden Logistische Regression Backhaus, K., B. Erichson,. Plinke u. R. eiber (2000): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 9. Auflage, Berlin. Ripper- Cohen, illiam.: Fast Effective Rule Induction, from: Machine Learning: Proceedings of the Twelfth International Conference, 1995. Support Vector Machines (SVM) Joachims, T.: A Statistical Learning Model of Text Classification for Support Vector Machines. In: Proceedings of SIIR 01, New Orleans 2001. 7
5 Modelle und Methoden der Zeitreihenanalyse 5.1 Seite 1 Anderson, T..: The Statistical Analysis of Time Series. iley, New York 1971. Brown, R..: Smoothing, Forecasting and Prediction. Englewood Cliffs, N.J., Prentice Hall 1962. Harvey, A.C.: Zeitreihenmodelle. 2.Aufl., Oldenbourg, München ien 1995. Leiner, B.: Einführung in die Zeitreihenanalyse. 2. Aufl., München, Oldenburg 1986. Mertens, P. (Hrsg.): Prognoserechnung. 4. Aufl., Physica, ürzburg 1981. Schlittgen, R./Streitberg, H.J.: Zeitreihenanalyse. 3. Aufl., München Oldenburg 1989. Schmitz, B.: Einführung in die Zeitreihenanalyse. 1. Aufl., Huber, Bern Stuttgart Toronto 1989. Box,.E.P./Jenkins,.M.: Time Series Analysis, Forecasting and Control. Holden Day, San Francisco 1970. Fahrmeir,L.: Rekursive Algorithmen für Zeitreihenmodelle. Vandenhoek & Ruprecht, öttingen 1981. Holt, C.C.: Forecasting seasonals and trends by exponentially weighted moving averages. Carnegie Institute of Technology, Pittsburgh, Pennsylvania 1957. Stier,.: Verfahren zur Analyse saisonaler Schwankungen in ökonomischen Zeitreihen. Springer, Berlin 1980. 8
Stochastische Prozesse Beyer, O./irlich, H.-J./Zschiesche, H.-U.: Stochastische Prozesse und Modelle, 1978. Beyer,O.E.P./Jenkins,.M.: Stochastische Prozesse und Modelle, 3. Aufl, Teubner, Leipzig 1988. Fahrmeir,L./Raßer,.: Stochastische Prozesse, Skript zur Vorlesung an der Ludwig-Maximilians-Universität, 2004 Kalman, R.E. : A new approach to linear filtering and prediction problems, in: Transactions of the ASME - Journal of Basic Engineering, Vol. 82, 1960, pp. 35-45. Langrock, P./Jahn,.: Einführung in die Theorie der Markowschen Ketten und ihre Anwendungen, Teubner, Leipzig 1979. Rohling, H.: Stochastische Prozesse, Veröffentlichte Folien zur Vorlesung Stochastische Prozesse an der TU Hamburg-Harburg, SS 2004 Storm, R.: ahrscheinlichkeitsrechnung Mathematische Statistik Statistische Qualitätskontrolle. 10. Aufl., Fachbuchverlag, Leipzig Köln 1995, S. 85-98. 9
6 Methoden der Abhängigkeitsanalyse 6.1 Seite 1 Pokropp: Lineare Regression und Varianzanalyse, 1999 Assoziationsregeln 6.1.1 Nebenpfad: Assoziationsregeln AIS Agrawal, R./Imielinski, T./Swami, A.: Mining Association Rules between Sets of Items in Large Databases, in: Proceedings of the ACM SIMOD International Conference on Management of Data (ACM SIMOD 93). ashington, 1993, pp. 207-216. Apriori Hipp, J.: issensentdeckung in Datenbanken mit Assoziationsregeln. Tübingen, Fakultät für Informations- und Kognitionswissenschaften, Dissertation, 2003. Eclat Zaki, M. J./Parthasarathy, S./Ogihara, M./Li,.: New Algorithms for Fast Discovery of Association Rules. Forschungsbericht Nr. 651, Computer Science Department, University of Rochester, Rochester 1997. Hipp, J.: issensentdeckung in Datenbanken mit Assoziationsregeln. Tübingen, Fakultät für Informations- und Kognitionswissenschaften, Dissertation, 2003. FP-rowth Han, J./Pei, J./Yin, Y.: Mining Frequent Patterns without Candidate eneration, in: Proceedings of the 2000 ACM-SIMOD International Conference on Management of Data. Dallas, Texas, Mai 2000, pp. 1-12. Hipp, J.: issensentdeckung in Datenbanken mit Assoziationsregeln. Tübingen, Fakultät für Informations- und Kognitionswissenschaften, Dissertation, 2003. PreSample Toivonen, H.: Discovery of Frequent Patterns in Large Data Collections. University of Helsinki, Department of Computer Science, PhD Thesis, 1996. 10
DBLearn Han, J./Cai, Y./Cercone, N.: Knowledge Discovery in Databases: An Attribute-Oriented Approach, in: Yuan, L. (ed.): Proceedings of the 18th International Conference on Very Large Databases, Morgan Kaufmann, San Francisco 1992, pp. 547-559 11