Data Mining. Lehrgebiet Datenbanksysteme für neue Anwendungen. Seminarband zu Kurs 1912 im SS Vorträge der Präsenzphase am 4. und 5.

Transkript

1 Lehrgebiet Datenbanksysteme für neue Anwendungen Seminarband zu Kurs 1912 im SS 2008 Data Mining Vorträge der Präsenzphase am 4. und 5. Juli 2008 Betreuer: Prof. Dr. Ralf Hartmut Güting Dipl.-Inform. Christian Düntgen Fakultät für Mathematik und Informatik Datenbanksysteme für neue Anwendungen FernUniversität in Hagen, Hagen 2008 FernUniversität in Hagen

2

3 Inhalt Themenvorstellung Zeitplan Präsenzphase Olga Riener: (1.1.1) Der Apriori-Algorithmus...15 Nicolai Voget: (1.1.2) Frequent Pattern Growth...39 Mathias Krüger: (1.2.1) Decision Tree Induction...55 Constanze Hofmann:(1.3.1) Clustern mit CLARANS und BIRCH...79 Bernd Puchinger: (1.4.2) Ähnlichkeitssuche auf Zeitreihen...97 Achim Eisele: (1.4.3) Suche nach Sequentiellen Mustern Fatma Akyol: (1.5.1) Suche nach Häufigen Teilgraphen

4 - 4 -

5 Ë Ñ Ò Ö¼½ ½¾ Ø Å Ò Ò Ê Ð À ÖØÑÙØ Ø Ò Ö Ø Ò ÒØ Ò ÎÓÖØÖ Ø Ñ Ò ßÖ Ö Ø Òº Ù ÒØ ÒÐ ÖÒÙÒ ¹ Òº ½½ºÂÙÒ ¾¼¼ ½Ì Ñ Ò ÁÒ ÐØ Ú ÖÞ Ò ½º½ÀÙ ÅÙ Ø ÖÙÒ ÓÞ Ø ÓÒ Ö ÐÒ ½º½º½ Ö ÔÖ ÓÖ ¹ Ð ÓÖ Ø ÑÙ ½º ÐÙ Ø Ö¹ Ò ÐÝ ½º¾ÃÐ Ø ÓÒÙÒ ÎÓÖ Ö ½º½º¾ Ö ÕÙ ÒØÈ ØØ ÖÒ ÖÓÛØ ½º º½È ÖØ Ø ÓÒ Ö Ò ¹ÙÒ À Ö Ö ÐÙ Ø ÖÒ Ä Ê ÆËÙÒ ÁÊ À ½º º¾ Ø ÖØ ÐÙ Ø ÖÒ Ë ÆÙÒ ÇÈÌÁ Ë ½º¾º½ ÓÒÌÖ ÁÒ ÙØ ÓÒ ËÄÁÉÙÒ ËÈÊÁÆÌ ½º Ø Ò ØÖ Ñ ØÖ ÒÙÒ Ë ÕÙ ÒØ ÐÐ Ø Ò ½º Ö Ô Å Ò Ò ½º º¾ ÒÐ Ø Ù Ù ØÖ Ò ½º º½ÃÐ Ø ÓÒ Ù Ø Ò ØÖ Ñ Ò ½º º Ë ÕÙ ÒØ ÐÐ ÅÙ Ø Ö ½º ÊÙÑÐ Ø Ò ½º º½ÀÙ Ì Ð Ö Ô Ò ËÔ Ò ½º Ø Å Ò Ò ËÝ Ø Ñ ½º º¾ÁÒ Þ Ö ÒÚÓÒ Ö Ô Ò Ö Ô Ö ÔÙÒ ÁÒ Ü ½º º½ÊÙÑÐ ÓÞ Ø ÓÒ ÑÙ Ø Ö ¾Ì Ñ ÒÛ Ð ½º º½ Ø Å Ò Ò ËÝ Ø Ñ ÑÎ Ö Ð ½ Ë Ñ Ò Ö ÙÖ ÔÖ Ò Ð ÚÓÖ ÞÛ Ð Ì ÐÒ Ñ Ö Û Ð Ò Ò ØÖ Ð Ø ÒºÄ ¹ Ö ÒÒÙÖ ÒÌ ÐÒ Ñ ÖÙÒ Ì ÐÒ Ñ Ö ÒÒ ÒÖ ØÞ Ø Ò ÞÙ Ö Ò Ø ÐÐ Ò Ì Ñ Ò Ù Ö ØÙÒ ÒÙÒ Û Ö Ò Ö Ì Ñ Ò Ò ÖÈÖ ÒÞÔ ÔÖ ÒØ Ö Òº - 5 -

6 ÖÒÓ ÒÑ Ð ÐÐ ÞÛ Ð ÙÖ ÔÖÙÒ Ð ÔÐ ÒØ ÒÎÓÖØÖ Ø Ñ Ò ÙÖÞÚÓÖ Ø ÐÐ Òº Ñ Ø Å Ò Ò Î ÖÛ Ò ÙÒ Ò Òº ÙÒ ÒÙÖ Ö ÒÞØÚ Ð Ø ÒÑÐ ½¾ÎÓÖØÖ¹ ÚÓÖÛ Ö Ù Ö ØÙÒ ÒÞÙ Ò ÒË Ñ Ò Ö ØÖ Ò ÖÙ Ò ÛÓÐÐ ÒÛ µþùöî Ö ÙÒ Ø Ø ÑÙ Ø ÒÛ Ö Þ Ð ÖÞÙ Ò ÐÒ ÒÌ Ñ Ò Ò ØÖ Ò ÙÛ ÐØÖ ÒºËÓ Ð Ò ØÛ Ì Ñ Ò Ö Ø Ï Ö ÓÙ ÙÒ ÇÄ È ÓÛ Ö Ø Ò Ð Ë Ñ Ò Ö ØÖ Ò ÐÒ ÙØ Ò ÙÒ ÒØ Ö ÒØ Î Ö Ö Ò Ì ÜØÅ Ò Ò Ï Å Ò Ò ÙÒ ÁÒ ÓÖÑ Ø ÓÒÊ ØÖ Ú ÐÙÒ Ö Ø Øº Ó ¹ Ö ÞÙ Ò Ö ÒÞ ÐÖ Ô Þ ÐÐ Î Ö Ò Ø ÐØÙÒ Ò Ø ÐØ ÒÛ Ö Ö Ú ÖØÖ Ø Öº Å Ò Ò Ñ Ø Û Ð ÞÛ ØÖ ÒÞÙ ÙØ Ò ÒÎ Ö Ö Ò Ö ÞÙ Ö ¹ Ø ÒºÏ Ö Ó Ò ÙÖ Û Ð Ð ÒÛ Ò ÔÐ Ø Ö Û Ö º Ï Ö ÒÙÒ ÞÙ ÒØ Ò Ò Ù Û ÐÛ Ø ÖÌ Ñ Ò Ö Ø ØÐ ÖØ Ð ÉÙ ÐÐ Òµ Ù Û ÐØº ÉÙ ÐÐ Ò ÓÐÐ Ò ÖÙÒ Ð Ò Ö Ò ÒØ ÔÖ Ò ÒË Ñ Ò Ö ØÖ Ö Ø ÐÐ Òº Ù ØÞÐ Ø ÞÙ Ò ÑØ Ö ÒÎ Ö ØÒ ¹ Ò Ò ÖÊ Ð ÒÒÚÓÐÐ Û Ø Ö ÉÙ ÐÐ ÒÞÙÊ Ø ÞÙÞ Ò ØÛ ÓÐ Ù Ù Ñ Ö Ð Ö Ø Ò ØÖ ÒÛ Ö Ò ÒÓ ÖÑ Ö Ö ÖÙÒ Ð Ò Û Ò¹ Ò ÒÒØ Ò Ö Ø Ò Ð Ø Þ Òº Ö Ò Ñ Ø Ò Ð Ò ÒÙÒ Û Ö Ö Ù Ò ÜÔÐ Þ Ø Ö Ø ÐÐÙÒ ÚÓÒ Ø Å Ò Ò Ò Ò ËÝ Ø Ñ ÚÓÖ Ø ÐÐØÙÒ Ú Ö Ð ÒÛ Ö Òº ÒÛ Ò ÙÒ ÒÚ ÖÞ Ø Ò ÓÐÐ Ò ÑÊ Ñ Ò ÞÛ Ð Ø Ò ØÖ Ü Ø Ö Ò Ø Å ¹ Ï Ö Ò ÒÒ ÞÙ Ñ Ö Ò Ò Ò ÖØ Ð ÒÛ Ò ÙÒ Ò Û Ð ÒÎ Ö¹ ½º½ ÒØ ÙÒ ÚÓÒ Ù ÒÅÙ Ø ÖÒ Ö ÕÙ ÒØ Ø Ñ Ø µ Ò Ø Ò ØÒ Ò Ø ÒÛ ¹ Ø ÈÖÓ Ð Ñ Ø Å Ò Ò º ÒÄ ÙÒ ÖÑ Ð Ø ØÛ Ò Ï Ö Ò ÓÖ Ò ÐÝ ÀÙ ÅÙ Ø ÖÙÒ ÓÞ Ø ÓÒ Ö ÐÒ ÖÚÓÒÃÙÒ Ò Ù Ñ Ò Ñ ÖÛÓÖ Ò Ï Ö ÒÓ ÖÏ Ö Ò ÖÙÔÔ Ò Ù Ò ÌÖ Ò Ø ÓÒ Ø Ò Ò Ø ÖÑ ØØ ÐØÛ Ö Òº Ù Ù ÒÅÙ Ø ÖÒ ÒÒ Ò ÓÞ Ø ÓÒ Ö ÐÒ Ó Ø ÓÒÖÙÐ µ ÖÞ Ù ØÛ Ö Òº ½º½º½ Ö ÔÖ ÓÖ ¹ Ð ÓÖ Ø ÑÙ Ö ÔÖ ÓÖ Ð ÓÖ Ø ÑÙ Ë ÅÌÎ Ø ÐÐØ Ò Ö Ø Ò Ð ÓÖ Ø ÑÙ ÞÙÖ ÒØ ÙÒ ÚÓÒ Ö ÕÙ ÒØ Ø Ñ Ø Öº Ö ÖÞ Ù Ø ÑÑ Ö Ö Ö Ã Ò Ø ÒÑ Ò Ò Ø Ø Ø Ò¹ Þ ÐÒ ÒÃ Ò Ø ÒÙÒ Ò Ø Ù ÞÙ Ð Ò Ö ËÙ Ö ÙÑ ÔÖÙÒ Ò µº ÓÒ ØÖÙ ÖØ ÞÙ Ø Ö Ø Ú Ò È¹ØÖ Ò ÒÒØ Ø Ò ØÖÙ ØÙÖº ½º½º¾ Ö ÕÙ ÒØÈ ØØ ÖÒ ÖÓÛØ Ø Ò Ú Ö Ò ÖØ Å Ø Ó ÞÙÖ Ö ÒÙÒ ÚÓÒÚÓÒ Ö ÕÙ ÒØ Ø Ñ Ø ÀÈ ¼¼ ºË Ò Ê ÐÒ Ö ÓÖÑ kauf t(bier) kauf t(milch) kauf t(babywindeln) - 6 -

7 ½º¾ ÍÒØ ÖÃÐ Ø ÓÒÚ Ö Ø ØÑ Ò ÈÖÓ Ð Ñ Ç Ø Ù ÖÙÒ Ö Ö Ò Ø Ò Ø ÑÑØ ÒÅ Ò Ò ÃÐ ÒµÞÙÞÙÓÖ Ò Òº ÃÐ Ø ÓÒ ÔÖÓ Ð Ñ Ø Ø Ñ ¹ ÃÐ Ø ÓÒÙÒ ÎÓÖ Ö Ø Å Ò Ò Ò ÖÊ Ð Ö Ò ÒÎ Ö Ö Ò Ò ÒÃÐ ØÓÖµÞÙ Ø ÑÑ Ò Ò Ñ Ñ Ò ÙÓÖ ÒÙÒ ÚÓÖÒ Ñ Ò ÒÒº ÖÑ ØØÐÙÒ ÃÐ ØÓÖ Û Ö Ù Ð Ä ÖÒÔÖÓ Ð Ñ ØÖ Ø ØºÅ ÒÙÒØ Ö Ø ÖÛ Ø ÙÒ ÙÒ ÖÛ Ø Ä ÖÒ¹ Ú Ö Ö Òº Ñ Ò Ñ Ø ÒÎ Ö Ö Ò Ó ÈÖ ÒÞ Ô Ä ÖÒ Ò Ý Ü ÑÔÐ º º Ò Ò ÒÒØ Ö Ô Ð Ð ÖÒØÛ Ö º Ó ÖÑ Ö Ö Û Ø Ö ÖÙÒ ÒÒØ µ Ò Ø ÒÚÓÖ ÖÞÙ Òº ½º¾º½ ÓÒÌÖ ÁÒ ÙØ ÓÒ ËÄÁÉÙÒ ËÈÊÁÆÌ ÖÎÓÖ Ö Ø ÖÙÑ Ò Ò ÒÒØ ÖÅ Ö Ñ Ð Ò Ç Ø Ò Î Ö Ö Ò ÖÞ Ù Ò Ð ÃÐ ØÓÖ Ò Ò ÒØ ÙÒ ÙÑ Ò Ñ ¹ Ô ÐÑ Ò Ò Ò Ò Ö Ò Ò Ò ØØÖ ÙØ ÙÒØ ÖØ Ð Ò Û Ð Ò Ò Ò Ö Ö Ø ÒÑ Ò Òº ËÈÊÁÆÌ Ë Å Ò ÐØÛ Ö Òº Î Ö Ö Ò Ò Ò Ö Ò ÐÝ Ö ¹ Ø ÑÑØ ÒÃÖ Ø Ö ÙÑ ÙÒ Ö Ó Ø Ø ÒÅ Ö Ñ Ð Ù Û ÐØÛ Ö º Ò Ø ÐÐ Ö Ò ÒÙÒ ÖÙÒ Ð Ò ÒÎ Ö Ö Ò ÓÐÐ Ò ÖËÄÁÉ Å Ê ÙÒ ÖÙÔÔ Ò ÐÙ Ø Öµ ÒÞÙØ Ð Òº Ç Ø Û Ö Ò Ð ÈÙÒ Ø Ö Ø ÐÐØ ÙÖ ½º Ö ÐÙ Ø Ö¹ Ò ÐÝ Ú Ö Ù ØÑ Ò Ç Ø Ò Ò Ö ÖÅ Ö Ñ Ð Ù ÔÖ ÙÒ Ò Ò ÐÙ Ø Ö¹ Ò ÐÝ ÒÒ ÓÐ Ç ØÑ Ò Ò Ö Ò Ð Ñ ÒØ Ñ Ò Ò Ò Ø ÒÞÑ Ò Î ØÓÖ Ò ÖÅ Ö Ñ Ð Ù ÔÖ ÙÒ Ò Ö ÒÛ Ö Òº Ð ÐÙ Ø Ö ØÖ Ø ØÑ Ò ÞÙ Ò Ò ÖÐ Ò ÞÙÀ Ù Ò ÞÙ ÑÑ Ò ÐÐ Ò µº ÐÙ Ø Ö¹Î Ö Ö Ò Ò Ó Ò ÒÒØ Ä ÖÒ Ò ÝÇ ÖÚ Ø ÓÒ ¹Î Ö Ö Ò º ºÑ Ò Ò Ø ØÚÓÖ Ò Ö Ø Ð Þ ÖØ Ò Ô Ð º ½º º½È ÖØ Ø ÓÒ Ö Ò ¹ÙÒ À Ö Ö ÐÙ Ø ÖÒ Ä Ê ÆËÙÒ ÁÊ À Ò Ñ Ò Ò Ø Ð ÙÓÖ ÒÙÒ ÚÓÒÈÙÒ Ø ÒÞÙ ÐÙ Ø ÖÒ Ø Ö Ø ÚÚ Ö ÖØÛ Ö Ø Ö Ø Ú Ù ÒÔ ÖØ Ò ÓÒ Ö Ò Ò Ø Ò ÖØ Ò ÐÙ Ø Ö¹Î Ö Ö Ò Ö ÒÅ Ó ¹ ÐÙ Ø Ö¹ Ú Ö Ö ÒºË ÙÒØ ÖØ Ð Ò ÒÅ Ö Ñ Ð Ö ÙÑ Ò Ò ÚÓÖ Ò ÒÞ ÐÚÓÒ Ö Ò Ö ÐÓ Ø ÓÒØ Ò ÕÙ µºâ Ö ÐÙ Ø ÖÛ Ö ÙÖ Ò Ò Ø ÒÔÙÒ Ø Å Ó µö ÔÖ ÒØ ÖØ Ø ÖÛ Ö ÒÞÙ Ö Ö ÒÅ ÖÓÐÙ Ø ÖÒÚ Ö Ò Ø ÐÓÑ Ö Ø Ú» ÓØØÓÑ¹ÙÔµ ÞÛºÐ ØÞØ Ö Ò Ø Ò ÞÙÑÅ ØØ ÐÛ ÖØ ÒÒ Ö Ð ÐÙ Ø Ö Ñ Ò Ñ Ð Øº Ä Ê ÆË Ã Û Ö Ò Ò Ö Ø Ö ÙÒØ ÖØ ÐØ Ú Ö Ú»ØÓÔ¹ ÓÛÒµº Ð Ô Ð ÓÐÐ ÁÊ À ÊÄ ¹ Ú Ö Ò Ø k¹å Ó ¹Î Ö Ö ÒÑ Ø Ò Ñ ÑÔÐ Ò ¹ Ò ØÞº Ò ÐØÛ Ö Òº ÁÊ ÀÒÙØÞØÐÙ Ø Ö Ò ØÙÖ µùò ¹ØÖ º ÓÑ Ò ÖØ À Ö Ö ÐÙ Ø ÖÚ Ö Ö ÒÓÖ Ò Ò ÐÙ Ø Ö Ö Ö Ò º º Ð Ò Ö Å ÖÓÐÙ¹ Ö Ö ÐÙ Ø ÖÒ Ù ÖÅ ÖÓ Ò Ñ Ø Ò Ö ÒÎ Ö Ö Ò Ù ÖÅ ÖÓ Ò º - 7 -

8 ½º º¾ Ø ÖØ ÐÙ Ø ÖÒ Ë ÆÙÒ ÇÈÌÁ Ë ÒÛ Ö Òº Ø ÖØ Î Ö Ö ÒÙÒØ Ö Ù Ò ÒÞ ÐÔÓØ ÒØ ÐÐ ÖÆ ÖÔÙÒ Ø ÙÑÞÙ ÒØ¹ ÐÙ Ø Ö ÙÒ Ù Ö Öµ ÙÒ ÒÛ Ö ÒÙÒ ÒÞ Ð Ö ÐÙ Ø ÖÑÙ Ò ØÚÓÖ ¹ Ò Ó ÒÃÒÓØ ÒÞÙ Ò Ñ ÐÙ Ø Ö ÖØÓ ÖÒ ØºËÓ ÒÒ Ò Ù Ô Ö ÇÈÌÁ Ë ÃË ÖØ Ò ÐÙ Ø Ö Ò ÙÖ ÓÒ ÖÒ ÖÞ Ù Ø ÐÙ Ø Ö¹ÇÖ ÒÙÒ ÒÞÙÖ ÙØÓÑ Ø ÒÙÒ ÒØ Ö Ø Ú ÒÈ Ö Ñ Ø Ö Ø ÑÑÙÒ Ö ÐÙ Ø Ö Ò ÐÝ º Ë Æ ÃË ÒÙØÞØ ÞÙ Ó Ò ÒÒØ Ø ¹ ÖÖ Ö ØÚÓÒÈÙÒ Ø Òº ½º º½ÃÐ Ø ÓÒ Ù Ø Ò ØÖ Ñ Ò Ï Ö Ò Ð Ø Ø Ø ÒÑ Ø Ó Ö Ö ÕÙ ÒÞÙÒ Ò ÖÓ Ö ÒÞ ÐÞÙ Ö ÒÙÒ Ø Ò ØÖ Ñ ØÖ ÒÙÒ Ë ÕÙ ÒØ ÐÐ Ø Ò Ö Ø Ø Å Ò Ò Ö Ö ÖØ Ø ËØÖ Ñ Ø Ò ØÖ Ñ µ Ò Ò Ò ÔÖÙ ¹ Ù ÒÒÑ ÒÛ Ö Ò Ö Ò ÐÝ ÙÑ Ù ÐÐ ÑÑ ÐØ Ò Ø ÒÞÙÖ Ö Òº Û Ø ÖÞÙÐ Ø Ò Ö Ø Ø Î Ö Ö ØÙÒ Ù ÖÙÒ Ö ÖÃÓÑÔÐ Ü ØØÚ Ð Ö Ö ÈÖÓ¹ ÚÓÐÐ Ì Ñ º Ò ØÞ ÞÙÖÄ ÙÒ ÓÐ Ö Ù ÒÐ Ò Ö Ò Ò Ö ÒÒ Ø Ü Ø Ð Ñ ºËÓÐ Ò ØÛ Ú Ð Ø Ò Ù ÖÙÒ ÎÓÐÙÑ Ò Ò Ø Ù Ö Ø Ô ÖÒº ÓÒ ÖÒÒÙÖÑ Ö ÔÔÖÓÜ Ñ Ø ÚÞÙÐ Òº ½º º¾ ÒÐ Ø Ù Ù ØÖ Ò Ø ÓÒ Ù Ø Ò ØÖ Ñ ÒÚÓÖ Ø ÐÐØÛ Ö Ò Î Ì À¼¼ ÙÒ Î Ì ÀË ¼½ º ËØ ÐÐÚ ÖØÖ Ø Ò ÖËØÖ ÑÅ Ò Ò Î Ö Ö Ò ÓÐÐ Ò ÖÞÛ Î Ö Ö ÒÞÙÖÃÐ ¹ ØÖ Ò Ò Ø ÒÛ Ö Ò Ò Ñ ÙÒ Ø ÓÒ Ð Ò Ù ÑÑ Ò Ò ÞÙÖ Ø Ö Ö Ö ÙÒ Ø Ò ØÛ Ø Ò ÙÖ Ì ÑÔ Ö ØÙÖ ÙÖÚ Ò ØºÀ Ö Ø ÚÓÒÁÒØ Ö ÅÙ Ø ÖÒÞÙÙÒØ Ö Òº Ö ÐÑ ØÛ ÓÒ Ð Ë Û Ò ÙÒ ÒÞÙ Ö ÒÒ ÒÙÒ ÚÓÒ Ò Ö Ò ÒØ Ö ÒØ Ö Òµ Ë ØÖ Ø ØÛ Ö Òº ½º º Ë ÕÙ ÒØ ÐÐ ÅÙ Ø Ö Ð Ô Ð Ö Ø Å Ò Ò Ù ØÖ Ò ÓÐÐ Ö ÒÐ Ø Ù Ù ØÖ Ò Ë ÕÙ ÒÞ Ø Ò Ò Ò Ô ÖÒ Ö Ò Ò ÖÊ Ò ÓÐ Ö Ù ØÖ Ø Ò ÛÓ ¹ Û ÙÒ ÒÓ Ö Ù Ò Ò Ö ÓÐ Ò Ã Ù ÒØ ÙÒ Ò Ù Û Ö Ö Ò ÅÙ Ø Ö Ó Ö Ü Ø ØÔÙÒ Ø Ö Ò Ù Ö ØÖ Ø Ð ØºËÓ ÒÒ Ò ØÛ ÐÙ ¹ ÙÒØ Ö Ù ØÛ Ö Ò Ë Ë º Ö Ô Ò Ò Ò Ö Ö Ø ÐÐÙÒ ÚÓÒ Þ ÙÒ ÒÙÒØ Ö Ð Ø ÖÆ ØÙÖ Þº ºÚÓÒ ½º ÓÞ Ð Ò Þ ÙÒ ÒÚÓÒÁÒ Ú Ù ÒÙÒ ÖÙÔÔ Ò Ó ÖÞÙÖÅÓ ÐÐ ÖÙÒ ÚÓÒÆ ØÞÛ Ö¹ Ö Ô Å Ò Ò Ò ÃÓÑÑÙÒ Ø ÓÒ ¹ Î Ö Ö Ò Ö ØÖÙ ØÙÖ Ò Î ÖÛ ÑÏÏÏ ºººµº Ñ Ö Ô Å Ò Ò Ú Ö Ù ØÑ Ò ÒØ Ö ÒØ ËØÖÙ ØÙÖ ÒÙÒ Þ ÙÒ Ò Ò»ÞÛ Ò ÓÐ Ò Ö ¹ Ô Ò Ù ÞÙ Ò Ò ÞÛº ÖÞÙ Ø ÐÐ Òº - 8 -

9 Ò Ò Ù ÖÌ Ð Ö Ô Ò ÖÐ Ù Ø Û Ö Ö Ò ÅÙ Ø ÖÞÙ ÓÐ Ö ÒÓ Ö ½º º½ÀÙ Ì Ð Ö Ô Ò ËÔ Ò Ö Ô Ø ÒÞÙ ÓÑÔÖ Ñ Ö Òº Ò Å Ø Ó ÞÙ Ø ËÔ Ò À¼¾ º ½º º¾ÁÒ Þ Ö ÒÚÓÒ Ö Ô Ò Ö Ô Ö ÔÙÒ ÁÒ Ü Ò Ò ÚÓÒËÙ ØÖÙ ØÙÖ Òº Ö Ô Ö Ô ËÏ ¼¾ Ø ÒÏ Ö Þ Ù ÞÙÖËÙ Ò Ö Ô ¹ Ò ÒÛ Ò ÙÒ Þ Ò Ö Ó Ö Ù Ì Ð Ö Ô Ò Ø ËÙ Ò Ö Ô ¹ Ø Ò Ò Ò Ø Ò Ò Òº Ð Ø ÖØ Ö Ô Ò Ò Ò ÚÓÒÌ Ð Ö Ô Òº ÒÔ ÖØ ÁÒ Þ ¹ ÖÙÒ Ú Ö Ö Ò Ø ÁÒ Ü À¼ º ½º Ö Ò ÐÝ ÚÓÒ Ó Ø Ò Ô Ø Ð Ø µó ÖÖ ÙÑÞ ØÐ Ò Ø Ò Ô Ø Ó¹Ø ÑÔÓÖ Ð Ø µ Ø ÓÒ Ö Ö Ø ÐÐÙÒ ÒÙÒ ÈÖÓ Ð Ñ Ö Ø Ò Ò ÐÝ º Ò ¹ ÊÙÑÐ Ø Ò Ø Ø Ò Ð ÓÖ Ø Ñ Ò ÒÓ Ø Ò Ó ÃÓÑÔÐ Ü ØØÙÒ Ø ÒÑ Ò Ò Ò Ù ÖÓº ½º º½ÊÙÑÐ ÓÞ Ø ÓÒ ÑÙ Ø Ö ÑÙ Ø Ö ÃÀ ÃÆ ÚÓÖ Ø ÐÐØÛ Ö Òº ËÔ Ø Ð Ø Å Ò Ò ÓÐÐ Ö ÙÖ Î Ö Ö ÒÞÙÖ ÒØ ÙÒ ÖÙÑÐ Ö ÓÞ Ø ÓÒ ¹ Å Ò Ò º Û Ö Ò Î Ö Ö Ò Ù Ð Ø Ò ¹ ÐÓÒ ¹ ÒÛ Ò ÙÒ Ò ÑÔÐ Ñ ÒØ ÖØ ÒØÛ ÐÙÒ ÚÓÒÎ Ö Ö Ò Ø ÒÛ Ø Ö ÓÖ ÙÒ ØÖ Ñ Ö Ø ½º Ø Å Ò Ò ËÝ Ø Ñ ÙÒ Ø Ø Øº ÙÖ Û ÖØÙÒ ÖÎ Ö Ö ÒÛ Ö ÒÒÑ ØÒÙÖ Ò ÓÐ ÖØ ÖÎ Ö Ð Ø Ò ÔÖÓØÓØÝÔ µáñôð Ñ ÒØ ÖÙÒ ÒÚÓÒ Ø Å Ò Ò ËÝ Ø Ñ Òº ËÓ ØÛ Ö ¹ Ñ Ø Ò Ñ ÒÞ ÐÒ ÒÛ Ø Ö ÒÎ Ö Ö Ò Ö Ò ÞÓ Òº Ô Ø Ø Ò Ò Ö Ñ ÛÓÖ ÞÙÖ ÒØÛ ÐÙÒ ÙÒ ÁÑÔÐ Ñ ÒØ ÖÙÒ ÙÒØ Ö Ð Ö Ø Å Ò Ò Î Ö Ö ÒÙÒ ÖÐ Ù Ò Ó Ö Ò Ö Ø ÒÎ Ö Ð º Ù ØÞÐ Ø Ò Ò ÒÙÑ Ò Ö Ò Ò Ð Ò Ä ØÙÒ Ð ØÙÒØ Ö Ð ÖÎ Ö Ö Ò ÒÛ Ò ÖÒ Ò Ò Ö Ø Ò Ù Ò ÞÙ ÒÒÓÚ Ø Ú ÒÅ Ø Ó Ò Ö Ø Ò Ù Û ÖØÙÒ º ½º º½ Ø Å Ò Ò ËÝ Ø Ñ ÑÎ Ö Ð ÁÒ Ñ ØÖ ÓÐÐ Ò Ö Ð Ò Ø Ò ÙÒ Ö ÞÙ Ò Ð Ø Å Ò Ò ËÝ Ø Ñ Ú Ö Ð ÒÙÒ Û ÖØ ØÛ Ö ÒºÏ Ö Ò ÞÙ Ö ËÝ Ø Ñ Ù Û ÐØ ½ºÁÐÐ Å Ò ½º½º¼ ÁÐÐ¼ ¾ºÃÒÓÛÐ Å Ò Ö º¼ ÃÒÓ¼ ºÊ Ô Å Ò Ö º½ Ø ¾ Ê Ô¼ - 9 -

10 Ò Ø ÐÐ ÖØÙÒ Ò Ö Ö ÒÛ Ò ÙÒ ÖÔÖÓ ØÛ Ö ÒºÁÑÎÓÖØÖ ÓÐÐ Ò ËÝ Ø Ñ Ò ÙÖÞ Ò ÑÓÒ ØÖ Ø ÓÒ ÒÚÓÖ Ø ÐÐØÛ Ö Òº ÓÐÐ Ò Ö ÎÓÖÞ ÙÒ Æ Ø Ð Ö Ø ÐÐØÛ Ö Òº ÓÒ Ö Ù Ñ Ö Ñ ØÚ Ö Ò ÒÃÓÒÞ ÔØ ÓÒ ÙÒ Ø ÓÒ ÙÑ Ò Ï Ö Ò ÖÎÓÖ Ö ØÙÒ Ë Ñ Ò Ö ØÖ ÓÐÐ ÒÑ Ò Ø Ò ÞÛ ÖËÝ Ø Ñ ÖÛ Ø Ö Ö Ø Ë Ò ØØ Ø ÐÐ ÒÙÒ ÐÐ Ñ Ò Í Ð ØÝº ÞÙ ÒÒ Ò ØØ ÒÛ Ë ÒÙÒ ÙÒ Á Ö Æ ÙÒ ÒÑ ØÞÙØ Ð Òº ÍÑ Ì Ñ Ò ØÑ Ð Ù Ø Ú ÒÌ ÐÒ Ñ ÖÙÒ Ì ÐÒ Ñ Ö ÒÒ ÒÚ ÖØ Ð Ò ¾ Ì Ñ ÒÛ Ð ÑÐ Ø Ò Ö Ø ÒÛÓÐÐ Òµ ½¾ ÒØ ÔÖ Ò Ö Ö Ò Ø ÚÓÒÁ Ò Ò ÑÛ Ò Ø Ò Ð Ø Ì Ñ µº ÞÛ Ð Ì Ñ ÒÞÙº ½ Ø Ø ÖÁ Ö Ø ÈÖ ÓÖ ØØ Ð Ó Ì Ñ Û Ð Ë ÇÖ Ò ÒË ÞÙ ÖÒ Ø ÖÐ Ò Ð ÒÚÓÒ½ ½¾ Ò Ù Ò Ñ Ö Á Ò Ò Ö Ò ÙÒÚ ÖÞ Ð Ñ ØØ Ð Òº Ô Ö ¹Å Ð Ò Ö Ö Ø Òº Ù ÒØ Ò ÖÒÙÒ ¹ Òº º Ï ÖÛ Ö Ò ÒÒ Ñ Ö Ù ÓÐ Ò ÒÅÓÒØ Ì Ñ ÒÞÙÓÖ ÒÙÒ ÚÓÖÒ Ñ ÒÙÒ Ë Ò ÒË ÙÒ Á Ö ÈÖ Ö ÒÞÐ Ø ÐÐ Ö ÔØ Ø Ò ËÓÒÒØ Ò¾ º¼¾º¾¼¼ Ä Ø Ö ØÙÖ ÃË Åº Ò Ö Ø ÅºÅº Ö ÙÒ Àº¹ÈºÃÖ Ð Ò ÂºË Ò ÖºÇÔØ ÇÖ Ö Ò Ë Ê Ö Û Ð Ö ØÓ ÐÓÙØ Ó Ò ÖÙÒÆºËÛ Ñ º ÒØË Ñ Ð Ö ØÝ ÔÓ ÒØ ØÓ ÒØ ÝØ ÐÙ Ø Ö Ò ØÖÙØÙÖ ºÁÒÈÖÓº ÅËÁ ÅÇ ÁÒØº ÓÒ º Ë Ö ÁÒË ÕÙ Ò Ø ºÁÒ ºÄÓÑ Ø ØÓÖ ÈÖÓ Ò Ó Ø Ø ÓÒÅ Ò Ñ ÒØÓ Ø ËÁ ÅÇ ³ µ Ô ¼ È Ð ÐÔ È ½ º Ë Ç Çµ Ô Ó ÁÐÐ ÒÓ ½ ºËÔÖ Ò ÖÎ ÖÐ º Ê Ö Û Ð Ò Ê Ñ Ö Ò ÒËÖ ÒØº Ø Ð ÓÖ Ø Ñ ÓÖÑ Ò Ò Ó¹ ÁÒØ ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò Ó ÓÙÒ Ø ÓÒ Ó Ø ÇÖ Ò Þ Ø ÓÒ Ò Ð ÓÖ Ø Ñ Ã Ù Ñ ÒÒ ½¾ ½ ½ º ÈÖÓº¾¼Ø ÁÒØº ÓÒ ºÎ ÖÝÄ Ö Ø ÎÄ Ô ºÅÓÖ Ò Ø ÓÒÖÙÐ ºÁÒÂÓÖ º Ó Å ØØ Â Ö Ò ÖÐÓ Ò ÓÐÓ ØÓÖ Ë Ê Ö Û Ð Ò Ê Ñ Ö Ò ÒËÖ ÒØºÅ Ò Ò ÕÙ ÒØ ÐÔ ØØ ÖÒ ºÁÒ È Ð ÔËº Ù Ò Ö ËºÈº Ò ØÓÖ Ð Ú ÒØ ÁÒØ ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò À¼¼ È ÖÓ ÓÑ Ò Ó Ò Ó ÀÙÐØ ÒºÅ Ò Ò ¹ Ô Ø ØÖ Ñ ºÁÒÃÒÓÛ¹ ÓÒ Ø Ò Ò Ö Ò Ô ½ Ì Ô Ì Û Ò ½ ºÁ ÓÑÔÙØ ÖËÓ¹ ØÝÈÖ º ÃË Å ÖØ Ò Ø Ö À Ò ¹È Ø ÖÃÖ Ð Â Ö Ë Ò Ö Ò ÓÛ Ùº Ò ØÝ¹ Ð ÓÚ ÖÝ Ò Ø Å Ò Ò Ô ½ ¼ ¾¼¼¼º ÓÒÒ Ø Ø Ò Ø Ö ÔÔÐ Ø ÓÒ ÓÖØÖ Ò Ø Ø ÓÒ Ò Ô Ø Ð Ø º ÁÒÃ Ô ½¼ ½ ½ º

11 Ã Åº Ø Ö Àº¹ÈºÃÖ Ð Ò º ÙºÃÒÓÛÐ ÓÚ ÖÝ ÒÐ Ö Ô Ø Ð Ø ÓÙ Ò Ø Ò ÕÙ ÓÖ ÒØÐ ÒØ Ø ÓÒºÁÒÅº Ò Ó¹ ÀÈ ¼¼ Â Û À Ò Â ÒÈ Ò Û Ò ÒºÅ Ò Ò Ö ÕÙ ÒØÔ ØØ ÖÒ Û Ø ÓÙØ Ò ¹ ËÝÑÔÓ ÙÑ ËË ³ ÚÓÐÙÑ ½ Ô ¾ ÈÓÖØÐ Ò Å ½ ºËÔÖ Ò Öº Ö Ò ÂºÀ ÖÖ Ò ØÓÖ Ú Ò ÒËÔ Ø Ð Ø Ø ÁÒØ ÖÒ Ø ÓÒ Ð Ø Ò Ö Ø ÓÒºÁÒÏ ÓÒ Ò Â Ö ÝÆ Ù ØÓÒ Ò È Ð Ô º ÖÒ Ø Ò ÀË ¼½ Ó ÀÙÐØ Ò Ä ÙÖ ËÔ Ò Ö Ò È ÖÓ ÓÑ Ò Ó ºÅ Ò Ò Ø Ñ ¹ Ò Ò ¹ ØÓÖ ¾¼¼¼ ÅËÁ ÅÇ ÁÒØÐº ÓÒ Ö Ò ÓÒÅ Ò Ñ ÒØÓ Ø Ô ½ ½¾º ÅÈÖ ¼ ¾¼¼¼º Ø ØÖ Ñ ºÁÒÈÖÓ Ò Ó Ø Ë Ú ÒØ ÅËÁ Ã ÁÒØ ÖÒ Ø ÓÒ Ð ÓÒ ¹ ÁÐÐ¼ ÁÐÐ Å Ò Ï Ë Ø º ØØÔ»» ÐÐ Ñ Ò º ºÙ Ùº Ù» ¾¼¼ º ¾¼¼½º ÅÈÖ º Ö Ò ÓÒÃÒÓÛÐ ÓÚ ÖÝ Ò Ø Å Ò Ò Ô ½¼ Ë Ò Ö Ò Ó ÃÀ ÃÖÞÝ ÞØÓ ÃÓÔ Ö Ò Â Û À Òº ÓÚ ÖÝÓ Ô Ø Ð Ó Ø ÓÒÖÙÐ Ò Ó Ö Ô Ò ÓÖÑ Ø ÓÒ Ø ºÁÒËË ³ ÈÖÓ Ò Ó Ø Ø ÁÒØ Ö¹ ÃÆ Ò Ø ÓÒ ÐËÝÑÔÓ ÙÑÓÒ Ú Ò ÒËÔ Ø Ð Ø Ô ÄÓÒ ÓÒ ÍÃ ½ ºËÔÖ Ò Ö¹Î ÖÐ º Û ÒÅºÃÒÓÖÖ Ò Ê ÝÑÓÒ ÌºÆ º Ò Ò Ö Ø ÔÖÓÜ Ñ ØÝÖ Ð Ø ¹ ÃÒÓ¼ ÃÒÓÛÐ Å Ò ÖÏ Ë Ø º ØØÔ»»ÛÛÛº ÒÓÛÐ Ñ Ò ÖºÒ Ø» ¾¼¼ º ÓÒ Ô Ò ÓÑÑÓÒ Ð Ø Ò Ô Ø Ð Ø Ñ Ò Ò ºÁ ÌÖ Ò Ø ÓÒ ÓÒ ÃÒÓÛÐ Ò Ø Ò Ò Ö Ò ¼ µ ½ º Å Ê Å Ò Å Ø Ê Ö Û Ð Ò ÂÓÖÑ Ê Ò ÒºËÄÁÉ Ø Ð Ð ÅÌÎ À Å ÒÒ Ð À ÒÒÙÌÓ ÚÓÒ Ò Ò ºÁÒ Ö Î Ö ÑÓº ÒØ Ð ÓÖ Ø Ñ Ð Ö ÓÖ Ø Ñ Ò Ò ºÁÒ ÜØ Ò Ò Ø Ì ÒÓÐÓ Ý Ô ½ ¾ ½ º ÓÖ ÓÚ Ö Ò Ó Ø ÓÒÖÙÐ ºÁÒÍ Ñ Åº ÝÝ Ò Ê Ñ ÑÝÍØ ÙÖÙ¹ Ê Ô¼ µ Ô ½ ½ ½ ¾ Ë ØØÐ Ï Ò ØÓÒ ½ º ÁÈÖ º ÑÝ ØÓÖ ÁÏÓÖ ÓÔÓÒÃÒÓÛÐ ÓÚ ÖÝ Ò Ø Ã ¹ Ë Ê Ô Å Ò ÖÏ Ë Ø º ØØÔ»»Ö Ô ¹ ºÓÑ» ¾¼¼ º Ø Ì ÒÓÐÓ Ý Ì ÚÓÐÙÑ ½¼ Ô ½ ºËÔÖ Ò Ö¹Î ÖÐ ¾ Ê Ñ Ö Ò ÒËÖ ÒØ Ò Ê Ö Û ÐºÅ Ò Ò ÕÙ ÒØ ÐÔ ØØ ÖÒ ¹ ÓÙÞ ÓÙ Ò ÓÖ Ö Ö Ò ØÓÖ ÈÖÓº Ø ÁÒØº ÓÒ º ÜØ Ò Ò ¾ ½ º Ò Ö Ð Þ Ø ÓÒ Ò Ô Ö ÓÖÑ Ò ÑÔÖÓÚ Ñ ÒØ ºÁÒÈ Ø ÖÅº º Ô Ö ÅÓ Ö Ò Ë Å ÂÓ Ò ºË Ö Ê Ö Û Ð Ò Å Ò Å Ø ºËÈÊÁÆÌ Ð Ð Ô Ö ÐÐ ÐÐ Ö ÓÖ Ø Ñ Ò Ò ºÁÒÌºÅºÎ Ý Ö Ñ Ò Ð Ò ÖÓÈº Ù ¹ Ñ ÒÒ ºÅÓ Ò Ò Æ Ò Ð ÐÄºË Ö ØÓÖ ÈÖÓº¾¾Ò ÁÒØº ÓÒ ºÎ ÖÝ Ä Ö Ø ÎÄ Ô ºÅÓÖ ÒÃ Ù Ñ ÒÒ ½ º

12 ËÏ ¼¾ ÒÒ Ë Â ÓÒÌ ÓÒ ¹Ä Ï Ò Ò ÊÓ Ð Ù ÒÓº Ð ÓÖ Ø Ñ À¼¾ Ò Ò Ò Â Û À Òº ËÔ Ò Ö Ô ¹ Ù ØÖÙØÙÖ Ô ØØ ÖÒÑ Ò Ò º Ò ÔÔÐ Ø ÓÒ Ó ØÖ Ò Ö Ô Ö Ò ºÁÒËÝÑÔÓ ÙÑÓÒÈÖ Ò ÔÐ Ó Ø ËÝ Ø Ñ Ô ¾ ¾¼¼¾º ÁÒÁ Å³¼¾ ÈÖÓ Ò Ó Ø ¾¼¼¾Á ÁÒØ ÖÒ Ø ÓÒ Ð ÓÒ Ö Ò ÓÒ Ø À¼ Ò Ò È Ð ÔËº Ù Ò Â Û À Òº Ö Ô Ò Ü Ò Ö ÕÙ ÒØ Å Ò Ò Á Å³¼¾µ Ô ¾½ Ï Ò ØÓÒ ÍË ¾¼¼¾ºÁ ÓÑÔÙØ Ö ËÓ ØÝº ØÖÙØÙÖ ¹ ÔÔÖÓ ºÁÒËÁ ÅÇ ³¼ ÈÖÓ Ò Ó Ø ¾¼¼ Å ÊÄ Ì Ò Ò Ê ÙÊ Ñ Ö Ò Ò Ò Å ÖÓÒÄ ÚÒÝº ÁÊ À Ò ÒØ Æ Û ÓÖ Æ ÍË ¾¼¼ º Åº ËÁ ÅÇ ÒØ ÖÒ Ø ÓÒ ÐÓÒ Ö Ò ÓÒÅ Ò Ñ ÒØÓ Ø Ô Ø ÐÙ Ø Ö Ò Ñ Ø Ó ÓÖÚ ÖÝÐ Ö Ø ºÔ ½¼ ½½ ½ º

13 Ñ º» ºÂÙÐ ¾¼¼ ÖÒÍÒ Ú Ö ØØ ÒÀ Ò Ð Ù ÖÈÖ ÒÞÔ Ë Ñ Ò Ö¼½ ½¾ Ø Å Ò Ò Ù ÖÙÒ Ò Ö Ù ÐÐ Û Ö ÈÖ ÒÞÔ ÒÙÖÞÛ Ø ØØ Ö µì Ù ÖÒ ½½ºÂÙÒ ¾¼¼ ÙÖ Î ÖÞ ÖÙÒ Ò Ñ Ð Ù ÒÒ Ø Ø Ð Ò Ò Ö ÖÈÐ ¹ Ë º ¼ º¼ º¾¼¼ º¼¼Í Ö¹½¾º ¼Í Ö Öº ¼ º¼ º¾¼¼ ½¼º¼¼Í Ö¹½ º Í Ö ÒÙÒ Ñ Ð ÖÛ Ò ÒØ ÒÚ Ö ÒºÏ Ö ØØ Ò ØÛ ÈÐ ÒÙÒ Á Ö Ö Ö ÞÙ Ö Ø Òº ÇÖØ ÖÒÍÒ Ú Ö ØØ ÒÀ Ò ÁÒ ÓÖÑ Ø Þ ÒØÖÙÑ Ê ÙÑÀ¼ ÍÒ Ú Ö ØØ ØÖ ½ Ò Ò ¹Ñ Ò Ø ÒÎÓÖØÖ Ð Ø Ò Ù ÓÒ Ô ÚÓÒ ØÛ ½ Å ÒÙØ Ò ÔÐ ÒØ Ö Ð Ù Ö Ò Ö Ø ÒÛ Ö Ö ÒË Ñ Ø ÎÓÖØÖ Ò ÔÐ ÒØº ¼ À Ò Ù Ö Òº Û Ò Ù Ò Ò Ö ÓÐ Ò ÒÎÓÖØÖ Ò ÒÛ Ö ÙÖÞ È Ù ÒÚÓÖ Òº ½

14 Ö Ø ¼ º¼ º¾¼¼ ½¼º½ ÎÓÖØÖ ½ ÇÐ Ê Ò Ö Ì Ñ ½º½º½µ ½¼º¼¼ Ö ÙÒ ½½º½ Ã ¹È Ù ½ º ¼ÎÓÖØÖ Å Ø ÃÖ Ö Ì Ñ ½º¾º½µ ½½º ¼ÎÓÖØÖ ¾ Æ ÓÐ ÎÓ Ø Ì Ñ ½º½º¾µ ½ º ¼Ã ¹È Ù ½¾º ¼ Å ØØ Ô Ù ½ º ÎÓÖØÖ ÓÒ Ø ÒÞ ÀÓ Ñ ÒÒ Ì Ñ ½º º½µ Å Ð ØÞÙÖÎ ÖÔ ÙÒ Ò ÖÅ Ò Ó ÖÈÓÐ Þ ÒØ Ò µ ½ º Ã ¹È Ù Ë Ñ Ø ¼ º¼ º¾¼¼ ½ º¼¼ÎÓÖØÖ Ì ÓÖ Ø Ò Ð Ö Ì Ñ ½º º½µ ½ º Ë ÐÙ ¼ º¼¼ ÒÒ ¼ º¼¼ÎÓÖØÖ ÖÒ ÈÙ Ò Ö Ì Ñ ½º º¾µ ½¼º¼¼Ã ¹È Ù ½¼º½ ÎÓÖØÖ Ñ Ð Ì Ñ ½º º µ ½½º½ Ã ¹È Ù ½½º ¼ÎÓÖØÖ ØÑ ÝÓÐ Ì Ñ ½º º½µ ½ º¼¼ Ë ÐÙ» Ö ½¾º ¼ ÐÙ Ù ÓÒ ÞÓ Òº ÐÐ ÒÎÓÖØÖ ÒØ ÐÐØ Û Ö Ò º ÐÐ Ò ÓÐ Ò ÒÎÓÖØÖ ÒØ ÔÖ Ò ÚÓÖ¹ ¾

15 FernUniversität in Hagen Seminar Data Mining im Sommersemester 2008 Häufige Muster und Assoziationsregeln Thema Der Apriori-Algorithmus (Ausarbeitung) Referentin: Olga Riener

16 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 2 Inhaltsverzeichnis 1. Einführung Formale Notationen Transaktionen, Attribute (items) Assoziationsregeln (association rules) Unterstützungsgrad (support) Konfidenz bzw. Vertrauensgrad (confidence) Häufige Muster (frequent itemsets) Formale Definition des Assoziationsproblems Basisalgorithmen zur Entdeckung von Assoziationsregeln AIS-Algorithmus SETM-Algorithmus Nachteile der Basisalgorithmen Apriori-Ansatz zur Entdeckung von Assoziationsregeln Grundidee des Apriori-Ansatzes Apriori-Algorithmus Erkennung der Assoziationsregeln Apriori-Erweiterungen AprioriTID AprioriHybrid Sonstige Effizienzsteigerung des Apriori-Verfahrens Hashbasierte Techniken (DHP) Reduzierung der Transaktionen Partitionierung Sampling Dynamische Aufzählung der Attributenwertmenge (DIC) Fazit Literaturliste

17 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 3 1. Einführung Der Erfolg vieler Aktivitäten in unserem Leben wird heutzutage primär vom Vorhandensein und der richtigen Auswertung diverser Informationen bestimmt. Bei der Geschäftsführung, bei wissenschaftlichen Recherchen oder bei staatlichen sozial-wirtschaftlichen Programmen sind solche Erkenntnisse besonders wichtig für den Erfolg. Der Einsatz von Datenbanktechnologien ermöglicht die Aufnahme größerer Datenbestände wie Lagerbestände, Auftragsdaten, Verkaufs- und Umsatzdaten, Personendaten, usw. Der KDD-Einsatz ( Knowledge Discovery in Databases ) stellt entsprechend den gesamten Prozess der interaktiven und iterativen Entdeckung und Interpretation von nützlichem Wissen aus diesen Daten dar. Das Data Mining an sich ist das Herzstück des KDD-Prozesses. Unter Data Mining versteht man das systematische (in der Regel automatisierte oder halbautomatische) Entdecken und Extrahieren von Strukturen und Beziehungen in großen Datenmengen. ([6]) Bei Data Mining geht es also um die Auswahl und Anwendung geeigneter Methoden zur Entdeckung von Mustern und Beziehungen in den betrachteten Daten. Die hierduch gewonnenen Aussagen werden nach der entsprechenden Plausibilitätskontrolle in Erkenntnisse bzw. Wissen umgesetzt. Beispiel 1.1. Anwendungsbeispiel für Data Mining Eines der geläufigsten Anwendungsbeispiele für Data Mining findet man bei der Warenkorbanalyse, wo es um die folgende Frage geht: Welche Produkte werden häufig zusammen gekauft? Hm-m-m, welche Produkte werden bei uns häufig zusammen gekauft? Kunde 1: Brot, Milch, Butter Kunde 2: Brot, Zucker, Milch Kunde 3: Brot, Milch, Butter, Mehl Kunde 4: Zucker, Sahne Abbildung 1.1 Die Antwort auf die obige Frage kann dann wie folgt aussehen: Kauft ein Kunde Milch und Butter, besteht eine große Wahrscheinlichkeit, dass er sich auch noch für Brot entscheidet

18 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 4 Es haben sich im Wesentlichen vier Aufgabenbereiche des Data Mining herausgebildet, und zwar die Segmentierung, die Klassifikation, die Vorhersage sowie der Ansatz der Assoziation. In der Tabelle 1.1. werden diese Aufgabenbereiche überblicksartig beschrieben. ([6]) Tabelle 1.1. Aufgabenbereiche und Methoden des Data Mining. Aufgabe Aufgabenstellung/Beispiel Wesentliche Methoden Bildung von Klassen aufgrund von Ähnlichkeiten der Objekte. Segmentierung Beispiel: - Clusteranalyse Kundensegmentierung, um Produkte, Dienste und - Neuronale Netze Kommunikationsmaßnahmen auf die Bedürfnisse der gefundenen homogenen Zielgruppen abstimmen zu können. Klassifikation Vorhersage Assoziation Identifikation der Klassenzugehörigkeit von Objekten auf der Basis gegebener Merkmale. Beispiel: Eine klassifikatorische Bonitätsbeurteilung ordnet einen Kunden in die Klassen der kreditwürdigen oder der kreditunwürdigen Personen ein. Prognose der Werte einer abhängigen kontinuierlichen Variable auf Basis einer funktionalen Beziehung. Beispiel: Bei einer vorhersagenden Bonitätsbeurteilung wird die Bonität z.b. als maximal einräumbares Forderungsvolumen definiert. Aufdeckung von strukturellen Zusammenhängen in Datenbasen mit Hilfe von Regeln. Beispiel: Hier werden häufige Muster gefunden, z.b.: Produkt/Kunden Muster (Warenkorbanalyse) Sequenzmuster in Zeitreihen, Texten. - Diskriminanzanalyse - Neuronale Netze - Entscheidungsbäume - Regressionsanalyse - Neuronale Netze - Entscheidungsbäume - Assoziationsanalyse Generell haben sich in den letzten 10 Jahren die Methoden des Data Mining in vielen Einsatzgebieten etabliert. Herausragende Bedeutung haben jedoch die folgenden betriebswirtschaftlichen Anwendungen ([6]): 1) Marketing Kundensegmentierung Responseanalyse von Werbemitteln Warenkorbanalyse Storno-/Reklamations-/Kündigungsanalyse 2) Beschaffung/Produktion Materialbedarfsplanung Qualitätssicherung und Kontrolle

19 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 5 3) Controlling Ergebnisabweichungsanalyse Entdecken von Controlling-Mustern 4) Finanzdienstleistungen Kreditrisikobewertung Prävention des Kreditkartenmissbrauchs Bildung von Versicherungsrisikoklassen Im Folgenden wird nur auf die Assoziationsanalyse näher eingegangen

20 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 6 2. Formale Notationen Bevor wir uns mit den tatsächlichen Regeln und Algorithmen zur Entdeckung interessanter Zusammenhänge in großen Datenbeständen beschäftigen, werfen wir einen Blick auf die formalen Definitionen der hierfür interessanten Kenngrößen und betrachten ihre Nutzung am Beispiel der Warenkorbanalyse Transaktionen, Attribute (items) Gegeben seien eine Menge F von Transaktionsbezeichnern (Transaktionsschlüsseln) und eine Menge O von Objektbezeichnern (items). Eine Transaktion T ist ein Paar T=(TID, I), wobei TID F ein eindeutiger Bezeichner für die Transaktion und I O eine endliche Menge von items ist. Die Elemente i 1, i 2,..., i k von I bezeichnen wir als items der Transaktion und schreiben I = {i 1, i 2,..., i k }. Die Menge aller Transaktionen bezeichnen wir als D. Diese formale Definitionen wird sehr anschaulich am Beispiel vom Kaufvorgang eines Kunden. Die Menge der zu einem Einkauf gehörenden Produkte wird als eine Menge von items aufgefasst, wobei jedem Produkt genau ein item entspricht. Jedem Kaufvorgang wird ein eindeutiger Schlüssel im Kassensystem zugeordnet (TID). Für jeden Kaufvorgang speichert das Kassensystem einen Datensatz T, bestehend aus dem Schlüssel TID und einem mengenwertigen Attribut I, das alle items i 1, i 2,..., i k enthält, die Gegenstand des Kaufvorgangs sind. Für unsere weitere Recherchen betrachten wir die Menge D aller Transaktionen aus der Tabelle : Tabelle Einkaufstransaktionen TID Items 100 Brot, Milch, Butter 200 Brot, Milch, Käse 300 Brot, Marmelade 400 Milch, Butter, Brot 500 Brot, Milch, Butter, Käse 600 Marmelade

21 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Assoziationsregeln (association rules) Bei einer Assoziationsregel handelt es sich allgemein um eine Aussage der Form: Wenn ein Ereignis X eingetreten ist, dann besteht eine hohe Wahrscheinlichkeit, dass auch Ereignis Y eintritt. ([2]) Definition: Assoziationsregel Gegeben seien eine Menge F von Transaktionsbezeichnern und eine Menge O von Objektbezeichnern (items). Für X,Y O, X Y= ist die Implikation X Y eine Assoziationsregel. Eine Transaktion T=(TID,I) erfüllt eine Transaktionsregel R: X Y genau dann, wenn gilt: (X Y). Wir schreiben T R. Es werden die folgenden Arten von Assoziationsregeln unterschieden ([3]): Nützliche Assoziationsregeln enthalten Information über bislang unbekannte, aber nachvollziehbare Zusammenhänge. Semantisch triviale Assoziationsregeln enthalten korrekte Information über bereits allgemein bekannte Zusammenhänge. Syntaktisch triviale Assoziationsregeln enthalten Information über Zusammenhänge, die allein aufgrund des syntaktischen Aufbaus der Assoziationsregel und unabhängig von deren Inhalt korrekt sind. Unerklärliche Assoziationsregeln entziehen sich einer plausiblen Erklärung. Die Zugehörigkeit der Assoziationsregeln zu einer der obengenannten Gruppen kann unter anderem durch die Auswertung unter Verwendung von Metriken wie dem Unterstützungsgrad (siehe Kapitel 2.3) und Vertrauensgrad (siehe Kapitel 2.4.) bestimmt werden. Beispiel Aus den Einkaufstransaktionen der Tabelle können wir z.b. die Abhängigkeit Kauft ein Kunde Brot und Butter, so kauft er höchstwahrscheinlich auch Milch als Assoziationsregel {Brot, Butter } {Milch} ableiten Unterstützungsgrad (support) Gegeben seien eine Menge F von Transaktionsbezeichnern, eine Menge O von Objektbezeichnern (items) und eine Menge von Transaktionen D. Dann ist für eine itemset X O der Unterstützungsgrad (support) von X in D wie folgt definiert: { T D T=(TID,I), X I } support D (X) = ([4]) D

22 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 8 Offensichtlich misst support D (X) den (prozentualen) Anteil der Transaktionen mit X in der Menge aller Transaktionen D an. Der Unterstützungsgrad (support) einer Assoziationsregel R: (A B) in D ist wie folgt definiert: {T D T=(TID,I), (A ) I } support D (A = = support D (A ([4]) D Offensichtlich misst support D (A die statistische Signifikanz der Regel R und wird als der (prozentuale) Anteil der Transaktionen mit (A B) in der Menge aller Transaktionen D berechnet. Ein hoher Unterstützungsgrad signalisiert tendenziell, dass die Assoziationsregel einen bereits bekannten Zusammenhang beschreibt. Da auch Assoziationsregeln mit geringem Unterstützungsgrad interessante Zusammenhänge repräsentieren können, ist der Unterstützungsgrad für sich allein genommen nicht geeignet, die Relevanz von Assoziationsregeln zu messen. Beispiel Aus den Einkaufstransaktionen der Tabelle bekommen wir z.b. die folgenden Werte für den Unterstützungsgrad: support({brot}) = 5/6 = 83.3% support({milch},{butter}) = 3/6 = 50% support({brot},{milch}) = 4/6 = 66,6 % 2.4. Konfidenz bzw. Vertrauensgrad (confidence) Die Konfidenz misst die Sicherheit der entdeckten Assoziationsregel und präsentiert somit die Stärke bzw. den Vertrauensgrad für dieser Regel. Die Konfidenz ist der (prozentuale) Anteil der Transaktionen mit (X Y) in der Menge der Transaktionen D, deren Itemsets X enthalten : {T D T=(TID,I), (X Y) I } support D (X Y) confidence D (X Y) = = ([4]) {T D T=(TID,I), X I } support D (X) Der Vertrauensgrad einer Assoziationsregel ist unempfindlich gegenüber einer Veränderung der Anzahl der Tupel von D bei gleichbleibender Anzahl der Tupel, die die Assoziationsregel bzw. deren linke Seite erfüllen. Der Vertrauensgrad einer Assoziationsregel ist unempfindlich gegenüber einer proportionalen Veränderung des Unterstützungsgrads der Assoziationsregel und ihrer linken Seite. Beispiel Aus den Einkaufstransaktionen der Tabelle bekommen wir z.b. die folgenden Werte für den Vertrauensgrad:

23 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 9 support({brot} {Milch}) 2/3 confidence(brot Milch) = = = 80% support({brot}) 5/6 support({milch} {Brot}) 2/3 confidence(milch Brot) = = = 100% support({milch }) 2/ Häufige Muster (frequent itemsets) Eine Menge aus einem oder mehreren items einer Transaktion wird als Muster oder als Attributwertmenge (itemset) bezeichnet (z.b. Muster {Milch, Brot} in einer Kauftransaktion). Eine aus k items bestehende Attributwertmenge wird als k-attributwertmenge bezeichnet. Ein häufiges Muster ist eine Attributwertmenge M O mit einem Unterstützungsgrad grösser als eine vorgegebene minimale Unterstützung min_sup. D.h. der Anteil der Transaktionen in D mit dieser Attributwertmenge muss mindestens min_sup sein (support D (X) min_sup). Beispiel Aus den Einkaufstransaktionen der Tabelle und bei der vorgegebenen minimalen Unterstützung min_sup=45% können wir folgende Besipiele betrachten: Die Attributwertmengen ({Brot}), ({Milch},{Butter}), ({Brot},{Milch}) sind häufige Muster. Die Attributwertmengen ({Butter, Käse}),(Marmelade}) sind keine häufigen Muster

24 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Formale Definition des Assoziationsproblems Die Entdeckung interessanter Zusammenhänge in grösseren Datenbeständen erfolgt durch die Suche nach allen Assoziationsregeln mit mindestens: einem vorgegebenen Unterstützungsgrad (support) min_sup; einem vorgegebenen Vertrauensgrad (confidence) min_conf. Die Werte für min_sup und min_conf sind dabei frei wählbar. ([1], [4]) Das Assoziationsproblem an sich kann somit wie folgt formal definiert werden: In der gegebenen Menge D der Transaktionen, mit vorgegebenen min_sup und min_conf finde alle Assoziationsregeln X Y, so dass support(x Y) min_sup confidence(x Y) min_conf Eine enumerative Problemlösung hierzu kann in folgenden Schritten realisiert werden: Auflistung aller möglichen Assoziationsregeln Berechnung vom Unterstützungs- und Vertrauensgrad für jede Assoziationsregel Entfernen aller Assoziationsregeln, deren Unterstützungs- oder Vertrauensgrad kleiner als die geforderten Werte min_sup und min_conf sind. Solch eine Umsetzung verbietet sich jedoch bei grösseren Datenbeständen auf Grund der Rechenintensivität, da allein die Anzahl aller möglichen Kombinationen von Attributwerten der Ausgangs-Attributwertmenge im Allgemeinen sehr groß ist. Die Aufgabe von Assoziationsregelalgorithmen besteht daher darin, möglichst effizient alle häufigen Attributwertmengen zu finden, ohne jedoch alle grundsätzlich möglichen Attributwertmengen auf ihren Unterstützungsgrad hin untersuchen zu müssen. Sind schließlich alle häufigen Attributwertmengen gefunden, werden im zweiten Schritt aus jeder häufigen Attributwertmenge alle möglichen Regeln generiert, deren Vertrauensgrad größer gleich dem geforderten Mindestwert ist

25 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Basisalgorithmen zur Entdeckung von Assoziationsregeln Die ersten Algorithmen zur Entdeckung von Assoziationsregeln waren der AIS- und SETM- Algorithmus. Da diese Algorithmen heutzutage kaum noch praktische Bedeutung besitzen, betrachten wir diese nur oberflächlich um die historische Entwicklung dieses Problembereichs darzustellen AIS-Algorithmus Im Jahre 1993 wurde von den Mitarbeitern der Research IMB Almaden Center (Agrawal, Imielinski and Swami) das Problem der Assoziationsregeln eingeführt und der erste nach den Erfindern benannter Algorithmus (AIS-Algorithmus) zur Generierung von Einfachen Assoziationsregeln vorgeschlagen. Im AIS-Algorithmus werden die Kandidaten für häufige Itemsets beim Scannen der Datenbank on the fly" generiert und gezählt, was eine sehr rechenintensive Operation darstellt. ([1], [5], [7]) 4.2. SETM-Algorithmus Ebenfalls im Jahre 1993 wurde ein anderer Algorithmus namens SETM von Houtsma und Swami vorgestellt. Die Entwicklung dieses Algorithmus wurde mit dem Wunsch der SQL-Nutzung für die Suche nach den Assoziationsregeln motiviert. Im SETM-Algorithmus werden die potentiell häufigen Attributwertmengen analog dem AIS-Algorithmus basierend auf den Transformationen der Datenbank so zu sagen on the fly" generiert. Abweichend vom AIS-Algorithmus trennt der SETM-Algorithmus das Generieren der Kandidaten von deren Aufzählung, um die Standardoperation Union" (Vereinigung) der SQL- Sprache für die Generierung der Kandidaten zu benutzen. ([1], [5], [7]) 4.3. Nachteile der Basisalgorithmen Der Nachteil der beiden Algorithmen (AIS und SETM) ist das überflüssige Generieren und Aufzählen von Kandidaten, die sich später als nicht häufig erweisen. ([5], [7])

26 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Apriori-Ansatz zur Entdeckung von Assoziationsregeln Der Apriori-Algorithmus wurde 1994 von Rakesh Agrawal und Ramakrishnan Srikant entwickelt. Zur Zeit ist er der meistgenutzte Algorithmus zur Entdeckung der Assoziationsregeln aus Datenbeständen. Er zeichnet sich durch seine Einfachheit und ein gutes Laufzeitverhalten bei kleinen und mittleren Datenmengen aus. Dabei stellt er eine Weiterentwicklung und eine Verbesserung des AIS-Algorithmus dar. Die Entdeckung der Assoziationsregeln wird wiederum in die zwei Teilprobleme aufgeteilt welche dann separat gelöst werden können. In der ersten Phase kommt der eigentliche Apriori- Algorithmus in Einsatz für die Suche nach den häufige Muster (Attributwertmengen). In der zweiten Phase werden aus diesen häufigen Muster die Regeln gebildet Grundidee des Apriori-Ansatzes Der Apriori-Algorithmus ermittelt zu einer vorgegebenen Relation R und einem geforderten minimalen Unterstützungsgrad min_sup die Menge L aller häufigen Attributwertmengen, die in R vorkommen. Dies geschieht mit Hilfe eines iterativen Verfahrens, das zur Untersuchung der k- Attributwertmenge die bereits untersuchten (k-1)-attributwertmengen verwendet. Am Anfang wird die Menge L 1 aller häufigen 1-Attributwertmengen L 1 gefunden. L 1 wird zur Bestimmung aller häufigen 2-Attributwertmengen L 2 verwendet und so weiter, bis keine häufige n- Attributwertmenge mehr gefunden werden kann. Die Bestimmung jeder L k -Menge benötigt einen kompletten Datenbankdurchlauf bzw. Datenbankscan. Der Name Apriori wurde diesem Algorithmus auf Grund der Tatsache vergeben, dass folgendes a priori gesetzte Wissen (vorausgesetztes Wissen) bei der Ermittlung der häufigen Attributwertmengen verwendet wird ([7]): Jede nichtleere Teilmenge einer häufigen Attributwertmenge muss auch eine häufige Attributwertmenge sein (z.b., wenn {Milch, Brot} eine häufige Attributwertmenge in den Kauftransaktionen ist, so müssen {Milch} und {Brot} auch häufig sein) Dieses a priori -Wissen wird als folgende nicht-monotone Eigenschaft des Unterstützungsgrads aufgefasst: X,Y : ( X Y ) support(x) support(y) Die Verwendung dieser Eigenschaft im Apriori-Algorithmus hilft den Suchraum zu verkleinern und alle Obermengen der aussichtslosen k-elementigen Attributwertmengen für weitere Iterationen zu ignorieren. Dies kann am Beispiel verdeutlicht werden:

27 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 13 Beispiel Apriori Eigenschaft im Einsatz (auf Basis der Einkaufstransaktionen aus der Tabelle ) geforderter minimaler Unterstützungsgrad min_sup=50% 1. Iteration 1-Itemset Support Brot 5/6=83,3% 2. Iteration Milch 4/6=66,6% 2-Itemset support Butter 3/6=50% Brot, Milch 4/6=66,6% 3. Iteration Käse 2/6=33.3% Milch, Butter 3/6=50% 3-Itemset support Marmelade 2/6=33.3% Brot, Butter 3/6=50% Brot, Milch, Butter 3/6=50% 5.2. Apriori-Algorithmus Die eigentliche Ausführung vom Apriori-Algorithmus verwendet dabei im wesentlichen die folgenden Hilfsmengen ([1], [5]): C k (k 1) ist die Menge aller k-elementigen potentiell häufigen Attributwertmengen. L k (k 1) ist die Menge aller k-elementigen häufigen Attributwertmengen. Der Durchlauf jeder Iteration k im Apriori-Algorithmus erfolgt in 3 Schritten: Im ersten Schritt, der sogenannten Join-Phase, wird die C k Menge erzeugt, indem die (k-1)-attributwertmenge L k-1 mit sich selbst vereinigt wird. Im zweiten Schritt, der sogenannten Pruning-Phase, werden aus der C k Menge alle k- elementigen Attributwertmengen entfernt, die eine Teilmenge enthalten, welche nicht häufig ist. D.h. in diesem Schritt werden die Kandidaten aus C k mit Hilfe der Apriori- Eigenschaft abgeschnitten. Als abschließender Schritt wird für die übrig gebliebenen Kandidaten aus C k an Hand der Datenbasis überprüft, ob sie häufig sind. Die Kandidaten, die diesen Test bestehen, werden in die Menge L k aufgenommen. Wie bereits im Kapitel 4.1. erwähnt wird dieses iterative Vorgehen so oft wiederholt, bis keine weitere häufige Attributwertmenge gefunden werden kann. Die Realisierung dieses Algorithmus kann mit dem folgenden Pseudo-Code ([1], [5]) verdeutlicht werden: ( 1) L 1 = {häufige 1-Attributenwertmenge}; ( 2) for ( k=2 ; L k-1 { } ; k++ ) do begin ( 3) C k = apriori-gen(l k-1 ); // Berechnung neuer Kandidaten ( 4) for all Transaktionen t D do begin ( 5) C t = subset(c k,t) ; // Berechnung aller in t enthaltene Kandidaten ( 6) for all Kandidaten c C t do ( 7) c.count++; // ( 8) end ( 9) L k = {c C k c.count >= minsup} (10) end (11) return: k L k

28 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 14 In Zeile (1) wird mit der Menge der einelementigen häufigen Attributwertmenge gestartet. Diese Menge wird durch einfaches Zählen der Häufigkeit der einzelnen Attributwerte im Datenbestand D und anschließendem Vergleich mit der Größe min_sup bestimmt. Ausgangspunkt ist dann eine nichtleere Menge aller häufigen (k-1)-attributwertmengen L k-1 (Zeile 2). Um die häufige k-attributwertmengen L k zu finden, werden zunächst die sogennaten k-elementigen Kandidaten C k bestimmt, die potentielle häufige k-attributwertmengen sein können. Dazu wird die weiter unten beschriebene Funktion apriori-gen verwendet, welche die Menge der k-elementigen Kandidaten C k zurückgibt (Zeile 3). Zu diesen k-elementigen Kandidaten werden dann die im Datenbestand vorkommenden Häufigkeiten (support-werte) berechnet (Zeilen 4-8). Dies geschieht, indem zunächst in der Prozedur subset für jede Transaktion t alle in t vorkommenden k-elementigen Attributwertmengen bestimmt werden, die zugleich in der Menge der k-elementigen Kandidaten C k enthalten sind. Anschließend wird für jede dieser Mengen ein Zähler inkrementiert (Zeile 6,7), der nach Durchlauf aller Transaktion angibt, wie oft ein bestimmter k-elementiger Kandidat durch die Transaktionen unterstützt wird. Diejenigen k-elementigen Kandidaten, die sich durch Vergleich der Auftretenshäufigkeit mit der Größe min_sup als häufige k-attributwertmengen herausstellen, werden in die Menge der häufigen k-attributwertmengen L k aufgenommen. Wenn L k nicht leer ist, so wird mit dieser Menge die Schleife ab Zeile 2 wiederholt. Der Algorithmus terminiert, wenn die Menge der häufigen k-attributwertmengen L k leer ist und somit keine weiteren Obermengen, welche die min_sup-bedingung erfüllen könnten, gefunden werden können. Die Berechnung der neuen k-elementigen Kandidaten erfolgt in der folgenden apriori-gen Funktion ([5]): procedure apriori-gen(l k-1 : (k-1)-attributwertmenge) //Join-Schritt ( 1) insert into C k ( 2) select p.item 1, p.item 2, p.item k-1, q.item k-1 ( 3) from L k-1 p, L k-1 q ( 4) where p.item 1 =q.item 1,.,.p.item k-2=q. item k-2, p.item k-1<q. item k-1 // Prune-Schritt ( 5) for all itemsets c C k do ( 6) for all (k-1) subset s of c do ( 7) if ( s L k-1 ) then ( 8) delete c from C k end procedure Die apriori-gen Funktion besteht aus 2 Phasen: dem Join-Schritt und dem Prune-Schritt. Im Join- Schritt (Zeilen 1-4) wird die als Input übergebene (k-1)-attributwertmenge L k-1 mit sich selbst vereinigt, um einen neuen Kandidat der Größe k zu erzeugen. Dabei werden solche häufigen (k- 1)-elementigen Attributwertmengen verknüpft, welche in den ersten k-2 Elementen identisch

29 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 15 sind. Dabei ist zu beachten, dass die Attributwerte (items) in den Mengen lexikographisch geordnet sind. Durch diese Ordnung werden Doppelzählungen vermieden. Im zweiten Teil der Funktion (Prune-Schritt, Zeilen 5-8) werden solche k-elementigen potentiell häufigen Attributwertmengen aus C k entfernt, die mindestens eine Teilmenge besitzen, welche nicht in der zu Grunde liegenden häufigen (k-1)-attributwertmenge L k-1 liegt. Solche k- elementigen Kandidatenmengen können a priori nicht einen Unterstützungsgrad von mindestens min_sup besitzen. Die Subroutine subset im Apriori-Algorithmus (Zeile 5) wird verwendet, um die übrig gebliebenen Kandidaten aus C k zu testen, ob diese auch den vorgegebenen Unterstützungsgrad min_sup besitzen. Da diese Operation einen kompletten Datenbankscan erfordert, ist eine effiziente Implementierung von Bedeutung. Hierfür wird ein Hashverfahren angewendet und die k-elementigen Kandidatenmengen C k in einem Hash-Tree gespeichert. Beispiel Wir setzen unser Beispiel aus Tabelle fort und wenden den Apriori-Algorithmus an, um alle häufigen Attributwertmengen bzw. Muster zu entdecken. Zur Vereinfachung kodieren wir die vorkommenden Attributwerte wie folgt: Brot =a ; Milch =b; Butter = c; Käse =d; Marmelade = e Der geforderte minimale Unterstützungsgrad für eine häufige Attributwertmenge ist min_sup=50% Transaktionen 1.Iteration 2.Iteration TID Gekaufte Artikel 100 {a, b, c} 200 {a, b, d} 300 {a, e} 400 {a, b, c} 500 {a, b, c, d} 600 {e} C 1 Menge Itemset Support {a} 5/6 = 83,3 % L 1 Menge {b} 4/6 = 66,6 % Itemset Support {c} 3/6 = 50 % {a} 5/6 = 83,3 % {d} 2/6 = 33,3 % {b} 4/6 = 66,6 % {e} 2/6 = 33,3 % {c} 3/6 = 50 % C 2 Menge L 2 Menge Itemset Support Itemset Support {a, b} 4/6 = 66,6 % {a, b} 4/6 = 66,6 % {a, c} 3/6 = 50 % {a, c} 3/6 = 50 % {b, c} 3/6 = 50 % {b, c} 3/6 = 50 %

30 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 16 3.Iteration 4.Iteration C 3 Menge L 3 Menge Itemset Support Itemset Support {a, b, c} 3/6 = 50 % {a, b, c} 3/6 = 50 % C 4 Menge L 4 Menge Itemset Support Itemset Support { } { } 5.3. Erkennung der Assoziationsregeln Mit dem Apriori-Algorithmus ist es möglich, sämtliche häufigen Muster eines Datenbestandes zu erzeugen. In der zweiten Phase der Bestimmung der Assoziationsregeln werden nun aus diesen häufigen Mustern die Regeln generiert, die auch mindestens den vorgegebenen Vertrauensgrad min_conf haben. Dies kann mit Hilfe der Konfidenz-Gleichung (siehe Kapitel 2.4) erfolgen: support(x Y) confidence(x Y) = support(x) Ausgehend von dieser Gleichung, können dann die Assoziationsregeln wie folgt generiert werden: Für jede häufige Attributwertmenge l werden nicht leere Teilmengen von l gebildet Für jede nicht leere Teilmenge s von l wird die Regel s (l/s) generiert, falls support(l) min_conf, support(s) wo min_conf ein vorgegebener Vertrauensgrad (confidence) ist. ([1], [8]) Wie bereits im Kapitel 2 erwähnt soll eine Assoziationsregel mindestens den vorgegebenen Unterstützungsgrad (support) min_sup und den vorgegebenen Vertrauensgrad (confidence) min_conf besitzen. Da die Erstellung der Assoziationsregeln bereits auf den häufigen Attributwertmengen erfolgt, erfüllt jede dieser Regeln diese Forderung im Bezug auf den vorgegebenen Unterstützungsgrad automatisch. Beispiel (Fortführung des Beispiels ) Im zweiten Schritt werden die Assoziationsregeln aus den im Beispiel durch den Apriori- Algorithmus gewonnenen häufigen Attributwertmengen abgeleitet. Als Ergebnis des

31 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 17 Gesamtverfahrens werden nur diejenigen Assoziationsregeln ausgegeben, welche mindestens den vorgegebenen Vertrauensgrad min_conf=75 % besitzen. Regeln mit Support Erfüllende Transaktionen Unterstützungsgrad (support) Vertrauensgrad (confidence) {a} {b} 100, 200, 400, % 80 % {b} {a} 100, 200, 400, % 100 % {b} {c} 100, 400, % 75 % {c} {b} 100, 400, % 100 % {a} {c} 100, 400, % 60 % {c} {a} 100, 400, % 100 % {a, c} {b} 100, 400, % 100 % {b, a} {c} 100, 400, % 75 % {c,b} {a} 100, 400, % 100 % {b} {a, c} 100, 400, % 75 % {c} {b, a} 100, 400, % 100 % {a} {b, c} 100, 400, % 60 %

32 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Apriori-Erweiterungen Der Apriori-Algorithmus zeigt ein gutes Laufzeitverhalten bei kleinen und mittleren Datenmengen. Um sein schlechtes Laufzeitverhalten bei sehr großen Datenmengen zu überwinden wurden Apriori-Modifikationen wie AprioriTID und AprioriHybrid vorgenommen AprioriTID Dieser Algorithmus weist folgende interessante Eigenschaft auf: Die Datenbank D wird nach dem ersten Scannen nicht mehr für die Berechnung der Unterstützung (support) benutzt. Hierfür werden die Kandidaten als Hilfsmenge C k kodiert. Dabei wird jeder Kandidat als Eintrag der Form <TID, {X k }> kodiert, wo X k eine potentiell häufige k-attributwertmenge in der Transaktion TID ist. Bei k=1 wird die gesamte Datenbank als C 1 aufgefasst. Jede weitere Iteration k+1 nutzt dann nicht die Datenbank, sondern die Hilfsmenge C k Die Anzahl der kodierten potentiell häufigen Attributwertmengen kann in jeder Iteration n>1 wesentlich kleiner als die Anzahl aller Transaktionen in der Datenbank D sein. Dadurch wird die Anzahl der Datenbankzugriffe gesenkt und die Effizienz des Algorithmus erhöht. Der Nachteil dieses Algorithmus ist, dass bei der ersten Iterationen viel Speicherplatz benötigt wird. Beispiel AprioriTID-Algorithmus (Geforderte minimale Unterstützungsgrad ist min_sup=50%) Datenbank C 1 L 1 TID Attributten TID Hilfsmenge der Itemsets Itemset Support 100 a, c, d 100 {{a},{c},{d}} {a} 2/4 = 50% 200 b, c, e 200 {{b},{c},{e}} {b} 3/4 = 75% 300 a, b, c, e 300 {{a},{b},{c},{e}} {c} 3/4 = 75% 400 b, e 400 {{b},{e}} {e} 3/4 = 75% C 2 Itemset C 2 {a b} TID Hilfsmenge der Itemsets L 2 {a c} 100 {{a c}} Itemset Support {a e} 200 {{b c},{b e}, {c e}} {a c} 2/4 = 50% {b c} 300 {{a b},{a c},{a e},{b c}, {b c} 2/4 = 50% {b e} {b e},{c e}} {b e} 3/4 = 75% {c e} 400 {{b e}} {c e} 2/4 = 50% C 3 C 3 Itemset TID Hilfsmenge der Itemsets L 3 {b c e} 200 {{ b c e }} Itemset Support 300 {{ b c e }} { b c e } 2/4 = 50%

33 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite AprioriHybrid Die Analyse der Ausführungszeit von Apriori- und AprioriTid zeigt, dass in den früheren Iterationen Apriori effektiver als AprioriTID ist und in den späteren Iterationen AprioriTID besser als Apriori arbeitet. Beide Algorithmen benutzen ein und dieselbe Prozedur zur Bildung der potentiell häufigen k-attributwertmengen. Basierend auf dieser Beobachtung wurde der AprioriHybrid-Algorithmus vorgeschlagen, um die besten Eigenschaften von Apriori und AprioriTID in einem Verfahren zu kombinieren. AprioriHybrid verwendet den Apriori-Algorithmus in frühen Iterationen und wechselt zum AprioriTID-Algorithmus in späteren Iterationen. Der Wechsel zum AprioriTID-Algorithmus ist vor allem dann effektiv, wenn die kodierten Kandidaten der Hilfsmenge C k in den operativen Speicher passen. Der Nachteil des AprioriHybrid-Algorithmus ist der Verbrauch an zusätzlichen Ressourcen beim Umschalten von Apriori zu AprioriTID

34 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Sonstige Effizienzsteigerung des Apriori-Verfahrens Hauptansätze für die Effizienzsteigerung des Apriori-Verfahrens: Reduktion der Anzahl der Datenbankzugriffe/Datenbankscans Reduktion der Anzahl der Kandidaten Beschleunigung der Berechnung des Unterstützungsgrads für die Kandidaten 7.1. Hashbasierte Techniken (DHP) Hashbasiertes Verfahren (DHP-Algorithmus, direkt hashing and pruning ) wurde 1995 von J. Park, M. Chen and P. Yu entwickelt. Die hashbasierte Technik kann für die Reduzierung der potentiell häufigen k-attributwertmenge C k für k>1 Kandidaten benutzt werden. So wird zum Beispiel durch Scannen jeder Transaktion in der Datenbank aus der 1- Kandidatenmenge C 1 die häufige 1-Attributtenwertmenge L 1 erstellt. Parallel können wir für jede Transaktion alle potentiellen häufigen 2-Attributtenwertmengen C 2 generieren und diese in die unterschiedlichen Behälter einer Hashtabelle abbilden und den zugehörigen Behälterzähler entsprechend inkremetieren. Eine potentiell häufige 2-Attributwertmenge, deren zugehöriger Behälterzähler in der Hashtabelle unterhalb von min_supp liegt, kann nicht häufig sein und sollte deshalb aus der Kandidatenmenge entfernt werden. Solch eine hashbasierte Technik kann die Anzahl der untersuchten potentiellen häufigen k-attributwertmengen wesentlich reduzieren (besonders wenn k=2). ([5], [8]) 7.2. Reduzierung der Transaktionen Dieses Verfahren reduziert die Anzahl der Transaktionen, die in den künftigen Iterationen gescannt werden. Eine Transaktion, die keine häufige k-attributwertmengen beinhaltet kann auch keine häufigen k+1-attributwertmengen beinhalten. Somit kann eine solche Transaktion gekennzeichnet werden oder bei weiteren Überlegungen ausgenommen werden, da die nachfolgenden DB-Durchläufe für j-attributwertmengen bei j>k diese Transaktion nicht mehr benötigen. ([5], [8]) 7.3. Partitionierung Der Partitionierungs-Algorithmus wurde 1995 von A. Savasere, E. Omiecinski and S. Navathe entwickelt. Die Suche nach häufigen Attributwertmengen mit Hilfe der Partitionierungstechnik benötigt nur 2 DB-Durchläufe. Dieser Vorgang besteht aus 2 Phasen

35 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 21 In der ersten Phase verteilt der Algorithmus die Transaktionen von D in n disjunkte Partitionen. Wenn der minimal geforderter Unterstützungsgrad für Attributwertmengen in D min_sup ist, so wird die minimale Attributwertmengen-Unterstützung für eine Partition folgendermaßen berechnet: min_sup (Partition X) = min_sup * #_der_transaktionen_in_der_partitionx Mit Hilfe der min_sup (Partition X) werden für jede Partition X alle häufigen Attributwertmengen innerhalb dieser Partition gefunden. Diese werden lokale häufige Attributwertmengen genannt. Dieses Prozedere benutzt eine spezielle Datenstruktur, so dass für jedes Itemset die Primärschlüssel (TIDs) der relevanten Transaktionen festgehalten werden. Dieses Vorgehen ermöglicht die Feststellung aller lokalen häufigen k-attributtenwertmengen für k=1,2,... in nur einem DB-Durchlauf. Die lokalen häufigen Attributwertmengen können sowohl häufig, als auch unhäufig im Bezug auf die ursprüngliche Datenbank D auftreten. Aber alle potenziell häufigen Attributwertmengen in D sollen mindestens in einer der Partitionen als häufig vorkommen. Somit sind alle lokalen häufigen Attributwertmengen die möglichen Kandidat-Attributwertmengen für D. Die Sammlung der lokalen häufigen Attributwertmengen aus allen Partitionen bildet die Mengen der globalen potentiellen häufigen Attributwertmenge für D. In der zweiten Phase wird der DB-Durchlauf von D vorgenommen, um die tatsächliche Unterstützung jedes Kandidaten zu berechnen und die endgültige Menge der globalen häufigen Attributwertmengen festzustellen. Die Partitionsgröße und die Anzahl der Transaktionen sind so gewählt, dass jede Partition in den Hauptspeicher passen kann. Somit muss eine Partition in jeder Phase nur einmal gelesen werden. ([5], [8]) 7.4. Sampling Der Sampling-Algorithmus wurde 1996 von Toivonen vorgestellt. Die Grundidee von Sampling sind Recherchen auf einer Teilmenge der gegebenen Daten. Hierfür wird durch Stichproben eine Teilmenge S der gegebenen Daten D gebildet. Die anschließende Suche nach den häufigen Attributwertmengen erfolgt in S anstelle von D. Dieses Verfahren stellt somit einen Kompromiss dar, indem die Effizienz auf Kosten der Genauigkeit erhöht wird. Die Größe der Teilmenge S ist so gewählt, dass die Suche nach häufigen Attributtenwertmengen im Hauptspeicher durchgeführt werden kann und insgesamt nur ein einziger Durchlauf der Transaktionen in S erforderlich ist. Die Suche nach häufigen Attributwertmengen in S anstelle von D kann dazu führen, dass wir am Ende manche globale häufige Attributwertmengen übersehen. Um die Wahrscheinlichkeit dieses Übersehens zu reduzieren, verwenden wir einen geringeren Unterstützungsgrad für die Suche nach den häufigen Attributwertmengen (L S ) in S als den ursprünglich geforderten minimalen Unterstützungsgrad min_sup für D. Die übrige Datenbank wird dann nur zur Berechnung der tatsächlichen Häufigkeit jeder Attributwertmenge aus L S benutzt. Der Sampling-Ansatz ist vor allem dann vorzuziehen, wenn gerade die Effizienz von höchster Bedeutung ist. (Wie z.b. in rechenintensiven Applikation mit häufiger Ausführung)

36 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 22 ([5], [8]) 7.5. Dynamische Aufzählung der Attributenwertmenge (DIC) Im Jahre 1997 wurde von S. Brin R. Motwani, J. Ullman und S. Tsur eine Erweiterung des Apriori-Algorithmus unter dem Namen dynamic itemset counting (DIC) veröffentlicht. Die Grundidee hinter diesem Verfahren ist, in der Kandidatengenerierungsphase nicht den genauen Unterstützungsgrad zu bestimmen, sondern die Berechnung des Unterstützungsgrads zu stoppen, sobald eine Attributwertmenge eine Unterstützung größer als den vorgegebenen Unterstützungsgrad min_sup besitzt. ([5], [8])

37 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite Fazit Wir haben gesehen, dass die Assoziationsregeln eine wichtige Analysemöglichkeit für die Datenbestände darstellt. Wir haben diverse Ansätze zur Entdeckung der Assoziationsregeln kennen gelernt. Insbesondere haben wir mit dem Apriori-Algorithmus eine gut anwendbare und verständliche Methode zur Entdeckung der Assoziationsregeln kennen gelernt, die im Vergleich zur früheren Ansätzen (AIS, SETM) mit hoher Performanz arbeitet. Auch der Apriori ist noch nicht optimal. Hierfür existieren diverse Erweiterungen des Apriori Algorithmus wie AprioriTID und AprioriHybrid sowie weitere Ansätze zur Reduzierung der Anzahl der Datenbankzugriffe, Reduzierung der Kandidatengenerierung, usw

38 Olga Riener Thema Häufige Mustern und Assoziationsregeln. Der Apriori-Algorithmus Seite 24 Literaturliste [1] Rakesch Agrawal, Ramikrishan Srikant. Fast algorithms for mining association rules in large databases. Proc. 20th Int. Conf. Very Large Data Bases, VLDB, Pages Morgan Kaufmann, [2] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo. Efficient algorithms for discovering association rules. AAAI Workschop on KDD-94, pages , Seattle, Washington, 1994, AAAI Press [3] Prof. Dr. Jürgen M. Janas Vorlesung: Wrapup Data Mining PDF-Download [4] Dr. Jörg-Uwe Kietz. Data Mining zur Wissensgewinnung aus Datenbanken. Teil 7: Assoziationsregelverfahren (Vorlesung im Sommersemester 2005) PDF-Download: [5] Frank Beekmann Stichprobebasierte Assoziationsanalyse im Rahmen des Knowledge Discovery in Databases. ISBN , S [6] Udo Bankhofer "Data Mining und seine betriebswirtschaftliche Relevanz", in: Betriebswirtschaftliche Forschung und Praxis : BFuP. - Herne, Westf. : Verl. Neue Wirtschaftsbriefe, ISSN , 56. Jg. (2004), S [7] Chubukova Irina Data Mining: Assoziationsregeln (Russisches Online-Lehrbuch unter ) [8] Jiawei Han, Micheline Kamber Data Mining. Concepts and Techniques. ISBN , Seiten

39 Seminarbeitrag von Nicolai Voget Der Frequent-Pattern-Growth- Algorithmus angefertigt am Lehrstuhl Datenbanksysteme für neue Anwendungen FernUniversität Hagen Juni 2008 Betreuer: Christian Düntgen

40 ii Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget Kurzzusammenfassung Seitdem es möglich ist, große Datenmengen in Datenbanken zu speichern, wird rege geforscht, wie man diese Daten effektiv auswerten kann. Ein Forschungsbereich beschäftigt sich dabei mit der Suche nach effizienten Algorithmen, die wiederkehrende Muster und, darauf aufbauend, Assoziationsregeln aufdecken. Mit Hilfe dieser Algorithmen ist es beispielsweise möglich, Zusammenhänge im Konsumverhalten von Kunden aufzudecken, indem man ermittelt, welche Kombinationen von Waren besonders häufig gekauft wurden. Des Weiteren kann man darauf aufbauend feststellen, bei welchen Waren bestimmte Waren oft mit gekauft werden. Eine mögliche Aussage wäre: In 3% aller Käufe war Brot und Wurst dabei. (wiederkehrendes Muster) oder Bei 80% der Einkäufe, bei denen Bier gekauft wurde, waren auch Chips dabei. (Assoziationsregel). Darauf aufbauend kann dann kundenspezifisch geworben werden oder die Chips im Supermarkt neben das Bier gestellt werden. Einer der ersten Algorithmen, die dieses Problem der Suche nach häufigen Mustern ( frequent pattern ) lösen, war der Apriori-Algorithmus. Dabei ist jedoch nicht ganz klar, wer diesen erfunden hat, da sowohl ein Forscherteam aus Kalifornien, als auch ein Forscherteam aus Finnland im Jahre 1994 unabhängig voneinander ihre Algorithmen präsentierten, die im Grunde äquivalent sind. Im Jahre 2000, nach einer Reihe weiterer Veröffentlichungen aus aller Welt, veröffentlichten Jiawei Han, Jian Pei und Yiwen Yin von der Simon Fraser University in Kanada ihren Forschungsbericht mit dem Namen Mining Frequent Patterns without Candidate Generation, in dem sie einen neuartigen Algorithmus vorstellen, den sie frequent pattern growth (FP-Growth) nennen. In meiner Arbeit werde ich nun zuerst eine kurze Übersicht über den Apriori-Algorithmus geben, um, ausgehend von seinen Schwächen, die Motivation des FP-Growth-Ansatzes herauszuarbeiten. Daraufhin werde ich die Datenstruktur FP-Tree, die als Grundlage für den FP-Growth- Algorithmus dient, vorstellen, gefolgt von der Vorstellung des FP-Growth-Algorithmus. Zuletzt werde ich nach einem Vergleich des FP-Growth-Algorithmus mit dem Apriori- Algorithmus noch die verbleibenden Nachteile des FP-Growth-Algorithmus anschneiden

41 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus iii Inhaltsverzeichnis 1. Der Apriori-Algorithmus Grundlagen Der Apriori-Algorithmus Nachteile FP-Tree Überlegungen Definition und Aufbau des FP-Tree Beispiel FP-Growth Beispiel Der Algorithmus FP-Growth Vergleich von FP-Tree/FP-Growth mit Apriori...11 A Literaturangaben

42 1 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget 1. Der Apriori-Algorithmus Wie bereits weiter oben erwähnt, war der Apriori-Algorithmus einer der ersten wirklich effektiven Algorithmen für die Suche nach häufigen Mustern. Da sich (fast) alle nach ihm entwickelten Algorithmen mit ihm gemessen haben, werde ich hier einen kurzen Einblick in seine Funktionsweise geben. Doch bevor ich in die Details eintauche, kommen noch einige Grundlagen, die in den weiteren Ausführungen immer wieder auftreten werden Grundlagen Bei der Suche nach häufig wiederkehrenden Mustern stellt sich immer die Frage, ab wann ein Muster relevant ist. Beispielsweise ist bei einer Menge von Transaktionen nicht klar, ob die Tatsache, dass in 10 Transaktionen ein Muster auftaucht, wichtig ist oder nicht. Um nun eine Grenze zu ziehen gibt es eine Kenngröße: den support (Da in diesem Forschungsbereich wenig deutschsprachige Literatur veröffentlicht wurde und es daher auch keine häufig benutzten deutschen Äquivalente gibt, werde ich im Folgenden den englischen Begriff verwenden). Der support gibt an, wie oft ein Muster auftaucht. Dabei wird dieser manchmal absolut (Anzahl der Vorkommnisse des Musters) und manchmal relativ (zur Anzahl aller Transaktionen in der Datenbank) angegeben. Liegt nun der support eines Musters über einem bestimmten minimalen support (oft mit ξ bezeichnet), so ist dieses Muster häufig (engl. strong, frequent) Der Apriori-Algorithmus Nun stellt sich die Frage, wie man mit einem unkomplizierten Algorithmus möglichst schnell alle häufigen Muster aufzählen kann. Die sicherlich algorithmisch einfachste Lösung wäre es, jede mögliche Kombination von Elementen als Muster zu generieren und dann zu prüfen, welche dieser Muster häufig sind. Es fällt jedoch recht schnell auf, dass dieser Algorithmus schon für recht kleine Datenbanken unverhältnismäßig lange braucht, da viel zu viele Kombinationen generiert werden. Wir können uns dafür eine kleine, aber nicht ganz unwichtige Beobachtung zu Nutze machen: Ein Muster kann nur dann häufig sein, wenn alle seine Teilmengen auch häufige Muster sind. Das heißt, dass wir ein Muster, das k Elemente enthält, überhaupt nur weiter untersuchen müssen, wenn alle seine (k-1)-elementigen Teilmengen auch häufig sind. Somit haben wir nun

43 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus 2 einen iterativen Ansatz zur Lösung des Problems (vgl. [2]): 1) Bestimme alle 1-elementigen häufigen Muster (das sind gerade alle häufigen Elemente) 2) k=2 3) Nimm als Menge der möglichen k-elementigen Muster alle Kombinationen aus (k-1)- elementigen häufigen Mustern mit häufigen 1-elementigen Mustern 4) Entferne alle Kandidaten, von denen mindestens eine (k-1)-elementige Teilmenge kein Muster ist. 5) Prüfe für alle restlichen Kandidaten, ob support des Kandidaten über dem minimalen support liegt. Wenn nein, entferne den Kandidaten. 6) Die übrig gebliebenen Kandidaten sind genau die häufigen k-elementigen Muster. 7) Wenn die Menge der häufigen k-elementigen Muster nicht leer ist, erhöhe k, und gehe zurück zu 3. Das ist nun schon fast der Apriori-Algorithmus. Dieser hat nur noch den Unterschied, dass in Schritt 3 unseres Ansatzes nicht (k-1)-elementige Muster mit 1-elementigen Mustern kombiniert werden, sondern dass immer zwei (k-1)-elementige Muster, die sich nur in einem Element unterscheiden, kombiniert werden. Dadurch wird die Menge der Kandidaten kleiner gehalten, obwohl immer noch alle tatsächlich häufigen k-elementigen Muster enthalten sind Nachteile Obwohl der Apriori-Algorithmus schon eine starke Reduzierung des Problems mit sich bringt, bleiben doch noch zwei Probleme, die bei großen Datenbanken einen starken Einfluss auf die Rechenzeit und den Speicherbedarf haben: 1. Es werden immer noch viele Muster generiert, die nicht häufig sind. 2. Die Datenbank muss mehrfach durchlaufen werden, nämlich für jedes k einmal. Bei großen Datenbanken dauert solch ein Durchlauf unverhältnismäßig lange, bei großem k muss die Datenbank oft durchlaufen werden. Es ist also eine andere Herangehensweise an das Problem nötig, bei der der Algorithmus, wenn möglich, die Datenbank nur einige wenige Male durchläuft und bei der Generierung der Muster Rücksicht auf die Informationen der Datenbank nimmt

44 3 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget 2. FP-Tree Wie am Ende des letzten Kapitels zusammengefasst, suchen wir also eine Möglichkeit, mit möglichst wenig Datenbankdurchläufen alle häufigen Muster zu finden. Außerdem wollen wir nur genau die häufigen Muster generieren. Diese Möglichkeit haben Jiawei Han, Jian Pei und Yiwen Yin von der Simon Fraser University in Kanada im Jahre 2000 in ihrem Forschungsbericht Mining Frequent Patterns without Candidate Generation veröffentlicht. Den Kern dieses Berichts bildet die Entwicklung einer neuen Datenstruktur, von ihnen frequent pattern tree (FP-Tree) genannt, mit der sie alle notwendigen Informationen der Datenbank sehr kompakt speichern. Aufbauend auf diesem FP- Tree generiert dann ein Algorithmus, frequent pattern growth (FP-Growth), genau alle häufigen Muster. In diesem Kapitel werde ich nun darstellen, wie ein FP-Tree aufgebaut wird. Danach werde ich im nächsten Kapitel den FP-Growth-Algorithmus präsentieren, bevor ich abschließend in Kapitel 4 einen kurzen Vergleich zwischen dem Apriori-Ansatz und dem FP-Growth-Ansatz ziehen werde Überlegungen Han, Pei und Yin kamen nach gründlichen Überlegungen über Möglichkeiten zur Verbesserung des Apriori-Algorithmus zu dem Schluss, dass der kritische Punkt des Algorithmus die Generierung von Kandidaten ist. Es ging ihnen also primär um die Suche nach einer Möglichkeit, die Informationen der Datenbank so in einer Struktur darzustellen, dass diese Struktur schon alle Informationen über die häufigen Muster enthält. Bei der Frage, welche Informationen der Datenbank überhaupt in diese Struktur gehören, beobachteten sie einige Eigenschaften: 1. Elemente, die nicht häufig sind, müssen gar nicht abgebildet werden, da sie niemals in einem häufigen Muster vorkommen können. 2. Wenn zwei Transaktionen die gleiche Menge häufiger Elemente haben (Achtung: Diese Menge muss nicht unbedingt ein häufiges Muster sein!), so kann man sie als eine Transaktion speichern, wenn man vermerkt, dass die zweimal vorkommt. 3. Wenn die beiden Mengen häufiger Elemente von zwei Transaktionen gleich beginnen (bezogen auf eine feste Sortierung der häufigen Elemente), kann man diesen Präfix als

45 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus 4 gemeinsamen Präfix speichern, wenn man vermerkt, dass er zweimal vorkommt, und die unterschiedlichen Suffixe mit dem Präfix verknüpfen. Was die Sortierung betrifft, ist ersichtlich, dass man meistens mehr gemeinsame Präfixe findet, wenn die häufigen Elemente nach absteigender Häufigkeit sortiert werden. Es ist nicht schwer zu sehen, dass die bisherigen Überlegungen den Informationsgehalt der Datenbank nur an Stellen verkürzen, die sowieso nicht von Bedeutung sind (nämlich das Überlesen nicht häufiger Elemente, 1.). Außerdem ist 2. ein Spezialfall von 3. Bevor wir nun jedoch unsere Überlegungen weiter verfolgen können, stellt sich die Frage, wie wir zu diesen Mengen häufiger Elemente der Transaktionen kommen. Dafür müssen wir die Datenbank einmal komplett durchlaufen und für jedes Element seinen support bestimmen. Nach dem Durchlauf werden alle Elemente, deren support unter dem minimalen support liegt, gelöscht und die übrig gebliebenen Elemente nach absteigendem support geordnet. Damit haben wir dann eine ab jetzt feste Sortierung der Elemente. In einem zweiten Durchlauf können wir dann für jede Transaktion alle Elemente, die in der Menge der häufigen Elemente vorkommen, der Sortierung nach in eine Menge einfügen. Damit haben wir dann unsere Menge der häufigen Elemente, die wir jetzt nur noch in einer Struktur abspeichern müssen. Aus 3. wird leicht ersichtlich, dass wir einen Baum benötigen, da wir ja einen Präfix mit mehreren Suffixen verknüpfen können müssen. Damit alle Transaktionen den gleichen Anfang haben, also alle von einem Knoten aus zu erreichen sind, wird die Wurzel ein leerer Knoten. Eine Menge häufiger Elemente einer Transaktion wird nun in den Baum eingefügt, indem, von der Wurzel ausgehend, die Menge als Pfad abgebildet wird. Das heißt, wir gucken für das jeweils aktuelle Element der Menge, ob der aktuelle Knoten schon einen Sohn mit dem Namen des Elements enthält. Wenn ja, gehen wir zu diesem Knoten, erhöhen seine Anzahl, die gemeinsam mit dem Namen abgespeichert wird, um 1. Existiert jedoch kein Sohn mit dem richtigen Namen, so fügen wir einen neuen Sohn ein, den wir mit dem Namen des Elements benennen, und setzen seine Anzahl auf 1. Danach betrachten wir das nächste Element der Menge. Am Ende entspricht damit jeder Durchlauf durch den Baum vom Wurzelknoten zu einem Blatt mindestens einer Transaktion. (Die Anzahl der Transaktionen, die tatsächlich dem gewählten Pfad entsprechen, lässt sich anhand der Anzahl des Blattes bestimmen). Es gibt jedoch auch Transaktionen, deren entsprechender Pfad gar nicht bis zu einem Blatt geht, sondern in einem Knoten endet. Das ist dann der Fall, wenn die Menge häufiger Elemente der Transaktion ein Präfix einer Menge häufiger Elemente einer anderen Transaktion ist

46 5 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget 2.2. Definition und Aufbau des FP-Tree Abschließend zu den bisherigen Überlegungen gebe ich noch die genaue Definition des FP-Tree, gefolgt von einem Algorithmus zum Aufbau desselben, an (vgl. [1]): Ein frequent pattern tree (oder FP-Tree) ist eine Baumstruktur, die wie folgt definiert ist: 1. Es gibt eine Wurzel, die mit null beschrieben ist, mehrere item prefix subtrees und eine frequent-item header table. 2. Jeder Knoten in einem item prefix subtree besteht aus drei Feldern: Elementname, Anzahl und node-link, wobei der Elementname angibt, für welches Element der Knoten steht, Anzahl die Nummer der Transaktionen speichert, die von dem Teilpfad, der bis zu diesem Knoten geht, repräsentiert werden, und der node-link zum nächsten Knoten im FP-Tree mit dem gleichen Namen zeigt, wenn dieser existiert, und sonst null ist. 3. Jeder Eintrag der frequent-item header table besteht aus zwei Feldern, nämlich (1) Elementname und (2) head of node-link, der zum ersten Knoten im FP-Tree mit diesem Namen verweist. Ein FP-Tree wird wie folgt konstruiert: 1. Durchlaufe die Datenbank einmal und sammle dabei die Menge der häufigen Elemente und die zugehörigen supports. Sortiere die Menge nach absteigendem support und speichere sie als L, die Liste der häufigen Elemente. 2. Erzeuge die Wurzel eines FP-Tree, T, und benenne sie mit null. 3. Mache folgendes für jede Transaktion Trans in der Datenbank: 1. Wähle alle häufigen Elemente aus Trans und sortiere sie gemäß der Reihenfolge in L. 2. Sei [p P] die geordnete Liste der häufigen Elemente aus Trans, wobei p das erste Element und P die restliche Liste ist. Rufe insert_tree([p P], T ) auf. Dabei ist die Funktion insert_tree([p P], T ) wie folgt implementiert: Wenn T einen Sohn N hat, sodass N.Elementname = p.elementname, dann erhöhe N.Anzahl um 1; sonst erzeuge einen neuen Knoten N, und setze seine Anzahl auf 1. Registriere dann N als neuen Sohn von T und T als Vater von N. Sei K der Knoten, auf den der head of node-link von N.Elementname zeigt. Setze dann N.node-link := K und head of node-link(n.elementname) := N. gleichen Elementnamen, der über die frequent-item header table verfügbar ist

47 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus 6 Wenn P nicht leer ist, rufe insert_tree([p], N ) auf. Jetzt, wo wir eine kompakte Datenstruktur haben, die alle relevanten Informationen abbildet, stellt sich die Frage, wie wir diese so auswerten, dass wir genau die häufigen Muster erhalten. Diese Aufgabe übernimmt der Algorithmus FP-Growth, den ich im nächsten Kapitel vorstellen werde Beispiel Zunächst jedoch wollen wir den FP-Tree zu einer kleinen Beispieldatenbank aufbauen: Angenommen, wir hätten eine Datenbank mit folgenden Transaktionen: T1 d, e, h, n, r, k, m, u T2 s, e, t, b, r T3 w, e, r, n, c, l, o T4 d, u, f, r, n T5 b, i, u, s, e, n TABELLE 1: BEISPIELDATENBANK Der erste Durchlauf durch die Datenbank ergibt folgende Häufigkeit der Elemente: d:2, e:4, h:1, n:4, r:4, k:1, m:1, u:3, s:2, t:1, b:2, w:1, c:1, l:1, o:1, f:1, i:1. Lässt man nun alle Elemente weg, deren support nicht über dem minimalen support (in diesem Fall ξ = 2 (absolut angegeben)) liegt, und sortiert die verbleibenden Elemente nach absteigendem support, so erhält man: L = (e:4, n:4, r:4, u:3, d:2, s:2, b:2). Ein zweiter Durchlauf ergibt nun folgenden FP-Tree (Tabelle 2 gibt die Transaktionen aus Tabelle 1 nach L sortiert an): T1 e, n, r, u, d T2 e, r, s, b T3 e, n, r T4 n, r, u, d T5 e, n, u, s, b TABELLE 2: TRANSAKTIONEN NACH L SORTIERT

48 7 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget root item head of node-links e:4 n:1 e n r u d s b u:1 s:1 n:3 r:1 r:2 s:1 u:1 b:1 r:1 u:1 d:1 b:1 d:1 ABBILDUNG 1: FP-TREE ZU TABELLE 1 UND

49 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus 8 3. FP-Growth Im letzten Kapitel habe ich dargestellt, wie man mit Hilfe des FP-Tree alle relevanten Informationen der Datenbank kompakt gespeichert bekommt. Jetzt stellt sich aber die Frage, wie man aus einem FP-Tree möglichst effizient alle häufigen Muster erhält, ohne Muster zu generieren, die nicht häufig sind. Am Anfang der weiteren Überlegungen steht die Beobachtung, dass für jedes Element alle häufigen Muster, in denen dieses Element auftaucht, über die node-link-struktur des Elements auffindbar sind. Das heißt, wenn wir zum einem Element alle häufigen Muster, in denen dieses auftaucht, finden wollen, müssen wir nur die Pfade weiter untersuchen, die man erreicht, wenn man die node-link-struktur des Elements durchläuft. Eine weitere wichtige Beobachtung ist die Tatsache, dass wir, um alle häufigen Muster zu entdecken, immer nur den Pfad, der bis zu einem Knoten hingeht, untersuchen müssen und den weiteren Pfad von dem Knoten ausgehend ignorieren können, da ja alle Muster mit Elementen, die in dem weitergehenden Pfad auftauchen, schon untersucht werden, wenn die unteren Elemente untersucht werden. Somit wird auch verhindert, dass ein Muster mehrfach untersucht wird, was natürlich viel Zeit spart. Um nun alle Muster, die sich für ein Element, das wir n nennen, ergeben, zu entwickeln, müssen wir zuerst die abhängige Musterbasis von n bestimmen. Die abhängige Musterbasis besteht aus allen Präfixen der Pfade, in denen n auftaucht, wobei die Anzahl der Elemente in den Pfaden auf die Anzahl, die n in diesem Pfad hat, gesetzt wird, da zwar die Elemente öfter vorkommen können, aber nur n.anzahl mal in Verbindung mit n. Aus dieser abhängigen Musterbasis bilden wir nun einen neuen FP-Tree, auch von n abhängiger FP-Tree genannt, bei dem wir wiederum alle Muster, die dieser FP-Tree enthält, entwickeln, und erweitern alle so entwickelten Muster mit n. Außerdem haben wir als Muster noch n selber. Wenn wir diesen Vorgang für alle n aus der frequent-item header table wiederholen, haben wir zum Schluss alle häufigen Muster, die in der Datenbank auftreten Beispiel Betrachten wir den FP-Tree aus Beispiel 2.3. Für b ergeben sich folgende Pfadpräfixe: <e:4, n:3, u:1, s:1, b:1> und <e:4, r:1, s:1, b:1> Daraus ergibt sich die folgende abhängige Musterbasis von b: {(e:1, n:1, u:1, s:1), (e:1, r:1, s:1)}

50 9 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget In dieser sind e und s häufig (ξ ist immer noch 2). Der daraus aufgebaute von b abhängige FP- Tree besitzt einen Pfad, nämlich <e:2, s:2>: item e s head of node-link root e:2 item e head of node-link root e:2 s:2 ABBILDUNG 2: VON B ABHÄNGIGER FP-TREE ABBILDUNG 3: VON SB ABHÄNGIGER FP-TREE Aus diesem Pfad bekommt man die Muster (e:2), (s:2), was, in Verbindung mit b, (eb:2) und (sb:2) ergibt. Für bs bekommt man die abhängige Musterbasis {(e:2)} und den in Abbildung 3 dargestellten abhängigen FP-Tree, aus dem man das Muster (e:2) bekommt, also, in Verbindung mit sb, (esb:2). Außerdem gibt es noch das häufige Muster (b:2), so dass alle in diesem Durchgang gefundenen Muster (b:2), (eb:2), (sb:2) und (esb:2) sind. Die Durchgänge für die anderen Elemente ergeben folgende häufigen Muster: s: (s:2) und (es:2) d: (d:2), (nd:2), (rd:2), (ud:2), (nrd:2), (nud:2), (rud:2) und (nrud:2) u: (u:3), (eu:2), (ru:2), (nu:3), (neu:2), (rnu:2) r: (r:4), (er:3), (nr:3), (enr:2) Zum Schluss des Kapitels werde ich noch den Algorithmus zur Berechnung der Muster, FP- Growth genannt, angeben: 3.2. Der Algorithmus FP-Growth FP-Growth(Tree, α) { 1. Wenn Tree einen einzigen Pfad P hat, gehe zu 2., sonst zu Wiederhole 2.1 für jede Kombination β der Knoten in P. 1. Erzeuge das Muster und setze support auf die kleinste Anzahl aus β. 3. Return. 4. Wiederhole für jedes a in der frequent-item header table von Tree. 1. Generiere β = a mit β.support = a.support

51 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus Konstruiere βs abhängige Musterbasis und damit βs abhängigen FP-Tree Tree β. 3. Wenn Tree β nicht leer ist, rufe FP-Growth( Tree β, β ) auf. } Alle häufigen Muster erhält man dann bei Aufruf von FP-Growth(FP-Tree, null ) (vgl. [1])

52 11 Der Frequent-Pattern-Growth-Algorithmus Nicolai Voget 4. Vergleich von FP-Tree/FP-Growth mit Apriori Nachdem ich nun zuerst in Kapitel 1 einen kurzen Überblick über den Apriori-Algorithmus gegeben habe und danach in den Kapiteln 2 und 3 ausführlich auf die FP-Tree-Struktur und den FP-Growth-Algorithmus eingegangen bin, kommt nun ein kleiner Vergleich der beiden Ansätze. Zu Ende von Kapitel 1 habe ich zwei Nachteile des Apriori-Algorithmus angegeben, die es zu beheben galt. Das waren 1. die Generierung von Mustern, die nicht häufig sind und 2. die hohe Anzahl an Datenbankdurchläufen. FP-Tree generiert keine Muster und läuft immer genau zwei Mal durch die Datenbank, während FP-Growth nur Muster generiert, die häufig sind und komplett ohne Datenbankdurchläufe auskommt. Damit sind die beiden Schwachstellen also behoben. Jetzt stellt sich die Frage, ob in dem FP-Ansatz neue Schwächen auftreten, die in Apriori nicht zu finden sind. Das Hauptproblem beim FP-Ansatz ist, dass der FP-Tree, der ja mit der Anzahl der Elemente in den Transaktionen wächst, immer als Ganzes vorhanden sein muss, was bei großen Datenbanken zu Speicherproblemen führen kann. Dieses Problem werde ich hier aber nicht weiter untersuchen. Vergleicht man nun den FP-Ansatz mit dem Apriori-Ansatz auf Basis der Rechenzeit, so stellt man fest (vgl. [1], S. 9), dass die Zeit, die ein Apriori-Algorithmus für die Mustergenerierung benötigt, zwischen zehn bis 100 mal so groß ist, wie die Zeit, die ein FP-Algorithmus benötigt

53 Nicolai Voget Der Frequent-Pattern-Growth-Algorithmus 12 A Literaturangaben [1] Jiawei Han, Jian Pei, Yiwen Yin. Mining Frequent Patterns Without Candidate Generation. In 2000 ACM SIGMOD Intl. Conference on Management of Data, S [2] R. Agrawal, R. Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94, S

54 - 54 -

55 Entscheidungsbäume mit SLIQ und SPRINT Mathias Krüger 9. Juni 2008 Inhaltsverzeichnis 1 Einleitung Klassifikationsproblem Entscheidungsbäume Algorithmische Grundlagen SLIQ Eigenschaften Datenstrukturen Algorithmus zum Aufbau Beispiel Pruning Datenkodierung: Modellkodierung: Pruning Algorithmen Parallelisierung von SLIQ Leistungsmerkmale von SLIQ Komplexität der Aufbauphase MDL Pruning Benchmarks SPRINT Eigenschaften Datenstrukturen Algorithmische Details Parallelisierung Performance Zussammenfassung

56 1 EINLEITUNG 2 1 Einleitung Die Klassifikation von Objekten ist neben der Segmentierung, Prognose, Abhängigkeits- und Abweichungsanalyse 1 eine Teilaufgabe im Bereich des Data-Mining. Eine einfache Methode zur ihrer Lösung bieten Entscheidungsbäume. Mit ihrer Hilfe können einfach zu verstehende Klassikationsregeln erstellt werden. Diese Arbeit wird zwei Algorithmen zum Aufbau von Entscheidungsbäumen beleuchten und vergleichen. In den nächsten beiden Unterabschnitten der Einleitung werde ich kurz das Klassifikationsproblem und den grundlegenden Algorithmus für den Aufbau der Entscheidungsbäume darstellen und in ein Beispiel einführen, welches sich durch die Arbeit ziehen wird. Im Abschnitt 2 und 3 werden dann die beiden Algorithmen SLIQ und SPRINT betrachtet, welche auch die Klassifikation großer Datenmengen erlauben. Durch die Untergliederung der Abschnitte 2 und 3 werden Ähnlichkeiten und Unterschiede deutlich gemacht. 1.1 Klassifikationsproblem Bei der Klassifikation soll einem Objekt anhand bekannter Merkmale ein weiteres Merkmal zugeordnet werden, daß die Zugehörigkeit des Objektes zu einer Klasse oder Kategorie kenntlich macht. Es sei D eine Menge von Objekten mit den Attributen A i, 1 i e, und es sei C = {c 1,...,c k } eine Menge von Klassen. Weiterhin ist k : D C eine surjektive Funktion, die jedes Objekt in Abhängigkeit von seinen Attributen A 1,...,A e auf eine Klasse c j abbildet. Die Funktion k nennt man Klassifikator. Wenn man nun eine Instanz von d D eingibt, d =(a 1...a e ) T wird durch den Vektor der Attributbelegungen repräsentiert, dann will man mithilfe von k auf die Klasse c i C schließen. Nur ist leider k unbekannt. Man versucht nun ein k zu bestimmen, und daraus eine Hypothese h : D C abzuleiten, welche k sehr ähnlich ist. Dabei sei O D und L =< (o 1,c 1 ),...,(o m,c m ) > mit o O eine Menge von Trainingsdaten und k : O C eine surjektive Funktion, die Objekte aus O in Abhängigkeit von ihren Attributen A 1,...,A e auf eine Klasse c j abbildet. Von L schließt man nun auf k. 1 Vgl. Paul Alpar (2000, S. 9ff)

57 1 EINLEITUNG 3 ID Alter Autotyp Risiko (Klasse) 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig 6 20 Familie hoch Tabelle 1: Beispiel für das Klassifikationsproblem nach Shafer et al. (1996, S.2) Wenn h bei einer Instanz d D und k bei der selben Instanz auf unterschiedliche Klassen c i,c j schließen, also c i c j, dann ist das ein Fehler. h ist k umso ähnlicher, je kleiner der Fehler ist. Die Hypothese h wird dann als Klassifikator verwendet. Der Prozess der Klassifikation besteht also aus zwei Grundphasen. Als erstes wird ein Modell konstruiert. Dazu wertet ein Klassifikationsalgorithmus einen Satz von Traingsdaten aus und bestimmt so den Klassifikator. Als Eingabe hat man die Trainingdaten und als Ergebnis den Klassifikator. In der 2. Phase wird das Modell angewandt. Dazu bestimmt man nun aus Daten mit unbekannter Klassenzugehörigkeit und dem in Phase 1 ermittelten Klassifikator die Klassenzugehörigkeit. Die Aufgabe der Klassifikation ist vom Clustering abzugrenzen. Beim Clustering will man erst geeignete Klassen finden, während diese bei der Klassifikation bereits bekannt sind. Beispiel: Die Tabelle 1.1 zeigt einige Datensätze mit einem Index, dem numerischen Attribut Alter und den kategoriellen Attributen Autotyp und Risiko. Das Attribut Risiko hat als Klassenattribut die zwei Ausprägungen hoch und niedrig. Zunächst wird also ein Klassifikator bestimmt. Hier handelt es sich um eine Abbildung (Alter, Autotyp) Risiko. Mögliche Klassifikatoren für diese Tabelle wären dann z.b.: if Alter > 50 or Autotyp = LKW then Risiko = niedrig if Alter 50 and Autotyp LKW then Risiko = hoch Definition 1 Es sei h : D C eine Hypothese auf der Objektmenge D und

58 1 EINLEITUNG 4 k : D C eine Funktion wie oben. Es sei X := {d D h(d) k(d)}. Dann ist die Fehlerrate F D (h, k) := X. Überanpassung (Overfitting) Definition 2 Sei H ein Hypothesenraum und h H eine Hypothese. Es heißt h überangepasst (overfit) genau dann, wenn eine Hypothese h H existiert, sodass h auf den Trainingsdaten eine kleinere Fehlerrate hat als h und h eine kleinere Fehlerrate auf allen Instanzen hat als h, alsof O (h, k ) < F O (h,k ) und F D (h, k) >F D (h,k). Mit anderen Worten entsteht eine Überanpassung dann, wenn der Klassifikator zu sehr auf den Trainingsdaten optimiert wurde und für die Grundgesamtheit dann aber schlechtere Ergebnisse erzeugt. Um dem Problem zu begegnen, muss man die Klassifikatoren validieren. 2 Dazu kann man zum einen die Traingsdaten (in denen die Klassen schon bekannt sind) in eine Trainingsmenge und eine Testmenge unterteilen. Mit der Trainingsmenge wird dann das Modell konstruiert. Mit der Testmenge wird es validiert. Leider ist dieses Train-and-Test-Verfahren nicht anwendbar, wenn nur bei wenigen Objekten die Klassenzugehörigkeit bekannt ist. Offensichtlich werden dann die Ergebnisse zu ungenau. Alternativ dazu besteht die Möglichkeit einer m-fachen Überkreuz-Validierung. Dazu würde man die Trainingsdaten in m gleichgroße Teilmengen teilen. Nun verwendet man jeweils eine Teilmenge zur Validierung und den Rest (also m 1 Teilmengen) zum Training. Man erhält dann m Modelle und die dazugehörigen Klassifikationsgenauigkeiten (bzw. -fehler) welche man miteinander kombiniert. Die Klassifikatoren und die Methoden ihrer Gewinnung lassen sich als Klassifikationsgüte nach der Klassifikationsgenauigkeit, der Kompaktheit des Modells, seiner Interpretierbarkeit, der Effizienz in der Konstruktion und in der Anwendung des Modells, der Skalierbarkeit von Datenmengen und der Robustheit bewerten. 1.2 Entscheidungsbäume Eine einfache, effiziente und genaue Methode zur Klassifikation ist der Aufbau von Entscheidungsbäumen. Besondere Vorteile von Entscheidungsbäumen sind die Möglichkeit zur Konversion zu einfach zu verstehenden Regeln oder 2 Vgl. Mehta et al. (1996, S.21)

59 1 EINLEITUNG 5 auch SQL-Anfragen 3. Abbildung 1.2 zeigt einen Entscheidungsbaum für das Eingangsbeispiel. Jeder innere Knoten einschließlich der Wurzel repräsentiert ein Attribut. Die Klassen werden durch die Blätter dargestellt. Jede Kante ist eine Repräsentation eines Tests auf dem Attribut des Vaterknotens. Die Klassifikatoren können dann durch die Konjunktion der Tests entlang des Pfades der Wurzel zu einem Blatt gebildet werden. Für das Beispiel wäre ein Klassifikator als Regel dann: if Autotyp LKW and Alter 60 then Risiko := hoch Autotyp = LKW LKW Risiko = niedrig Alter < Risiko = niedrig Risiko = hoch Abbildung 1: Entscheidungsbaum für das Eingangsbeispiel Die folgende SQL-Anfrage würde alle Indizes der Datensätze mit niedrigem Risiko ausgeben: Select id FROM table WHERE Autotyp = LKW or Autotyp!= LKW and Alter > Algorithmische Grundlagen Es sind eine Anzahl von Algorithmen zum Aufbau von Entscheidungsbäumen publiziert worden (z.b. ID3 4,C4.5 5,CART 6 ). Ziel dieser Arbeit ist es nicht jeden einzelnen Algorithmus im Detail zu besprechen. Man kann einen gemeinsamen Grundablauf feststellen. Man Unterscheidet jeweils eine Aufbauphase und eine Pruningphase. 7 3 Vgl. Mehta et al. (1996, S.19). 4 Vgl. Quinlan (1986). 5 Vgl. Quinlan (1993). 6 Vgl. Breiman et al. (1984). 7 Vgl. Mehta et al. (1996, S.20)

60 1 EINLEITUNG 6 i) Aufbauphase: Die Trainingsmenge wird sukzessiv partitioniert, bis in jeder Partition alle Datensätze möglichst einer Klasse angehören. Grundalgorithmus zur Aufbauphase: Prozedur maketree(trainingsdaten T ) Partition(T); Prozedur Partition(Data S) if alle Objekte in S sind in der gleichen Klasse oder nur noch ein Attribut then return; end berechne splits für jedes Attribut; nimm den besten Split und partioniere S nach S 1 und S 2 ; Partition(S1); Partition(S2); Man baut den Baum also mit einem rekursiven Top-Down -Algorithmus auf, der sich beendet, wenn alle Objekte der unteren Knoten eindeutig einer Klasse zugeordnet werden konnten oder wenn es kein Attribut mehr gibt, wonach man weiter partitionieren kann. Die zentrale Aufgabe der Prozedur Partition(Data S) besteht darin, S in zwei Teilmengen S 1 und S 2 zu teilen. Hierbei wird man sich wird man sich zwischen verschiedenen Strategien entscheiden. Zunächst sind dabei die Attributtypen von Bedeutung, d.h. numerische Attribute vs. kategorische Attribute. Während man bei den numerischen Attributen einen Wert v sucht, so dass S 1 = SL A v S und S 2 = SL A>v S 8, sucht man bei kategorischen Attributen ein M 1 M und ein M 2 = M \ M 1 wobei M(A) alle möglichen Werte des Attributs A sind. Man teilt dann S entsprechend M 1 und M 2. Definition 3 Es sei P = {p R C : p c 0, C p c =1}. 8 Dabei bezeichnet SL F R die Selektion, angewandt auf R unter Anwendung der Selektionsformel F (Vgl. Dadam (1996, S. 39)). c=1-60 -

61 2 SLIQ 7 Eine Unreinheitsfunktion ist eine Funktion φ : P R. φ hat die Eigenschaften: 1. φ hat bei ( 1,..., 1 ) ihr einziges Maximum, C C 2. φ(1, 0,...,0) = φ(0,...,0, 1, 0,...,0) = φ(0,...,0, 1) = min p φ(p), 3. φ ist symetrisch in p. Auf Grundlage Unreinheitsfunktion 9 lässt sich das Unreinheitmaß an einem Knoten k definieren: Definition 4 u(k) =φ(p(1 k),...,p(c k)). Als Unreinheitmaße wurden z.b. der Informationsgewinn 10 oder der Gini- Index 11 entwickelt. ii) Pruning : Die 2. Phase bezeichnet man als Pruning. Es dient zur Reduzierungs des Overfittings. Hierbei wird der Entscheidungsbaum wieder zurückgeschnitten. Es werden diejenigen Teilbäume wieder entfernt, welche eine geringe Klassifikationsgüte aufweisen. Ein Nachteil dieser klassischen Algorithmen ist, dass die Datensätze im Hauptspeicher gehalten werden müssen und sie damit ungeeignet für rosse Datensätze sind. Sie haben also ein großes Problem mit der Skalierbarkeit. 2 SLIQ 2.1 Eigenschaften Der SLIQ-Algorithmus 12 zeichnet sich dadurch aus, dass der Großteil der Daten nicht im Hauptspeicher gehalten werden muss. Dadurch wird eine bessere Skalierbarkeit als bei den klassischen Algorithmen erreicht. Die Anzahl der 9 Vgl. Breiman et al. (1984). 10 Siehe Breiman et al. (1984, S. 25, 103) oder Beierle and Kern-Isberner (2006, S. 116). 11 Vgl. Breiman et al. (1984, S. 38, 103) und Abschnitt SLIQ steht für Supervised Learning In Quest, Quest ist ein Data-Mining Projekt beim IBM Almaden Research Center

62 2 SLIQ 8 Tupel bleibt trotzdem limitiert, kann aber sehr groß werden. Es besteht die Möglichkeit der Verarbeitung numerischer und kategorieller Attribute. Der elementare Unterschied zu den klassischen Algorithmen besteht in den Datenstrukturen, einer Vorsortierung der Attribute und der Benutzung einer Breitenwachstumsstrategie, welche sekundärspeicherresident Datensätze ermöglicht. SLIQ verwendet binäre Splits. 2.2 Datenstrukturen Es werden drei verschiedene Datenstrukturen verwendet: Für jedes Attribut gibt es eine Attributliste. Es gibt eine Klassenliste und es gibt Histogramme. Klassenliste: Die Klassenliste ist die einzige Datenstruktur, welche über die ganze Laufzeit im Hauptspeicher gehalten werden muss. Sie enthält für jeden Datensatz die zugehörige Klasse, sowie einen Verweis auf das korrespondierende Blatt im Entscheidungsbaum. Am Anfang werden alle Verweise auf die Wurzel im Entscheidungsbaum zeigen. Wie der Algorithmus zeigen wird, muss der Zugriff wahlfrei erfolgen. Deshalb besteht die Notwendigkeit einer Ablegung im Hauptspeicher. Attributlisten: Für jedes Attribut wird eine Liste angelegt. In jeder dieser Listen wird für jedes Objekt ein Tupel bestehend aus dem Attributwert zu diesem Objekt und einer Referenz auf den zugehörigen Eintrag in der Klassenliste gespeichert. Die Tupel werden nach den Attributwerten aufsteigend sortiert. Der Zugriff erfolgt sequenziell. Die Attributlisten können somit im Sekundärspeicher gehalten werden. Histogramme: Für jedes Blatt im Entscheidungsbaum wird ein Histogramm angelegt. Dort werden im Entscheidungsbaum die Häufigkeiten der einzelnen Klassen auf die Trainingsdatenobjekte der Partition gespeichert. 2.3 Algorithmus zum Aufbau Der Algorithmus verfolgt eine Breadth-First-Strategie, das bedeutet, es erfolgt eine Aufteilung aller vorhandenen Blattknoten in jedem einzelnen Schritt

63 2 SLIQ 9 Alter class list Risiko Blatt index hoch K hoch K hoch K niedrig K niedrig K hoch K Klassenliste Attributliste von Alter hoch niedrig Familie 2 1 Sport 2 0 LKW 0 1 Histogramm für kategorielles Attribut hoch niedrig S S Histogramm für Alter e S 1 v<= 32; e S 2 sonst Abbildung 2: Datenstrukturen für das Beispiel Gini-Index Als Split-Kriterium benutzt SLIQ den Gini-Index. Er ist ein Maß für die Unreinheit einer Partitionierung. Je kleiner er ist, desto weniger unrein in Bezug auf die Klassenzugehörigkeit sind Werte in den Partitionen. Für eine Datensatzmenge S mit n unterschiedlichen Klassen gilt: 13 gini(s) =1 n p 2 j. j=1 Nach einer binären Partitionierung berechnet sich: 14 gini split (S) = n 1 n gini(s 1)+ n 2 n gini(s 2). p j ist dabei die relativen Häufigkeit der Klasse j in S. Der Vorteil des Gini- Index ist, dass er nur die Verteilung der Klassenwerte in jeder Partition benötigt. Der Algorithmus durchläuft nun vier Phasen Vgl. Mehta et al. (1996, S.21). 14 Vgl. Shafer et al. (1996, S.4). 15 Vgl. Mehta et al. (1996, Abschnitt 4.2)

64 2 SLIQ 10 i) Initialisierung 1. Erstellung und Vorsortierung der Attributlisten 2. Für jeden Eintrag in der Klassenliste verweist die Referenz auf die Wurzel im Entscheidungsbaum Bei der Initialisierung werden nun die Attributlisten und die Klassenliste erstellt. Bei den Klassenlisten wird für jeden Eintrag eine Referenz auf die Wurzel im Entscheidungsbaum (dem augenblicklichen Blatt) gesetzt. Wie in Abschnitt beschrieben, wird bei den numerischen Attributen ein Wert gesucht der S möglichst gut partitioniert, sodass alle Datensätze die kleiner gleich diesem Wert sind zu S 1 und alle die größer sind zu S 2 gehören. Um die Attributlisten bei der Splitevaluation nur einmal durchlaufen zu müssen, werden alle Attributlisten für numerische Attribute vorsortiert. ii) Split berechnen In der zweiten Phase werden nun für jedes aktuelle Blatt die besten Splits berechnet. Dazu werden alle Attributlisten einmal durchlaufen. Für jeden Wert wird zuerst der korrenspondierende Eintrag in der Klassenliste ermittelt und das Histogram von dem Blatt, auf das der Eintrag (in der Klassenliste) zeigt, aktualisiert. Da die Werte sortiert sind, kann bei den numerischen Attributen jetzt schon gleichzeitig der Splitting-Index für das jeweilige Blatt berechnet werden. Man wird sich immer den besten Splitting-Index und die dazugehörige Aufteilung pro Blatt merken. Bei den kategoriellen Attributen wird man zuerst die ganze Liste durchlaufen und dabei die Auftrittshäufigkeiten in den Klassen zählen. In Abbildung 2 wird ein Histogramm für das Attribut Autotyp gezeigt. Danach können für alle möglichen Teilmengen die Gini-Indexe berechnet und vergleichen werden. Man wählt dann die Mengenaufteilung mit dem besten Index. Nach der Ausführung von EvaluateSplits steht an jedem Blattknoten die beste Aufteilung zur Verfügung. iii) Kinderknoten erstellen und die Klassenliste aktualisieren In diesem Schritt werden zunächst für jedes Blatt, dass zusammen mit einem Split-Test gespeichert wurde, zwei neue Kinder erstellt. Danach wird die Prozedur UpdateLabels() ausgeführt, dabei der Split nun an jedem Blatt angewendet und die Referenzen in der Klassenliste den neuen Blättern zugeordnet

65 2 SLIQ 11 Prozedur EvaluateSplits Ausgabe : Menge von Split-Tests foreach A ist Attribut do durchlaufe Attributliste von A; foreach Wert v A do finde den zugehörigen Wert in der Klassenliste, also die zugehörige Klasse und den Blattknoten l; if Es existiert noch kein Histogramm für l then erstelle Histogramm für l; end aktualisiere das Klassenhistogramm in l; if A ist ein numerisches Attribut then berechne den Splitting-Index i für den Test(A v) für l; if i ist bester Splitting-Index für Blatt l then speichere Split-Test mit l; end end end if A ist ein kategorielles Attribut then foreach Blatt des Baums do finde die Teilmenge von A mit dem besten Split; if i ist bester Splitting-Index für Blatt l then speichere Split-Test mit l; end end end entferne alle Histogramme; end

66 2 SLIQ 12 Prozedur UpdateLabels Eingabe : Menge von Split-Tests Eingabe/Ausgabe : Klassenliste foreach Attribut A in einem Split do durchlaufe die Attributliste von A; foreach Wert v in der Liste do finde den korrespondierenden Eintrag e in der Klassenliste; finde das neue Kind c, zu der v bei Anwendung des Splitting-Tests am Knoten referenziert von e gehört; aktualisiere den Blattzeiger in der Klassenlisten am Eintrag e, so dass er auf das Kind c zeigt; end end iv) gehe zu ii) wenn es noch was zu splitten gibt sonst Ende. Falls nach allen Attributen gesplittet wurde oder die Klassen rein sind (Gini-Index = 0), dann beende den Aufbau des Baumes, sonst gehe zurück nach ii) Beispiel Es soll nun der Aubau nach dem SLIQ-Algorithmus an dem Beispiel durchgegangen werden. Dazu wird noch die Attributliste für den Autotyp benötigt. Sie ist kategoriell und muss deswegen nicht sortiert weden. Autotyp class Familie 1 Sport 2 Sport 3 Familie 4 LKW 5 Familie 6 Am Anfang zeigt jede Referenz in der Klassenliste auf die Wurzel (also K 1 ). Nach Durchlaufen der Attributliste Autotyp wurde das in Abbildung 2 gezeigte Histogramm erstellt. Hier ergeben sich nun folgende Teilungsmöglichkeiten: I: S 1 = {e e.autotyp = Familie e.autotyp = Sport} S 2 = {e e.autotyp = LKW }

67 2 SLIQ 13 II: S 1 = {e e.autotyp = Familie e.autotyp = LKW } S 2 = {e e.autotyp = Sport} III: S 1 = {e e.autotyp = Sport e.autotyp = LKW } S 2 = {e e.autotyp = Familie} Die anderen drei wären spiegelverkehrt und brauchen nicht weiter betrachtet zu werden. Ich berechne nun für alle den Gini-Index, dabei ist : Möglichkeit gini(s 1 ) gini(s 2 ) gini split (S) p 1h p 1n p 2h p 2n I 0, , 266 0, 8 0, II 0, 5 0 0, 33 0, 5 0, III 0, 46 0, 46 0, 46 0, 66 0, 33 0, 66 0, 33 Somit wäre für das Attribut Autotyp der beste Split die Möglichkeit I. Für das Attribut Alter erhält man nach durchlaufen von EvaluateSplits() folgende Werte für die relativen Häufigkeiten und den Gini-Index: Alter gini(s 1 ) gini(s 2 ) gini split (S) p 1h p 1n p 2h p 2n , 48 0, , 6 0, , 5 0, , 5 0, , 44 0, , 333 0, , 375 0, 5 0, 41 0, 75 0, 25 0, 5 0, , , 266 0, 8 0, , 44 0, 44 0, 666 0, 33 n.d. n.d. Also hat in der ersten Runde das Attribut Alter gewonnen. Die Wurzel bekommt also das Attribut Alter und es werden zwei Kinder erstellt, außerdem werden in der Klassenliste die Referenzen auf die neuen Kinder gesetzt. Abbildung 3 zeigt den Baum nach der ersten Teilung. Tabelle 2 zeigt die aktualisierte Klassenliste. Im nächsten Schritt wäre dann noch nach dem Attribut Autotyp zu partitionieren. Dabei könnte an Knoten K 2 nichts mehr verbessert werden (Dort ergibt sich ein Gini-Index von 0.). Am Knoten K 3 würde ein neue Teilung

68 2 SLIQ 14 Alter Alter <= 23 Alter > 23 K_2 K_3 Abbildung 3: Entscheidungsbaum nach dem 1. Split Risiko Blatt hoch K 2 hoch K 2 hoch K 3 niedrig K 3 niedrig K 3 hoch K 2 Tabelle 2: Klassenliste nach dem 1. Durchlauf entstehen, so dass die Teilmengen rein werden: S 1 = {e e.autotyp = Sport} S 2 = {e e.autotyp = Familie e.autotyp = LKW } Den Ergebnisbaum zeigt Abbildung Pruning In der Einleitung wurde schon zwei grundlegende Methoden für das Pruning genannt. Der Pruning-Algorithmus von SLIQ basiert auf der Minimum Description Length. Minimum Description Length (MDL): 16 Definition 5 Das beste Modell für einen gegebenen Datensatz minimiert die folgende Summe: die Länge der im Modell kodierten Daten plus die Länge des Modells. 16 Vgl. (Zugriff am )

69 2 SLIQ 15 Alter Alter <= 23 Alter > 23 hoch Autotyp Sport Familie oder LKW hoch niedrig Abbildung 4: Entscheidungsbaum nach Ausführung von SLIQ Wenn also M das Modell ist, und D die Daten, die von dem Modell kodiert werden, dann sind die Kosten, die minimiert werden sollen: cost(m,d) =cost(d M)+cost(M) 17 Die Kosten werden in bit angegeben. Der Pruningalgorithmus besteht aus 2Komponenten: 1. Das Kodierungsschema bestimmt die Kosten der Daten- und Modellkodierung. 2. Der Algorithmus vergleicht die Kosten verschiedenen Unterbäume Datenkodierung: Die Kosten bei der Kodierung des Trainingssets werden aus der Summe aller Klassifizierungsfehler bestimmt. Sie können schon in der Aufbauphase sukzessiv jedem Knoten im Entscheidungsbaum zugeordnet werden. Nach Schritt 3 wird man sich also bei jedem Blatt für eine Klasse entscheiden (anhand der Mehrheit der Referenzen in der Klassenliste) und wird dann die Klassifizierungsfehler mit der Testmenge zählen. Der Zeitaufwand dazu ist im Vergleich zum Baumaufbau also unkritisch. 17 Vgl. Mehta et al. (1996, S.26)

70 2 SLIQ Modellkodierung: Die Kosten der Kodierung des Entscheidungsbaum, also des Modells setzen sich aus den Kosten zur Kodierung des Baums und den Kosten der Kodierung der Tests an jedem Knoten zusammen. Nach der Aufbauphase hat jeder Knoten zwei Kinder als Wurzel eines Teilbaums oder er ist ein Blatt. Man kann nun entweder beide Teilbäume belassen, beide entfernen oder auch nur einen Teilbaum entfernen. Deswegen werden zur Kodierung der Kosten L drei Möglichkeiten angegeben: Code 1 : Ein Knoten hat entweder 0 oder 2 Kinder. Weil es hier nur 2 Möglichkeiten gibt kostet die Kodierung 1 bit. 2. Code 2 : Ein Knoten hat kein Kind, sein rechtes, sein linkes oder alle beiden Kinder. Die 4 Möglichkeiten kosten 2 bits. 3. Code 3 : Es werden nur interne Knoten betrachtet. Also hat jeder Knoten ein linkes oder ein rechtes Kind oder beide Kinder. Diese Kodierung kostet log(3) bits. Bei der Kodierung der Tests L test werden die Kosten bei jedem Test auf ein numerisches Attribut mit 1 bemessen. Bei kategoriellen Attributen wird die Anzahl n A der Tests A S gezählt, wobei A ein kategorielles Attribut ist und S eine Teilmenge der möglichen Werte von A. Die Kosten sind dann log (n A ) Pruning Algorithmen Ein Pruning-Algorithmus vergleicht dann für jeden Knoten die Kosten, je nach dem ob er zu einem Blatt gestutzt wird (1), oder den linken (2), rechten Teilbaum (3) oder beide Teilbäume (4) behält. Die Kosten berechnen sich dann: C Blatt (t) =L(t)+Fehler t 2. C links (t) =L(t)+L test + C(t 1 )+C (t 2 ) 3. C rechts (t) =L(t)+L test + C (t 1 )+C(t 2 ) 18 Vgl. Mehta et al. (1996, S.27). 19 Vgl. Mehta et al. (1996, S.27)

71 2 SLIQ C beide (t) =L(t)+L test + C(t 1 )+C(t 2 ) C(t) bezeichne dabei die Kosten des jeweiligen Teilbaums und C (t) diekosten eines Teilbaumes, der gelöscht wird, und dessen Objekte jetzt t zugeordnet werden. Es gibt, wie schon angedeutet, nun 3 mögliche Algorithmen: 1. Volles Pruning wird, wenn es den Baum stutzt, immer beide Teilbäume abschneiden. Bei der Kostenberechnung spielen also nur die Formeln 1 und 4 eine Rolle. L wird mit Code 1 bestimmt. 2. Partielles Pruning vergleicht alle 4 Optionen, hier wird L mit Code 2 berechnet. 3. Hybrid Pruning benutzt in einer ersten Phase volles Pruning und entscheidet in einer zweiten Phase mit den Formeln 2, 3 und Parallelisierung von SLIQ Die Autoren von SPRINT machten zwei Vorschäge 20 für die Parallelisierung von SLIQ. Das Problem hierbei ist die zentrale, hauptspeicherresidente Klassenliste, auf die beiden Prozeduren (EvaluateSplits() und UpdateLabels()) in jedem Einzelschritt zugreifen. Man hat nun einerseits die Möglichkeitkeit die Klassenliste an jedem Prozessor zu replizieren. Dann müssen jedoch auch alle anderen Prozessoren von jedem Prozessor über Updates in UpdateLabels() informiert werden. Außerdem muss an jedem Prozessor der gesamte Speicherplatz bereitgestellt werden, um die ganze Klassenliste zu halten. Diese Modifikation wird SLIQ/R genannt. Die andere Möglichkeit ist die Klassenliste auf alle Prozessoren gleichmäßig zu verteilen (SLIQ/D). Da aber die Einträge der horizontal verteilten (vgl. Abschnitt 3.4) Attributlisten nicht mit den Einträgen der Klassenliste auf dem jeweiligen Prozessor korrespondieren, muss bei fast allen Zugriffen auf die Klassenliste die Information bei einem anderen Prozessor angefordert werden bzw. dort aktualisiert werden. 20 Vgl. Shafer et al. (1996, Abschnitt 3.4)

72 2 SLIQ Leistungsmerkmale von SLIQ Komplexität der Aufbauphase In der Initialisierungsphase hat das Sortieren der Attributlisten die maßgebliche Komplexität. Sie beträgt für jedes numerische Attribut O(n log n). Danach wird für jedes Attribut die Teilung (Split) berechnet. Hier unterscheidet sich die Komplexität zwischen numerischen und kategoriellen Attibuten erheblich. Bei den numerischen Attributen wird die Liste durchlaufen, bei jedem Schritt das Histogramm aktualisiert, der Gini-Index berechnet und mit dem gemerkten verglichen. Man hat also eine Komplexität von O(n). Bei den kategoriellen Attributen 21 muss jede Teilmenge S S ausgewertet werden, wobei S die Menge der möglichen Merkmalsausprägungen eines Attributs ist. Die Komplexät hängt also von der Kardinalität von S ab. Bei k möglichen Merkmalsausprägungen von S und m Knoten im Entscheigunsbaum entsteht so eine Komplexität von O(m 2 k ). Um diesem Problem zu begegnen, verwendet SLIQ einen Schwellwert für die Anzahl der möglichen Ausprägungen. Wird dieser überschritten benutzt SLIQ einen Greedy-Algorithmus. Dieser beginnt mit einer leeren Menge S und fügt immer wieder das Element aus S hinzu, welches den besten Split ergibt, bis der Split nicht mehr verbessert werden kann MDL Pruning Das MDL-Pruning benötigt weniger als 1 % der Zeit im Vegleich zur Aufbauphase. Es kann deswegen vernachlässigt werden Benchmarks Es wurden Vergleiche von SLIQ mit den Algorithmen CART und C4 (einem Vorgänger von C4.5) angestellt. Da bei diesen Algorithmen die Daten speicherresident vorliegen müssen, konnten nur kleinere Datensätze miteinander verglichen werden. Dabei wurden drei Parameter gemessen: die Genauigkeit, die Ausführungszeit und die Baumgrösse. Bei der Genauigkeit waren alle drei Algorithmen etwa gleich gut. Der C4 Algorithmus produzierte wesentlich grössere Bäume, als SLIQ und CART. Dagegen war die Ausführungszeit 21 Vgl. Mehta et al. (1996, Abschnitt 4.3)

73 3 SPRINT 19 bei Cart wegen der Überkreuzvalidierung beim Pruning erheblich grösser als bei den anderen beiden. Insgesamt ließ sich feststellen, dass SLIQ bei keinem Parameter schlechter ist, als einer der anderen beiden Algorithmen. Bei der Skalierbarkeit hinsichtlich der Tupel- und Attributenanzahl verzeichnete die Ausführungszeit bei SPRINT jeweils einen linearen Anstieg. 3 SPRINT 3.1 Eigenschaften Obwohl SLIQ schon für sehr große Datenmengen geeigent war, wurde am IBM Almaden Research Center noch nach einem Algorithmus für beliebig große Datenmengen gesucht. Dieser sollte SLIQ nicht unbedingt in der Leistung überbieten. Das Augenmerk lag deswegen in der Skalierbarkeit für beliebig große Datenbanken und in der Parallelisierbarkeit des Verfahrens. 3.2 Datenstrukturen Bei SLIQ muss die Klassenliste immer noch permanent im Hauptspeicher liegen. Daher wird sie bei SPRINT 22 entfernt und bei den Attributlisten ein zusätzliches Attribut Klasse eingefügt. Jede Attributliste hat jetzt die Attribute: Wert, Klassenlabel, Eintrags-Id. Die Listen werden wie bei SLIQ vorsortiert. Abbildung 5 zeigt die Attributlisten für das Beispiel. Alter Klasse id 17 hoch 2 20 hoch 6 23 hoch 1 32 niedrig 5 43 hoch 3 68 niedrig 4 Autotyp Klasse id Familie hoch 1 Sport hoch 2 Sport hoch 3 Familie niedrig 4 LKW niedrig 5 Familie hoch 6 Abbildung 5: Attributlisten SPRINT für das Beispiel 22 Scalable, PaRallelizable INduction of decision Trees

74 3 SPRINT 20 Ausserdem gibt es zwei Histogramme für numerische Attribute C above und C below. Bei dem Durchlaufen einer Attributliste werden in den Histogrammen die Klassenhäufigkeiten gezählt. C below enthält die Häufigkeiten der schon betrachteten Tupel und C above die der noch nicht betrachteten Tupel. Das Histogramm für kategorielle Attribute ist dem von SLIQ äquivalent, die Autoren nennen es Count Matrix. 3.3 Algorithmische Details Der wesentliche Unterschied zu SLIQ besteht nun darin, dass nach einem Split nicht die Referenzen in der Klassenliste auf die neuen Blätter gesetzt werden, sondern die Attributlisten entsprechend der Splitmengen geteilt und den neuen Blättern zugeordnet werden. Deswegen gibt es anstelle der Prozedur UpdateLabels() die Prozedur SplitLists(). Als Teilungsmaß dient wieder der Gini-Index. Die Prozedur EvaluateSplitsSprint() berechnet die Splitprädikate. Weil die Attributlisten für jedes neue Blatt geteilt werden, ist es zu vermuten, dass SPRINT auch mit einer Tiefensuchen-Strategie durchführbar ist. Hier wird er mit einer Breadth-First-Strategie dargestellt. Das Pruning erfolgt analog zu SLIQ. Ich werde darauf hier nicht nocheinmal eingehen. Da nun jedes Blatt seine eigenen Attributlisten bekommt, muss Evaluate- Splits() nun für jedes Blatt ausgeführt werden. Die Anzahl der zu durchlaufenden Datensätze bleibt aber insgesamt gleich. Nachdem nun die Splitattribute und die Teilungsprädikate bestimmt worden sind, müssen noch alle anderen Attributlisten entprechend den zugehörigen Datensätzen aufgeteilt werden. Dies geschieht in der Prozedur SplitLists Parallelisierung Wie schon erwähnt, wurde SPRINT so konstruiert, dass er sich leicht parallelisieren läßt. Dabei ist die Aufbauphase von Interesse. Bei der Pruningphase wird nur der Zugriff auf den gewonnenen Entscheidungsbaum benötigt. Sie 23 Die Autoren von SPRINT haben keine solche Prozedur angegeben, sondern diesen Schritt nur informell beschrieben. Dort betonen sie auch, dass wenn die Hashtabelle nicht in den Hauptspeicher passen sollte, dieser Schritt in mehreren Schritten vollzogen werden könne. Dies würde aber eine Nachsortierung der Attributlisten erfordern. Auf diese Nachsortierung gehen sie in Ihrem Artikel nicht ein

75 3 SPRINT 21 Prozedur SplitLists(Attributliste A, Splitmenge S 1, Blattknoten l 1, l 2 ) durchlaufe die Attributliste A; foreach Wert v in der Liste do if v S 1 then lege id in eine Hashtabelle; verschiebe das Tupel nach A 1 ; A 1 gehört zum neuen linken Blatt; end else verschiebe das Tupel nach A 2 ; A 2 gehört zum neuen rechten Blatt; end end durchlaufe alle anderen Attributlisten; foreach Attributliste B A do foreach Tupel in der Liste do if id Hashtabelle then verschiebe Tupel von B nach B 1 ; B 1 gehört zum neuen linken Blatt; end else verschiebe Tupel von B nach B 2 ; B 2 gehört zum neuen rechten Blatt; end end end

76 3 SPRINT 22 Prozedur EvaluateSplitsSprint(Queue von Blattknoten q) foreach Blatt in q do foreach A ist Attribut do erstelle Histogramm(e) fuer A und das aktuelle Blatt; durchlaufe Attributliste von A; foreach Wert v A do selektiere die Klasse; aktualisiere das Klassenhistogramm; if A ist ein numerisches Attribut then berechne den splitting-index für den Test(A v) für l end end if A ist ein kategorielles Attribut then foreach Blatt des Baums do finde die Teilmenge von A mit dem besten Split end end end if (alle Objekte die zu diesem Blatt gehören sind rein oder die Objektmenge ist zu klein) then erstelle 2 neue Blätter l 1, l 2 ; q := q l 1 l 2 ; A := gefundenes Splitattribut; SplitLists(Attributliste von A, Splitprädikat S 1, Blattknoten l 1, l 2 ) /* z.b. S 1 := v 23 */ ; end entferne Histogramm(e); end

77 3 SPRINT 23 ist verhältnismäßig einfach und wird nicht parallelisiert. Wie schon im Abbschitt 3.3 deutlich wurde, liegt das Hauptproblem von SPRINT im Finden eines guten Splitpunktes und dem anschliessenden Partitionieren der Attributlisten. Im Gegensatz zu SLIQ gibt es keine zentralisierten und speicherresidenten Datenstrukturen. Somit ist es möglich eine Parallelisierung mit einer Shared-Nothing-Architektur zu erreichen. Dazu lassen sich die Attributlisten gleichmäßig horizontal auf alle Prozessoren aufteilen. Die (Teil-)Listen werden dann wie in der seriellen Version durchlaufen um die besten Splits zu finden. Über die Histogramme muss jedoch kommuniziert werden. C below und C above müssen in der Initialisierung bei den numerischen Attributen mit den entsprechenden Werten der Sektion der Listen versorgt werden. Dazu werden beim Vorgängersplit die Häufigkeiten gesammelt, unter den Prozessoren ausgetauscht und mit den Blätten gespeichert. Sie stehen dann beim aktuellen Split wieder zur Verfügung. Nach Berechnung der lokalen besten Splits tauschen sich die Prozessoren noch über das niedrigste Ergebnis aus. Bei den kategoriellen Attributen werden die gesammelten Häufigkeiten an einem Knoten aufsummiert. Dort wird dann auch die beste Splitmenge bestimmt. Nachdem nun das Splitattribut und das Splitprädikat bestimmt wurden, müssen noch die Nicht-Splitattribute geteilt werden dazu wird an jedem Prozessor die gesamte Haschtabelle zur Verfügung gestellt. Die Prozessoren versorgen sich dafür mit den jeweiligen ID s. 3.5 Performance Obwohl sich die Datenstrukturen und die Art des Wachstums bei SLIQ und SPRINT sehr unterscheiden, berechnen sie die gleichen Splits an jedem Knoten 24. Da sie auch den gleichen Pruningalgorithmus verwenden, sind ihre Entscheidungsbäume im Ergebnis identisch, also auch deren Genauigkeit und die Baumhöhe. Bei der seriellen Ausführung schneidet SLIQ leicht besser ab als SPRINT. Sobald die Klassenliste aber nicht mehr in den Hauptspeicher passt, muss SLIQ aufgeben. Die Ausführungszeit steigt mit der Anzahl der Tupel bei SPRINT etwa linear an. Bei der parallelen Ausführung wird deutlich, dass SLIQ/D gegenüber SLI- Q/R und SPRINT sehr langsam arbeitet. SPRINT hat eine wesentlich bessere Antwortzeit als SLIQ/R. 24 Vgl. Shafer et al. (1996, S. 8)

78 4 ZUSSAMMENFASSUNG 24 4 Zussammenfassung Mit SLIQ und SPRINT wurden zwei Algorithmen vorgestellt, welche die für das Data-Mining sehr wichtige Eigenschaft haben, große Datensätze zu klassifizieren. Sie sind dabei so genau und schnell, dass sie die klassischen Algorithmen auch bei kleinen Datensätzen ersetzen können, wobei sich die Performance bei SLIQ noch etwas besser darstellt. Mit SPRINT wurde jedoch ein Algorithmus vorgestellt, der sich auf beliebig große Datensätze anwenden lässt, der sich sehr leicht parallelisieren lässt und dabei sehr gute Eigenschaften an den Tag legt. Literatur Beierle, C. and Kern-Isberner, G. (2006). Methoden wissensbasierter Systeme - Grundlagen, Algorithmen, Anwendungen. Vieweg-Verlag, 3., erweiterte Auflage. Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and Regression Trees. Wadsworth and Brooks, Monterey, CA. Dadam, P. (1996). Verteilte Datenbanken und Client/Server-Systeme Grundlagen, Konzepte und Realisierungsformen. Springer-Verlag. Mehta, M., Agrawal, R., and Rissanen, J. (1996). SLIQ: A fast scalable classifier for data mining. In Extending Database Technology, pages Paul Alpar, J. N. (2000). Data Mining im praktischen Einsatz. Vieweg, Deutschland. Quinlan, J. R. (1986). Induction of decision trees. pages In Machine Learning, Quinlan, J. R. (1993). C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. Shafer, J. C., Agrawal, R., and Mehta, M. (1996). SPRINT: A scalable parallel classifier for data mining. In Vijayaraman, T. M., Buchmann, A. P., Mohan, C., and Sarda, N. L., editors, Proc. 22nd Int. Conf. Very Large Databases, VLDB, pages Morgan Kaufmann

79 FernUniversität in Hagen Seminar im Sommersemester 2008 Data Mining Thema Partitionierendes und Hierarchisches Clustern: CLARANS und BIRCH Constanze Hofmann

80 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern Seite 1 Inhaltsverzeichnis 1 Einleitung Begriffsklärungen Begriffe Kriterien zur Beurteilung von Clusteringverfahren Partitionierendes Clustern CLARANS Begriffe und Datenstrukturen Algorithmus Kostenbetrachtung Ansätze zur Beschleunigung des Algorithmus Hierarchisches Clustern BIRCH Begriffe und Datenstrukturen Algorithmus Kostenbetrachtung Vergleich der Methoden, Vorteile und Grenzen CLARANS BIRCH Zusammenfassung

81 Seite 2 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern 1 Einleitung Begriffsklärungen Die Cluster-Analyse zerlegt eine Datenmenge in Gruppen. Die Zuordnung zu einer bestimmten Gruppe erfolgt aufgrund der Merkmalsausprägungen der zu klassifizierenden Objekte. Jedes Objekt wird dabei als Punkt in einem Vektorraum dargestellt. Die gegenseitige Entfernung der Punkte aufgrund eines vorgegebenen Distanzmaßes wird dann dazu genutzt, die Punkte einem Cluster zuzuordnen. Die Cluster-Analyse benötigt keine vorab klassifizierten Daten. Ziel ist dabei, dass Objekte im gleichen Cluster untereinander möglichst ähnlich und Objekte aus verschiedenen Clustern möglichst unähnlich sind. Ziel der hier vorgestellten Methoden ist es, eine effektive Analyse auf großen Datenmengen zu ermöglichen, d. h. auf Datenmengen, die nicht komplett im Hauptspeicher gehalten werden können. Abbildung 1 gibt einen Überblick über verschiedene Cluster-Algorithmen. Von diesen werden CLARANS als Beispiel für partitionierendes und BIRCH als Beispiel für hierarchisches Clustern vorgestellt. Abbildung 1: Überblick über Clustering-Algorithmen [Kolatch, 2001]

82 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern Seite Begriffe Voraussetzung für die Clusteranalyse ist die Definition eines Distanzmaßes oder einer Distanzfunktion, die die Ähnlichkeit zwischen zwei Objekten modelliert. Eine kleine Distanz charakterisiert dabei ähnliche, eine große Distanz unähnliche Objekte. Für die Distanzfunktion dist müssen mindestens folgende Bedingungen für alle Objekte o 1, o 2 aus der Objektmenge O gelten ([Ester und Sander, 2000], Kap ): 1. dist(o 1, o 2 ) = d R 0, 2. dist(o 1, o 2 ) = 0 gdw. o 1 = o 2, 3. dist(o 1, o 2 ) = dist(o 2, o 1 ) (Symmetrie). Gilt zusätzlich die Dreiecksungleichung, ist dist eine Metrik. Dies ist dann der Fall, wenn für alle o 1, o 2, o 3 O gilt: dist(o 1, o 3 ) dist(o 1, o 2 ) + dist(o 2, o 3 ) Die zu clusternden Daten können sowohl metrische als auch nichtmetrische Attribute enthalten. Die hier beschriebenen Algorithmen konzentrieren sich auf metrische Distanzmaße. Alternativ zur Distanzfunktion kann auch eine Ähnlichkeitsfunktion verwendet werden. In diesem Fall ist der Wert der Funktion um so größer, je ähnlicher zwei Objekte sind. Die unten beschriebenen Algorithmen verwenden aber jeweils Distanzfunktionen. 1.2 Kriterien zur Beurteilung von Clusteringverfahren [Kolatch, 2001] nennt eine Reihe von Anforderungen, die Clusteringalgorithmen für große Datenmengen erfüllen sollten: 1. Der Algorithmus soll effizient und skalierbar sein, um die Verarbeitung von großen Datenmengen zu ermöglichen. 2. Es muss möglich sein, irreguläre und verschachtelte Formen zu erkennen, insbesondere auch solche mit konkaven Begrenzungen. 3. Der Algorithmus soll nicht empfindlich gegen Rauschen sein. 4. Der Algorithmus soll unabhängig von der Reihenfolge sein, in der die Daten vorliegen. 5. Es soll kein a-priori Wissen über die zu analysierenden Daten benötigt werden, insbesondere über die Anzahl der zu erzeugenden Cluster. 6. Es soll möglich sein, Daten mit einer großen Anzahl von Eigenschaften, d. h. höherdimensionale Daten, zu verarbeiten

83 Seite 4 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern 2 Partitionierendes Clustern CLARANS Beim partitionierenden Clustern wird der Merkmalsraum in eine vorgegebene Anzahl von Bereichen unterteilt. Mit Hilfe eines iterativen Ansatzes wird eine initiale Zuordnung von Punkten zu Clustern schrittweise verbessert. CLARANS steht für Clustering Large Applications based on RANdomized Search. 2.1 Begriffe und Datenstrukturen Notation: O: Menge der n zu clusternden Objekte M O: Menge der k ausgewählten Medoide NM = O M: Menge der Nicht-Medoide Medoid wird ein Objekt genannt, das eine Gruppe von Objekten (einen Cluster) repräsentiert. Jedes Objekt, das kein Medoid ist, wird dem Medoid zugeordnet, von dem es den geringsten Abstand hat: medoid(o) = m i, m j M, m j M : dist(o, m i ) dist(o, m j ) Als Cluster des Medoiden m i wird die Teilmenge aller Objekte aus O bezeichnet, für die gilt: medoid(o) = m i. Ein Clustering ist eine Menge von Clustern, die O aufteilen. Jedes Clustering kann somit durch Angabe von M eindeutig beschrieben werden, da die Zuordnung der übrigen Objekte dann eindeutig bestimmt ist. Die Gesamtdistanz eines Clusterings c ist die Summe der Distanzen aller Objekte zu ihrem jeweiligen Medoiden: total distance(c) = dist(o, m i ) m i M o cluster(m i ) Die Gesamtdistanz wird genutzt, um die Qualität eines Clusterings zu ermitteln. Sie ist allerdings nur dazu geeignet, die Qualität von Clusterings mit der gleichen Anzahl von Clustern zu vergleichen. Ein R*-Baum ist ein balancierter Vielweg-Suchbaum, der den Datenraum in disjunkte Bereiche unterteilt. Objekte können dabei über mehrere Blattknoten verteilt werden. In einem R*-Baum können sowohl Objekte, die durch Punkte, als auch Objekte, die durch das minimale, sie vollständig umschließende achsenparallele Rechteck (minimum bounding box) repräsentiert werden, effektiv gespeichert werden. Abbildung 2 zeigt ein Beispiel für die Speicherung von zweidimensionalen Rechtecken. Als Distanzmaß dist verwendet CLARANS den euklidischen Abstand zwischen den Zentren zweier Objekte

84 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern Seite 5 Abbildung 2: R*-Baum mit 2-dimensionalen Rechtecken [Ester et al., 1995b]. 2.2 Algorithmus Der Algorithmus zu CLARANS wurde erstmals von [Ng und Han, 1994] vorgestellt. Die folgende Beschreibung lehnt sich an [Ester et al., 1995a] an. Eingabedaten: - O Menge der zu partitionierenden Objekte - k Anzahl der zu erzeugenden Cluster - dist Distanzfunktion - numlocal Anzahl der Durchläufe des Algorithmus mit verschiedenen zufällig generierten Anfangsclustern. - maxneighbor Anzahl der maximal untersuchten benachbarten Clusterings, um eine Verbesserung gegenüber der bestehenden Aufteilung zu finden. Ein Clustering wird als Nachbar eines anderen Clusterings bezeichnet, wenn genau ein Medoid durch ein Objekt, das bisher nicht Medoid war, ersetzt wird. Für jeden der numlocal Durchläufe des Algorithmus (äußere Schleife) wird folgendermaßen verfahren: - Erzeugen einer zufällig ausgewählten Menge von k Medoiden. Somit erfolgt jeder der numlocal Durchläufe des Algorithmus mit neuen Anfangsbedingungen, die unabhängig von vorherigen Durchläufen sind. - Solange die Anzahl der Durchläufe j kleiner maxneighbor (innere Schleife): - Ersetzen eines zufällig ausgewählten Medoids durch einen ebenfalls zufällig ausgewählten Nicht-Medoid. Dies erzeugt einen Nachbarn zum aktuellen Clustering

85 Seite 6 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern - Berechnung der Gesamtdifferenz der Distanzen total distance(c new ) total distance(c old ), die durch die Ersetzung entsteht. Dabei wird total distance(c) nicht für beide Clusterings berechnet, sondern die Summe der Distanzdifferenzen für alle Objekte: dist(o i, medoid new (o i )) dist(o i, medoid old (o i )) o i O - Ist die Differenz kleiner 0, ersetzt der neue Medoid den alten, j wird auf 1 zurückgesetzt. Andernfalls wird j um 1 erhöht. - Berechnung von total distance(c new ) - Ist total distance(c new ) kleiner der aktuell kleinsten Gesamtdistanz, ersetzt die neue Clusterung die bis jetzt beste Clusterung. 2.3 Kostenbetrachtung Die Kostenbetrachtung erfolgt unter folgenden Annahmen: - Die Menge der Medoiden kann im Hauptspeicher gehalten werden, während die restlichen Objekte vom Datenträger gelesen werden müssen. - c sei die durchschnittliche Zahl von Objekten, die auf eine Seite des Sekundärspeichers passen. - Die I/O-Kosten für Lesezugriffe auf die Platte sind wesentlich höher als die CPU- Kosten, deshalb wird nur die Anzahl der benötigten Plattenzugriffe analysiert. Die Anzahl der Durchläufe der inneren Schleife kann aufgrund der angewandten Heuristik nicht analytisch ermittelt werden. Deshalb wird nur unterschieden, ob eine bestimmte Funktion in der inneren oder äußeren Schleife aufgerufen wird. Für jeden Durchlauf der äußeren Schleife wird die innere Schleife mindestens maxneighbor mal durchlaufen, wenn keine Verbesserung der ursprünglichen Aufteilung gefunden wird. Bei jeder gefundenen Verbesserung wird der Schleifenzähler j auf 1 zurückgesetzt, somit wird die innere Schleife im Normalfall sehr oft durchlaufen. Aufrufe innerhalb dieser Schleife dominieren deshalb die Kosten. Innerhalb der inneren Schleife muss für die Berechnung der Gesamtdifferenz der Distanzen auf jedes Objekt zugegriffen werden, die Kosten dafür sind O(n). Da die innere Schleife oft durchlaufen wird, verhält sich die Gesamtlaufzeit des Algorithmus in der Praxis nahezu quadratisch zur Anzahl der Objekte. Verbesserungen bei der Differenz-Berechnung führen deshalb zu wesentlichen Laufzeitverbesserungen und werden im Folgenden genauer betrachtet

86 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern Seite Ansätze zur Beschleunigung des Algorithmus [Ester et al., 1995a] stellt verschiedene Optimierungsmöglichkeiten vor, wie die Laufzeit von CLARANS verbessert werden kann: Konzentration auf repräsentative Objekte: Bei dieser Optimierung wird das Clusteringverfahren nicht auf alle Objekte, sondern nur auf eine Teilmenge angewendet. Für das Verfahren ist es erforderlich, dass die zu clusternden Objekte durch einen R*-Baum indiziert sind. Jede Datenseite des R*-Baumes wird durch das Objekt repräsentiert, das dem Zentrum der Bounding Box der Seite am nächsten liegt. Anstatt von n Objekten müssen somit nur noch n/c Objekte durch den Algorithmus geclustert werden. In [Ester et al., 1995a] wird an einem Beispiel gezeigt, dass diese Vorgehensweise zwischen 48- und 158-mal schneller ist als die Verwendung aller Objekte, der entstehende Qualitätsverlust aber nur zwischen 1.5% und 3.2% liegt. Als Qualitätskriterium wird die durchschnittliche Distanz der Objekte zum Medoiden genutzt: n i=1 dist(o i, medoid(o i )) n In [Ester et al., 1995b] wird gezeigt, dass die Repräsentation jedes Blattknotens des R*- Baumes durch genau ein Objekt in der benutzten Datenbank ausreichend ist. Werden mehrere Repräsentanten pro Seite benutzt, erhöht sich die Laufzeit mehr als quadratisch, ohne zu einer wesentlichen Qualitätsverbesserung zu führen. Konzentration auf relevante Cluster: In der inneren Schleife wird die Differenz der Gesamtdistanz zwischen zwei benachbarten Clusterings berechnet, d. h. solchen, bei denen sich nur ein Medoid unterscheidet. Für die Differenzberechnung sind nur die Objekte relevant, deren Zuordnung zu einem Medoid sich durch den Austausch geändert hat. Es kann also eine Einschränkung der zu betrachtenden Objekte erfolgen, wenn untersucht wird, für welche Objekte sich die Zuordnung überhaupt geändert haben kann, und nur diese müssen dann für die Differenzberechnung von der Datenbank gelesen werden. Dabei ist old der Medoid, der ersetzt wird, new der Nicht-Medoid, durch den old ersetzt werden soll, und o das betrachtete Objekt. Folgende Fälle werden unterschieden: 1. Der derzeitige Medoid von o ist old, und o liegt näher am zweitnächsten Medoid als an new. o wird dementsprechend in den Cluster des zweitnächsten Medoiden eingefügt. 2. Der derzeitige Medoid von o ist old, und o liegt näher an new als am zweitnächsten Medoid. o wird also in den Cluster von new eingefügt. 3. Der derzeitige Medoid von o ist nicht old, und o liegt näher an diesem Medoid als an new. o bleibt in seinem derzeitigen Cluster

87 Seite 8 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern 4. Der derzeitige Medoid von o ist nicht old, und o liegt näher an new als an seinem derzeitigen Medoid. o wird also in den Cluster von new eingefügt. Abbildung 3 zeigt die verschiedenen Varianten. Abbildung 3: Änderung der Zuordnung von Objekten bei Austausch eines Medoids (aus [Ester und Sander, 2000], Kap ). Die Differenz der Distanzen wird also nur von den Punkten beeinflusst, die entweder old oder new zugeordnet werden. Nur diese müssen von der Datenbank gelesen werden. Benötigt wird dazu eine Methode, wie die zu einem Cluster gehörenden Objekte effektiv selektiert werden können. Selektion der Objekte eines Clusters: Aufgrund der Zugehörigkeit jedes Objektes zum Medoiden mit dem geringsten Abstand müssen alle zu einem Medoiden gehörenden Objekte innerhalb des Voronoi-Polygons dieses Medoiden liegen (Abbildung 5). Ein Voronoi-Polygon hat die Eigenschaft, dass alle Punkte, die innerhalb des Polygons liegen, näher am zugehörigen Medoiden liegen als an jedem anderen Medoiden. Dies ist aber genau die Definition, wie ein Objekt dem zugehörigen Medoiden zugeordnet wird. Die Konstruktion des Voronoi-Diagramms zu einer Menge von Medoiden wird im folgenden am Beispiel des zweidimensionalen Falles gezeigt: Es werden jeweils Paare von Medoiden (m i, m j ) betrachtet. Die Menge aller Punkte, die von beiden Medoiden den gleichen Abstand haben, ist die Mittelsenkrechte der Strecke, die m i und m j verbindet. Die Fläche, die durch diese Gerade begrenzt wird und in der m i liegt, enthält alle Punkte mit {x R 2 dist(x, m i ) dist(x, m j )}. Diese Betrachtung wird für alle Paare (m i, m j ) durchgeführt. Das Voronoi-Polygon zu m i ist durch die Schnittmenge der Flächen für alle m j definiert. Abbildung 4 zeigt

88 Constanze Hofmann, Partitionierendes und Hierarchisches Clustern Seite 9 die Konstruktion an einem einfachen Beispiel mit 3 Medoiden. Die doppelt schraffierte Fla che stellt das Voronoi-Polygon zu m1 dar. Die Begrenzungslinien sind zum einen die Mittelsenkrechten durch die Verbindungsgeraden zwischen m1 und m2 bzw. m1 und m3, zum anderen die Begrenzung der Bounding Box aller betrachteten Objekte, da die Fla che ausserhalb der Bounding Box nicht betrachtet werden muss. Abbildung 4: Ermittlung des Voronoi-Polygons am Beispiel mit 3 Medoiden. Zur Berechnung des Voronoi-Polygons wird lediglich die Menge der Medoide beno tigt, es sind also keine zusa tzlichen Datenbankzugriffe no tig. Auf diese Weise mu ssen nur diejenigen Punkte zur Berechnung der Distanzdifferenz betrachtet werden, die innerhalb des Voronoi-Polygons von old und new liegen. Die Punkte, die innerhalb des Polygons liegen, ko nnen mittels einer Bereichsanfrage effektiv aus der Datenbank extrahiert werden. Je nach zugrundeliegender Datenstruktur kann diese Anfrage entweder direkt mit dem Polygon oder mit dem das Polygon umschliessenden minimalen achsenparallelen Rechteck erfolgen. Voraussetzung dafu r ist wiederum, dass die Daten in einer Form organisiert sind, die Bereichsanfragen auf ra umlichen Daten effektiv unterstu tzt, z. B. in einem R*-Baum. Abbildung 5: Raumpartitionierung mittels Voronoi-Polygonen bei Austausch eines Medoids (aus [Ester und Sander, 2000], Kap )