Data Mining Cup Dokumentation

Transkript

1 Data Mining Cup Dokumentation Martin Dreissig, Michael Flau May 14, Beschreibung der zu analysierenden Daten Die zu analysierenden Daten für den diesjährigen Data Mining Cup bestehen aus den Verkauszahlen von 570 Produkten über einen Zeitraum von 2 Monaten. Zu den verkauften Stückzahlen pro Tag ist der jeweilige Tagespreis angegeben. Für 6 Wochen liegen für jedes Produkt die verkauften Stückzahlen, einschlieÿlich der jeweiligen Tagespreise vor. Für einen Zeitraum von 2 Wochen sind zu den gegebenen Tages Preisen die verkauften Stückzahlen möglichst genau vorherzusagen. 1.1 Vorbetrachtungen Zu den gegebenen Datensätzen, ist sonst keine weitere Information bekannt. Daher ist es nicht möglich von der Art des Produktes auf vermeintlich wichtige Kriterien zu schliessen, die den Absatz des jeweiligen Produktes beeinussen könnten. Dennoch können aus den gegebenen Verläufen der Verkauften Stückzahlen gewisse Regeln abgeleitet werden. Zum einen unterliegen alle Verkäufe einem wöchentlichen Zyklus. Während die Verkäufe an den Wochentagen Montag - Freitag für jedes Produkt gesehen hoch sind, so fällt die verkaufte Stückzahl an den Wochenenden vergleichsweise niedrig aus. Weiterhin ist bei fast allen Produkten eine gewisse Trägheit der Verkaufszahlen gegenüber den Tagespreisen zu beobachten. Es erfolgt keine sofortige Reaktion auf niedrige Tagespreise in Form einer gesteigerten Verkaufszahl. Bei steigenden Preisen ist es ähnlich. Wird der Tagespreis erhöht, 2 Analyse Ansätze Bei der einleitenden Analyse der Trainingsdaten wurde beschlossen verschiedene Ansätze zu verfolgen. Für eine erste Analyse der Daten sowie zum durchführen von Ansätzen aud mathmatischer Grundlage sollte Matlab verwendet werden. Matlab eignet sich besonders gut für die Analyse groÿer numerischer Datenmengen, da viele wichtige Algorithmen bereits implementiert sind und somit 1

2 nur noch angewendet werden müssen. Für die relevanten Ansätze, die während der Wissensextraktions Vorlesung behandelt wurden, sollte KNIME verwendet werden. KNIME umfasst bereits eine breite Palette an Algorithmen des maschinellen Lernens und Data Mining und kann somit sehr gut für den Data Mining Cup genutzt werden. Die Ansätze die mit Matlab umgesetzt wurden, beschäftigen sich mit statistischen Versuchen und Approximation. 3 Beschreibung und Ergebniss der einzelnen Änsätze 3.1 Matlab Ansätze Grundlegende Untersuchungen Grundlegend wurden ersteinmal Untersuchungen zum über die einzelnen Produkte angestellt. Hierbei wurde untersucht ob es Ähnlichkeiten bei der Preisentwicklung oder der Anzahl verkaufter Stückzahlen gibt. Hierbei wurde festgestellt, das der Preis und die jeweils verkauften Stückzahlen über einen groÿen zeitlichen Rahmen voneinander abhängen, es aber durchaus auch zu Verkäufen kommt, die völlig gegen den allgemeinen Trend gehen. Weiterhin wurde die bereits erwähnte Trägheit des Systems durch die Analyse deutlich. Es kommt zu keiner spontanen Änderung des Kaufverhaltens bedingt durch eine Preisänderung. Vielmehr passt sich das Kaufverhalten langsam, manchmal über mehrere Tage hinweg dem neuen Preis an. Es ist auch zu beobachten, dass Die Verkäufe aller Produkte einem wöchentlichen Zyklus unterliegen. An den Arbeitstagen ist grundsätzlich ein höherer Absatz zu verzeichnen, als an den Wochenenden. Auf diesen ersten Beobachtungen aufbauend, wurden verschiedene Ansätze in Matlab getestet. Um zu überprüfen, wie genau die gewählten Ansätze an eine optimale Lösung heranreichen, wird die bekannte Datenmenge von 6 Wochen in 4 Wochen Trainingsdatenmenge und 2 Wochen Testdatenmenge aufgeteilt. Jeder Ansatz prognostiziert basierend auf den Daten der Trainingsdatenmenge und den Preisen der Testdatenmenge die Verkaufszahlen der Traningsdatenmenge. Um nun festzustellen inwiefern die vorhergesagten Verkaufszahlen mit den realen Werten übereinstimmen, wird ein Distanzmaÿ über alle Produkte verwendet. In diesem Fall wird die Euklidische Distanz verwendet Abhängigkeit der Verkaufsmenge vom jeweiligen Preis Bei diesem Ansatz wird überprüft, ob die Verkaufszahlen mit dem jeweiligen Preis direkt in Verbindung stehen. Hierfür werden für jedes Produkt alle vorkommenden Preise entnommen und die Verkaufszahlen für die entsprechenden Preise aufsummiert um darüber die mittlere Verkaufszahl pro Preis zu errechnen. 2

3 In den vorherzusagenden 2 Wochen wird zuerst nach Preisen gesucht, die auch in der Trainingsdatenmenge vorkommen. Diesen Preisen wird dann die errechnete mittlere Verkaufszahl des jeweiligen Preises zugewiesen. Alle Preise die so nicht bestimmt werden konnten, werden auf den Abstand zum nächst bekannten vorkommenden Preis hin untersucht. Es wird die mittlere Stückzahl des nächst bekannten Preises als Ausgangswert festgelegt und mit einem Faktor verrechnet der sich aus dem Abstand zum nächst bekannten Preis ergibt. Hierbei wird unterschieden ob der nächstliegende Preis kleiner oder gröÿer dem aktuell zu bestimmenden Preis ist, und dem enstprechend der Faktor angepasst. Das Ergebnis dieses Ansatzes war ein Distanzwert von 494. Hierbei gab es Figure 1: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 1 teils groÿe Abweichungen, aber auch 15% totale Übereinstimmung. Dies ist auch in Abbildung 1 zu erkennen. Die Vorhersage ist für manche Tage durchaus akzeptabel, während für andere Tage der Wert überhaupt nicht stimmt Abhängigkeit der Verkaufsmenge vom Wochentag und Preis Im nächsten Ansatz wurde untersucht ob die Verkaufsmenge abhängig vom jeweiligen Wochentag ist. Hierfür würde die mittlere Verkaufsmenge für jeden Tag über 4 Wochen errechnet. Für die zu bestimmenden Tage der 2 unbekannten Wochen wird jeweils die mittlere Verkaufszahl als Ausgangspunkt festgelegt. Dazu wird der Preis am jeweiligen Tag mit den Preisen aus den vorangegangenen 4 Wochen verglichen. Ist der Preistrend steigend wird der mittleren Verkaufszahl ein positiver Faktor hinzugefügt. Entsprechend wird das selbe für einen negativen Preistrend gemacht. Das Ergebnis ist in diesem Fall schlechter als 3

4 aus dem vorangegangenem Versuch. Es wurde hier ein Distanzwert von 788 erreicht. Figure 2: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 2 Die Abweichungen hier sind sehr deutlich es wird kaum eine Übereinstimmung zwischen realen und prognostizierten Daten ausgemacht Bestimmung der Verkaufsmenge durch Approximation verschiedener Ordnung Der nächste Versuch setzte sich mit der Polynomapproximation der Verkaufszahlen auseinander. Es wurde hier versucht, anhand der bekannten Preise und Verkaufszahlen der bekannten 4 Wochen ein Polynom zu bestimmen, das dem Kurvenverlauf am nächsten kommt. Hierfür wurden zuerst wieder die 4 Wochen nach Wochentagen aufgeteilt um so Einzelpolynome für jeden Wochentag bestimmen zu können. Hierbei wurden Polynome verschiedener Ordnung getestet um eine möglichst optimale Anpassung an die Kurven zu erreichen. Die so errechneten Polynome wurden dann auf die jeweiligen Wochentage in der Testmenge angewandt. 4

5 Figure 3: Echte und prognostizierte Verkäufe für Produkt 1, Ansatz 3 Die prognostizierten Werte passen je nach gewähltem Polynom teilweise sehr gut zum Kurvenverlauf der Realdaten. Die besten Ergebnisse wurden hier mit Polynomen zweiter und dritter Ordnung erreicht. Dennoch gibt es auch Produkte bei denen der prognostizierte Kurvenverlauf absolut nicht den Realdaten entspricht somit das Gesamtergebnis dieses Ansatzes schmälert. Figure 4: Echte und prognostizierte Verkäufe für Produkt 400, Ansatz 3 Das Ergebnis fällt dementsprechend hier mittelmäÿig aus. diesem Lösungsansatz ein Distanzwert von 543 erreicht. Es wurde bei 5

6 3.2 KNIME Ansätze Clusterung KMeans Der erste Ansatz über die Software Knime basiert auf einer Clusterung der Datenmengen. Die Trainingsdaten sollen vor weiterführenden Schritten in bestimmte Bereiche geteilt werden. Das hat zur Folge, dass die dadurch zusammengefassten Daten dierenzierter betrachtet werden können. Berechnungsabläufe werden daher nicht auf die gesamte Datenmenge, sondern auf mehrere Teilbereiche (Cluster) angewandt. Um nun diese Clusterung durchzuführen, wird der KMeans Algorithmus verwendet, der in Knime als Baustein vorliegt. Dieser weist den Elementen der Eingangsmenge iterativ einen Cluster zu. Die Anzahl der Cluster lässt sich hierbei einstellen und ist maÿgebend für die Qualität der Ergebnisse. Durch die korrekte Wahl können sich ähnelnde Daten vorteilhaft zusammengefasst werden. Im Workow von Knime wurde die Clusterung auf die Preisspalte bezogen. Der Grund hierfür liegt darin, dass der Preis das einzige aussagekräftige Attribut ist, das ebenfalls in der Klassenmenge vorkommt. Für eben diese Menge muss zum Abschluss ebenfalls eine Clusterung durchgeführt werden Polynomiale Regression Regression über alle Produkte Die Regression ist eine mathematische Methode, um aus Messdaten unbekannte Parameter heraus zu bekommen. Das Ergebnis ermöglicht es Parameter einer vorgegebenen Funktion zu errechnen. Ziel ist es hierbei, dass sich das Regressionsmodell bestmöglich den Eingangsdaten anpasst, damit sich weitere Eingaben in die Reihe dieser Eingangsdaten einfügen können. Aus der Trainingsmenge wird nun eine Regression über die Verkaufsanzahl und zugehöriger Preise berechnet. Dies geschieht für jede Teilmenge, die aus der Clusterung entsteht. Die daraus resultierenden Regressionsvorgaben beschreiben nun für unterschiedliche Preis-Verkaufsverläufe unterschiedliche Funktionen. Im nächsten Schritt erhalten die neu entstandenen Funktionen die Testmenge als Eingabe, welche zuvor nach den bekannten Clustervorschriften aufgeteilt wurde. Im letzten Schritt ist es nun möglich, aus den Preisen der Testmenge und der Regressionsfunktionen, zugehörige Verkaufszahlen zu berechnen. Regression über Einzelprodukte Der Nachteil der zuvor beschriebenen Methode, ist ihr globales Verhalten. In der nalen Berechnung sollen nicht mehr alle Produkte auf einmal, sondern einzeln betrachtet werden. Dazu werden über einen Schleifenverlauf die Trainings-und Testmenge nach ihren Produkten aufgeteilt. Je Schleifenzyklus gelangen die gesamten Daten eines einzelnen Produktes in den beschriebenen Cluster-Regression Berechnungsablauf.Die Regression geschieht hierbei dierenzierter. Durch die genaue Produktzuordnung werden die zu berechnenden Verkaufszahlen genauer. 6

7 Figure 5: Prognostizierte und reale Verkaufszahlen durch Regression Mit diesem Verfahren konnte ein Distanzwert von 486 Punkten erreicht werden. Dies macht deutlich das Preis und Verkaufszahl nicht unbedingt so in Abhängigkeit stehen wie es wünschenswert wäre, was in der erreichten Punktzahl resultiert. 4 Fazit Die vorliegenden Ansätze beschreiben die Ergebnisse die am erfolgreichsten durchgeführt werden konnten. Andere Ansätze wie Autoregression, Entscheidungsbäume, Naive-Bayes führten zu keinem nennenswerten Ergebnis. Die Regression in Kombination hat hier gegenüber den in Matlab implmentierten Lösungen eindeutig die besseren Ergebnisse erzielt, auch wenn sie nicht die optimalen Verkäufe hinreichend prognostizieren. 7