Heuristische Verfahren zur Aggregation addierbarer Zeitreihen

Größe: px

Ab Seite anzeigen:

Download "Heuristische Verfahren zur Aggregation addierbarer Zeitreihen"

Herta Vogel
vor 5 Jahren
Abrufe

1 KSFE 2003 Heuristische Verfahren zur Aggregation addierbarer Zeitreihen Abt. Data Mining Stefan Pohl Dr. S. Steinberg

2 Agenda Heinrich Bauer Verlag Typisches Problem des Vertriebs Lösungsansatz: Supervised Clustering Vergleich verschiedener Verfahren SAS/EM-Knoten: Cluster Comparison Vergleich von Clusterscorings oder Klassifikationen Zusammenfassung KSFE 2003 Potsdam 2

3 Heinrich Bauer Verlag Europas führender Zeitschriftenverlag weltweit: ca Mitarbeiter 120 auflagenstarke Erfolgstitel in Deutschland Marktführer in den Segmenten: Programmzeitschriften (55% = 9,8 Mio. Exemplare) Jugendzeitschriften (39% = 1,4 Mio. Exemplare) unterhaltende Frauenzeitschriften (35% = 4,0 Mio. Exemplare) Special Interest Magazine KSFE 2003 Potsdam 3

4 Heuristische Verfahren zur Aggregation addierbarer Zeitreihen VKG Vertriebsfirma der Verlagsgruppe Bauer 730 Mio. Umsatz 150 Mitarbeiter ca. 20 Mio. Hefte pro Erscheinungsintervall 3,8 Mio. Abonnenten jährlich ca neue Abonnenten HH Abdeckung durch VKG Logistik ca. 80% über 215 Mio. Liefertakte p.a. Logistik ca. 30% WBZ und Fremdtakte KSFE 2003 Potsdam 4

5 Typisches Problem des Vertriebs Problem: Wie können Auswirkungen von vertrieblichen Aktivitäten Bezugsänderungen Werbemaßnahmen nachgewiesen werden? Lösungsansatz Einteilung der Vertriebsgebiete in Test- & Referenzgebiete Test Nr. 1 Test Nr. 2 Referenzgebiet Zeitreihe von Verkaufsanteilen KSFE 2003 Potsdam 5

Konkretisierung Begriffe Verhalten = Verkäufe als einzige

Zeitschrift, Titelbild (Hintergrundfarbe, Model,.

..) Vertriebsgebiete = logistisch bedingte Einteilung

begrenzte Verkaufsschlager sein Verkäufe abhängig von

6 Konkretisierung Begriffe Verhalten = Verkäufe als einzige Rückmeldung im Einzelhandel Einflüsse = Inhalte der Zeitschrift, Titelbild (Hintergrundfarbe, Model,...), Regionalität (Ost/West, Groß-/Kleinstadt, Wetter,...) Vertriebsgebiete = logistisch bedingte Einteilung Deutschlands Probleme Titelthemen können regionale, zeitlich begrenzte Verkaufsschlager sein Verkäufe abhängig von Affinitäten der Kunden, beliebig geographisch verteilt Einfluß bisheriger Testaktivitäten verzerrt Historie KSFE 2003 Potsdam 6

7 Lösung Zusammenfassung von Vertriebsgebieten zu Clustern, die ein besseres Verhalten haben Verkaufsanteile KSFE 2003 Potsdam 7

8 Abbildung auf Verfahren des SAS/EM Zufallsauswahl keine Optimalität erwartbar, kann aber gut als Referenz dienen Clustering Probleme: Statik der Elementeigenschaften Elemente erhalten neue Eigenschaften bei jedem Iterationsschritt unabhängig von der aktuellen Clusterzusammenstellung unüberwacht Anlehnung an Variablenselektion teilt Variablen in die beiden Gruppen erklärend und redundant ein KSFE 2003 Potsdam 8

9 Anforderungen an Testumgebung: mehrere Tests unterschiedliche Aktivitäten (Bezugsänderung, Werbung,...) gleichzeitige Durchführbarkeit statistisch gesicherter Erkenntnisgewinn nicht nur: gab es Einfluß, sondern: wie hoch war der Einfluß an Zusammenstellung der Cluster: Regelwerk von Bedingungen an Vertriebsgebiete und Cluster KSFE 2003 Potsdam 9

10 Algorithmus Elemente G e n e r a Supervised Clustering ti o n E v al u ati o n Agglomeration Kombination (beste Cluster vereinigen) keine weiteren Beschränkung auf eine Untermenge der Möglichkeiten Abbildung der menschlichen Vorgehensweise: Inkrementelle, lokale Optimierung Ausgehend von Einzelelementen, Elemente zusammenführen, die dadurch eine Verbesserung bzgl. einer Zielfunktion erfahren Abbruchbed. erfüllt Cluster KSFE 2003 Potsdam 10

11 Komplexität Beispiel: maximal 5 Gruppen mit 50 Elementen Anzahl zu untersuchender Möglichkeiten: Gesamtkomplexität: > Pro Gruppe genau 10 Elemente: > Supervised Clustering: < Komplexität 1000 s * Kombinationen s 600 s 400 s 200 s Berechnungszeit Supervised Clustering Gesamtkomplexität Gesamtkomplexität beschränkt Anzahl Elemente 0 s * Ausführungszeit aufgenommen mit Pentium 800 MHz, nichtoptimierter Interpretercode KSFE 2003 Potsdam 11

12 Implementierung Prototyphaftigkeit aufgrund vorher unklarer Anforderungen, Bedingungen Umfang der Verbesserung unbekannt (generell und auf Basis spezieller Daten) Prototyp in Prolog (logische Programmierung) Datenbasis beliebige Daten assoziativ speicherbar Regelbasiert einfache nachträgliche Definition von einschränkenden Bedingungen bei jeder Aktion Stabile Version in SAS Nahtlose Integration in andere Untersuchungen SAS/Enterprise Miner KSFE 2003 Potsdam 12

Macrovariablen Algorithmus fest in Data- Steps implementiert Extensive Nutzung von

13 Implementierung in SAS SAS ist insgesamt datengetrieben : Steps u. Procs kommunizieren über Datasets u. Macrovariablen Algorithmus fest in Data- Steps implementiert Extensive Nutzung von SAS/Macro zur funktionalen Wiederverwendung von Data-Steps Skalierbarkeit gesichert durch Nutzung externer Speicher (Datasets) optimierter Dataset-Operationen KSFE 2003 Potsdam 13

14 Ergebnis Fehler 4,50% 4,00% 3,50% 3,00% 2,50% 2,00% 1,50% 1,00% 0,50% 0,00% Vergleich der Vorhersagefehler deutliche Fehlerreduktion in allen Gruppen es gibt wenige sich gut für diese Zeitschrift ausgleichende Vertriebsgebiete Volatilität Gruppe Regionalität Supervised Clustering Zufallsauswahl KSFE 2003 Potsdam 14

15 Lösungsvergleich Frage: Wie unterscheiden sich verschiedene Gruppierungen? oder Auf welche Cluster einer anderen Gruppierung verteilen sich die Elemente eines Clusters? Cluster 2 Cluster 1 Cluster 3 Mittel: Kreuztabellen KSFE 2003 Potsdam 15

16 SAS/EM-Knoten: Cluster Comparison Beliebige Aggregatfunktionen über Elemente möglich: Anzahl, Summe, Min/Max, Clusterübereinstimmung beim Paar: KMEANS x SOM KSFE 2003 Potsdam 16

17 Zusammenfassung Supervised Clustering Testbarkeit bei auflagenschwachem Titel durch das Verfahren erst möglich geworden Agglomerationsverhalten gibt Auskunft über Eigenschaften der Daten zugrundeliegende Prozesse Cluster Comparison Vollständige Integration in Tools des SAS/EM Überlappungsgrad gibt Hinweis auf Stabilität einer Aggregation KSFE 2003 Potsdam 17

18 ? Fragen & Diskussion Stefan Pohl: Dr. Sergej Steinberg: KSFE 2003 Potsdam 18

Ähnliche Dokumente

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar

Projektbericht. Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Business Intelligence Master Digitale Logistik und Management Projektbericht Evaluation und Ableitung von Ergebnissen anhand eines Fragebogens zur Studentensituation an der Hochschule Wismar Matthias Säger