Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer

Größe: px

Ab Seite anzeigen:

Download "Personalisierung internetbasierter Handelsszenarien. Matthias Pretzer"

Johannes Kästner
vor 7 Jahren
Abrufe

1 Matthias Pretzer Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Inhalt: Motivation Grundlagen Anwendungsszenario Realisierung Fazit

2 Was ist Personalisierung (im Kontext der PG)? Verhalten des Kunden analysieren für häufig gekaufte Produkte Rabatte geben beim Kauf bestimmter Produkte dazu passende anbieten Warum Personalisierung? Optimierung der Werbekosten Stärkung der Kundenbindung alte Kunden zu halten ist billiger, als neue zu gewinnen Warum internetbasiert? Verhältnismäßig einfach darstellbar Probleme gläserner Kunde Datenschutz wird im Kontext der Projektgruppe nicht betrachtet Motivation Grundlagen Anwendungsszenario Realisierung Fazit 1/15

3 Zielsetzung der PG: Entwicklung einer Java-Bibliothek, die Kunden gruppiert und klassifiziert, Muster im Kaufverhalten der Kunden aufdeckt, temporale Datenquellen bei der Analyse beachtet, durch Meta-Daten gesteuert wird und eine verteilte Analyse ermöglicht Entwicklung eines Konzeptes zur Personalisierung auf Basis der von der Bibliothek gefundenen Muster Entwicklung eines exemplarischen Online-Shops mit personalisiertem Angebot Motivation Grundlagen Anwendungsszenario Realisierung Fazit 2/15

4 Basis der Datenanalyse: KDD (Knowledge Discovery in Databases) Phasen des KDD-Prozesses: Selektion: die zu analysierenden Daten auswählen Vorverarbeitung: Bereinigung und Integration der Daten Transformation: die Daten in ein analysierbares Format bringen Data Mining: Muster in den Daten entdecken Interpretation: gefundene Muster interpretieren Data-Mining Methoden: Clustering: Daten in Gruppen hoher Ähnlichkeit einteilen Klassifikation: Daten in vordefinierte Klassen einteilen Assoziationsanalyse: Regeln aufstellen, z.b. Wenn eine Person Bier kauft, kauft sie mit 40%iger Wahrscheinlichkeit auch Chips. Motivation Grundlagen Anwendungsszenario Realisierung Fazit 3/15

5 Grundlagen temporaler Datenbanken: ermöglichen, Veränderungen in den Daten zu speichern bekanntes Modell: bitemporal conceptual data model (BCDM) Speicherung zweier Zeitstempel: Transaktionszeit: bestimmt, wann der Eintrag in der DB gültig ist Gültigkeitszeit: bestimmt, wann der Eintrag in der realen Welt gültig ist Tupel-basierte Zeitstempelung: für jeden Datensatz wird eine Transaktionszeit und eine Gültigkeitszeit gespeichert Attribut-basierte Zeitstempelung: für einzelne Attribute eines Tupels wird eine eigene Zeitstempelung durchgeführt erfordert zusätzliche Entität im relationalen Modell für jedes attributbasiert zeitgestempelte Attribut Motivation Grundlagen Anwendungsszenario Realisierung Fazit 4/15

6 keine generelle Beschränkung auf Online-Shops wie identifiziert man Kunden in traditionellen Geschäften? Kundenkarten (wie z.b. Payback) Szenario: Bestellungen Transaktionsdaten Kunde Händler Kartenanbieter personalisiertes Angebot Analyseergebnisse Händler identifizieren Kunden anhand der Karten Kartenanbieter analysieren die Transaktionsdaten Händler erstellen aufgrund der Ergebnisse ein personalisiertes Angebot Motivation Grundlagen Anwendungsszenario Realisierung Fazit 5/15

7 konkretes Anwendungsszenario in der PG: ein Online-Shop; sammelt zusätzliche Daten über Weblogs ein klassischer Filial-Händler; sammelt Daten über Umfragen, Gewinnspiele ein Kartenanbieter; speichert Transaktions-, Produkt- und Kundendaten Analyseergebnisse Online-Shop Händler 1 Personalisierung Händler 2 Daten Analyseergebnisse aggregierte Daten Kartenanbieter Bibliothek Ergebnisse Analyseergebnisse Daten Analyseergebnisse Motivation Grundlagen Anwendungsszenario Realisierung Fazit 6/15

8 Drei Phasen der Projektgruppenarbeit: 0. Vorbereitendes Seminar: Teilnehmer erarbeiten grundlegende Themen zu KDD und temporalen Datenbanken 1. Aufsetzen des Anwendungsszenarios: Einteilung in drei Kleingruppen à vier Studierenden (WiWi+Inf) unabhängiger Entwurf der Datenbankschemata für die Händler und den Kartenanbieter 2. Realisierung der Bibliothek, des Personalisierungskonzeptes und des exemplarischen Online-Shops Motivation Grundlagen Anwendungsszenario Realisierung Fazit 7/15

9 1. Phase: Aufbau des Anwendungsszenarios: Verwendung des BCDM, um Daten temporal zu speichern sowohl tupel- als auch attribut-basierte Zeitstempelung Kartenanbieter: Vewaltung der verschiedenen Kartensysteme Verwaltung der Kunden, die Karten besitzen Verwaltung der mit Karten ausgeführten Transaktionen dynamische Attribute für Kunden und Produkte 48 Entitäten Händler 1 (Online-Shop): Produkthierarchie dynamische Attribute für Produkte 30 Entitäten Motivation Grundlagen Anwendungsszenario Realisierung Fazit 8/15

10 Händler 2 (klassischer Händler): Unterscheidung zwischen Kunden mit Karten und anonymen Kunden 16 Entitäten Generierung von Testdaten als Grundlage für die Analysen teilweise wenige, manuell angelegte Testdaten (z.b. Kartensysteme) Kunden, Produkte usw. mit zufalls-basierten Skripten erzeugt Millionen Transaktionen mit kalendarischem Muster durch tbasket ( yli/tbasket/) erzeugt Motivation Grundlagen Anwendungsszenario Realisierung Fazit 9/15

11 Datenbankschema des Kartenanbieters Motivation Grundlagen Anwendungsszenario Realisierung Fazit 10/15

12 Kunden Name KundenID: Integer tza: DATE Name: Varchar(255) Vorname: Varchar(255) tze: DATE gze: DATE gza: DATE Kunden Familienstand KundenID: Integer tza: DATE Familienstand: Integer tze: DATE gze: DATE gza: DATE Kunden KundenID: Integer Geburtsdatum: DATE Geschlecht: Smallint KStringAttribut KStringAttributID: Integer KundenID: Integer tza: DATE Wert: Varchar(255) tze: DATE gze: DATE gza: DATE KNumberAttribut KNumberAttributID: Integer KundenID: Integer tza: DATE Wert: Integer tze: DATE gze: DATE gza: DATE KundenAttribut KundenAttributID: Integer Name: Varchar(40) Beschreibung: Varchar(255) Einheit: Varchar(40) Typ: Varchar(10) Motivation Grundlagen Anwendungsszenario Realisierung Fazit 11/15

13 2. Phase: Realisierung der Bibliothek die Bibliothek soll das verteilte Analysieren ermöglichen keine Bindung an ein spezielles Datenschema daher Verwendung von Metadatenstandards zur Steuerung angedacht als Basis Waikato Environment for Knowledge Analysis (WEKA) ( + freie Java-Bibliothek (GPL) + bietet verschiedene Clusterer und Klassifikatoren + ein Algorithmus zum Erstellen von Assoziationsregeln (Apriori) + Filter ermöglichen es, Daten zu bereinigen arbeitet komplett im Hauptspeicher keine Beachtung von temporalen Informationen Motivation Grundlagen Anwendungsszenario Realisierung Fazit 12/15

14 WEKA ergänzen/erweitern um: metadaten-gesteuerte Schnittstelle Möglichkeiten, nicht komplett im Hauptspeicher zu arbeiten vor allem: Analysen auf temporalen Daten Veränderungen von Clustern/Klassen über die Zeit entdecken und darstellen Kalenderbasierte Assoziationsregeln finden ( vor Ostern werden zu Eiern mit einer Wahrscheinlichkeit von 50 % auch Eierfarben gekauft ) Motivation Grundlagen Anwendungsszenario Realisierung Fazit 13/15

15 Online-Shop zur Verifikation auf Basis der Datenbank des Online-Händlers rudimentäre Features baumartige Katalogstruktur darstellen Produktdetailseiten Warenkorb Bestellung Personalisierung auf den Detailseiten eines Produktes andere Produkte gemäß den Assoziationsregeln einblenden guten Kunden Sonderangebote unterbreiten Produkte innerhalb der Katalogstruktur gemäß den Präferenzen des Kunden hervorheben Motivation Grundlagen Anwendungsszenario Realisierung Fazit 14/15

16 Abgeschlossen sind: das Aufsetzen des Anwendungsszenarios die Planung der zweiten Projektphase Zwischenbericht ist kurz vor der Fertigstellung bis Oktober 2003 ist noch zu tun: Implementierung der Bibliothek Implementierung des Online-Shops Abschlußbericht Was haben wir bislang gelernt? Grundlagen KDD Grundlagen temporaler Datenbanken Teamarbeit ist mit viel Verwaltungsaufwand verbunden Motivation Grundlagen Anwendungsszenario Realisierung Fazit 15/15

Ähnliche Dokumente

Anforderungsdefinition Gesamtszenario

Carl von Ossietzky Universität Oldenburg Anforderungsdefinition Gesamtszenario Fachbereich Informatik Abteilung Informationssysteme Prof. Dr. Appelrath Projektgruppe Personalisierung internetbasierter