PG-402 Wissensmanagement: Zeitreihen in Datenbanken

Größe: px

Ab Seite anzeigen:

Download "PG-402 Wissensmanagement: Zeitreihen in Datenbanken"

Friedrich Dressler
vor 6 Jahren
Abrufe

1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein PG402 Wissensmanagement Zeitreihen in Datenbanken 1

2 Übersicht Zeitreihen Schritte bei der Zeitreihenanalyse Anwendungsfallbeispiel: SLTIME2 Zusammenfassung Anhang: Literaturangaben PG402 Wissensmanagement Zeitreihen in Datenbanken 2

3 I. Zeitreihen Was sind Zeitreihen? Wer braucht sie? Wo findet man sie? Warum gerade Zeitreihen? Wofür sind sie gut? PG402 Wissensmanagement Zeitreihen in Datenbanken 3

4 I. Zeitreihen Univariat - ein Attribut pro Zeit (Temperatur) t 1 t 2 t i t m t m+1 Multivariat - k Attribute (Temperatur, Luftdruck, Luftfeuchtigkeit) k Zeit t 1 t 2 t i t m t m+1 Zeit [Morik/2000a] PG402 Wissensmanagement Zeitreihen in Datenbanken 4

II. Schritte bei der Zeitreihenanalyse Shop Dm1 Dm1 Dm1 Dm2 Dm20 Week 1 104 1 104 Item1 4 9 3 12 Item50 12 16 19 16 DB Shop Dm1

5 II. Schritte bei der Zeitreihenanalyse Shop Dm1 Dm1 Dm1 Dm2 Dm20 Week Item Item DB Shop Dm1 Dm1 Dm1 Dm2 Dm20 A Week Item Item B PG402 Wissensmanagement Zeitreihen in Datenbanken 5

6 II. Zeitreihenanalyse Reihenfolge Messung `Tabellarisierung Speicherung Daten-Vorverarbeitung Diskretisierung Clustering Assoziationsregeln Bewertung Iterationen PG402 Wissensmanagement Zeitreihen in Datenbanken 6

7 II. Zeitreihe Schritte Messung `Tabellarisierung (bereits eine Daten- Vorverarbeitung zur Speicherung) Beispiel: Data-Warehouse Speicherung PG402 Wissensmanagement Zeitreihen in Datenbanken 7

8 II. Zeitreihe Schritte (2) Daten-Vorverarbeitung für Zeitreihenanalyse (Data-Preprocessing) - Eignung der Daten für eine bestimmte Aufgabe (Qualitäts- und Quantitätsprüfung) - Festlegung der Lösungsmenge - Wahl des Verfahrens - Aneignung von Domain-Wissen - Dateninspektion (Behandlung v. Problemen, NULL-Einträge,) - Vereinfachung(en) für das gewählte Verfahren [nach: DP/1999 mit Modifikationen] PG402 Wissensmanagement Zeitreihen in Datenbanken 8

9 II. Zeitreihe Schritte (3) Diskretisierung von Zeitreihen - Umwandlung von kontinuierlichen Größen in diskrete Größen - Gegeben: Sequenz (s) s = (x 1,, x n ) - Wahl der Fenstergröße (w) - Subsequenz der Zeitreihe (s i ) s i = (x i,, x i+w-1 ) [Nach: DLM/1998] PG402 Wissensmanagement Zeitreihen in Datenbanken 9

10 II. Zeitreihe Schritte (4) (Clustering der gefundenen Sub-Sequenzen [k-means, Greedy-Algorithmen,]) Nach Assoziationsregeln suchen auf der `diskreten Zeitreihe Bewertung der erzeugten Regeln (manuell, J-Measure,) Iterationen mit anderen Parametern, Verfahren, etc PG402 Wissensmanagement Zeitreihen in Datenbanken 10

11 III. Anwendungsfallbeispiel: SLTIME2 Bisher: Ein (optimaler) Ablauf dargestellt Idealfall ohne Probleme Praxis meist mit Komplikationen Probleme können in jedem Schritt auftreten PG402 Wissensmanagement Zeitreihen in Datenbanken 11

12 III. Ergebnisse anhand der SLTIME2 Schritt (1) (3) waren unbeeinflußbar. (4) Datenvorverarbeitung: - Domainwissenaneignung (Verständnis der Strukturen) - `einfache Bereinigung/Korrektur der Daten, Entdeckung von Problembereichen (NULLs, Inkonsistenzen, unmögliche Werte) - Transformation der Zeitstruktur für ein Verfahren (5) - (9) Scheitert derzeit an (4) PG402 Wissensmanagement Zeitreihen in Datenbanken 12

13 III. Ergebnisse - Datentransformation Transformation: Alle Vertragsereignisse einer Person als Zeitreihe - Granularität der Daten - Vertragszuordnung (VVID->PTID) - Betrachtung der Änderungen - unterschiedliche Anzahl von zu betrachtenden Teilen - grosse Flexibilität des Systems - Kodierung der Ereignisse [ f(x)-> Wert ] - NUR Label vs. Kompletter `Spaltendump - MANUELLE Umwandlung einzelner Person PG402 Wissensmanagement Zeitreihen in Datenbanken 13

14 III. Ergebnisse Datentransformation (2) Transformation: <Beginn, Label, Ende> in DB enthalten. Entscheidungen, wie unterschiedliche Versionen gehandhabt werden sollen. Weitere Ideen: - Shop-Beispiel [Höpp/2001, HK/2001] PG402 Wissensmanagement Zeitreihen in Datenbanken 14

15 III. Ergebnisse Datentransformation (3) Shop Week Item1 Item50 Dm Dm1 Dm Dm Dm [Morik/2000a] PG402 Wissensmanagement Zeitreihen in Datenbanken 15

16 IV. Zusammenfassung Gezeigt wurde ein allgemeiner Ablauf einer optimalen Zeitreihenanalyse Der aktuelle Stand der SLTIME2 wurde gewählt, um Beispiele und Probleme aufzuzeigen. Weiterhin wurden zwei Ansätze angesprochen, um in der nachfolgenden Diskussion die Machbarkeit und Alternativen zu überlegen! PG402 Wissensmanagement Zeitreihen in Datenbanken 16

17 V. Anhang: Literaturangaben [DP/1999] Dorian Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999 [Morik/2000a]] Katharina Morik. The Representation Race Preprocessing for Handling Time Phenomena. In ECML 2000 [DLM/1998] Gautam Das, King-Ip Lin, Heikki Mannila. Rule discovery from time series [FB-2001] Fabian Bauschulte. PG402 Zeitaspekte [SG/2001] Ron Sun, C. Lee Giles. Sequence Learning: From Recognition and Prediction to Sequential Decision Making IEEE-2001 [HK/2001] Frank Höppner, Frank Klawonn. Finding Informative Rules in Interval Sequences. In IDA [Höpp/2001] Learning Temporal Rules from State Sequences. In WLTSD [GuDa] Dimitrios Gunopulos, Gautam Das. Time Series Similarity Measures. [MaSe] Heikki Mannila, Jouni K. Seppänen. Finding similar situations in sequences of events via random projections. Danke! PG402 Wissensmanagement Zeitreihen in Datenbanken 17

Ähnliche Dokumente

Zeitaspekte. Fabian Bauschulte

Zeitaspekte. Fabian Bauschulte Zeitaspekte Fabian Bauschulte 1 Zeitaspekte Überblick Zeitreihen (engl. time series) Zeitphänomene [Morik/2000a] Lernaufgaben und Repräsentation der Eingabedaten Clustering [Das et al.] Beziehungen zwischen