Datenvorverarbeitung von nominalen Daten für Data Mining

Größe: px

Ab Seite anzeigen:

Download "Datenvorverarbeitung von nominalen Daten für Data Mining"

Karoline Brahms
vor 7 Jahren
Abrufe

1 Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1

2 Gliederung Datenvorverarbeitung Prepared Information Enviroment Vorverarbeitung von nominalen Daten Exponieren semantischer Information Seite 2

3 Datenvorverarbeitung Seite 3

4 Datenvorverarbeitung Der Zyklus Seite 4

5 Datenvorverarbeitung Auf die Daten zugreifen ETL Seite 5

6 Datenvorverarbeitung Daten betrachten Attribute verstehen Fehler erkennen Erste Hypothesen Umgesetzt mit OLAP Tools SQL Seite 6

7 Datenvorverarbeitung Datenqualität verbessern Behandlung von Ausreißern Ungültige Werte Falsche Formate Dubletten Fehlende Werte Widersprüchliche Werte Seite 7

8 Datenvorverarbeitung Daten anreichern Ergänzen um weitere Attribute Aggregationen von Werten Attribute aus externen Quellen Einbeziehen von Expertenwissen Domäne des menschlichen Experten Seite 8

9 Datenvorverarbeitung Dimension verringern Vermeiden von Overfitting Reduzieren der Rechenzeit Entfernen von Selbstbezügen Entfernen von Attributen, die in der Praxis nicht zur Verfügung stehen Seite 9

10 Datenvorverarbeitung Stichprobenverteilung prüfen Zufällige Verteilung des Targets?? Erhaltung der Verteilung des Targets Gleichmässige Verteilung von Target Seite 10

11 Datenvorverarbeitung Der Zyklus Seite 11

12 Prepared Information Environment Seite 12

13 Prepared Information Environment Überblick Ein Rahmen für die Vorverarbeitung Vereinfacht das erneute Anstoßen des Zyklus Sichert die Replizierbarkeit des Modells Routine bei periodisch zu erstellenden Modellen Spart Zeit Prepared Information Environment Seite 13

14 Prepared Information Environment PIE mit SQL Transformationen lassen sich mit SQL durchführen SQL Skripte können automatisiert erneut aufgerufen werden Ist bereits ein Nebenprodukt des Datenvorverarbeitungsprozesses Seite 14

15 Prepared Information Environment PIE mit SAS Prozesse in einem Flussdiagramm. SAS 9 ist konzipiert um alle Aufgaben der Datenvorverarbeitung durchzuführen Bedingt transportabel Seite 15

16 Prepared Information Environment Hybrides PIE Zusammenfügen von SQL-Skripten und SAS 8.2 Output über ID anstelle eines Output-Moduls Flexibel Geringer Mehraufwand Seite 16

17 Normalisieren von Schreibweisen Seite 17

18 Wissen in der Datenvorverarbeitung Unstrukturierte Felder enthalten menschenlesbare Informationen Produktnamen, Titel, Kommentare, Namen,... Anreichern der Daten ist eine kreative Arbeit Erfahrung und Fachwissen wird für viele Entscheidungen benötigt Seite 18

19 Wissen in der Datenvorverarbeitung Datenbanken Expertenwissen zum befüllen notwendig Auflistung existenter Nachnamen Befüllung sehr aufwändig Datenbank wird sehr gross Angereichert mit Metadaten Seite 19

20 Wissen in der Datenvorverarbeitung Heuristiken Levenshtein Distanz Präfix Matching Jaro Ähnlichkeitsmaß Jaro-Winkler Maß Smith-Waterman Algorithmus Seite 20

21 Wissen in der Datenvorverarbeitung Semantische Netzwerke Knoten beinhalten Begriffe Kanten repräsentieren Relationen Semantische Distanz zwischen Knoten Geeignet um Zusammenhänge und Assoziationen zu verarbeiten Homonyme Synonyme Antonyme Hyperonyme Hyponyme Meronyme Seite 21

22 Wissen in der Datenvorverarbeitung Regeldatenbanken Regeln können wiederkehrende Fehler beheben Regeln können Wortformen normalisieren Eine Regeldatenbank enthält Regeln und Referenzen T-Systems Int. TSI GmbH T-S-I GmbH TS International TSI GmbH TSI GmbH Seite 22

23 Normalisieren von Schreibweisen Problemstellung Welche Zeichen sind falsch? Welche Zeichen fehlen? Welche Zeichen sind verdreht? Welche Worte sind falsch? Welche Worte sind korrekt, gehören aber woanders hin? Welche Worte können unterschiedlich geschrieben werden? Seite 23

24 Normalisieren von Schreibweisen Lösungskonzept Eindeutige Form notwendig Anwendung von Regeln In unbekannten Fällen werden mit Hilfe des Experten weitere Regeln erstellt Datenbank mit korrekten Formen Vergleich von Formen über Heuristiken Seite 24

25 Erkennen von semantischen Fehlern Problemstellung Sind automatisiert fast nicht zu erkennen Der Computer kann die menschenlesbaren Informationen nicht ohne Hilfe verarbeiten Seite 25

26 Erkennen von semantischen Fehlern Lösungskonzept Sichtung durch einen Experten Erkennen des Fehlers am Ende eines Datenvorverarbeitungszyklus Zur Automatisierung ist Wissen erforderlich Externe Informationen müssten automatisch herangezogen werden. Seite 26

27 Exponieren semantischer Information Seite 27

28 Exponieren semantischer Information Brainstorming Seite 28

29 Exponieren semantischer Information Verringern der Dimension Seite 29

30 Exponieren semantischer Information SCM Tool Seite 30

31 Exponieren semantischer Information Evaluationszenario Verwendung der offiziellen MovieLens Datenbank Prognose der Bewertung anhand des Kinotitels Angereichert um manuell erstellte Genre Angereichert um mit SCM erstellte Attribute Up in Smoke (1978) Two Deaths (1995) Safe Passage (1994) Nine Months (1995) Money Train (1995)... Seite 31

32 Exponieren semantischer Information Evaluationsresultat Daten Wahrpositiv Gesamter Fehler Normierte Präzision Genre 0,0% 21,3% -1,00 SCM 2.0 8,8% 22,3% -0,82 SCM ,7% 22,9% -0,70 Genre_SCM 2.0 8,8% 23,9% -0,82 Genre_SCM 2.5 5,8% 21,3% -0,88 Seite 32

33 Vielen Dank für ihre Aufmerksamkeit Seite 33

Ähnliche Dokumente

ABP Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen Prof. Dr. Inga Marina Saatz

ABP Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen Prof. Dr. Inga Marina Saatz ABP 017 Wo steckt der Fehler in der SQL-Anfrage? Semantische Prüfung von Lösungen 017 - Prof. Dr. Inga Marina Saatz Inhaltsübersicht Prof. Inga M. Dr. Saatz I. Saatz Datenbanken SQLearn 1 Fachbereich ABP