Aufbereitung von Produktdaten anhand von Extract-, Transform-, Load-Prozessen Marcel Ahne Mathematisch-Technischer Softwareentwickler i.a. Antibodies Online GmbH 5. Dezember 2010
Ziel der Präsentation Problem Aufbereitung von Produktdaten Lösungsvorschlag Extract-, Transform-, Load-Prozesse Ziel 1 Probleme bei der Aufbereitung von Produktdaten verdeutlichen Ziel 2 Zeigen, dass ETL-Prozesse als Lösung geeignet sind
Inhaltsverzeichnis 1 Hintergrundinformationen Antibodies Online GmbH ETL-Kontext 2 Daten Probleme bei der Aufbereitung von Produktdaten Datenqualität 3 ETL-Komponenten Die Extraktionskomponente Die Transformationskomponente Die Ladekomponente
Hintergrundinformationen Antibodies Online GmbH Antibodies Online GmbH Weltweiter Online-Vertrieb für Forschungsantikörper Distributor für verschiedene Hersteller 2006 gegründet Spin-off der RWTH über 270.000 Produkte über 100 Hersteller bis zu 55 Attributwerte pro Produkt
Hintergrundinformationen Antibodies Online GmbH Antikörper - Produktdaten
Hintergrundinformationen ETL-Kontext Extract, Transform, Load (ETL) - Kontext Business Intelligence Wirtschaftsinformatik Sammeln und Analysieren von Daten Data Warehouse Datenlager Entscheidungshilfen für Unternehmensziele Extract Extrahieren der Daten aus heterogenen Datenquellen Transform Bereinigen der Daten Aufbereitung der Daten Load Laden der Daten in das Data Warehouse
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Probleme bei der Aufbereitung von Produktdaten 1 Dateiformat: txt, csv, pdf, doc, xls, png, jpg 2 Zeichenkodierung: utf-8: µ, Win-Latin-1: µ 3 Atomarität: Mehrere Informationen in einer Angabe Produktname: Ziege anti-maus IgG Antikörper (FITC) 4 Standardisierung: Reaktivität: Maus, Mouse Ziel: Mouse (Murine)
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Dateiformat) csv Tabellenform Ein Produkt pro Zeile Benutzbares Textformat eine Datei pdf Tabellenform Ein Produkt pro Datei Umwandlung in Textformat mehrere Dateien
Daten Probleme bei der Aufbereitung von Produktdaten
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Zeichenkodierung) Kodierung utf-8 Win-Latin-1... Programme Texteditor Entwicklungsumgebung Browser Office-Programme...
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Atomarität) Produktname: Ziege anti-maus IgG Antikörper (FITC) Beschreibungstexte, statt Tabellen
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Atomarität) Produktname: Ziege anti- Maus IgG Antikörper (FITC) Beschreibungstexte, statt Tabellen
Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Standardisierung) Synonyme: Maus, Mouse, Ms Zielzustand: Mouse (Murine) Synonyme: Immunohistochemistry, IHC Zielzustand: Immunohistochemistry (IHC)
Daten Datenqualität Datenqualität Die Datenqualität ist ausschlaggebend für die Glaubwürdigkeit, die Nützlichkeit und die Interpretierbarkeit der Daten.
Daten Datenqualität Datenqualität - Merkmale von Daten Aus: Data Warehouse Systeme - A. Bauer, H. Günzel
ETL-Komponenten Die Extraktionskomponente Die Extraktionskomponente Extraktion Extraktion aus einer Datenquelle Pro Datenquelle eine dedizierte Extraktionskomponente Weitere Aufgaben: Monitoring Monitoring Feststellen von Veränderungen Ein Monitor pro Datenquelle Beeinflusst die Festlegung des Extraktionszeitpunktes
ETL-Komponenten Die Extraktionskomponente Abhängigkeit der Extraktionskomponente von Datenquellen und Herstellern xls doc pdf txt csv... Hersteller A x x Hersteller B x x Hersteller C x x.
ETL-Komponenten Die Transformationskomponente Die Transformationskomponente Datenmigration Konvertierung von Datentypen Anpassung der Zeichenkodierung Standardisierung von Strings Datenbereinigung Fehler erkennen und beseitigen Data Mining (Künstliche Neuronale Netze, Entscheidungsbäume,... )
ETL-Komponenten Die Ladekomponente Die Ladekomponente Load Schnelles und zuverlässiges Laden Partitionierung Transaktion
ETL-Komponenten Die Ladekomponente Fazit Problem Dateiformate Zeichenkodierung Atomarität Standardisierung Lösung Dedizierte Extraktion (inkl. Monitor) Datenmigration zu Beginn der Transformation Datenbereinigung während der Transformation Datenbereinigung während der Transformation Folgerung Die Probleme bei der Aufbereitung von Produktdaten können mit Extract-, Transform-, Load-Prozessen gelöst werden.
ETL-Komponenten Die Ladekomponente Ausblick