Aufbereitung von Produktdaten anhand von Extract-, Transform-, Load-Prozessen



Ähnliche Dokumente
Data-Warehouse-Praktikum

Fischen im Datensee FOLIO Reporting

Business Intelligence Data Warehouse. Jan Weinschenker

Inhaltsverzeichnis. vii.

Data Warehouse Technologien

Datenqualität-Der GQM- Ansatz und das DWQ- Projekt

Temporale Datenintegration in Data-Warehouse-Systemen

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Fehlertoleranz und Robustheit von ETL-Prozessen Wie gestalten wir Abläufe möglichst widerstandsfähig. Christian Borghardt I BI Consultant

Architektur eines Data Warehouse Systems. Mario Jandeck

Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin

Übersicht SAP-BI. DOAG Regionaltreffen

Jahrgang 2015 Kundgemacht am 28. Mai 2015

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015

Data Warehouse Technologien

Inhaltsverzeichnis. Vorwort 13. Teil I Modellierung des Data-Warehouses Einleitung Zielgruppe und Voraussetzungen 17

KDO Kunden- und Partnertag Kommunales Berichtswesen mit KDO-doppik&more

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

Inhaltsverzeichnis. Teil I OLAP und der Microsoft SQL-Server 1. 1 Theoretische Grundlagen 3

Data-Warehouse-Systeme

Data Warehouse Definition (1)





DIMEX Data Import/Export

1 Data Warehousing und das SAP BW Datenbeschaffung: ETL-Konzepte und ihre Umsetzung in SAP BW 43

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

OLAP mit dem SQL-Server

DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb. Referent: Raphael Henneke

<Insert Picture Here> Data Migration als Kernprozess bei der Implementierung der E-Business Suite

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

Q:\2003gvk\GVK-NEU\D-4 Finanzen\Verordnungen\D-Finanzgeschäfte - FormularVO.docx / :38:00 1 von 7. E n t wurf

Teil II: Architektur eines Data-Warehouse-Systems... 57

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

Wir bauen uns ein Data Warehouse mit MySQL

Microsoft Azure Deutschland ist jetzt verfügbar -

Datenintegration mit Informatica PowerCenter

BUSINESS INTELLIGENCE (BI) MIT PENTAHO. Schneller, höher, weiter!

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

Aufbau eines Kennzahlensystems in der Logistik mit Oracle BI

RE.one. Self Service Information Management für die Fachabteilung

Präsentation der Bachelorarbeit

Chapter 1 : þÿ b e t a t h o m e i p a d c h a p t e r

Obsoleszenz von Dateiformaten: Über das Älterwerden und Sterben von Dateien. Markus Lischer und Gregor Egloff

Data-Wa re house-systeme

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Workshop Was nicht passt, wird passend gemacht? tekom, Frühjahrstagung 2014 Augsburg, icms GmbH

Datenbanken. Produkte Dienstleistungen Referenzen

Methodenkurs Text Mining 01: Know Your Data

DW2004. XML-Datenimport in das SAP Business Information Warehouse bei Bayer Material Science. 3. November Dr. Michael Hahne, cundus AG

Präsentation

DWH Best Practices das QUNIS Framework 80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH. Referent: Ilona Tag

Contents. Ebenen. Data Warehouse - ETL Prozess Version: July 10, Ebenen. Andreas Geyer-Schulz und Anke Thede. 2 Problemquelle Quellsysteme 4

Data Warehouse (DWH) / (Business Intelligence, BI )

Jürgen Lesti. Analyse des Anbieterwechsels. mit Hidden-Markov-Modellen. Empirische Untersuchung im Retail Banking. Verlag Dr.

Herausforderungen bei der Langzeitverfügbarkeit von

Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß

Wie integriert sich BI in den unternehmensweiten Softwareentwicklungsprozess? Nürnberg,

Vielseitig und flexibel InfoZoom in Ihrem Unternehmen

IT-basierte Kennzahlenanalyse im Versicherungswesen

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Anlage B zum Achtzehnten Hauptgutachten der Monopolkommission 2008/2009

Online bewerben bei IKEA so geht s!

Data Warehouse und Data Mining

DATENQUALITÄT UND DATENBEREINIGUNG. F e b r u a r 2017

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Verbesserung der Datenqualität im ETL-Prozess durch Data-Mining-Methoden

Modellbasierte Business Intelligence in der Praxis. Nürnberg,

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Software Intelligence

Kommunales Planungs- Analyse- und Steuerungssystem Für mehr Transparenz in der Verwaltungssteuerung

Informationssuche in Sozialen Medien. Adam Horvath Universität Pecs Institut für Wirtschaftsmethodologie

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Document Engineering. Zeichen- und Fontmanagement Realisierung in Dateiformaten. Daniel Weber. Document Engineering p. 1

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

BI Projekt mit Exadata / Golden Gate

Einführung in Hauptspeicherdatenbanken

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Nachfolgend werden die wichtigsten Schritte bei der Migration aufgeführt und beschrieben:

Schnittstellenbeschreibung. XML-Standards. cdmm

Data Mining in SAP NetWeaver BI

Schwerpunkte von SQL Server 2005

Oracle Big Data Discovery Ein Überblick

Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Anforderungen Referenzarchitektur Phasen des Data Warehousing Komponenten

Common Warehouse Metamodel und Imperfektion

Data-Warehouse-Systeme

Dateien von CSV-Datei Importieren

UTF8 codierte CSV Dateien mit Microsoft Excel öffnen

Zeitgemäße Verfahren für ganzheitliche Auswertungen

Dashboards und Kennzahlen in der Instandhaltung. Jochen Croonenbroeck

XML-Schnittstellen. Anleitung XML-Schnittstellen der ZSVR

30. Juni Technische Universität Kaiserslautern. Paul R. Schilling

Klare Sicht für. klare Entscheidungen. Wir lösen das für Sie.

Übung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS

MS SQL Server 2012 (4)

Business Intelligence : Lösungen im Überblick

Teil I Modellierung des Data-Warehouses 15

Transkript:

Aufbereitung von Produktdaten anhand von Extract-, Transform-, Load-Prozessen Marcel Ahne Mathematisch-Technischer Softwareentwickler i.a. Antibodies Online GmbH 5. Dezember 2010

Ziel der Präsentation Problem Aufbereitung von Produktdaten Lösungsvorschlag Extract-, Transform-, Load-Prozesse Ziel 1 Probleme bei der Aufbereitung von Produktdaten verdeutlichen Ziel 2 Zeigen, dass ETL-Prozesse als Lösung geeignet sind

Inhaltsverzeichnis 1 Hintergrundinformationen Antibodies Online GmbH ETL-Kontext 2 Daten Probleme bei der Aufbereitung von Produktdaten Datenqualität 3 ETL-Komponenten Die Extraktionskomponente Die Transformationskomponente Die Ladekomponente

Hintergrundinformationen Antibodies Online GmbH Antibodies Online GmbH Weltweiter Online-Vertrieb für Forschungsantikörper Distributor für verschiedene Hersteller 2006 gegründet Spin-off der RWTH über 270.000 Produkte über 100 Hersteller bis zu 55 Attributwerte pro Produkt

Hintergrundinformationen Antibodies Online GmbH Antikörper - Produktdaten

Hintergrundinformationen ETL-Kontext Extract, Transform, Load (ETL) - Kontext Business Intelligence Wirtschaftsinformatik Sammeln und Analysieren von Daten Data Warehouse Datenlager Entscheidungshilfen für Unternehmensziele Extract Extrahieren der Daten aus heterogenen Datenquellen Transform Bereinigen der Daten Aufbereitung der Daten Load Laden der Daten in das Data Warehouse

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Probleme bei der Aufbereitung von Produktdaten 1 Dateiformat: txt, csv, pdf, doc, xls, png, jpg 2 Zeichenkodierung: utf-8: µ, Win-Latin-1: µ 3 Atomarität: Mehrere Informationen in einer Angabe Produktname: Ziege anti-maus IgG Antikörper (FITC) 4 Standardisierung: Reaktivität: Maus, Mouse Ziel: Mouse (Murine)

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Dateiformat) csv Tabellenform Ein Produkt pro Zeile Benutzbares Textformat eine Datei pdf Tabellenform Ein Produkt pro Datei Umwandlung in Textformat mehrere Dateien

Daten Probleme bei der Aufbereitung von Produktdaten

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Zeichenkodierung) Kodierung utf-8 Win-Latin-1... Programme Texteditor Entwicklungsumgebung Browser Office-Programme...

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Atomarität) Produktname: Ziege anti-maus IgG Antikörper (FITC) Beschreibungstexte, statt Tabellen

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Atomarität) Produktname: Ziege anti- Maus IgG Antikörper (FITC) Beschreibungstexte, statt Tabellen

Daten Probleme bei der Aufbereitung von Produktdaten Daten - Probleme Beispiel (Standardisierung) Synonyme: Maus, Mouse, Ms Zielzustand: Mouse (Murine) Synonyme: Immunohistochemistry, IHC Zielzustand: Immunohistochemistry (IHC)

Daten Datenqualität Datenqualität Die Datenqualität ist ausschlaggebend für die Glaubwürdigkeit, die Nützlichkeit und die Interpretierbarkeit der Daten.

Daten Datenqualität Datenqualität - Merkmale von Daten Aus: Data Warehouse Systeme - A. Bauer, H. Günzel

ETL-Komponenten Die Extraktionskomponente Die Extraktionskomponente Extraktion Extraktion aus einer Datenquelle Pro Datenquelle eine dedizierte Extraktionskomponente Weitere Aufgaben: Monitoring Monitoring Feststellen von Veränderungen Ein Monitor pro Datenquelle Beeinflusst die Festlegung des Extraktionszeitpunktes

ETL-Komponenten Die Extraktionskomponente Abhängigkeit der Extraktionskomponente von Datenquellen und Herstellern xls doc pdf txt csv... Hersteller A x x Hersteller B x x Hersteller C x x.

ETL-Komponenten Die Transformationskomponente Die Transformationskomponente Datenmigration Konvertierung von Datentypen Anpassung der Zeichenkodierung Standardisierung von Strings Datenbereinigung Fehler erkennen und beseitigen Data Mining (Künstliche Neuronale Netze, Entscheidungsbäume,... )

ETL-Komponenten Die Ladekomponente Die Ladekomponente Load Schnelles und zuverlässiges Laden Partitionierung Transaktion

ETL-Komponenten Die Ladekomponente Fazit Problem Dateiformate Zeichenkodierung Atomarität Standardisierung Lösung Dedizierte Extraktion (inkl. Monitor) Datenmigration zu Beginn der Transformation Datenbereinigung während der Transformation Datenbereinigung während der Transformation Folgerung Die Probleme bei der Aufbereitung von Produktdaten können mit Extract-, Transform-, Load-Prozessen gelöst werden.

ETL-Komponenten Die Ladekomponente Ausblick