Data-Warehouse-Praktikum

Ähnliche Dokumente
Relationales Datenbankpraktikum 2016ss

Datenbanken. Produkte Dienstleistungen Referenzen

Präsentation der Bachelorarbeit

Innovationslabor Semantische Integration von Webdaten

Teil II: Architektur eines Data-Warehouse-Systems... 57

Data Warehousing 0-1. DBS-Module

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

DIMEX Data Import/Export

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Projekt zur Lehrveranstaltung Informationssysteme

Agile BI Was ist das eigentlich? Hochschule Ulm - V. Herbort & Prof. Dr. R. von Schwerin

ETL-Tool Survey Light

Übersicht SAP-BI. DOAG Regionaltreffen

Marktübersicht: kostenlose BI-Tools Überblick Open Source Werkzeuge und Praxisbeispiele

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

"Hier kann ich mich weiterentwickeln!"

Datenbanksysteme I. Lehrveranstaltungen zu Datenbanken (SS 07) DBS 2 (2+1) DBS2 IDBS2. Datenschutz und Datensicherheit. Data-Warehouse- Praktikum

Inhaltsverzeichnis. 1 Einleitung 1. 2 Aufbau von Data-Warehouse-Systemen 15. Lehner, Wolfgang Datenbanktechnologie für Data-Warehouse-Systeme 2003

BUSINESS INTELLIGENCE (BI) MIT PENTAHO. Schneller, höher, weiter!

SQL-basierte SCD2-Versionierung hierarchischer Strukturen

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Michael Bauer Niederlassungsleiter Köln

ZWISCHEN ALBTRAUM UND OPTIMALER PERFORMANCE

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

MyCoRe > V1.0: Technische Weiterentwicklung

QUICK-START EVALUIERUNG

Business Intelligence

1Ralph Schock RM NEO REPORTING

Datenintegration. Integrationsansätze, Beispielszenarien, Problemlösungen, Talend Open Studio. von Ines Rossak. 1. Auflage. Hanser München 2013

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Datenintegration mit Informatica PowerCenter

Business Intelligence Center of Excellence

Realtime Daten-Rückschreibung in Tableau mit der Extensions API //

THEMA: SAS DATA INTEGRATION STUDIO FÜR MEHR TRANSPARENZ IM DATENMANAGEMENT EVA-MARIA KEGELMANN

Datenbewirtschaftung mit ORACLE Tools - Die Wahl des richtigen Tools -

Fachhochschule Ludwigshafen am Rhein Hochschule für Wirtschaft Fachbereich III Studiengang Wirtschaftsinformatik

Datenbanksysteme I. Lehrveranstaltungen zu Datenbanken (WS 07/08) DBS 2 (SS, 2+1) DBS2. Implementierung von DBS 2 IDBS2

simply sophisticated Integration von SAP und Non SAP Lösungen Marktüberblick, Techniken, Möglichkeiten & Probleme

Bewertungsmatrix Teilnahmewettbewerb Vergabe - V

DATENQUALITÄT UND DATENBEREINIGUNG. F e b r u a r 2017

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

Hochschule Darmstadt Data Warehouse SS 2015 Fachbereich Informatik Praktikumsversuch 5

CALUMMA ETL Tool Benutzerhandbuch

Wir bauen uns ein Data Warehouse mit MySQL

Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß

Implementierung von Datenbanksystemen 1 (IDBS1)

Inhaltsverzeichnis. Teil I OLAP und der Microsoft SQL-Server 1. 1 Theoretische Grundlagen 3

Datenbanken und Informationssysteme

Von ODBC zu OLE DB. Neue Möglichkeiten der Datenintegration. Harald Gladytz, Team Vertrieb ESRI Niederlassung Leipzig

Implementierung von Datenbanksystemen 2 (IDBS2)

Orientierungsveranstaltung für Studierende der Bachelorstudiengänge. Wirtschaftsinformatik. Prof. Dr. Stefan Lessmann

Promotionskolleg DIPF TU Darmstadt Knowledge Discovery in Scientific Literature Iryna Gurevych

Business Intelligence Data Warehouse. Jan Weinschenker

DWH Best Practices das QUNIS Framework 80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH. Referent: Ilona Tag

IBM Cognos Analytics 11 Self-Service dann aber richtig!

Mandora Business Solutions

SAP Analytics für KMU. Oktober 2017

Bauer BI und seine Pig Data

arcplan Edge V.2.7 in 30 min von 0 auf 100 Stefan Koch VP Product Management 31. März 2011

OLAP mit dem SQL-Server

Aufbereitung von Produktdaten anhand von Extract-, Transform-, Load-Prozessen

Datenbanken Grundlagen und Design

Datenbanksysteme (5 LP) Softwaretechnik (5 LP) Kommunikationssysteme (5 LP) Automaten und Sprachen. Diskrete Strukturen (5 LP)

Analyse von Zitierungshäufigkeiten für die Datenbankkonferenz BTW

Data Mining im Einzelhandel Methoden und Werkzeuge

Datenbanken & Informationssysteme (WS 2016/2017)

Transkript:

Data-Warehouse-Praktikum WS 18/19 Universität Leipzig, Institut für Informatik Abteilung Datenbanken Prof. Dr. E. Rahm V. Christen, M. Franke, Z. Sehili {christen, franke, sehili}@informatik.uni-leipzig.de http://dbs.uni-leipzig.de 1

Data-Warehouse Ausgangsproblem Viele Unternehmen haben Unmengen an Daten, ohne daraus ausreichend Informationen und Wissen für kritische Entscheidungsaufgaben ableiten zu können ETL-Prozess: Extraktion Laden der Quelldaten in temporären Arbeitsbereich Transformation Anpassung an das Zielschema Datenbereinigung und Integration Laden Data Cube Erstellung 2

Szenario: Zitationsanalyse In wissenschaftlichen Arbeiten werden andere Arbeiten zitiert Anzahl der Zitierungen als Indikator für den wissenschaftlichen Einfluss (Impact) und Qualität Wie häufig wird eine Publikation zitiert? Wie häufig werden Publikationen des Venues (Konferenz oder Journal) im Durchschnitt zitiert? Wie ist die durchschnittliche Zitierungszahl von Autoren? Beziehungen zwischen Personen, Institutionen, Publikationen und Fachbereichen Welche Autoren zitieren welche anderen Autoren? Verlagerung von Forschungsschwerpunkten, Trend-Themen Wann wird ein Publikation zitiert? 3

Datenquellen DBLP Bibliography: Manuelle gepflegte Website, die komplette Listen verschiedener Venues aus dem Informatik-Bereich enthält. ACM Digital Library: Portal der Association for Computing Machinery enthält ebenfalls komplette Listen verschiedener Venues Google Scholar: Suchmaschine für wissenschaftliche Publikationen Relevante Teilmenge der Daten steht als CSV- und XML-Dateien zur Verfügung 4

Aufgaben: Inhaltlich 1. Datenimport Import der XML- und CSV-Dateien Datenextraktion mittels TSQL Relationale Speicherung der Daten dem Zielschema entsprechend (Zusatzinformationen sollen beibehalten) 2. Data Cleaning Objekt-Matching: Erkennen gleicher Publikationen in verschiedenen (oder gleichen) Datenquellen Daten-Normalisierung: Normalisierung der Institutionsnamen Ableitung neuer Daten: Identifikation von Selbstzitierungen 3. Cube-Erstellung, OLAP und Data Mining Star-Schema-Erstellung und Datenimport OLAP-Analyse, MDX-Anfragen Data Mining: Assoziationsregeln zur Bestimmung ähnlicher Venues 5

Aufgaben: Organisatorisch Realisierung mittels Microsoft SQL Server Business Intelligence Development Studio Drag&Drop-Workflow-Erstellung (keine direkte Programmierung) Per Remote-Desktop-Verbindung: wdiserv3.informatik.uni-leipzig.de Client-Anwendung für zentralen Datenbankserver: SQL Server 2008 auf windorf.informatik.uni-leipzig.de Für Experimentierfreudige oder Open-Source-Verfechter: Nutzung von Pentaho (Mondrian / Kettle) https://community.hitachivantara.com/docs/doc-1009855-data-integration-kettle Jeder Aufgabe ist ein Tutorial zugeordnet Beschreibung der Aufgabe Grundlegende Vorgehensweise (inkl. Screenshots) & Hinweise Software-Ergebnis sind ausführbare Projekte, welche im Testat ausgeführt/begutachtet werden Terminabsprache rechtzeitig individuell mit Betreuer per E-Mail Deadlines siehe Webseite (Testat 1 bis zum 23. November) 6

Organisatorisches Ziel: Realisierung eines typischen DWH-Projekts Kennenlernen der echten, praktischen DWH-Probleme Zielgruppe: Master-Studierende der Informatik, welche im SS18 VL Data Warehousing besucht haben Interessierte (nachrangig) Kenntnisse : Notwendig: VL Data Warehousing Hilfreich: VL Datenintegration, VL Data Mining, DB-Praktikum Skripte zum Nacharbeiten im Netz Ablauf: Gruppenarbeit mit 2 Studierenden pro Gruppe (max. 9 Gruppen) Bearbeitung von 3 Aufgaben jeweils Testat Aufgabenstellung und Informationen: https://dbs.uni-leipzig.de/study/2018ws/dwhprak 7