Informationsintegration und Webportale 02.12.2013 : Data-Warehouse-Systeme, Markus Ewald (FZI) INSTITUTS-, FAKULTÄTS-, ABTEILUNGSNAME (in der Masteransicht ändern) KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu
Dipl.-Inform. Markus Ewald Aktuelle Tätigkeit Wissenschaftlicher Mitarbeiter am FZI Bereich Information Process Engineering Abteilung Health Care Logistics Doktorand am IOR, Prof. Stefan Nickel Forschungsinteressen Operations Research Prozessoptimierung Gesundheitswesen Data Warehouse & Analytics Aktuelle Projekte ANGELsystems BRK Telematik 2 2 02.12.2013
Data-Warehouse-Systeme Grundlagen Referenzarchitektur Stroke Angel Data Warehouse des ANGELsystems 3 02.12.2013
Motivation Ziel dieser Vorlesung: Grundlagen des Data-Warehousing Sicherer Umgang mit den Begrifflichkeiten Verständnis für Möglichkeiten und Grenzen eines Data Warehouse Konzeption und Umsetzung eines Data Warehouse am Praxisbeispiels 4 02.12.2013
Definition Data Warehouse A Data Warehouse is a subject oriented, integrated, non-volatile, and time variant collection of data in support of management decisions. (W. H. Inmon, Building the Data Warehouse, 1996) Subject oriented Logische und physische Aufteilung der Daten für spezifische Auswertungen auf der Basis quantifizierbarer Kennzahlen Integrated Daten unterschiedlicher Quellen und Fremdsysteme in einheitliches Format überführen Non-volatile Daten im Data Warehouse werden nicht modifiziert oder entfernt Time-variant Daten werden periodisch aktualisiert Über längeren Zeitraum gespeichert als im operativen System 5 02.12.2013
Begrifflichkeiten Data Warehouse Bezeichnet die eigentliche Datenbank Data-Warehouse-System Sammlung von Systemkomponenten und einzelnen Datenbanken Gesamte technische Infrastruktur Data Warehousing Prozess der Planung, des Aufbaus und Betriebs eines Data Warehouse Dazu zählen z.b.: Extraktion der relevanten Daten aus dem Quellsystem Transformation und Bereinigung der Daten Laden und Integration der Daten in das Data Warehouse 6 02.12.2013
Abgrenzung zu Business Intelligence Unter Business Intelligence wird ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. (H.-G. Kemper, Business Intelligence Grundlagen und praktische Anwendungen 2007) Daten (Data Warehouse) Technologien Prozesse Anwendungen Strategien 7 02.12.2013
Anforderungen an ein Data Warehouse Unabhängigkeit zwischen Datenquellen und Auswertungssystemen bezüglich: Verfügbarkeit Belastung Zeitliche Stabilität Persistenz Mehrfachverwendbarkeit der bereitgestellten Daten Flexibilität Bereitstellung individueller Sichten Skalierbarkeit Effizienz 8 02.12.2013
Anwendungsfälle I / II Grundlage: Erkenntnisse aus Daten der operativen Systeme Informationsorientiert Frequentierte Lieferung von Informationen Informationen vordefiniert Standardberichte (Word, Pdf, Papier, ) Cockpits, Dashboards Planungsorientiert Frequentierte Lieferung von Informationen Informationen vordefiniert Abgleich mit Planwerten für definierte Unternehmenskennzahlen Standardberichte Cockpits, Dashboard 9 02.12.2013
Anwendungsfälle II / II Auswertungsorientiert Berichterstattung erfolgt bei Bedarf Berichte als Antwort auf komplexe Anfragen Daten aus verschiedenen Datenquellen und Funktionsbereichen Kampagnebasiert Auswertungen im Projektkontext Durchführung von Expertenteam Verwendung finden alle Anwendungsfälle Informationsorientiert Auswertungsorientiert Planungsorientiert Data-Warehouse-System als ein Werkzeug Beispiel CRM 10 02.12.2013
Data-Warehouse-Systeme Grundlagen Referenzarchitektur Stroke Angel Data Warehouse des ANGELsystems 11 02.12.2013
Datenbeschaffungsbereich Auswertebereich Auswertung Data-Warehouse-System Laden Laden Transformation Basisdatenbank Data-Warehouse- Manager Referenzarchitektur eines Data-Warehouse- Systems Auswertungsdatenbank Ableitungsdatenbank Metadatenmanager Verwaltungsbereich Laden Arbeitsbereich Extraktion Monitor Transformation Repositorium Datenquelle Datenfluss Kontrollfluss Metadatenfluss 12 02.12.2013 Frei nach: Bauer, A., Günzel, H.: Data Warehouse Systeme
Ziele einer Referenzarchitektur Vergleichbarkeit schaffen Einzelner Data Warehouse Werkzeuge und Komponenten Zwischen Data-Warehouse-Systemen Basis einer Implementierung Bessere Planbarkeit Zerlegung in handhabbare Komponenten Bessere Übersicht Komplexitätsverminderung Gemeinsames Verständnis Akzeptierte Definitionen Eindeutige Begriffe 13 02.12.2013
Datenbeschaffungsbereich Auswertebereich Auswertung Data-Warehouse-System Laden Laden Transformation Basisdatenbank Data-Warehouse- Manager Referenzarchitektur eines Data-Warehouse- Systems Auswertungsdatenbank Ableitungsdatenbank Metadatenmanager Verwaltungsbereich Laden Arbeitsbereich Extraktion Monitor Transformation Repositorium Datenquelle Datenfluss Kontrollfluss Metadatenfluss 14 02.12.2013 Frei nach: Bauer, A., Günzel, H.: Data Warehouse Systeme
Data-Warehouse-Manager Data-Warehouse-Manager (DWM) für die Initiierung, Steuerung und Überwachung der Prozesse. Monitore Melden für die Auswertungs- und Ableitungsdatenbank relevante Updates der Datenquellen an den DWM Extraktoren Transportieren Daten aus den Datenquellen in den Arbeitsbereich Transformatoren Vereinheitlichen, bereinigen, integrieren, konsolidieren, aggregieren und ergänzen extrahierte Daten im Arbeitsbereich oder zur Ableitungsdatenbank Ladekomponenten Laden die transformierten Daten aus dem Arbeitsbereich in die Basisdatenbank und anschließend in die Auswertungs- und Ableitungsdatenbank Auswertungskomponenten Sind für die Auswertung und Visualisierung der Daten in der Auswertungs- oder Ableitungsdatenbank zuständig 15 02.12.2013
Datenbeschaffungsbereich Auswertebereich Auswertung Data-Warehouse-System Laden Laden Transformation Basisdatenbank Data-Warehouse- Manager Referenzarchitektur eines Data-Warehouse- Systems Auswertungsdatenbank Ableitungsdatenbank Metadatenmanager Verwaltungsbereich Laden Arbeitsbereich Extraktion Monitor Transformation Repositorium Datenquelle Datenfluss Kontrollfluss Metadatenfluss 16 02.12.2013 Frei nach: Bauer, A., Günzel, H.: Data Warehouse Systeme
Monitor I / II Der Data-Warehouse-Monitor bemerkt Datenveränderungen und propagiert diese inkrementell. Monitor ist abhängig von der angeschlossen Datenquelle und den Anforderungen der Auswertungskomponenten. Allgemein: Ein Monitor pro Quelle Monitor-Strategie: Triggerbasiert Datenmanipulation löst Trigger aus. Geänderte Tupel werden an einen Speicherort abgelegt Replikationsbasiert Replikationsdienst schreibt veränderte Tupel in spezielle Tabellen 17 02.12.2013
Monitor II / II Zeitstempelbasiert Datensatz wird mit Zeitstempel versehen. Bei Veränderungen erhält er einen neuen Zeitstempel Snapshotbasiert In periodischen Zeitabständen wird Delta (Snapshot) erstellt. Durch Delta-Berechnung (Snapshotvergleich) werden Veränderungen identifiziert Log-basiert Datenbank protokolliert Transaktionen mit und Updates werden aus den Log-Dateien generiert 18 02.12.2013
Die Extraktionskomponente Überträgt Daten, in Abhängigkeit von der gewählten Monitor- Strategie, aus einer Datenquelle bzw. Quellen-Abschnitt in den Arbeitsbereich. Mögliche Update-Strategien der Extraktion Periodisch Ereignisgesteuert Sofort bei Veränderungen 19 02.12.2013
Arbeitsbereich Die zentrale Datenhaltungskomponente des Datenbeschaffungsbereiches. Er dient der Integration von Daten aus heterogenen Quellen. Der Integrationsprozess läuft periodisch ab. Arbeitsbereich als temporärer Zwischenspeicher der Daten auf dem Web von den Datenquellen bis zur Basisdatenbank Datentransformationen laufen direkt im Arbeitsbereich Keine Beeinträchtigung der Basisdatenbank Daten werden nach den Transformationen an Basisdatenbank übertragen 20 02.12.2013
Die Transformationskomponente I / III Unterschiedliche Arten der Heterogenität der Quelldaten Technisch z.b. Mainframe, Flatfile, Logisch Formate, Schemata, Darstellungen Syntaktisch Datum, Codierung, Währung, Qualität Falsche und fehlende Werte, Duplikate, Verfügbarkeit Permanent oder periodisch Rechtlich Datenschutz, Zugriffsverwaltung 21 02.12.2013
Die Transformationskomponente II / III 1. Transformiert Daten vom Arbeitsbereich für die Basisdatenbank a. Strukturelle Schemaintegration b. Inhaltliche Datenintegration und Datenbereinigung 2. Transformiert Daten von der Basisdatenbank für die Ableitungsdatenbank a. Anpassung an auswerteorientiertes Format Datenmigrationstypische Transformationen Datentypen anpassen Codierungen konvertieren Zeichenketten und Datumsangaben vereinheitlichen Maßeinheiten umrechnen Etc. 22 02.12.2013
Die Transformationskomponente III / III Fehlerhafte, redundante, veraltete oder fehlende Werte verunreinigen die Daten. Datenbereinigung korrigiert das Problem. Data Scrubbing Domänenspezifisches Wissen erforderlich Beispiel: FMS8 (Transportziel erreicht) vor FMS1 (Einsatzbereitschaft) Data Auditing Aus Zusammenhänge im Datenbestand werden Regeln abgeleitet Abweichungen dieser Regeln geben Hinweise auf Unzulänglichkeiten 23 02.12.2013
Die Ladekomponente Bereinigte und aufbereitete Daten im Arbeitsbereich werden von der Ladekomponente weitergereicht. Eine Ladekomponente zwischen Arbeitsbereich und Basisdatenbank Übertragung Detaildaten Daten sind auswertungsunabhängig Eine weitere Ladekomponente zwischen Basisdatenbank und Ableitungsdatenbank bzw. zwischen Ableitungsdatenbank und Auswertungsdatenbank Auswertungsspezifische Daten 24 02.12.2013
Basisdatenbank Integrierte Datenbasis für verschiedene Auswertungen. Ermöglicht die Mehrfachverwendung und Flexibilität der Daten. Aufnahme aller Daten für die Auswertungen Versorgung aller Auswertungsdatenbanken mit Daten über Ableitungsdatenbank (Distributionsfunktion) Enthaltene Daten sind qualitätsgesichert 25 02.12.2013
Datenbeschaffungsbereich Auswertebereich Auswertung Data Warehouse-System Laden Laden Transformation Basisdatenbank Data-Warehouse- Manager Referenzarchitektur eines Data-Warehouse- Systems Auswertungsdatenbank Ableitungsdatenbank Metadatenmanager Verwaltungsbereich Laden Arbeitsbereich Extraktion Monitor Transformation Repositorium Datenquelle Datenfluss Kontrollfluss Metadatenfluss 26 02.12.2013 Frei nach: Bauer, A., Günzel, H.: Data Warehouse Systeme
Ableitungsdatenbank Die Ableitungsdatenbank ist Basis für die Auswertungen. Daten für die Auswertungen werden hier dauerhaft verwaltet und den Auswertungsprozessen zur Verfügung gestellt. Die Daten stammen aus der Datenmenge der Basisdatenbank, welche bereits qualitätsgesichert sind. Daten werden verwaltet und verarbeitet, z.b. Summenberechnungen Design des logischen Schemas ist abhängig von den Auswertungsbedürfnissen des Anwenders 27 02.12.2013
Auswertungsdatenbank Die Grundidee der Auswertungsdatenbank ist es einen weiteren inhaltlich beschränkten Fokus als Teilsicht einer Ableitungsdatenbank abzubilden. Gründe für eine Teilsicht Datenschutzaspekte Organisatorische Aspekte (z.b. unterschiedliche Abteilungen) Verringerung des Datenvolumens Performanzgewinnung Lastverteilung Unabhängigkeit von den Aktualisierungszyklen der Ableitungsdatenbank Extraktionsmöglichkeiten aus Ableitungsdatenbank Strukturell (Replikation eines Teils des Ableitungsdatenbank) Inhaltlich (Beschränkung auf bestimmte Inhalte) Aggregiert (Verringerung der Detailstufe) 28 02.12.2013
Auswertungskomponente I / III Alle Operationen auf Basis der Daten in den Ableitungs- und Auswertungsdatenbanken. Anforderungen an eine Auswertungskomponente Darstellung von Daten in Berichten Generierung neuer Informationen Mittels arithmetischer Operationen bis zu komplexen statistischen Untersuchungen (z.b. Data Mining, stochastische / prescriptive analytics) Weitergabe in anderen Systemen Aufbereitung, Bereitstellung der Ergebnisse Integration dieser Ergebnisse zurück in Basisdatenbank 29 02.12.2013
Auswertungskomponente II / III Komplexitätsstufen der Auswertungswerkzeuge Query and Reporting Queries an Auswertungsdatenbank Veränderung und Anreicherung durch einfache arithmetische Operationen Präsentation der Ergebnisse Berichte, Text, Zahlen, Grafiken Online Analytical Processing Interaktive Datenanalyse Frei definierbare Anzeige Navigation durch Daten Wählbare Auswertungsfunktionen 30 02.12.2013
31 02.12.2013
Auswertungskomponente III / III [cont.] Komplexitätsstufen der Auswertungswerkzeuge Data Mining Zusammenhänge in Daten ohne exakte Fragestellung finden Methoden aus Statistik und maschinelles Lernen Ermöglicht Vorhersagen Beispiel: Clustering ähnlicher Objekte, Identifikation von Mustern 32 02.12.2013
Data-Warehouse-Systeme Grundlagen Referenzarchitektur Stroke Angel Data Warehouse des ANGELsystems 33 02.12.2013
Data Warehouse in der Praxis 34 02.12.2013
Prozessanalyse Symptome ignorieren Umweg über Hausarzt Alarmierungszeit Falsches Rettungsmittel Schlechte Vorbereitung Fehlende Kapazitäten Patient Rettungsleitstelle Rettungsdienst Stroke Unit Symptome erkennen Meldebild erfassen Patient versorgen Patient aufnehmen Notruf absetzen Rettungsmittel disponieren Patient transportieren Diagnose erstellen Therapie einleiten Quelle: 35 V. 02.12.2013 Ziegler, A. Rashid, Markus M. Schaff Ewald, Data-Warehouse-Systeme U. Kippnich, B. Griewing (2012): Qualitätsmanagement in der akuten Schlaganfallversorgung: FZI Forschungszentrum Wie Informatik kann man die präklinisch-klinische Schnittstelle beim Schlaganfall bewerten und verbessern? Erschienen in: Aktuelle Neurologie 2012; 39: 192 200
Kennzahlen Symptome ignorieren Umweg über Hausarzt Alarmierungszeit Falsches Rettungsmittel Schlechte Vorbereitung Fehlende Kapazitäten Patient Rettungsleitstelle Rettungsdienst Stroke Unit Dauer Symptom-To-Alarm Dauer Notruf bis Alarmierung Dauer am Notfallort Dauer Transport zur Klinik Dauer Door-To-CT Dauer Door-To-Needle Lyserate Quelle: 36 V. 02.12.2013 Ziegler, A. Rashid, Markus M. Schaff Ewald, U. Data-Warehouse-Systeme Kippnich, B. Griewing (2012): Qualitätsmanagement in der akuten Schlaganfallversorgung: FZI Forschungszentrum Wie Informatik kann man die präklinisch-klinische Schnittstelle beim Schlaganfall bewerten und verbessern? Erschienen in: Aktuelle Neurologie 2012; 39: 192 200
Stroke Angel Informationsfluss 37 02.12.2013
Das Stroke Angel Pad Hersteller: meddv GmbH in Gießen Hardware Aktuelle Intel CPU (Dual Core) 4-8 Gb Ram 120Gb SSD Software Betriebssystem: Windows 8 Programmiersprache:.NET Frei konfigurierbar in XML-Derivat Client-Server-Architektur Sonstiges Vom Gehäuse bis zur Akkuladeplatine alles selbst entwickelt und gebaut Spritzwassergeschützt Für ruppige Arbeitsbedingungen Nur Mittel zum Zweck! 38 02.12.2013
Das Stroke Angel Pad 39 02.12.2013
Datenanalyse 2004 2012, Neurologische Klinik Bad Neustadt 5861 Patienten mit Schlaganfall n Door-To-CT Alarmierung bis Ankunft Klinik 3144 Patienten mit Schlaganfall & Rettungsdienst 1503 Patienten mit Schlaganfall & Rettungsdienst & vollständig dokumentiert Gruppe 1 2004 2005 Ohne ANGEL Gruppe 2 2006 2013 Ohne ANGEL Gruppe 3 2006 2013 Mit ANGEL 358 384 761 MW 69 Min. 60 Min. STD 142 Min. 88 Min. MD 36 Min. 54 Min. MW 29 Min. 61 Min. STD 36 Min. 92 Min. MD 23 Min. 54 min MW 19 Min. 52 Min. STD 20 Min. 14 Min. MD 14 Min. 51 Min. 40 02.12.2013
Datenanalyse 2004 2012, Neurologische Klinik Bad Neustadt % Prozent 45 40 35 30 25 20 15 10 5 0 Lyserate gesamt Lyserate mit Stroke Angel Lyserate in Bayern 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 41 02.12.2013
Stroke Angel Informationsquellen, Stand 2013 Neurologische Klinik Bad Neustadt Stroke Angel Cardio Angel Export von Reports Epi Angel St. Elisabeth Krankenhaus Bad Kissingen FZI ANGELdatawarehouse Voranmeldung Cardio Angel Leitstelle Export zu Statistikprogramme Rettungsdienstdaten 42 02.12.2013
Technische Architektur Rettungsdienst Klinik Rettungsdienst Erfassen und versenden Dokumentation Protokoll Datenübertragung Datenempfang Alarmierung Dateneinsicht ANGELpad ANGELgateway ANGELserver ANGELtracker ANGELpad ANGELpad GPRS/ UMTS VPN LAN Bluetooth KIS USB LAN Defibrillator LAN Arbeitsplatz RD NIDAserver TAPI Rufanlage/ Telefon 43 02.12.2013
Stroke Angel Komponenten Plausibilätsprüfung LAN ANGELjournal Telefon Telefon/ Brief Rettungsleitstelle Patienten ANGELserver Email ANGELdatawarehouse Stroke Manager HTTP 44 02.12.2013
Data-Warehouse-Systeme Grundlagen Referenzarchitektur Stroke Angel Data Warehouse des ANGELsystems 45 02.12.2013
Zukunft des ANGELsystems Data Warehouse Zahlen Daten Fakten, Telematik 2 Anzahl Rettungsdienstbereiche 26 Eine Bereichsübergreifende Leitstellen pro Rettungsdienstbereich Also Anbindung von insgesamt 26 Leitstellen Davon 8 unterhalten und betrieben vom BRK Insgesamt Ca. 1200 Rettungswagen Ca. 3500 Rettungsdienstler Ca. 450 Kliniken Ca. 1200 Pads 46 02.12.2013
Stroke Angel Informationsquellen, Stand 2015 Kliniken in Bayern Bad Neustadt St. Elisabeth Export von Reports BRK ANGELdatawarehouse Bereichsübergreifenden Leitstellen Schweinfurt Rettungswagen Export zu Statistikprogramme 47 02.12.2013
ANGELsystems Data Warehouse Werkzeuge der Pentaho CE Programmiersprache: Java Backend: Tomcat Webserver Frontend: Ctools von Webdetails Vergleich mit Referenzarchitektur Data-Warehouse-Manager: Administration Konsole ETL-Prozesse: Kettle Auswertungskomponente: Report Designer, CDE OLAP-Werkzeuge: Aggregation Designer, Mondrian 48 02.12.2013
ANGELsystems DWH ETL-Prozess 49 02.12.2013
ANGELsystems DWH CDE 50 02.12.2013
Live Demonstration: Pentaho Stroke Angel 51 02.12.2013
52 02.12.2013
Demonstration: Pentaho Stroke Angel in Bild 53 02.12.2013
Demonstration: Pentaho Stroke Angel in Bild 54 02.12.2013
Demonstration: Pentaho Stroke Angel in Bild 55 02.12.2013
Demonstration: Pentaho Stroke Angel in Bild 56 02.12.2013
Demonstration: Pentaho Stroke Angel in Bild 57 02.12.2013
Allgemeine Voranmeldung 58 02.12.2013
Online Analytical Processing 59 02.12.2013 Markus http://www.sql-news.de/info-portal/begrifflichkeiten/slice-and-dice/index.html, Ewald Data-Warehouse-Systeme 22.11.2013