Cloud Computing für Big-Data-Analysen in der Medizin Cloud Use Cases Day 2015 Fachhochschule Nordwestschweiz Wolfgang Ziegler Fraunhofer Institut SCAI wolfgang.ziegler@scai.fraunhofer.de
Sekundärnutzung klinischer Daten Business Intelligence Data Warehouse 2
Ansatz Text Mining Text Annotation Deidentification 3
Was ist mit... Freitext? 99.9% 71% 80% 53% 4
lokal Extract Transform Load LIS KIS/ KAS SQL CSV... PIDgen Terminology DeIdent Fakten Aggregation Query-Tool WWW XLS...... Dimensi onen Statistik Visualisierung... 5
lokal c l o u d Extract Transform Load LIS KIS/ KAS SQL CSV Texte PIDgen Terminology DeIdent Fakten Aggregation Query-Tool WWW XLS... Textmining Dimensi onen Statistik... Visualisierung... 6
Das Projekt cloud4health Fokus Cloud Services für Big Data Analytics im Gesundheitswesen Größe 4 Mio EUR 46,5 Personenjahre 6 Partner 2 Kliniken, 3 Technologieprovider, 1 Datenschutzspezialist 7
Das Projekt cloud4health Ziele Sekundärnutzung medizinischer Routinedaten Verschiedene Forschungs- und Studienzwecke Freitextanalyse in der Cloud (Textmining) Herausforderung Umgang mit sensiblen Daten: OP-Berichte, Aufnahmebefunde, Arztbriefe etc. Projektansatz Erfüllung der Schutzziele Vertraulichkeit und Integrität Ganzheitliches Sicherheitskonzept Datenschutzkonformität durch Zusammenarbeit mit den DSB 8
Ganzheitliches Sicherheitskonzept Durchgängige Sicherheit durch abgestimmte, komplementäre Maßnahmen in Kliniken und zentraler Cloud-Infrastruktur Klinik C Klinik B Klinik A 1 De-Identifizierung der Patientendaten Studienportal Data Mining 3 Sichere Cloud Sicherer Datentransfer 2 Strukturierte Daten Data Warehouse Prozessierung 9
Klinik-interne Vorverarbeitung Klinik A KIS/KAS/HIS Clinical DWH Other Selektion für Studien, Einschlusskriterien De-Identifizierung 1 Transferdatenbank, lokale Protokollierung Cloud gateway Sichere Cloud Sichere Cloud 10
Sicherer Datentransfer in die Cloud Herausforderung: Datentransfer über potentiell unsicheres Drittnetz Klinik Cloud gateway Ziel: Sicherstellung von Vertraulichkeit und Integrität 2 Ansatz auf mehreren Ebenen - Transportverschlüsselung (TLS) - Anwendungsebene (HTTPS) - Dokumente (AES) VPN Orientierung: Richtlinien des BSI (Ciphers, Schlüssellängen) Sichere Cloud 11
Verschlüsselung auf mehreren Ebenen Klinik Cloud AES HTTPS - Textmining- Services HTTPS - AAA - Initialisierung und Shutdown v. VMs TLS - Anbindung an Cloud-MW - Netzintegration 12
Sichere Cloud @ Fraunhofer SCAI 3 13
Sichere Cloud @ Fraunhofer SCAI Klinik B Klinik A Klinik C VPN VPN VPN VPN B VPN A VPN C VLAN C VLAN A VLAN B Broker-VM Broker-VM Broker-VM Worker- VM Worker- VM Worker- VM Worker- VM Worker- VM Worker- VM Worker- VM Worker- VM Worker- VM UIMA Environment B UIMA Environment A UIMA Environment C 14
Sichere Cloud @ Fraunhofer SCAI - Community Cloud - Kein automatischer Datenabruf - Services werden vom Kunden gestartet - Mandantentrennung - Exklusive Textmining-Services pro Kunde - Netzseparierung (VLAN + VPN) - Exkl. Nutzung von Cloud-Nodes möglich - Laufende VMs nutzen kein shared storage - Verschlüsselung - Absicherung Klinik-Cloud durch VPN - Anwendungsebene - Einzelverschlüsselung der Dokumente - RZ am Standort Deutschland - IT-Sicherheitskonzept nach BSI 100-2 15
Architektur Modell 1+2 C Ver- und Entschlüsselung A Sichere verschlüsselte Verbindung Structured Data Annotation Data K-Anonym Export B D Textmining-Cloud 16
Ablauf Verschlüsselung/Entschlüsselung Klinik VPN Dokument mit Patientendaten ODM EP VLAN A Broker Worker Worker Worker Terminologien Cloud storage 17
Verschlüsselungstechnologie Hybride Operation: AES shared key + X.509 Zertifikat Zertifikate werden vom tempifier vorab erzeugt Gültigkeit angepasst an Nutzungsanforderung Privater Schlüssel mit Passwort geschützt Proxy-Zertifikate für Nutzung in der Cloud Zertifikate werden im OpenNebula Data store gespeichert Gültigkeit angepasst an Studie (Stunden, Tage) Eigener AES Schlüssel für jede Studie Verschlüsselt für den Broker Verschlüsselter AES Schlüssel eingebettet in das XML Dokument mit den verschlüsselten Patientendaten Tempifier verschlüsselt Patienten Daten mit dem AES Schlüssel Broker entschlüsselt zunächst den AES Schlüssel, entschlüsselt dann die Patienten Daten mit dem AES Schlüssel und transferiert zur Textmining Pipeline Daten nur im Speicher, nicht auf der Festplatte Broker verschlüsselt Ergebnisse (ODM) mit AES Schlüssel tempifier entschlüsselt Ergebnisse mit dem AES Schlüssel 18
Sicheres Herunterfahren von VMs Klinik A shutdown Cloud Mgmt Worker VPN VPN A VLAN A Broker Worker Worker - Keine Persistierung von Patientendaten in der Cloud während der Prozessierung - VM lebt nur solange die Textanalyseservices benötigt werden - Sicheres Löschen der VM- Images durch randomisiertes Überschreiben 19
Anwendungsmöglichkeiten cloud4health eröffnet eine Vielzahl von Anwendungsmöglichkeiten für: Öffentliche Einrichtungen, Krankenkassen Industrie & Mittelstand (Medizin- und Biotechnik, Pharma) Krankenhäuser (öffentlich & privat) Mögliche Anwendungsszenarien: Überprüfung klinischer Leitlinien, Qualitäts- / Kostenmonitoring, Feasibility studies Retrospektives Befüllen von Registern / Studien Patientenrekrutierung für Studien Strukturierung großer Datenmengen und Überführung in strukturierte Informationssysteme... 20
Anwendungsmöglichkeiten Im Projekt wurden 4 konkrete Anwendungsszenarien umgesetzt: Qualitätsmonitoring medizinischer Produkte Retrospektives Befüllen von Registern am Beispiel des Endoprothesenregisters Deutschland Klinische Leitlinien/Plausibilität von Verordnungen Zusammenarbeit mit P 3 zur Überprüfung von Verordnungen im Bereich der Psychiatrie Biodatenbanken Extraktion von Tumorgraduierung (z.b. TNM Kodierungen) aus großen Pathologiedatenbeständen Pharmakovigilanz Detektion von Nebenwirkungen an verschiedenen Fallbeispielen 21
Modell 3 Modell 2 Modell 1 Modellszenarien Verarbeitung von Patientendaten 3 cloud4health-modelle ohne Einwilligung (retrospektiv) Anonymisierung in Klinik keine Reidentifizierung Pseudonymisierung in Klinik Reidentifizierung und follow-up in Klinik Einwilligung (prospektiv) Pseudonymisierung klinik-übergreifend Reidentifizierung und follow-up übergreifend Leistungsfähigkeit / Komplexität
Take home message Sekundärnutzung kann grundsätzlich rechtskonform ausgestaltet werden Anonymisierung/Pseudonymisierung zentraler Bestandteil des generischen Konzepts Modelle 1 3 decken einen weiteren Bereich an Sekundärnutzungsszenarien ab Geheimhaltungsverpflichtung zwischen Klinik und Cloud- Betreiber Musterverträge zur weiteren technisch-organisatorischen Absicherung (insb. Modell 3)
Zusammenfassung cloud4health Cloud-basierte Aufbereitung medizinischer Routinedaten Qualitätsmonotoring, Plausibilitätskontrolle, Pathologiedaten, Pharmakovigianz Schutzziele Vertraulichkeit und Integrität Sicherheitskonzept De-Identifizierung Verschlüsselung auf mehreren Ebenen: Transportlayer + Anwendungslayer + Einzeldokumente Umsetzung des Konzepts @ Fraunhofer SCAI Basis des Sicherheitskonzeptes Abstimmung von Cloud-Betreiber, Kliniken und Datenschützern Orientierung an BSI 100-2 IT-Grundschutz Eckpunktepapier Cloud Computing & technische Richtlinien BSI OH Mandantenfähigkeit, Protokollierung, Cloud ENISA, NIST, CSA 24