Datenschutz, Humangenetik, Personalisierte Medizin Ein (zu?) weites Feld Prof.Dr. Kay Hamacher Dept. of Biology Dept. of Computer Science Dept. of Physics TU Darmstadt 02.07.2014
Übersicht Big Data & Bioinformatik Besonderheiten von Humangenetischen Daten Begehrlichkeiten & Incentivierungen Risiken: Re-Identifizierung und mehr Sicherheit & IT-Industrie
Big Data & Bioinformatik As any science matures, its methods inevitably become more quantitative. R. Graham, computer science, UC San Diego The history of science is emphatic: a discipline usually matures [... ] after it has developed mathematical theory. P. Turchin, ecology & evolutionary biology, University of Connecticut Und so ist s gekommen.
Big Data & Bioinformatik Human Genome Project (HGP), 1990-2003 http://www.1000genomes.org
Besonderheiten von Humangenetischen Daten
Besonderheiten von Humangenetischen Daten (Human)genetische Daten sind besonders (fast) konstant (fast) absolut personenbezogen Bedeutung nimmt zu Bioinformatik findet immer mehr Korrelate, Prozeße in der Entwicklung Familie und Verwandtschaft Klassische Daten: D.J. Solove, A Taxonomy of Privacy, Univ Penn Law Review 154(2006)477 Prozeß orientiert (Human)genetische Daten K. Hamacher, A Taxonomy of Genomic Privacy and Beyond, Workshop on Genome Privacy Privacy Enhancing Technologies Symposium (PETS 2014), accepted Daten orientiert
Begehrlichkeiten & Incentivierungen
Monetarisierung dieser Daten insbes. dank Big Data Quelle: http://www.spiegel.de/netzwelt/netzpolitik/patienten-apotheken-verkaufen-vertrauliche-daten-a-917118.html http://www.theguardian.com/society/2014/jan/19/nhs-patient-data-available-companies-buy http://derstandard.at/1389857404555/wiener-spitaeler-sollen-fahrlaessig-mit-patientendaten-umgehen
Risiken: Re-Identifizierung und mehr
Ansatz: Pseudonymisierung / Anonymisierung Reduziere Eindeutigkeit, z.b. aggregrierte Datenfelder Löschen des (?) identifizerenden Merkmals (Name, dob,... ) Quantifizierung: k-anonymität, l-diversität ISO/TS 25237:2008, Health informatics Pseudonymization Problem: 5-digit County ZIP code Year of birth 0.2% 0.0% Year and month of birth 4.2% 0.2% Year, month and day of birth 63.3% 14.8% Fraction of the U.S. population uniquely identifiable by {gender, location, date of birth} P. Golle, Revisiting the uniqueness of simple demographics in the US population, Proc. ACM Workshop Privacy (WPES2006), pp. 77-80
Aber soooo einfach ist das nicht
Pseudonymisierung & Seitenkanalangriff external information Benitez, Malin J Am Med Inform Assoc 17(2010)169e177
Pseudonymisierung & Seitenkanalangriff Needles in the Haystack: Identifying Individuals Present in Pooled Genomic Data Rosemary Braun 1 *, William Rowe 1, Carl Schaefer 2, J inghui Zhang 1, Kenneth Buetow 1,2 Identifying Personal Genomes by Surname Inference Melissa Gymrek, 1,2,3,4 Amy L. McGuire, 5 David Golan, 6 Eran Halperin, 7,8,9 Yaniv Erlich 1 SCIENCE VOL 339 18 JANUARY 2013 Biostatistics (2010), 11, 4, pp. 661 673 doi:10.1093/biostatistics/kxq035 Advance Access publication on June 3, 2010 On inferring presence of an individual in a mixture: a Bayesian approach DAVID CLAYTON
Auswirkungen von De-Anonymisierung
Sicherheit & IT-Industrie
Sicherheit? Ein Desaster Mediz. Billing ist in Deutschland anfällig sensible Informationen zu leaken
Das Ergebnis: Vertraue niemals der IT-Industrie As was revealed today, the NSA also works with security product vendors to ensure that commercial encryption products are broken in secret ways that only it knows about.
Einziger Ausweg: Open Source Software (OSS) Programmes published under free/open software licenses can be independently audited are much harder to hide secret back doors in.
Zusammenfassung Genomische Information ist besonders Dynamiken laufen in die falsche Richtung Normative Kraft des Faktischen Cloud & IT-Industrie ein weiteres, großes Problem Crypto & IT-security können für Privacy-by-Design sorgen