Fakultät Informatik Proseminar Datenschutz in der Anwendungsentwicklung Privacy-Maße k-anonymity, l-diversity, t-closeness Dresden, 02.05.2013
D 01 Einführung: Beispiel Geburtstag Geschlecht PLZ Krankheit 30.08.1955 w 01067 Brustkrebs 20.02.1955 w 01069 Hautkrebs 30.10.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.05.1966 w 01189 Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.12.1969 m 01181 Haarausfall Tabelle 1: anonymisierte medizinische Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 2
01 Einführung: Beispiel Name Geburtstag m/w PLZ Mia Schulz 30.08.1955 w 01067 Lisa Schuster 20.02.1955 w 01069 Maria Müller 30.10.1955 w 01067 Steffi Bauer 10.02.1966 w 01187 Susi Scholz 20.05.1966 w 01189 Paul Richter 10.02.1969 m 01187 Tom Schmidt 20.12.1969 m 01181 Tabelle 2: Personendaten Geburtstag m/w PLZ Krankheit 30.08.1955 w 01067 Brustkrebs 20.02.1955 w 01069 Hautkrebs 30.10.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.05.1966 w 01189 Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.12.1969 m 01181 Haarausfall Tabelle 1: anonymisierte medizinische Tabelle Lisa Schuster kämpft gegen Hautkrebs Steffi Bauer plagt eine Grippe Paul Richter leidet an Haarausfall Anonymität aufgehoben! Zufall? TU Dresden, 02.05.2013 Privacy-Maße Folie 3
01 Einführung: Studie Studie von L. Sweeney: Uniqueness of Simple Demographics in the U.S. Population (2000) 87% der amerikanischen Bevölkerung (216 von 248 Millionen) sind eindeutig identifizierbar, wenn folgendes bekannt ist: Geburtsdatum (Tag, Monat, Jahr) Geschlecht (m/w) ZIP-Code (PLZ, 5-stellig) 53% mit Geburtsdatum, Geschlecht, Stadt 18% mit Geburtsdatum, Geschlecht, Staat Keine Seltenheit! Einwohnermeldeamt Gebühreneinzugszentrale Große Firmen ect. Auch mit anderen Charakteristika denkbar Staatliche Kennnummern (z.b. Sozialversicherungsnummer) TU Dresden, 02.05.2013 Privacy-Maße Folie 4
01 Einführung: Quasi-Identifikator Definition 1: Quasi-Identifikator Gegeben seien eine Population aus Individuen U, eine Tabelle T, Eine endliche Menge {Q1, Qn} an nicht-sensitiven Attributen aus T Dann ist die Menge {Q1, Qn} ein Quasi-Identifikator, wenn man die Attribute mit externen Daten verlinken kann, um ein Individuum aus der Population U eindeutig bestimmen zu können. Quelle: A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k- Anonymity (2006) TU Dresden, 02.05.2013 Privacy-Maße Folie 5
01 Einführung: Quasi-Identifikator Quasi-Identifikator medizinische Daten Personendaten Abbildung 1: Quasi-Identifikator TU Dresden, 02.05.2013 Privacy-Maße Folie 6
01 Einführung: Quasi-Identifikator Entfernen des Quasi-Identifikators führt zu Informationsverlust! Daten für statistische Zwecke nahezu unbrauchbar Ziel: Informationsgehalt wahren + individuelle Daten schützen Wie kann das umgesetzt werden? k-anonymity l-diversity t-closeness Quelle: http://www.pt-magazin.de/uploads/pics/anonymus.jpg TU Dresden, 02.05.2013 Privacy-Maße Folie 7
02 k-anonymity Definition 2: k-anonymity Gegeben seien eine personenbezogene Tabelle T (A1,, An) und der zur Tabelle passende Quasi-Identifikator QT Dann sagt man T unterstützt k-anonymity genau dann, wenn jede Wertkombination von T[QT] mindestens k-mal auftritt. Quelle: L. Sweeney, k-anonymity: a model for protecting privacy (2002) TU Dresden, 02.05.2013 Privacy-Maße Folie 8
02 k-anonymity: Beispiel (1) für k=2 Geburtstag Geschlecht PLZ Krankheit t1 **.**.1955 w 0106* Brustkrebs t2 **.**.1955 w 0106* Hautkrebs t3 **.**.1955 w 0106* Magenkrebs t4 **.**.1966 w 0118* Grippe t5 **.**.1966 w 0118* Bluthochdruck t6 **.**.1969 m 0118* Haarausfall t7 **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle K 2 t1[qt] = t2[qt] = t3[qt]; t4[qt] = t5[qt]; t6[qt] = t7[qt] TU Dresden, 02.05.2013 Privacy-Maße Folie 9
02 k-anonymity: Beispiel für k=3 Geburtstag Geschlecht PLZ Krankheit t1 **.**.1955 w 0106* Brustkrebs t2 **.**.1955 w 0106* Hautkrebs t3 **.**.1955 w 0106* Magenkrebs t4 **.**.196* * 0118* Grippe t5 **.**.196* * 0118* Bluthochdruck t6 **.**.196* * 0118* Haarausfall t7 **.**.196* * 0118* Haarausfall Tabelle 4: k=3-anonymisierte Tabelle K 3 t1[qt] = t2[qt] = t3[qt]; t4[qt] = t5[qt] = t6[qt] = t7[qt] TU Dresden, 02.05.2013 Privacy-Maße Folie 10
02 k-anonymity: Beispiel (2) für k=2 Geburtstag Geschlecht PLZ Krankheit t1 30.**.1955 w 01067 Brustkrebs t2 20.**.19** * 01*** Hautkrebs t3 30.**.1955 w 01067 Magenkrebs t4 10.02.196* * 01187 Grippe t5 20.**.19** * 01*** Bluthochdruck t6 10.02.196* * 01187 Haarausfall t7 20.**.19** * 01*** Haarausfall Tabelle 5: k=2-anonymisierte Tabelle K 2 t1[qt] = t3[qt]; t2[qt] = t5[qt] = t7[qt]; t4[qt] = t6[qt] Sinnvoll für statistische Zwecke? TU Dresden, 02.05.2013 Privacy-Maße Folie 11
02 k-anonymity: Schwachstellen Unsortiertes Matching / Komplementäre Veröffentlichung Fall 1: zwei k-anonymisierte Tabellen enthalten die gleichen Individuen in der gleichen Reihenfolge Sortiert nach einem bestimmten Kriterium (z.b. alphabetisch) Fall 2: gleiche Tabelle mit unterschiedlichen k-anonymisierungen veröffentlicht z.b. zu unterschiedlichen Zeitpunkten, weil sich der Datenbestand geändert hat Resultat: Matching der Tabellen führt zur (teilweisen) Rekonstruktion des Quasi-Identifikators Abhilfe: Tabellen zufällig sortieren Jede Tabelle nur unter einer k-anonymisierung veröffentlichen Tabelle mit bereits veröffentlichten vergleichen TU Dresden, 02.05.2013 Privacy-Maße Folie 12
D 02 k-anonymity: Beispiel Unsortiertes Matching Geburtstag m/w PLZ Krankheit 30.**.1955 w 01067 Brustkrebs 20.**.1955 w 0106* Hautkrebs 30.**.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.**.1966 w 0118* Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.**.1969 m 0118* Haarausfall Tabelle 6: Unsortiertes Matching Anonymität teilweise aufgehoben! Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle Geburtstag m/w PLZ Krankheit 30.**.1955 w 01067 Brustkrebs 20.**.19** * 01*** Hautkrebs 30.**.1955 w 01067 Magenkrebs 10.02.196* * 01187 Grippe 20.**.19** * 01*** Bluthochdruck 10.02.196* * 01187 Haarausfall 20.**.19** * 01*** Haarausfall Tabelle 5: k=2-anonymisierte Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 13
02 k-anonymity: Grenzen von k-anonymity A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k-anonymity (2006) k-anonymity kann Gruppen erstellen, die Informationen wegen zu geringer Vielfalt in den sensitiven Attributen preisgeben k-anonymity schützt nicht gegen Attacken, die auf Hintergrundwissen basieren Definition 3: sensitives Attribut Ein Attribut wird als sensitiv (empfindlich) bezeichnet, wenn es einem Angreifer gestattet ist, dieses Attribut für jedes Individuum im Datenbestand zu entdecken, es gleichzeitig aber keinem spezifischen Individuum zugeordnet werden kann. TU Dresden, 02.05.2013 Privacy-Maße Folie 14
02 k-anonymity: sensitive Attribute Sensitive Attribute Quasi-Identifikator medizinische Daten Personendaten Abbildung 2: Quasi-Identifikator, sensitive Attribute TU Dresden, 02.05.2013 Privacy-Maße Folie 15
02 k-anonymity: Beispiel geringe Vielfalt Geburtsdatum von Paul Richter ist bekannt (10.02.1969) Promi Bekanntheitskreis 2 Einträge 1969er Jahrgang Beide Haarausfall (geringe Vielfalt) Paul Richter hat Haarausfall Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle Positive Offenlegung TU Dresden, 02.05.2013 Privacy-Maße Folie 16
02 k-anonymity: Beispiel Hintergrundwissen Geburtsdatum von Susi Scholz ist bekannt (20.05.1969) Hintergrundwissen Gestern bei Fernsehauftritt keine Grippesymptome Hohe Wahrscheinlichkeit, dass Susi Bluthochdruck hat Negative Offenlegung Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 17
03 l-diversity: Qualitätsmaß Positive Offenlegung: ein sensitives Attribut kann mit sehr hoher Genauigkeit vorhergesagt werden Negative Offenlegung: ein sensitives Attribut kann mit sehr hoher Genauigkeit ausgeschlossen werden l-diversity Schützt vor positiver Offenlegung wichtig, da Schutz der Privatsphäre gefährdet kein Schutz vor negativer Offenlegung Schutz sehr schwierig, da Hintergrundwissen nicht bekannt Aber nur Ausschluss, keine Vorhersage TU Dresden, 02.05.2013 Privacy-Maße Folie 18
03 l-diversity Definition 4: l-diversity Gegeben seien eine k-anonymisierte Tabelle T* von T eine Menge S an sensitiven Attributwerten ein q*-block mit einer Menge von Tupeln, die sich anhand des Quasi-Identifikators QT* nicht unterscheiden Dann ist ein q*-block l-divers, wenn er mindestens l gut repräsentierte Werte für die sensitiven Attribute S besitzt. Eine Tabelle ist l-divers, wenn alle q*-blöcke l-divers sind. Quelle: A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k-anonymity (2006) TU Dresden, 02.05.2013 Privacy-Maße Folie 19
D 03 l-diversity: Beispiel gut repräsentiert = unterschiedlich mind. l-1 Hintergrundwissen nötig Tabelle 3: kein Schutz Tabelle 6: 2mal Hintergrundwissen Vereinfachtes Prinzip! 5 definierte Instanzen A. Machanavajjhala, J. Gehrke, D. Kifer: Diversity (2006): Privacy Beyond k-anonymity Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisiert, l=1-divers Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.196* * 0118* Grippe **.**.196* * 0118* Bluthochdruck **.**.196* * 0118* Haarausfall **.**.196* * 0118* Haarausfall Tabelle 6: k=3-anonymisiert, l=3-divers TU Dresden, 02.05.2013 Privacy-Maße Folie 20
03 l-diversity: Instanzen 5 verschiedene Instanzen für gut repräsentiert (1) Entropie l-diversity (2) Rekursive (c, l)-diversity (3) Positive Offenlegung, rekursive (c, l)-diversity (4) Negative/Positive Offenlegung, rekursive (c1, c2, l)-diversity Sicherheit + Komplexität (5) Multi-Attribut l-diversity TU Dresden, 02.05.2013 Privacy-Maße Folie 21
03 l-diversity: Grenzen Ähnlichkeit Kein Rückschluss auf sensitive Attribute Aber Gemeinsamkeit: Krebs Informationsgewinn Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisiert, l=1-divers Asynchronität 97% der Bevölkerung ist gesund, 3 % krank Gruppe: 50% / 50% Hohe Wahrscheinlichkeit, dass Individuum in dieser Gruppe als krank eingestuft wird Geburtstag m/w PLZ Krank? **.**.1955 w 0106* nein **.**.1955 w 0106* nein **.**.1955 w 0106* nein **.**.196* * 0118* nein **.**.196* * 0118* nein **.**.196* * 0118* ja **.**.196* * 0118* ja Tabelle 6: k=3-anonymisiert, l=3-divers TU Dresden, 02.05.2013 Privacy-Maße Folie 22
04 t-closeness Definition 4: t-closeness Ein q*-block besitzt t-closeness, wenn die Distanz zwischen der Verteilung der sensitiven Attribute eines Blocks und der des gesamten Datensatzes unterhalb des Grenzwertes t liegt. Eine Tabelle besitzt t-closeness, wenn alle q*-blöcke t-closeness besitzen. Quelle: N. Li, T. Li, S. Venkatasubramanian: t-closeness: Privacy Beyond k- Anonymety and l-diversity (2007) TU Dresden, 02.05.2013 Privacy-Maße Folie 23
04 t-closeness Höheres Maß an Sicherheit Verteilung sensitiver Attribute Einzelne Gruppe <-> gesamter Datenbestand Gruppen anhand sensitiver Attributen kaum unterscheidbar Problem: Distanzmessung Einfache Algorithmen nicht nutzbar Semantische Ähnlichkeit zwischen Attributen Lösung: Earth Mover s Distanz (EMD) Minimale Arbeit, um Verteilung A in Verteilung B umzurechnen Nummerische + kategorische Attribute Literatur: Y. Rubner, C. Tomasi, L. J. Guibas (2000) The Earth Mover s Distance as a Metric for Image Retrieval TU Dresden, 02.05.2013 Privacy-Maße Folie 24
04 t-closeness: EMD kategorische Attribute Krankheit Haarausfall Krebs sonstiges Bluthochdruck Brustkrebs Hautkrebs Magenkrebs Grippe Distanz: Brustkrebs Magenkrebs: 1 Brustkrebs Grippe: 2 TU Dresden, 02.05.2013 Privacy-Maße Folie 25
05 Zusammenfassung Schutz vor k- Anonymity l- Diversity t- Closeness Quasi-Identifikator x x x Unsortiertes Matching (x) (x) (x) Komplementäre Veröffentlichung (x) (x) (x) Positive Offenlegung x x Negative Offenlegung Ähnlichkeit Asynchronität x x TU Dresden, 02.05.2013 Privacy-Maße Folie 26
Literatur (1) L. Sweeney, Uniqueness of Simple Demographics in the U.S. Population, Carnegie Mellon University, laboratory for international data privacy LIDAPWP4, 2000 (2) L. Sweeney. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002; 557-570. (3) A. Machanavajjhala, J. Gehrke, D. Kifer and M. Venkitasubramaniam, L- diversity: Privacy beyond k-anonymity, proceedings of the 22nd international conference on data engineering:24-36, 2006 (4) N. Li, T. Li and S. Venkatasubramanian, t-closeness: Privacy beyond k- anonymity and l-diversity, proceedings of the 23rd international conference on Data Engineering:106-115, 2007. (5) Y. Rubner, C. Tomasi, and L. J. Guibas. The earth mover s distance as a metric for image retrieval. Int. J. Comput. Vision, 40(2):99 121, 2000. TU Dresden, 02.05.2013 Privacy-Maße Folie 27