Privacy-Maße k-anonymity, l-diversity, t-closeness

Ähnliche Dokumente
Allgemeine Konzepte. K-Anonymity, l-diversity and T-Closeness. Dietmar Hauf. IPD Uni-Karlsruhe

Datenschutz und Privatheit in vernetzten Informationssystemen

What is "Privacy"? - Information theory

Technische Datenschutzlösungen bei der Analyse großer Datenmengen

Datenschutz bei notwendigen Veröffentlichungen privater Daten mit Beispielen aus dem Gesundheits- und Energiebereich.

Technische Aspekte von Privatsphäre in der digitalen Lebenswelt

15 Wahrscheinlichkeitsrechnung und Statistik

Software-Engineering Einführung

Schutz der Patientendaten durch Anonymisierung

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Einführung in Datenbanksysteme. H. Wünsch

Statistik. Jan Müller

What is individual-related data?

DPF Dynamic Partial distance Function

Big Data und das Konzept der Datenschutzgesetze

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

The Earth Mover s Distance as a Metric for Image Retrieval

Introduction to Data and Knowledge Engineering Tutorium 2. August 18, 2010 KE TUD TL 1

Anwendbarkeit von Anonymisierungstechniken im Bereich Big Data

High Level-Synthese eines Keypoint-Detection- Algorithmus für FPGAs

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Proseminarvortrag. Markov-Ketten in der Biologie (Anwendungen)

Big Data in der Medizin

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Scenario-Based Analysis of Software Architecture

2. Datenvorverarbeitung

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

Breaking a Cryptosystem using Power Analysis

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

Vom Leichtesten zum Schwersten Sortieralgorithmen

One of the few resources increasing faster than the speed of computer hardware is the amount of data to be processed. Bin Hu

Kostenmaße. F3 03/04 p.188/395

Informationelle Selbstbestimmung. Umsetzung eines Grundrechts gestern und heute

Hauptseminar Information, Struktur, Bedeutung WS 2007/2008

Informationstheorie als quantitative Methode in der Dialektometrie

Big Data und der Fluch der Dimensionalität

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Proseminar Datenschutz in der Anwendungsentwicklung. VoIP und Datenschutz. Junlin Huang Dresden,

Überblick. TSP Vergleich der Lösungen. Das Travelling Salesman Problem. Nearest-Neighbor Heuristik für TSP

Big Data Was ist erlaubt - wo liegen die Grenzen?

Ranking by Reordering Tobias Joppen

Dynamisches Huffman-Verfahren

damit hätten wir nach Ende der Schleife: "a[0 n-1] enthält nur Elemente aus a[0 n-1], aber in sortierter Reihenfolge".

Anmerkungen zu einem angemessenen datenschutzrechtlichen Rahmen für medizinische Forschung und statistische Evaluierung

2. Lernen von Entscheidungsbäumen

Einführung in die Praktische Informatik WS 09/10

(Fälschungs-) Sicherheit bei RFID. Vortrag: Oliver Zweifel Betreuer: Christian Floerkemeier

Überblick. 1 Vorbemerkungen. 2 Algorithmen. 3 Eigenschaften von Algorithmen. 4 Historischer Überblick. Einführung

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz

The Earth Mover s Distance

Datenschutz, Humangenetik, Personalisierte Medizin. Ein (zu?) weites Feld

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Aufgabe 1) Übung 4: 1.2

-02- Arbeitsunterlagen

Identifikation der potentiell von einer multimodalen Schmerztherapie profitierenden Patienten auf Basis von GKV-Routinedaten

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW)

Mengenlehre. Jörg Witte

Software Engineering Klassendiagramme Assoziationen

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Drei Fragen zum Datenschutz im. Nico Reiners

Informationsblatt Widerspruch gegenüber einer Organ- und/oder Gewebe- und/oder Zellenentnahme

Vereins- und Verbandsadministration (VVA-SSV) Schnittstelle Schiesskomptabilität

Antrag auf Feststellung der besonderen Eignung für den Master-Studiengang Betriebswirtschaftslehre

Krebs in der Schweiz: wichtige Zahlen

TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK


Krebs in der Schweiz: wichtige Zahlen

Antrag auf Feststellung der besonderen Eignung für den Master-Studiengang Wirtschaftsingenieurwesen

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

Verteidigung der Belegarbeit Umsetzung eines Verzeichnisdienstes für das Identitätsmanagement Seite 1 von 25

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Mathematik 2 für Naturwissenschaften

Richtlinie. Vergabe des Identifikators für die Messpunktbezeichnung

Algorithms for Regression and Classification

Aushöhlung des Datenschutzes durch De-Anonymisierung bei Big Data Analytics?

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Diversitätsinklusion in der universitären Fernlehre: Studienziele und Studienerfolg. Katharina Stößel & Stefan Stürmer FernUniversität in Hagen

1.3 Charakteristische Eigenschaften von objektorientierten Systemen

EINLADUNG Expertentag Code of Conduct Datenschutz

Algorithmen und Datenstrukturen (AuD) Prof. Dr. Claudia Eckert und Dr. Thomas Stibor

Statistik, Geostatistik

Grundlagen: Algorithmen und Datenstrukturen

Vorlesung Stichproben WS 2009/2010

Die Naturwissenschaftlich-Technische Fakultät 6 der Universität des Saarlandes Fachrichtung Informatik

P- BPOKM. 1 Business Process Oriented Knowledge Management

Entwicklung einer DB-Anwendung vergleichbar mit gewöhnlicher Anwendungsprogrammierung:

1. Zu den Zielen des Lehrplans und ihrer Umsetzung im Lehrbuch

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Einführung in die Programmierung

Datenstrukturen und Algorithmen

Randomisierte Algorithmen 2. Erste Beispiele

Objektorientierte Modellierung (1)

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Zuchtlinien deutscher Schäferhunde sind genetisch unterschiedlich

Prof. Dr. A. Holl, Grundlagen Datenbanken Übungen Seite 1

Transkript:

Fakultät Informatik Proseminar Datenschutz in der Anwendungsentwicklung Privacy-Maße k-anonymity, l-diversity, t-closeness Dresden, 02.05.2013

D 01 Einführung: Beispiel Geburtstag Geschlecht PLZ Krankheit 30.08.1955 w 01067 Brustkrebs 20.02.1955 w 01069 Hautkrebs 30.10.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.05.1966 w 01189 Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.12.1969 m 01181 Haarausfall Tabelle 1: anonymisierte medizinische Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 2

01 Einführung: Beispiel Name Geburtstag m/w PLZ Mia Schulz 30.08.1955 w 01067 Lisa Schuster 20.02.1955 w 01069 Maria Müller 30.10.1955 w 01067 Steffi Bauer 10.02.1966 w 01187 Susi Scholz 20.05.1966 w 01189 Paul Richter 10.02.1969 m 01187 Tom Schmidt 20.12.1969 m 01181 Tabelle 2: Personendaten Geburtstag m/w PLZ Krankheit 30.08.1955 w 01067 Brustkrebs 20.02.1955 w 01069 Hautkrebs 30.10.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.05.1966 w 01189 Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.12.1969 m 01181 Haarausfall Tabelle 1: anonymisierte medizinische Tabelle Lisa Schuster kämpft gegen Hautkrebs Steffi Bauer plagt eine Grippe Paul Richter leidet an Haarausfall Anonymität aufgehoben! Zufall? TU Dresden, 02.05.2013 Privacy-Maße Folie 3

01 Einführung: Studie Studie von L. Sweeney: Uniqueness of Simple Demographics in the U.S. Population (2000) 87% der amerikanischen Bevölkerung (216 von 248 Millionen) sind eindeutig identifizierbar, wenn folgendes bekannt ist: Geburtsdatum (Tag, Monat, Jahr) Geschlecht (m/w) ZIP-Code (PLZ, 5-stellig) 53% mit Geburtsdatum, Geschlecht, Stadt 18% mit Geburtsdatum, Geschlecht, Staat Keine Seltenheit! Einwohnermeldeamt Gebühreneinzugszentrale Große Firmen ect. Auch mit anderen Charakteristika denkbar Staatliche Kennnummern (z.b. Sozialversicherungsnummer) TU Dresden, 02.05.2013 Privacy-Maße Folie 4

01 Einführung: Quasi-Identifikator Definition 1: Quasi-Identifikator Gegeben seien eine Population aus Individuen U, eine Tabelle T, Eine endliche Menge {Q1, Qn} an nicht-sensitiven Attributen aus T Dann ist die Menge {Q1, Qn} ein Quasi-Identifikator, wenn man die Attribute mit externen Daten verlinken kann, um ein Individuum aus der Population U eindeutig bestimmen zu können. Quelle: A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k- Anonymity (2006) TU Dresden, 02.05.2013 Privacy-Maße Folie 5

01 Einführung: Quasi-Identifikator Quasi-Identifikator medizinische Daten Personendaten Abbildung 1: Quasi-Identifikator TU Dresden, 02.05.2013 Privacy-Maße Folie 6

01 Einführung: Quasi-Identifikator Entfernen des Quasi-Identifikators führt zu Informationsverlust! Daten für statistische Zwecke nahezu unbrauchbar Ziel: Informationsgehalt wahren + individuelle Daten schützen Wie kann das umgesetzt werden? k-anonymity l-diversity t-closeness Quelle: http://www.pt-magazin.de/uploads/pics/anonymus.jpg TU Dresden, 02.05.2013 Privacy-Maße Folie 7

02 k-anonymity Definition 2: k-anonymity Gegeben seien eine personenbezogene Tabelle T (A1,, An) und der zur Tabelle passende Quasi-Identifikator QT Dann sagt man T unterstützt k-anonymity genau dann, wenn jede Wertkombination von T[QT] mindestens k-mal auftritt. Quelle: L. Sweeney, k-anonymity: a model for protecting privacy (2002) TU Dresden, 02.05.2013 Privacy-Maße Folie 8

02 k-anonymity: Beispiel (1) für k=2 Geburtstag Geschlecht PLZ Krankheit t1 **.**.1955 w 0106* Brustkrebs t2 **.**.1955 w 0106* Hautkrebs t3 **.**.1955 w 0106* Magenkrebs t4 **.**.1966 w 0118* Grippe t5 **.**.1966 w 0118* Bluthochdruck t6 **.**.1969 m 0118* Haarausfall t7 **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle K 2 t1[qt] = t2[qt] = t3[qt]; t4[qt] = t5[qt]; t6[qt] = t7[qt] TU Dresden, 02.05.2013 Privacy-Maße Folie 9

02 k-anonymity: Beispiel für k=3 Geburtstag Geschlecht PLZ Krankheit t1 **.**.1955 w 0106* Brustkrebs t2 **.**.1955 w 0106* Hautkrebs t3 **.**.1955 w 0106* Magenkrebs t4 **.**.196* * 0118* Grippe t5 **.**.196* * 0118* Bluthochdruck t6 **.**.196* * 0118* Haarausfall t7 **.**.196* * 0118* Haarausfall Tabelle 4: k=3-anonymisierte Tabelle K 3 t1[qt] = t2[qt] = t3[qt]; t4[qt] = t5[qt] = t6[qt] = t7[qt] TU Dresden, 02.05.2013 Privacy-Maße Folie 10

02 k-anonymity: Beispiel (2) für k=2 Geburtstag Geschlecht PLZ Krankheit t1 30.**.1955 w 01067 Brustkrebs t2 20.**.19** * 01*** Hautkrebs t3 30.**.1955 w 01067 Magenkrebs t4 10.02.196* * 01187 Grippe t5 20.**.19** * 01*** Bluthochdruck t6 10.02.196* * 01187 Haarausfall t7 20.**.19** * 01*** Haarausfall Tabelle 5: k=2-anonymisierte Tabelle K 2 t1[qt] = t3[qt]; t2[qt] = t5[qt] = t7[qt]; t4[qt] = t6[qt] Sinnvoll für statistische Zwecke? TU Dresden, 02.05.2013 Privacy-Maße Folie 11

02 k-anonymity: Schwachstellen Unsortiertes Matching / Komplementäre Veröffentlichung Fall 1: zwei k-anonymisierte Tabellen enthalten die gleichen Individuen in der gleichen Reihenfolge Sortiert nach einem bestimmten Kriterium (z.b. alphabetisch) Fall 2: gleiche Tabelle mit unterschiedlichen k-anonymisierungen veröffentlicht z.b. zu unterschiedlichen Zeitpunkten, weil sich der Datenbestand geändert hat Resultat: Matching der Tabellen führt zur (teilweisen) Rekonstruktion des Quasi-Identifikators Abhilfe: Tabellen zufällig sortieren Jede Tabelle nur unter einer k-anonymisierung veröffentlichen Tabelle mit bereits veröffentlichten vergleichen TU Dresden, 02.05.2013 Privacy-Maße Folie 12

D 02 k-anonymity: Beispiel Unsortiertes Matching Geburtstag m/w PLZ Krankheit 30.**.1955 w 01067 Brustkrebs 20.**.1955 w 0106* Hautkrebs 30.**.1955 w 01067 Magenkrebs 10.02.1966 w 01187 Grippe 20.**.1966 w 0118* Bluthochdruck 10.02.1969 m 01187 Haarausfall 20.**.1969 m 0118* Haarausfall Tabelle 6: Unsortiertes Matching Anonymität teilweise aufgehoben! Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle Geburtstag m/w PLZ Krankheit 30.**.1955 w 01067 Brustkrebs 20.**.19** * 01*** Hautkrebs 30.**.1955 w 01067 Magenkrebs 10.02.196* * 01187 Grippe 20.**.19** * 01*** Bluthochdruck 10.02.196* * 01187 Haarausfall 20.**.19** * 01*** Haarausfall Tabelle 5: k=2-anonymisierte Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 13

02 k-anonymity: Grenzen von k-anonymity A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k-anonymity (2006) k-anonymity kann Gruppen erstellen, die Informationen wegen zu geringer Vielfalt in den sensitiven Attributen preisgeben k-anonymity schützt nicht gegen Attacken, die auf Hintergrundwissen basieren Definition 3: sensitives Attribut Ein Attribut wird als sensitiv (empfindlich) bezeichnet, wenn es einem Angreifer gestattet ist, dieses Attribut für jedes Individuum im Datenbestand zu entdecken, es gleichzeitig aber keinem spezifischen Individuum zugeordnet werden kann. TU Dresden, 02.05.2013 Privacy-Maße Folie 14

02 k-anonymity: sensitive Attribute Sensitive Attribute Quasi-Identifikator medizinische Daten Personendaten Abbildung 2: Quasi-Identifikator, sensitive Attribute TU Dresden, 02.05.2013 Privacy-Maße Folie 15

02 k-anonymity: Beispiel geringe Vielfalt Geburtsdatum von Paul Richter ist bekannt (10.02.1969) Promi Bekanntheitskreis 2 Einträge 1969er Jahrgang Beide Haarausfall (geringe Vielfalt) Paul Richter hat Haarausfall Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle Positive Offenlegung TU Dresden, 02.05.2013 Privacy-Maße Folie 16

02 k-anonymity: Beispiel Hintergrundwissen Geburtsdatum von Susi Scholz ist bekannt (20.05.1969) Hintergrundwissen Gestern bei Fernsehauftritt keine Grippesymptome Hohe Wahrscheinlichkeit, dass Susi Bluthochdruck hat Negative Offenlegung Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisierte Tabelle TU Dresden, 02.05.2013 Privacy-Maße Folie 17

03 l-diversity: Qualitätsmaß Positive Offenlegung: ein sensitives Attribut kann mit sehr hoher Genauigkeit vorhergesagt werden Negative Offenlegung: ein sensitives Attribut kann mit sehr hoher Genauigkeit ausgeschlossen werden l-diversity Schützt vor positiver Offenlegung wichtig, da Schutz der Privatsphäre gefährdet kein Schutz vor negativer Offenlegung Schutz sehr schwierig, da Hintergrundwissen nicht bekannt Aber nur Ausschluss, keine Vorhersage TU Dresden, 02.05.2013 Privacy-Maße Folie 18

03 l-diversity Definition 4: l-diversity Gegeben seien eine k-anonymisierte Tabelle T* von T eine Menge S an sensitiven Attributwerten ein q*-block mit einer Menge von Tupeln, die sich anhand des Quasi-Identifikators QT* nicht unterscheiden Dann ist ein q*-block l-divers, wenn er mindestens l gut repräsentierte Werte für die sensitiven Attribute S besitzt. Eine Tabelle ist l-divers, wenn alle q*-blöcke l-divers sind. Quelle: A. Machanavajjhala, J. Gehrke, D. Kifer: l-diversity: Privacy Beyond k-anonymity (2006) TU Dresden, 02.05.2013 Privacy-Maße Folie 19

D 03 l-diversity: Beispiel gut repräsentiert = unterschiedlich mind. l-1 Hintergrundwissen nötig Tabelle 3: kein Schutz Tabelle 6: 2mal Hintergrundwissen Vereinfachtes Prinzip! 5 definierte Instanzen A. Machanavajjhala, J. Gehrke, D. Kifer: Diversity (2006): Privacy Beyond k-anonymity Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisiert, l=1-divers Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.196* * 0118* Grippe **.**.196* * 0118* Bluthochdruck **.**.196* * 0118* Haarausfall **.**.196* * 0118* Haarausfall Tabelle 6: k=3-anonymisiert, l=3-divers TU Dresden, 02.05.2013 Privacy-Maße Folie 20

03 l-diversity: Instanzen 5 verschiedene Instanzen für gut repräsentiert (1) Entropie l-diversity (2) Rekursive (c, l)-diversity (3) Positive Offenlegung, rekursive (c, l)-diversity (4) Negative/Positive Offenlegung, rekursive (c1, c2, l)-diversity Sicherheit + Komplexität (5) Multi-Attribut l-diversity TU Dresden, 02.05.2013 Privacy-Maße Folie 21

03 l-diversity: Grenzen Ähnlichkeit Kein Rückschluss auf sensitive Attribute Aber Gemeinsamkeit: Krebs Informationsgewinn Geburtstag m/w PLZ Krankheit **.**.1955 w 0106* Brustkrebs **.**.1955 w 0106* Hautkrebs **.**.1955 w 0106* Magenkrebs **.**.1966 w 0118* Grippe **.**.1966 w 0118* Bluthochdruck **.**.1969 m 0118* Haarausfall **.**.1969 m 0118* Haarausfall Tabelle 3: k=2-anonymisiert, l=1-divers Asynchronität 97% der Bevölkerung ist gesund, 3 % krank Gruppe: 50% / 50% Hohe Wahrscheinlichkeit, dass Individuum in dieser Gruppe als krank eingestuft wird Geburtstag m/w PLZ Krank? **.**.1955 w 0106* nein **.**.1955 w 0106* nein **.**.1955 w 0106* nein **.**.196* * 0118* nein **.**.196* * 0118* nein **.**.196* * 0118* ja **.**.196* * 0118* ja Tabelle 6: k=3-anonymisiert, l=3-divers TU Dresden, 02.05.2013 Privacy-Maße Folie 22

04 t-closeness Definition 4: t-closeness Ein q*-block besitzt t-closeness, wenn die Distanz zwischen der Verteilung der sensitiven Attribute eines Blocks und der des gesamten Datensatzes unterhalb des Grenzwertes t liegt. Eine Tabelle besitzt t-closeness, wenn alle q*-blöcke t-closeness besitzen. Quelle: N. Li, T. Li, S. Venkatasubramanian: t-closeness: Privacy Beyond k- Anonymety and l-diversity (2007) TU Dresden, 02.05.2013 Privacy-Maße Folie 23

04 t-closeness Höheres Maß an Sicherheit Verteilung sensitiver Attribute Einzelne Gruppe <-> gesamter Datenbestand Gruppen anhand sensitiver Attributen kaum unterscheidbar Problem: Distanzmessung Einfache Algorithmen nicht nutzbar Semantische Ähnlichkeit zwischen Attributen Lösung: Earth Mover s Distanz (EMD) Minimale Arbeit, um Verteilung A in Verteilung B umzurechnen Nummerische + kategorische Attribute Literatur: Y. Rubner, C. Tomasi, L. J. Guibas (2000) The Earth Mover s Distance as a Metric for Image Retrieval TU Dresden, 02.05.2013 Privacy-Maße Folie 24

04 t-closeness: EMD kategorische Attribute Krankheit Haarausfall Krebs sonstiges Bluthochdruck Brustkrebs Hautkrebs Magenkrebs Grippe Distanz: Brustkrebs Magenkrebs: 1 Brustkrebs Grippe: 2 TU Dresden, 02.05.2013 Privacy-Maße Folie 25

05 Zusammenfassung Schutz vor k- Anonymity l- Diversity t- Closeness Quasi-Identifikator x x x Unsortiertes Matching (x) (x) (x) Komplementäre Veröffentlichung (x) (x) (x) Positive Offenlegung x x Negative Offenlegung Ähnlichkeit Asynchronität x x TU Dresden, 02.05.2013 Privacy-Maße Folie 26

Literatur (1) L. Sweeney, Uniqueness of Simple Demographics in the U.S. Population, Carnegie Mellon University, laboratory for international data privacy LIDAPWP4, 2000 (2) L. Sweeney. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002; 557-570. (3) A. Machanavajjhala, J. Gehrke, D. Kifer and M. Venkitasubramaniam, L- diversity: Privacy beyond k-anonymity, proceedings of the 22nd international conference on data engineering:24-36, 2006 (4) N. Li, T. Li and S. Venkatasubramanian, t-closeness: Privacy beyond k- anonymity and l-diversity, proceedings of the 23rd international conference on Data Engineering:106-115, 2007. (5) Y. Rubner, C. Tomasi, and L. J. Guibas. The earth mover s distance as a metric for image retrieval. Int. J. Comput. Vision, 40(2):99 121, 2000. TU Dresden, 02.05.2013 Privacy-Maße Folie 27