Erhalt der Privatsphäre beim Data Mining

Größe: px

Ab Seite anzeigen:

Download "Erhalt der Privatsphäre beim Data Mining"

Nele Beyer
vor 5 Jahren
Abrufe

1 Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Erhalt der beim Ulrich Graf Betreuer: Frank Eichinger Institut für Programmstrukturen und Datenorganisation (IPD) Universität Karlsruhe (TH)

2 gewinnt immer mehr an Bedeutung: Analysen auf Kundendaten (z.b. Payback), Datensammlung im Internet, Sorge um Gefährdung der beim Mining naturgemäß besonders hoch Gründe auch für Entwicklerinteresse: Kundenbindung durch Vertrauen Schlechte Miningergebnisse durch falsche Kundenangaben 2

3 Agenda Übersicht Gefährdungsszenarien Klassifizierung von anhand verschiedener Beispielalgorithmen Ausblick und Zusammenfassung 3

4 We re drowning in information and starving for knowledge. = Knowledge Mining: Finden von interessanten Mustern in großen Datenbeständen 4

5 Techniken Clusteranalyse: gruppiere ähnliche Datensätze, z.b. Kunden mit ähnlichem Musikgeschmack Assoziationsregeln, z.b. Warenkorbanalyse: Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot. 5

6 Techniken Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.b. Risikoanalyse Entscheidungsbaum, Neuronale Netze hoch A < 0.5 niedrig A >= 0.5 niedrig hoch 6

7 - Entscheidungsbaum 7 Aufbau des Baums mit Trainingsdaten Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt Bilde Partitionen P, P, wiederhole Algorithmus für beide Partitionen Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning A < 0.5 Zusammenfassen von Blättern mit wenigen Datensätzen A >= 0.5 P P

8 Was ist? 8 Unterschiedliche Definitionen: Individual's right to be let alone (1890) Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) Personal data []: any information relating to an identified or identifiable natural person [] (EG 1995) Schutz vor Missbrauch und Identifizierbarkeit muss angestrebt werden

9 Szenario Zentralisiertes Mining Schutz individueller Daten Missbrauch Data Mining Identifizierbarkeit A < 0.5 A >= 0.5 Modifikation hoch niedrig niedrig hoch Mining-Ergebnis 9

10 Szenario Verteiltes Mining Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten A B A+B+C Mining A < 0.5 A >= C nicht sicher hoch niedrig niedrig hoch

11 Szenario Verteiltes Mining Vertrauenswürdiger Server nicht realistisch sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig A Sicheres Protokoll B 11 C

12 für Vielzahl von verfügbar : Verteilung der Daten: zentralisiert, horizontal, vertikal zentralisiert horizontal verteilt vertikal verteilt DM DM DM 12 Datentupel Attribute

13 für 13 : Data-Mining-Ziel: Clusteranalyse, Klassifikation, Modifikation der Eingangsdaten: Rauschfunktionen Blockieren von Werten Vertauschen von 0- und 1-Werten Swapping Sampling Aggregation Grad verbleibender Funktionalität bzw.

14 für SMC 14 Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) Beweis läuft über logische Gatter: Jede Partei besitzt eine Inputvariable Inputvariablen durch Zufallszahlen modifiziert Jede Partei berechnet ihre Outputvariable Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen

15 SMC Beispiel Sichere Summe 15 Summation wichtig für Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in F n ). Jede der m Parteien besitzt Summand s i, i = 1,, m. Algorithmus: 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s 1 ) mod n weiter an Partei 2. Partei i = 2,, n-1 berechnet V = (s i +V) mod n und leitet V weiter an Partei i+1. Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. Subtrahieren von R ergibt das Ergebnis.

16 SMC Sichere Summe n = 20 Im F 20: = 19 V = 12 s 1 = 5, R = 13 1 V = 18 s 4 = s 2 = 4 V = 10 V = s 3 = 8

17 SMC 17 Ähnliche für: Durchschnitt Vereinigung Skalarprodukt Berechnung der Inversen Matrix Annahme: alle Parteien stellen korrekte Inputdaten bereit Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur Problem: für viele Attribute sehr aufwändig

18 Auf Datenmodifikation beruhende Data A < 0.5 A >= 0.5 Mining 18 Modifikation Herausforderungen: Mining-Ergebnis Modifikation muss sicherstellen Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich hoch niedrig niedrig hoch

19 Datenmodifikation 19 Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte Addition von Rauschfunktion zufällige Werte aus Gleichverteilung bzw. Gauß scher Verteilung Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert Verteilung der Originaldaten iterativ annäherbar

20 Mining mit modifizierten Daten 20 Klassifikation mit Entscheidungsbaum Verschiedene Rekonstruktionsansätze: Global: Einmalige Rekonstruktion für jedes Attribut Nach Klassen: Trenne Daten für jedes Attribut nach den Klassen Rekonstruiere Verteilung Baue Entscheidungsbaum auf Lokal: Vorgehen wie nach Klassen getrennt Zusätzlich Rekonstruktion bei jedem Baumknoten Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss

21 Bewertung von 21 Generelle Maßstäbe: Performanz Nutzbarkeit der Daten Grad der Robustheit von Modifikationen gegenüber anderen SMC: Sicher, aber sehr hoher Aufwand Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz Datenmodifikation: Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen Bei erhältlichen guter Erhalt von und Performanz

22 Zusammenfassung / Ausblick nicht mehr wegzudenken Ruf nach Mining, das die respektiert, wird lauter Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele verfügbar, die und Funktionalität sichern Größte Herausforderungen in Zukunft: weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen Integration in Mining-Tools und DBMS Standardisierung steht noch ganz am Anfang 22

23 Vielen Dank für die Aufmerksamkeit! 23

Ähnliche Dokumente

Erhalt der Privatsphäre beim Data Mining

Universität Karlsruhe (TH) Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl Prof. Böhm Erhalt der Privatsphäre beim Data Mining Seminar: Aktuelle Herausforderungen an Datenschutz und